diff --git a/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/added_tokens.json b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/added_tokens.json
new file mode 100644
index 0000000000000000000000000000000000000000..c9d3d3a1b74d87e381e471f7b33784015d2dc0ea
--- /dev/null
+++ b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/added_tokens.json
@@ -0,0 +1,13 @@
+{
+  "<|assistant|>": 32001,
+  "<|endoftext|>": 32000,
+  "<|end|>": 32007,
+  "<|placeholder1|>": 32002,
+  "<|placeholder2|>": 32003,
+  "<|placeholder3|>": 32004,
+  "<|placeholder4|>": 32005,
+  "<|placeholder5|>": 32008,
+  "<|placeholder6|>": 32009,
+  "<|system|>": 32006,
+  "<|user|>": 32010
+}
diff --git a/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/config.json b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..2056b063e11084a658d8f0047b62ff03ad341faf
--- /dev/null
+++ b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/config.json
@@ -0,0 +1,181 @@
+{
+  "_name_or_path": "/cm/archive/namnv78/checkpoints/phi35-siglip224/pft",
+  "architectures": [
+    "LlavaPhiForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "modeling_phi3.Phi3ForCausalLM"
+  },
+  "balance_loss_coef": 0.01,
+  "bos_token_id": 1,
+  "clip_smoe": true,
+  "dropout": false,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 32000,
+  "freeze_mm_mlp_adapter": false,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "image_aspect_ratio": "pad",
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "local_rank": 0,
+  "loss1": "balanceloss",
+  "loss2": "zloss",
+  "luna": false,
+  "max_position_embeddings": 131072,
+  "mlp_smoe": true,
+  "mm_hidden_size": 1152,
+  "mm_patch_merge_type": "flat",
+  "mm_projector_lr": null,
+  "mm_projector_type": "moe",
+  "mm_use_im_patch_token": false,
+  "mm_use_im_start_end": false,
+  "mm_vision_select_feature": "patch",
+  "mm_vision_select_layer": -2,
+  "mm_vision_tower": "google/siglip-so400m-patch14-224",
+  "model_type": "llava_phi",
+  "moe_name": "competesmoe",
+  "normalization": true,
+  "num_attention_heads": 32,
+  "num_experts": 4,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "num_layers": 3,
+  "num_selected": 2,
+  "number_of_previous_tokens": 2,
+  "original_max_position_embeddings": 4096,
+  "pad_token_id": 32000,
+  "rate_compete": 0.2,
+  "rate_flip": 0.07,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "long_factor": [
+      1.0800000429153442,
+      1.1100000143051147,
+      1.1399999856948853,
+      1.340000033378601,
+      1.5899999141693115,
+      1.600000023841858,
+      1.6200000047683716,
+      2.620000123977661,
+      3.2300000190734863,
+      3.2300000190734863,
+      4.789999961853027,
+      7.400000095367432,
+      7.700000286102295,
+      9.09000015258789,
+      12.199999809265137,
+      17.670000076293945,
+      24.46000099182129,
+      28.57000160217285,
+      30.420001983642578,
+      30.840002059936523,
+      32.590003967285156,
+      32.93000411987305,
+      42.320003509521484,
+      44.96000289916992,
+      50.340003967285156,
+      50.45000457763672,
+      57.55000305175781,
+      57.93000411987305,
+      58.21000289916992,
+      60.1400032043457,
+      62.61000442504883,
+      62.62000274658203,
+      62.71000289916992,
+      63.1400032043457,
+      63.1400032043457,
+      63.77000427246094,
+      63.93000411987305,
+      63.96000289916992,
+      63.970001220703125,
+      64.02999877929688,
+      64.06999969482422,
+      64.08000183105469,
+      64.12000274658203,
+      64.41000366210938,
+      64.4800033569336,
+      64.51000213623047,
+      64.52999877929688,
+      64.83999633789062
+    ],
+    "short_factor": [
+      1.0,
+      1.0199999809265137,
+      1.0299999713897705,
+      1.0299999713897705,
+      1.0499999523162842,
+      1.0499999523162842,
+      1.0499999523162842,
+      1.0499999523162842,
+      1.0499999523162842,
+      1.0699999332427979,
+      1.0999999046325684,
+      1.1099998950958252,
+      1.1599998474121094,
+      1.1599998474121094,
+      1.1699998378753662,
+      1.2899998426437378,
+      1.339999794960022,
+      1.679999828338623,
+      1.7899998426437378,
+      1.8199998140335083,
+      1.8499997854232788,
+      1.8799997568130493,
+      1.9099997282028198,
+      1.9399996995925903,
+      1.9899996519088745,
+      2.0199997425079346,
+      2.0199997425079346,
+      2.0199997425079346,
+      2.0199997425079346,
+      2.0199997425079346,
+      2.0199997425079346,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0799996852874756,
+      2.0899996757507324,
+      2.189999580383301,
+      2.2199995517730713,
+      2.5899994373321533,
+      2.729999542236328,
+      2.749999523162842,
+      2.8399994373321533
+    ],
+    "type": "longrope"
+  },
+  "rope_theta": 10000.0,
+  "router_loss_coef": 0.005,
+  "router_z_loss_coef": 0.001,
+  "scales": [
+    1,
+    3
+  ],
+  "sliding_window": 262144,
+  "sparse_upcycling": true,
+  "strategy_train": "base",
+  "tie_word_embeddings": false,
+  "tokenizer_model_max_length": 2048,
+  "tokenizer_padding_side": "right",
+  "topk_max": 2,
+  "topk_min": 1,
+  "torch_dtype": "bfloat16",
+  "training": true,
+  "transformers_version": "4.43.0",
+  "tune_mm_mlp_adapter": false,
+  "use_cache": true,
+  "use_mm_proj": true,
+  "vocab_size": 32064,
+  "warm_up": 0.05
+}
diff --git a/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/generation_config.json b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/generation_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..dad5c4578f0dc5969b38755d095fc30c368bb54a
--- /dev/null
+++ b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/generation_config.json
@@ -0,0 +1,12 @@
+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "do_sample": true,
+  "eos_token_id": [
+    32007,
+    32001,
+    32000
+  ],
+  "pad_token_id": 32000,
+  "transformers_version": "4.43.0"
+}
diff --git a/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/model-00001-of-00003.safetensors b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/model-00001-of-00003.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..de9d1162f1c218739cb7391227d07dee60ce2db9
--- /dev/null
+++ b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/model-00001-of-00003.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3d707f92ad4e42e71a04d1469f4d3e10f6bde1ba6d67686088896f4a65fd83af
+size 4972489328
diff --git a/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/model-00002-of-00003.safetensors b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/model-00002-of-00003.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..cf007715d0917cdf7cccf5c7b5f655c6e0f2350e
--- /dev/null
+++ b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/model-00002-of-00003.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c18871bc23ce26c6894257da39ed6f2a23700d04d44e78cef710d0f3559b0f15
+size 4985754844
diff --git a/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/model-00003-of-00003.safetensors b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/model-00003-of-00003.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..38ff4955c81562872e381e7195e499174b94e818
--- /dev/null
+++ b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/model-00003-of-00003.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02e754ddcf4544dcf3b08eca2a3d118e9c3a7daa9a08b1f2f64dc2e4bdb50a09
+size 248943552
diff --git a/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/model.safetensors.index.json b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/model.safetensors.index.json
new file mode 100644
index 0000000000000000000000000000000000000000..a900cb68b39c8fe6eedc011196340060a750c9c8
--- /dev/null
+++ b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/model.safetensors.index.json
@@ -0,0 +1,1033 @@
+{
+  "metadata": {
+    "total_size": 10207040684
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.15.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.16.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.16.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.17.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.18.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.19.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.19.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.gate_up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.qkv_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.gate_up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.qkv_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.gate_up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.qkv_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.gate_up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.qkv_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.gate_up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.qkv_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.gate_up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.qkv_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.mlp.gate_up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.qkv_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.mlp.gate_up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.qkv_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.mlp.gate_up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.30.self_attn.qkv_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.mlp.gate_up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.31.self_attn.qkv_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.0.0.bias": "model-00002-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.0.0.weight": "model-00002-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.0.2.bias": "model-00002-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.0.2.weight": "model-00002-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.1.0.bias": "model-00002-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.1.0.weight": "model-00002-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.1.2.bias": "model-00002-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.1.2.weight": "model-00002-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.2.0.bias": "model-00002-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.2.0.weight": "model-00002-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.2.2.bias": "model-00003-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.2.2.weight": "model-00003-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.3.0.bias": "model-00003-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.3.0.weight": "model-00003-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.3.2.bias": "model-00003-of-00003.safetensors",
+    "model.mm_projector.moelayer.experts.3.2.weight": "model-00003-of-00003.safetensors",
+    "model.mm_projector.moelayer.gate.weight": "model-00003-of-00003.safetensors",
+    "model.mm_projector.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.norm.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.embeddings.patch_embedding.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.embeddings.position_embedding.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.0.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.0.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.0.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.0.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.1.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.1.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.1.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.1.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.2.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.2.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.2.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.2.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.3.fc1.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.3.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.3.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.experts.3.fc2.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.gate.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.moelayer.prob_flips": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00002-of-00003.safetensors"
+  }
+}
diff --git a/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/special_tokens_map.json b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/special_tokens_map.json
new file mode 100644
index 0000000000000000000000000000000000000000..3e4d5a5bc1cb51753cc9ae0305ece0da60052b10
--- /dev/null
+++ b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/special_tokens_map.json
@@ -0,0 +1,24 @@
+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
diff --git a/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/tokenizer.model b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/tokenizer.model
new file mode 100644
index 0000000000000000000000000000000000000000..6c00c742ce03c627d6cd5b795984876fa49fa899
--- /dev/null
+++ b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/tokenizer.model
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723
diff --git a/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/tokenizer_config.json b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/tokenizer_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..d579bb0b91b24b214ea3c2e487e27a65017cdc4a
--- /dev/null
+++ b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/tokenizer_config.json
@@ -0,0 +1,132 @@
+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "32000": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32002": {
+      "content": "<|placeholder1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32003": {
+      "content": "<|placeholder2|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32004": {
+      "content": "<|placeholder3|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32005": {
+      "content": "<|placeholder4|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32006": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32007": {
+      "content": "<|end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32008": {
+      "content": "<|placeholder5|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32009": {
+      "content": "<|placeholder6|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32010": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}{% if message['role'] == 'system' and message['content'] %}{{'<|system|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'user' %}{{'<|user|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'assistant' %}{{'<|assistant|>\n' + message['content'] + '<|end|>\n'}}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|assistant|>\n' }}{% else %}{{ eos_token }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "legacy": false,
+  "model_max_length": 2048,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}
diff --git a/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/trainer_state.json b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/trainer_state.json
new file mode 100644
index 0000000000000000000000000000000000000000..2cc98d093570b09a3b3e9682241643f065c94b9d
--- /dev/null
+++ b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/trainer_state.json
@@ -0,0 +1,124783 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9999398785546805,
+  "eval_steps": 500,
+  "global_step": 8316,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "auxiliary_loss_clip": 0.04572364,
+      "auxiliary_loss_mlp": 0.02183614,
+      "balance_loss_clip": 2.29309511,
+      "balance_loss_mlp": 1.82579517,
+      "epoch": 0.00012024289063909097,
+      "flos": 24932483919360.0,
+      "grad_norm": 40.00472956498374,
+      "language_loss": 2.5840292,
+      "learning_rate": 0.0,
+      "loss": 1.9026171,
+      "num_input_tokens_seen": 20375,
+      "step": 1,
+      "time_per_iteration": 15.790460586547852
+    },
+    {
+      "auxiliary_loss_clip": 0.03044211,
+      "auxiliary_loss_mlp": 0.01400663,
+      "balance_loss_clip": 1.52520752,
+      "balance_loss_mlp": 1.16701245,
+      "epoch": 0.00024048578127818193,
+      "flos": 30664624377600.0,
+      "grad_norm": 54.57939535925913,
+      "language_loss": 1.88843393,
+      "learning_rate": 5.021476677069823e-07,
+      "loss": 1.93288279,
+      "num_input_tokens_seen": 39035,
+      "step": 2,
+      "time_per_iteration": 2.686408281326294
+    },
+    {
+      "auxiliary_loss_clip": 0.03042922,
+      "auxiliary_loss_mlp": 0.01417982,
+      "balance_loss_clip": 1.52280807,
+      "balance_loss_mlp": 1.17899108,
+      "epoch": 0.0003607286719172729,
+      "flos": 19026227969280.0,
+      "grad_norm": 40.519042837185054,
+      "language_loss": 1.61536074,
+      "learning_rate": 7.958852231401551e-07,
+      "loss": 1.65996981,
+      "num_input_tokens_seen": 57600,
+      "step": 3,
+      "time_per_iteration": 2.532782554626465
+    },
+    {
+      "auxiliary_loss_clip": 0.03055763,
+      "auxiliary_loss_mlp": 0.01469517,
+      "balance_loss_clip": 1.53424227,
+      "balance_loss_mlp": 1.22003627,
+      "epoch": 0.00048097156255636386,
+      "flos": 19316314206720.0,
+      "grad_norm": 48.47971477893619,
+      "language_loss": 1.64210403,
+      "learning_rate": 1.0042953354139647e-06,
+      "loss": 1.68735695,
+      "num_input_tokens_seen": 76465,
+      "step": 4,
+      "time_per_iteration": 2.560455083847046
+    },
+    {
+      "auxiliary_loss_clip": 0.03037919,
+      "auxiliary_loss_mlp": 0.01461923,
+      "balance_loss_clip": 1.52974153,
+      "balance_loss_mlp": 1.21721053,
+      "epoch": 0.0006012144531954548,
+      "flos": 13991264893440.0,
+      "grad_norm": 55.10407378092321,
+      "language_loss": 1.93294644,
+      "learning_rate": 1.1659507774310057e-06,
+      "loss": 1.97794497,
+      "num_input_tokens_seen": 94350,
+      "step": 5,
+      "time_per_iteration": 2.7617924213409424
+    },
+    {
+      "auxiliary_loss_clip": 0.03074488,
+      "auxiliary_loss_mlp": 0.01477083,
+      "balance_loss_clip": 1.53261709,
+      "balance_loss_mlp": 1.23275197,
+      "epoch": 0.0007214573438345458,
+      "flos": 23148988225920.0,
+      "grad_norm": 44.71555883813792,
+      "language_loss": 1.6105237,
+      "learning_rate": 1.2980328908471373e-06,
+      "loss": 1.65603936,
+      "num_input_tokens_seen": 114595,
+      "step": 6,
+      "time_per_iteration": 2.886570930480957
+    },
+    {
+      "auxiliary_loss_clip": 0.0337483,
+      "auxiliary_loss_mlp": 0.0154999,
+      "balance_loss_clip": 1.71423578,
+      "balance_loss_mlp": 1.29059064,
+      "epoch": 0.0008417002344736367,
+      "flos": 67663246170240.0,
+      "grad_norm": 4.667726499213422,
+      "language_loss": 0.81454074,
+      "learning_rate": 1.4097067265369432e-06,
+      "loss": 0.86378896,
+      "num_input_tokens_seen": 179590,
+      "step": 7,
+      "time_per_iteration": 3.325885057449341
+    },
+    {
+      "auxiliary_loss_clip": 0.03041844,
+      "auxiliary_loss_mlp": 0.01476645,
+      "balance_loss_clip": 1.53275275,
+      "balance_loss_mlp": 1.21495724,
+      "epoch": 0.0009619431251127277,
+      "flos": 21281381504640.0,
+      "grad_norm": 42.72795598935893,
+      "language_loss": 1.58787751,
+      "learning_rate": 1.506443003120947e-06,
+      "loss": 1.63306236,
+      "num_input_tokens_seen": 195090,
+      "step": 8,
+      "time_per_iteration": 2.9141995906829834
+    },
+    {
+      "auxiliary_loss_clip": 0.03044312,
+      "auxiliary_loss_mlp": 0.01439687,
+      "balance_loss_clip": 1.53356647,
+      "balance_loss_mlp": 1.1965003,
+      "epoch": 0.0010821860157518186,
+      "flos": 23331342597120.0,
+      "grad_norm": 17.978848764162976,
+      "language_loss": 1.47923779,
+      "learning_rate": 1.5917704462803102e-06,
+      "loss": 1.52407789,
+      "num_input_tokens_seen": 211635,
+      "step": 9,
+      "time_per_iteration": 2.8643643856048584
+    },
+    {
+      "auxiliary_loss_clip": 0.03052539,
+      "auxiliary_loss_mlp": 0.01465176,
+      "balance_loss_clip": 1.53505063,
+      "balance_loss_mlp": 1.21703017,
+      "epoch": 0.0012024289063909096,
+      "flos": 17010166337280.0,
+      "grad_norm": 13.534145569671143,
+      "language_loss": 1.5313127,
+      "learning_rate": 1.6680984451379884e-06,
+      "loss": 1.57648993,
+      "num_input_tokens_seen": 224705,
+      "step": 10,
+      "time_per_iteration": 2.861268997192383
+    },
+    {
+      "auxiliary_loss_clip": 0.0304412,
+      "auxiliary_loss_mlp": 0.01436349,
+      "balance_loss_clip": 1.53256202,
+      "balance_loss_mlp": 1.18896639,
+      "epoch": 0.0013226717970300007,
+      "flos": 21288133261440.0,
+      "grad_norm": 13.871834752796476,
+      "language_loss": 1.32458735,
+      "learning_rate": 1.7371455188905097e-06,
+      "loss": 1.36939192,
+      "num_input_tokens_seen": 244635,
+      "step": 11,
+      "time_per_iteration": 2.816436529159546
+    },
+    {
+      "auxiliary_loss_clip": 0.03031118,
+      "auxiliary_loss_mlp": 0.01411415,
+      "balance_loss_clip": 1.52330637,
+      "balance_loss_mlp": 1.17032588,
+      "epoch": 0.0014429146876690916,
+      "flos": 27237884935680.0,
+      "grad_norm": 13.617095245712934,
+      "language_loss": 1.25506067,
+      "learning_rate": 1.8001805585541196e-06,
+      "loss": 1.29948592,
+      "num_input_tokens_seen": 265765,
+      "step": 12,
+      "time_per_iteration": 2.8535280227661133
+    },
+    {
+      "auxiliary_loss_clip": 0.03007342,
+      "auxiliary_loss_mlp": 0.01428202,
+      "balance_loss_clip": 1.51923656,
+      "balance_loss_mlp": 1.19741249,
+      "epoch": 0.0015631575783081825,
+      "flos": 19062174504960.0,
+      "grad_norm": 6.77282829248454,
+      "language_loss": 1.29420471,
+      "learning_rate": 1.8581671739548328e-06,
+      "loss": 1.3385601,
+      "num_input_tokens_seen": 283500,
+      "step": 13,
+      "time_per_iteration": 2.760094404220581
+    },
+    {
+      "auxiliary_loss_clip": 0.03032659,
+      "auxiliary_loss_mlp": 0.0142465,
+      "balance_loss_clip": 1.52620697,
+      "balance_loss_mlp": 1.19080901,
+      "epoch": 0.0016834004689472734,
+      "flos": 48139473985920.0,
+      "grad_norm": 6.393212279907861,
+      "language_loss": 1.13536727,
+      "learning_rate": 1.9118543942439254e-06,
+      "loss": 1.17994034,
+      "num_input_tokens_seen": 305685,
+      "step": 14,
+      "time_per_iteration": 3.9871129989624023
+    },
+    {
+      "auxiliary_loss_clip": 0.03005914,
+      "auxiliary_loss_mlp": 0.01402078,
+      "balance_loss_clip": 1.5204494,
+      "balance_loss_mlp": 1.16995335,
+      "epoch": 0.0018036433595863645,
+      "flos": 34970026314240.0,
+      "grad_norm": 5.608063287018698,
+      "language_loss": 1.12691212,
+      "learning_rate": 1.961836000571161e-06,
+      "loss": 1.17099202,
+      "num_input_tokens_seen": 327340,
+      "step": 15,
+      "time_per_iteration": 3.870206832885742
+    },
+    {
+      "auxiliary_loss_clip": 0.03223239,
+      "auxiliary_loss_mlp": 0.01506455,
+      "balance_loss_clip": 1.68040586,
+      "balance_loss_mlp": 1.25468469,
+      "epoch": 0.0019238862502254555,
+      "flos": 59768284440960.0,
+      "grad_norm": 3.7874847240589076,
+      "language_loss": 0.64647704,
+      "learning_rate": 2.0085906708279293e-06,
+      "loss": 0.69377398,
+      "num_input_tokens_seen": 382710,
+      "step": 16,
+      "time_per_iteration": 3.202209949493408
+    },
+    {
+      "auxiliary_loss_clip": 0.02987394,
+      "auxiliary_loss_mlp": 0.01445679,
+      "balance_loss_clip": 1.52274573,
+      "balance_loss_mlp": 1.20497191,
+      "epoch": 0.0020441291408645466,
+      "flos": 20814543417600.0,
+      "grad_norm": 4.3424722229286745,
+      "language_loss": 1.16030765,
+      "learning_rate": 2.0525099325728135e-06,
+      "loss": 1.20463824,
+      "num_input_tokens_seen": 400890,
+      "step": 17,
+      "time_per_iteration": 2.749842405319214
+    },
+    {
+      "auxiliary_loss_clip": 0.03178932,
+      "auxiliary_loss_mlp": 0.01493771,
+      "balance_loss_clip": 1.67110932,
+      "balance_loss_mlp": 1.24505281,
+      "epoch": 0.0021643720315036373,
+      "flos": 63857001582720.0,
+      "grad_norm": 3.5334806388801017,
+      "language_loss": 0.72129905,
+      "learning_rate": 2.0939181139872922e-06,
+      "loss": 0.76802599,
+      "num_input_tokens_seen": 462605,
+      "step": 18,
+      "time_per_iteration": 3.2300312519073486
+    },
+    {
+      "auxiliary_loss_clip": 0.02950178,
+      "auxiliary_loss_mlp": 0.01387951,
+      "balance_loss_clip": 1.50940979,
+      "balance_loss_mlp": 1.15468216,
+      "epoch": 0.0022846149221427284,
+      "flos": 31284981192960.0,
+      "grad_norm": 5.035550768653259,
+      "language_loss": 1.01560211,
+      "learning_rate": 2.1330868934640175e-06,
+      "loss": 1.05898356,
+      "num_input_tokens_seen": 483280,
+      "step": 19,
+      "time_per_iteration": 2.921243906021118
+    },
+    {
+      "auxiliary_loss_clip": 0.03110088,
+      "auxiliary_loss_mlp": 0.01461645,
+      "balance_loss_clip": 1.65403223,
+      "balance_loss_mlp": 1.21903062,
+      "epoch": 0.002404857812781819,
+      "flos": 51083648161920.0,
+      "grad_norm": 3.5710994449972877,
+      "language_loss": 0.7643429,
+      "learning_rate": 2.170246112844971e-06,
+      "loss": 0.81006014,
+      "num_input_tokens_seen": 537620,
+      "step": 20,
+      "time_per_iteration": 3.0670604705810547
+    },
+    {
+      "auxiliary_loss_clip": 0.02930409,
+      "auxiliary_loss_mlp": 0.01394708,
+      "balance_loss_clip": 1.50349164,
+      "balance_loss_mlp": 1.15838766,
+      "epoch": 0.0025251007034209102,
+      "flos": 15815347309440.0,
+      "grad_norm": 4.284724244855363,
+      "language_loss": 1.01471734,
+      "learning_rate": 2.2055919496770983e-06,
+      "loss": 1.05796838,
+      "num_input_tokens_seen": 555760,
+      "step": 21,
+      "time_per_iteration": 2.798492670059204
+    },
+    {
+      "auxiliary_loss_clip": 0.02918437,
+      "auxiliary_loss_mlp": 0.01380698,
+      "balance_loss_clip": 1.50365365,
+      "balance_loss_mlp": 1.15257955,
+      "epoch": 0.0026453435940600014,
+      "flos": 37851857458560.0,
+      "grad_norm": 4.097825374468856,
+      "language_loss": 0.89520693,
+      "learning_rate": 2.2392931865974923e-06,
+      "loss": 0.93819827,
+      "num_input_tokens_seen": 578450,
+      "step": 22,
+      "time_per_iteration": 3.012450695037842
+    },
+    {
+      "auxiliary_loss_clip": 0.02860526,
+      "auxiliary_loss_mlp": 0.01363852,
+      "balance_loss_clip": 1.48607326,
+      "balance_loss_mlp": 1.14183712,
+      "epoch": 0.002765586484699092,
+      "flos": 21141976821120.0,
+      "grad_norm": 4.149210929528141,
+      "language_loss": 1.01616383,
+      "learning_rate": 2.271496085962064e-06,
+      "loss": 1.05840766,
+      "num_input_tokens_seen": 596145,
+      "step": 23,
+      "time_per_iteration": 2.8721323013305664
+    },
+    {
+      "auxiliary_loss_clip": 0.02839068,
+      "auxiliary_loss_mlp": 0.01397087,
+      "balance_loss_clip": 1.48214412,
+      "balance_loss_mlp": 1.16496277,
+      "epoch": 0.002885829375338183,
+      "flos": 20667381396480.0,
+      "grad_norm": 3.02194182241137,
+      "language_loss": 1.02574861,
+      "learning_rate": 2.3023282262611022e-06,
+      "loss": 1.06811011,
+      "num_input_tokens_seen": 614920,
+      "step": 24,
+      "time_per_iteration": 2.8006253242492676
+    },
+    {
+      "auxiliary_loss_clip": 0.02816373,
+      "auxiliary_loss_mlp": 0.01381298,
+      "balance_loss_clip": 1.47811663,
+      "balance_loss_mlp": 1.15203428,
+      "epoch": 0.003006072265977274,
+      "flos": 34823869873920.0,
+      "grad_norm": 3.2549345353257166,
+      "language_loss": 0.92539823,
+      "learning_rate": 2.3319015548620114e-06,
+      "loss": 0.96737492,
+      "num_input_tokens_seen": 636060,
+      "step": 25,
+      "time_per_iteration": 2.8593485355377197
+    },
+    {
+      "auxiliary_loss_clip": 0.02808954,
+      "auxiliary_loss_mlp": 0.01392666,
+      "balance_loss_clip": 1.48066258,
+      "balance_loss_mlp": 1.16092348,
+      "epoch": 0.003126315156616365,
+      "flos": 24422021118720.0,
+      "grad_norm": 2.4543619142790445,
+      "language_loss": 0.92846084,
+      "learning_rate": 2.3603148416618152e-06,
+      "loss": 0.97047704,
+      "num_input_tokens_seen": 655575,
+      "step": 26,
+      "time_per_iteration": 2.7814629077911377
+    },
+    {
+      "auxiliary_loss_clip": 0.02744167,
+      "auxiliary_loss_mlp": 0.01342963,
+      "balance_loss_clip": 1.4655726,
+      "balance_loss_mlp": 1.12695622,
+      "epoch": 0.003246558047255456,
+      "flos": 23622326674560.0,
+      "grad_norm": 2.3623098809716843,
+      "language_loss": 1.00851107,
+      "learning_rate": 2.3876556694204647e-06,
+      "loss": 1.04938257,
+      "num_input_tokens_seen": 675730,
+      "step": 27,
+      "time_per_iteration": 2.809587240219116
+    },
+    {
+      "auxiliary_loss_clip": 0.02751591,
+      "auxiliary_loss_mlp": 0.01358826,
+      "balance_loss_clip": 1.46475768,
+      "balance_loss_mlp": 1.14024401,
+      "epoch": 0.003366800937894547,
+      "flos": 17820275725440.0,
+      "grad_norm": 2.6402324044526173,
+      "language_loss": 0.90640938,
+      "learning_rate": 2.414002061950908e-06,
+      "loss": 0.94751358,
+      "num_input_tokens_seen": 694605,
+      "step": 28,
+      "time_per_iteration": 2.72129487991333
+    },
+    {
+      "auxiliary_loss_clip": 0.02743113,
+      "auxiliary_loss_mlp": 0.01330561,
+      "balance_loss_clip": 1.46346879,
+      "balance_loss_mlp": 1.1094991,
+      "epoch": 0.003487043828533638,
+      "flos": 24426115269120.0,
+      "grad_norm": 2.474830590718488,
+      "language_loss": 0.996337,
+      "learning_rate": 2.4394238264681557e-06,
+      "loss": 1.03707373,
+      "num_input_tokens_seen": 714340,
+      "step": 29,
+      "time_per_iteration": 2.780243158340454
+    },
+    {
+      "auxiliary_loss_clip": 0.02725712,
+      "auxiliary_loss_mlp": 0.01312025,
+      "balance_loss_clip": 1.47081804,
+      "balance_loss_mlp": 1.10069132,
+      "epoch": 0.003607286719172729,
+      "flos": 26140311002880.0,
+      "grad_norm": 2.133810537621703,
+      "language_loss": 0.99522847,
+      "learning_rate": 2.4639836682781433e-06,
+      "loss": 1.03560591,
+      "num_input_tokens_seen": 734470,
+      "step": 30,
+      "time_per_iteration": 2.8030662536621094
+    },
+    {
+      "auxiliary_loss_clip": 0.02712399,
+      "auxiliary_loss_mlp": 0.01301122,
+      "balance_loss_clip": 1.46409667,
+      "balance_loss_mlp": 1.09484243,
+      "epoch": 0.00372752960981182,
+      "flos": 20593082113920.0,
+      "grad_norm": 2.736263929512533,
+      "language_loss": 1.00104535,
+      "learning_rate": 2.487738122623307e-06,
+      "loss": 1.04118061,
+      "num_input_tokens_seen": 753380,
+      "step": 31,
+      "time_per_iteration": 2.8655929565429688
+    },
+    {
+      "auxiliary_loss_clip": 0.02649189,
+      "auxiliary_loss_mlp": 0.0132272,
+      "balance_loss_clip": 1.44053221,
+      "balance_loss_mlp": 1.11462831,
+      "epoch": 0.003847772500450911,
+      "flos": 22674608282880.0,
+      "grad_norm": 2.910129969304171,
+      "language_loss": 0.98779863,
+      "learning_rate": 2.510738338534912e-06,
+      "loss": 1.02751768,
+      "num_input_tokens_seen": 772105,
+      "step": 32,
+      "time_per_iteration": 2.7838339805603027
+    },
+    {
+      "auxiliary_loss_clip": 0.02540893,
+      "auxiliary_loss_mlp": 0.01281783,
+      "balance_loss_clip": 1.41621828,
+      "balance_loss_mlp": 1.0802716,
+      "epoch": 0.003968015391090002,
+      "flos": 17967796882560.0,
+      "grad_norm": 3.1496462304661024,
+      "language_loss": 1.02492142,
+      "learning_rate": 2.5330307420306648e-06,
+      "loss": 1.06314826,
+      "num_input_tokens_seen": 788955,
+      "step": 33,
+      "time_per_iteration": 2.752159357070923
+    },
+    {
+      "auxiliary_loss_clip": 0.02538433,
+      "auxiliary_loss_mlp": 0.01324525,
+      "balance_loss_clip": 1.41938305,
+      "balance_loss_mlp": 1.12005699,
+      "epoch": 0.004088258281729093,
+      "flos": 27304103658240.0,
+      "grad_norm": 2.578087635933368,
+      "language_loss": 0.88104582,
+      "learning_rate": 2.554657600279796e-06,
+      "loss": 0.91967535,
+      "num_input_tokens_seen": 810230,
+      "step": 34,
+      "time_per_iteration": 2.7929580211639404
+    },
+    {
+      "auxiliary_loss_clip": 0.02490683,
+      "auxiliary_loss_mlp": 0.01287906,
+      "balance_loss_clip": 1.41368747,
+      "balance_loss_mlp": 1.08811152,
+      "epoch": 0.004208501172368184,
+      "flos": 23258587599360.0,
+      "grad_norm": 2.1965142340839376,
+      "language_loss": 1.0324682,
+      "learning_rate": 2.5756575039679493e-06,
+      "loss": 1.07025409,
+      "num_input_tokens_seen": 829780,
+      "step": 35,
+      "time_per_iteration": 2.800037384033203
+    },
+    {
+      "auxiliary_loss_clip": 0.0246867,
+      "auxiliary_loss_mlp": 0.01291463,
+      "balance_loss_clip": 1.40215147,
+      "balance_loss_mlp": 1.09395742,
+      "epoch": 0.0043287440630072746,
+      "flos": 17312104062720.0,
+      "grad_norm": 1.9905237881472446,
+      "language_loss": 0.95030552,
+      "learning_rate": 2.5960657816942747e-06,
+      "loss": 0.98790681,
+      "num_input_tokens_seen": 848695,
+      "step": 36,
+      "time_per_iteration": 2.7629194259643555
+    },
+    {
+      "auxiliary_loss_clip": 0.02326254,
+      "auxiliary_loss_mlp": 0.01188091,
+      "balance_loss_clip": 1.46626616,
+      "balance_loss_mlp": 1.00498605,
+      "epoch": 0.004448986953646365,
+      "flos": 53092491160320.0,
+      "grad_norm": 1.366412633500659,
+      "language_loss": 0.60931289,
+      "learning_rate": 2.6159148575788668e-06,
+      "loss": 0.64445639,
+      "num_input_tokens_seen": 906730,
+      "step": 37,
+      "time_per_iteration": 3.2656307220458984
+    },
+    {
+      "auxiliary_loss_clip": 0.02405904,
+      "auxiliary_loss_mlp": 0.01271419,
+      "balance_loss_clip": 1.3968358,
+      "balance_loss_mlp": 1.09146094,
+      "epoch": 0.004569229844285457,
+      "flos": 13444165866240.0,
+      "grad_norm": 2.2608955261184343,
+      "language_loss": 0.98630786,
+      "learning_rate": 2.635234561171e-06,
+      "loss": 1.02308106,
+      "num_input_tokens_seen": 925125,
+      "step": 38,
+      "time_per_iteration": 2.7899603843688965
+    },
+    {
+      "auxiliary_loss_clip": 0.02356383,
+      "auxiliary_loss_mlp": 0.01261132,
+      "balance_loss_clip": 1.37771082,
+      "balance_loss_mlp": 1.07545209,
+      "epoch": 0.0046894727349245475,
+      "flos": 16209609966720.0,
+      "grad_norm": 2.9145499629055545,
+      "language_loss": 0.94142896,
+      "learning_rate": 2.6540523970949877e-06,
+      "loss": 0.97760415,
+      "num_input_tokens_seen": 939970,
+      "step": 39,
+      "time_per_iteration": 2.7888879776000977
+    },
+    {
+      "auxiliary_loss_clip": 0.02391579,
+      "auxiliary_loss_mlp": 0.01278151,
+      "balance_loss_clip": 1.39025998,
+      "balance_loss_mlp": 1.09495044,
+      "epoch": 0.004809715625563638,
+      "flos": 23914244505600.0,
+      "grad_norm": 2.470870959266708,
+      "language_loss": 0.9232226,
+      "learning_rate": 2.6723937805519533e-06,
+      "loss": 0.95991993,
+      "num_input_tokens_seen": 957470,
+      "step": 40,
+      "time_per_iteration": 4.669780969619751
+    },
+    {
+      "auxiliary_loss_clip": 0.0234275,
+      "auxiliary_loss_mlp": 0.01254006,
+      "balance_loss_clip": 1.37773645,
+      "balance_loss_mlp": 1.07280827,
+      "epoch": 0.00492995851620273,
+      "flos": 20773030273920.0,
+      "grad_norm": 2.254965800934219,
+      "language_loss": 0.92836779,
+      "learning_rate": 2.690282243737839e-06,
+      "loss": 0.96433544,
+      "num_input_tokens_seen": 976405,
+      "step": 41,
+      "time_per_iteration": 3.74471378326416
+    },
+    {
+      "auxiliary_loss_clip": 0.02299301,
+      "auxiliary_loss_mlp": 0.01244932,
+      "balance_loss_clip": 1.36131454,
+      "balance_loss_mlp": 1.07355666,
+      "epoch": 0.0050502014068418205,
+      "flos": 20338655103360.0,
+      "grad_norm": 3.674778332174137,
+      "language_loss": 0.99347931,
+      "learning_rate": 2.7077396173840807e-06,
+      "loss": 1.0289216,
+      "num_input_tokens_seen": 994690,
+      "step": 42,
+      "time_per_iteration": 2.7558839321136475
+    },
+    {
+      "auxiliary_loss_clip": 0.02268767,
+      "auxiliary_loss_mlp": 0.01244567,
+      "balance_loss_clip": 1.35890698,
+      "balance_loss_mlp": 1.07452703,
+      "epoch": 0.005170444297480911,
+      "flos": 25994872834560.0,
+      "grad_norm": 2.1058930121977206,
+      "language_loss": 0.92696834,
+      "learning_rate": 2.7247861909342594e-06,
+      "loss": 0.96210176,
+      "num_input_tokens_seen": 1015615,
+      "step": 43,
+      "time_per_iteration": 2.8375353813171387
+    },
+    {
+      "auxiliary_loss_clip": 0.02240443,
+      "auxiliary_loss_mlp": 0.01227788,
+      "balance_loss_clip": 1.35222507,
+      "balance_loss_mlp": 1.07129002,
+      "epoch": 0.005290687188120003,
+      "flos": 20954055841920.0,
+      "grad_norm": 2.5514427224750054,
+      "language_loss": 0.82938576,
+      "learning_rate": 2.7414408543044743e-06,
+      "loss": 0.86406815,
+      "num_input_tokens_seen": 1031255,
+      "step": 44,
+      "time_per_iteration": 2.7561404705047607
+    },
+    {
+      "auxiliary_loss_clip": 0.02222924,
+      "auxiliary_loss_mlp": 0.01221044,
+      "balance_loss_clip": 1.34987235,
+      "balance_loss_mlp": 1.06092238,
+      "epoch": 0.005410930078759093,
+      "flos": 15851401585920.0,
+      "grad_norm": 6.11282134646746,
+      "language_loss": 0.79099721,
+      "learning_rate": 2.7577212237113157e-06,
+      "loss": 0.82543689,
+      "num_input_tokens_seen": 1048295,
+      "step": 45,
+      "time_per_iteration": 2.7272212505340576
+    },
+    {
+      "auxiliary_loss_clip": 0.02214011,
+      "auxiliary_loss_mlp": 0.0121046,
+      "balance_loss_clip": 1.34914899,
+      "balance_loss_mlp": 1.06187701,
+      "epoch": 0.005531172969398184,
+      "flos": 21104988791040.0,
+      "grad_norm": 2.1797588772799874,
+      "language_loss": 1.0406853,
+      "learning_rate": 2.7736437536690466e-06,
+      "loss": 1.07492995,
+      "num_input_tokens_seen": 1067925,
+      "step": 46,
+      "time_per_iteration": 2.8948214054107666
+    },
+    {
+      "auxiliary_loss_clip": 0.02215213,
+      "auxiliary_loss_mlp": 0.01218536,
+      "balance_loss_clip": 1.34789562,
+      "balance_loss_mlp": 1.06804669,
+      "epoch": 0.005651415860037276,
+      "flos": 20844887431680.0,
+      "grad_norm": 2.031992455888148,
+      "language_loss": 1.07692027,
+      "learning_rate": 2.789223836941131e-06,
+      "loss": 1.11125779,
+      "num_input_tokens_seen": 1088060,
+      "step": 47,
+      "time_per_iteration": 2.777007579803467
+    },
+    {
+      "auxiliary_loss_clip": 0.02159535,
+      "auxiliary_loss_mlp": 0.01223479,
+      "balance_loss_clip": 1.33661234,
+      "balance_loss_mlp": 1.0767082,
+      "epoch": 0.005771658750676366,
+      "flos": 13260195383040.0,
+      "grad_norm": 2.468732641350934,
+      "language_loss": 1.08648944,
+      "learning_rate": 2.8044758939680847e-06,
+      "loss": 1.1203196,
+      "num_input_tokens_seen": 1104130,
+      "step": 48,
+      "time_per_iteration": 2.801955461502075
+    },
+    {
+      "auxiliary_loss_clip": 0.02147834,
+      "auxiliary_loss_mlp": 0.01217081,
+      "balance_loss_clip": 1.33605218,
+      "balance_loss_mlp": 1.07517421,
+      "epoch": 0.005891901641315457,
+      "flos": 24425396997120.0,
+      "grad_norm": 2.7199158149418388,
+      "language_loss": 1.01741719,
+      "learning_rate": 2.8194134530738863e-06,
+      "loss": 1.0510664,
+      "num_input_tokens_seen": 1122900,
+      "step": 49,
+      "time_per_iteration": 2.885178327560425
+    },
+    {
+      "auxiliary_loss_clip": 0.02121368,
+      "auxiliary_loss_mlp": 0.01200827,
+      "balance_loss_clip": 1.32858229,
+      "balance_loss_mlp": 1.06302154,
+      "epoch": 0.006012144531954548,
+      "flos": 23076197314560.0,
+      "grad_norm": 2.6912563098943387,
+      "language_loss": 0.90300727,
+      "learning_rate": 2.834049222568994e-06,
+      "loss": 0.93622923,
+      "num_input_tokens_seen": 1140250,
+      "step": 50,
+      "time_per_iteration": 2.8197646141052246
+    },
+    {
+      "auxiliary_loss_clip": 0.02109138,
+      "auxiliary_loss_mlp": 0.01218809,
+      "balance_loss_clip": 1.32541275,
+      "balance_loss_mlp": 1.07261038,
+      "epoch": 0.006132387422593639,
+      "flos": 22528775064960.0,
+      "grad_norm": 3.260139462695256,
+      "language_loss": 0.92549098,
+      "learning_rate": 2.848395155712969e-06,
+      "loss": 0.95877045,
+      "num_input_tokens_seen": 1160470,
+      "step": 51,
+      "time_per_iteration": 2.7752420902252197
+    },
+    {
+      "auxiliary_loss_clip": 0.021245,
+      "auxiliary_loss_mlp": 0.01209963,
+      "balance_loss_clip": 1.33251858,
+      "balance_loss_mlp": 1.07129884,
+      "epoch": 0.00625263031323273,
+      "flos": 27628340751360.0,
+      "grad_norm": 2.4537501773528514,
+      "language_loss": 0.97511727,
+      "learning_rate": 2.8624625093687977e-06,
+      "loss": 1.00846195,
+      "num_input_tokens_seen": 1177605,
+      "step": 52,
+      "time_per_iteration": 3.0144083499908447
+    },
+    {
+      "auxiliary_loss_clip": 0.02082903,
+      "auxiliary_loss_mlp": 0.01223839,
+      "balance_loss_clip": 1.32008564,
+      "balance_loss_mlp": 1.0905149,
+      "epoch": 0.006372873203871821,
+      "flos": 23110671392640.0,
+      "grad_norm": 2.1816866615196666,
+      "language_loss": 0.88829887,
+      "learning_rate": 2.876261897070029e-06,
+      "loss": 0.92136621,
+      "num_input_tokens_seen": 1197735,
+      "step": 53,
+      "time_per_iteration": 2.847827196121216
+    },
+    {
+      "auxiliary_loss_clip": 0.0209024,
+      "auxiliary_loss_mlp": 0.01199685,
+      "balance_loss_clip": 1.3206979,
+      "balance_loss_mlp": 1.06845903,
+      "epoch": 0.006493116094510912,
+      "flos": 22856028900480.0,
+      "grad_norm": 2.5397966964818215,
+      "language_loss": 0.9240942,
+      "learning_rate": 2.889803337127447e-06,
+      "loss": 0.95699346,
+      "num_input_tokens_seen": 1216335,
+      "step": 54,
+      "time_per_iteration": 2.7499425411224365
+    },
+    {
+      "auxiliary_loss_clip": 0.02061162,
+      "auxiliary_loss_mlp": 0.01203618,
+      "balance_loss_clip": 1.31091022,
+      "balance_loss_mlp": 1.07477689,
+      "epoch": 0.006613358985150003,
+      "flos": 23071708114560.0,
+      "grad_norm": 2.8876868419214663,
+      "language_loss": 0.84803748,
+      "learning_rate": 2.903096296321516e-06,
+      "loss": 0.88068533,
+      "num_input_tokens_seen": 1234480,
+      "step": 55,
+      "time_per_iteration": 2.8103010654449463
+    },
+    {
+      "auxiliary_loss_clip": 0.0205085,
+      "auxiliary_loss_mlp": 0.01211888,
+      "balance_loss_clip": 1.31119072,
+      "balance_loss_mlp": 1.08285618,
+      "epoch": 0.006733601875789094,
+      "flos": 26537662229760.0,
+      "grad_norm": 1.9275057701988028,
+      "language_loss": 0.91576374,
+      "learning_rate": 2.9161497296578907e-06,
+      "loss": 0.94839108,
+      "num_input_tokens_seen": 1253870,
+      "step": 56,
+      "time_per_iteration": 2.7818305492401123
+    },
+    {
+      "auxiliary_loss_clip": 0.02037442,
+      "auxiliary_loss_mlp": 0.01190075,
+      "balance_loss_clip": 1.30842376,
+      "balance_loss_mlp": 1.06752753,
+      "epoch": 0.006853844766428185,
+      "flos": 15523178083200.0,
+      "grad_norm": 2.3955964590105574,
+      "language_loss": 0.85921645,
+      "learning_rate": 2.928972116604173e-06,
+      "loss": 0.89149165,
+      "num_input_tokens_seen": 1270145,
+      "step": 57,
+      "time_per_iteration": 2.825333595275879
+    },
+    {
+      "auxiliary_loss_clip": 0.02033603,
+      "auxiliary_loss_mlp": 0.01192228,
+      "balance_loss_clip": 1.30945742,
+      "balance_loss_mlp": 1.070539,
+      "epoch": 0.006974087657067276,
+      "flos": 24243760897920.0,
+      "grad_norm": 2.014815905683033,
+      "language_loss": 1.01930165,
+      "learning_rate": 2.9415714941751377e-06,
+      "loss": 1.05156004,
+      "num_input_tokens_seen": 1291365,
+      "step": 58,
+      "time_per_iteration": 2.7875442504882812
+    },
+    {
+      "auxiliary_loss_clip": 0.02031446,
+      "auxiliary_loss_mlp": 0.01198263,
+      "balance_loss_clip": 1.30686939,
+      "balance_loss_mlp": 1.08067465,
+      "epoch": 0.007094330547706367,
+      "flos": 25772513690880.0,
+      "grad_norm": 2.0571724622564753,
+      "language_loss": 0.93616259,
+      "learning_rate": 2.9539554871897396e-06,
+      "loss": 0.96845967,
+      "num_input_tokens_seen": 1311535,
+      "step": 59,
+      "time_per_iteration": 2.8632333278656006
+    },
+    {
+      "auxiliary_loss_clip": 0.01987077,
+      "auxiliary_loss_mlp": 0.01175094,
+      "balance_loss_clip": 1.29431605,
+      "balance_loss_mlp": 1.05760169,
+      "epoch": 0.007214573438345458,
+      "flos": 21319015979520.0,
+      "grad_norm": 1.9615296153167685,
+      "language_loss": 0.97331339,
+      "learning_rate": 2.9661313359851253e-06,
+      "loss": 1.00493503,
+      "num_input_tokens_seen": 1329420,
+      "step": 60,
+      "time_per_iteration": 2.7719740867614746
+    },
+    {
+      "auxiliary_loss_clip": 0.01989364,
+      "auxiliary_loss_mlp": 0.01181125,
+      "balance_loss_clip": 1.29395902,
+      "balance_loss_mlp": 1.0640142,
+      "epoch": 0.007334816328984549,
+      "flos": 24937088192640.0,
+      "grad_norm": 1.9711097065001755,
+      "language_loss": 0.93934,
+      "learning_rate": 2.978105921839922e-06,
+      "loss": 0.97104484,
+      "num_input_tokens_seen": 1349965,
+      "step": 61,
+      "time_per_iteration": 2.796774387359619
+    },
+    {
+      "auxiliary_loss_clip": 0.01961948,
+      "auxiliary_loss_mlp": 0.0119399,
+      "balance_loss_clip": 1.29378796,
+      "balance_loss_mlp": 1.07592511,
+      "epoch": 0.00745505921962364,
+      "flos": 18510586277760.0,
+      "grad_norm": 2.3021488560624617,
+      "language_loss": 0.72184837,
+      "learning_rate": 2.9898857903302893e-06,
+      "loss": 0.75340778,
+      "num_input_tokens_seen": 1368915,
+      "step": 62,
+      "time_per_iteration": 2.776263475418091
+    },
+    {
+      "auxiliary_loss_clip": 0.01963942,
+      "auxiliary_loss_mlp": 0.01174981,
+      "balance_loss_clip": 1.29308486,
+      "balance_loss_mlp": 1.07355738,
+      "epoch": 0.007575302110262731,
+      "flos": 18477656484480.0,
+      "grad_norm": 2.739542028813954,
+      "language_loss": 0.88025796,
+      "learning_rate": 3.001477172817253e-06,
+      "loss": 0.91164714,
+      "num_input_tokens_seen": 1386805,
+      "step": 63,
+      "time_per_iteration": 2.7053489685058594
+    },
+    {
+      "auxiliary_loss_clip": 0.01966282,
+      "auxiliary_loss_mlp": 0.01178195,
+      "balance_loss_clip": 1.29289746,
+      "balance_loss_mlp": 1.06823671,
+      "epoch": 0.007695545000901822,
+      "flos": 24973178382720.0,
+      "grad_norm": 2.4972162272937695,
+      "language_loss": 0.96093184,
+      "learning_rate": 3.012886006241894e-06,
+      "loss": 0.99237657,
+      "num_input_tokens_seen": 1406190,
+      "step": 64,
+      "time_per_iteration": 2.8906729221343994
+    },
+    {
+      "auxiliary_loss_clip": 0.01925394,
+      "auxiliary_loss_mlp": 0.01200523,
+      "balance_loss_clip": 1.28544974,
+      "balance_loss_mlp": 1.09599996,
+      "epoch": 0.007815787891540913,
+      "flos": 21324223451520.0,
+      "grad_norm": 1.9637699439523113,
+      "language_loss": 0.88189352,
+      "learning_rate": 3.0241179513858383e-06,
+      "loss": 0.91315269,
+      "num_input_tokens_seen": 1425500,
+      "step": 65,
+      "time_per_iteration": 2.803135395050049
+    },
+    {
+      "auxiliary_loss_clip": 0.01916597,
+      "auxiliary_loss_mlp": 0.0116581,
+      "balance_loss_clip": 1.27807283,
+      "balance_loss_mlp": 1.06386209,
+      "epoch": 0.007936030782180003,
+      "flos": 21575777374080.0,
+      "grad_norm": 2.0971997248440615,
+      "language_loss": 0.87762749,
+      "learning_rate": 3.035178409737647e-06,
+      "loss": 0.90845156,
+      "num_input_tokens_seen": 1442950,
+      "step": 66,
+      "time_per_iteration": 3.7264137268066406
+    },
+    {
+      "auxiliary_loss_clip": 0.0189271,
+      "auxiliary_loss_mlp": 0.01171627,
+      "balance_loss_clip": 1.27621758,
+      "balance_loss_mlp": 1.07687938,
+      "epoch": 0.008056273672819095,
+      "flos": 20120785159680.0,
+      "grad_norm": 3.2586284163628916,
+      "language_loss": 0.88600874,
+      "learning_rate": 3.046072539090907e-06,
+      "loss": 0.91665208,
+      "num_input_tokens_seen": 1460915,
+      "step": 67,
+      "time_per_iteration": 4.569115161895752
+    },
+    {
+      "auxiliary_loss_clip": 0.01870741,
+      "auxiliary_loss_mlp": 0.01180816,
+      "balance_loss_clip": 1.26529706,
+      "balance_loss_mlp": 1.08406603,
+      "epoch": 0.008176516563458186,
+      "flos": 18333116156160.0,
+      "grad_norm": 2.210634482454444,
+      "language_loss": 1.0454824,
+      "learning_rate": 3.056805267986779e-06,
+      "loss": 1.07599795,
+      "num_input_tokens_seen": 1478385,
+      "step": 68,
+      "time_per_iteration": 2.76755428314209
+    },
+    {
+      "auxiliary_loss_clip": 0.01852933,
+      "auxiliary_loss_mlp": 0.01166041,
+      "balance_loss_clip": 1.26136875,
+      "balance_loss_mlp": 1.07272387,
+      "epoch": 0.008296759454097276,
+      "flos": 21872076664320.0,
+      "grad_norm": 2.248054652702724,
+      "language_loss": 0.95350039,
+      "learning_rate": 3.0673813091022194e-06,
+      "loss": 0.98369008,
+      "num_input_tokens_seen": 1497605,
+      "step": 69,
+      "time_per_iteration": 2.7368640899658203
+    },
+    {
+      "auxiliary_loss_clip": 0.01750643,
+      "auxiliary_loss_mlp": 0.01118684,
+      "balance_loss_clip": 1.36587405,
+      "balance_loss_mlp": 1.03743112,
+      "epoch": 0.008417002344736368,
+      "flos": 63408228036480.0,
+      "grad_norm": 1.3075316269289197,
+      "language_loss": 0.62127608,
+      "learning_rate": 3.0778051716749317e-06,
+      "loss": 0.64996928,
+      "num_input_tokens_seen": 1561150,
+      "step": 70,
+      "time_per_iteration": 3.384437084197998
+    },
+    {
+      "auxiliary_loss_clip": 0.01818636,
+      "auxiliary_loss_mlp": 0.01152841,
+      "balance_loss_clip": 1.24919868,
+      "balance_loss_mlp": 1.06319582,
+      "epoch": 0.008537245235375458,
+      "flos": 22966454286720.0,
+      "grad_norm": 2.0308293039081255,
+      "language_loss": 0.90311009,
+      "learning_rate": 3.0880811730470094e-06,
+      "loss": 0.93282485,
+      "num_input_tokens_seen": 1580605,
+      "step": 71,
+      "time_per_iteration": 2.7604939937591553
+    },
+    {
+      "auxiliary_loss_clip": 0.01706497,
+      "auxiliary_loss_mlp": 0.01094997,
+      "balance_loss_clip": 1.34610689,
+      "balance_loss_mlp": 1.01946592,
+      "epoch": 0.008657488126014549,
+      "flos": 61984046712960.0,
+      "grad_norm": 1.1709019509445167,
+      "language_loss": 0.58585769,
+      "learning_rate": 3.098213449401257e-06,
+      "loss": 0.61387265,
+      "num_input_tokens_seen": 1647535,
+      "step": 72,
+      "time_per_iteration": 3.261636972427368
+    },
+    {
+      "auxiliary_loss_clip": 0.01793517,
+      "auxiliary_loss_mlp": 0.01142827,
+      "balance_loss_clip": 1.24476933,
+      "balance_loss_mlp": 1.05623353,
+      "epoch": 0.00877773101665364,
+      "flos": 30296791152000.0,
+      "grad_norm": 6.464222330740392,
+      "language_loss": 0.98644197,
+      "learning_rate": 3.1082059657570015e-06,
+      "loss": 1.01580536,
+      "num_input_tokens_seen": 1666770,
+      "step": 73,
+      "time_per_iteration": 2.8573076725006104
+    },
+    {
+      "auxiliary_loss_clip": 0.01792565,
+      "auxiliary_loss_mlp": 0.01161617,
+      "balance_loss_clip": 1.25008321,
+      "balance_loss_mlp": 1.07979155,
+      "epoch": 0.00889797390729273,
+      "flos": 23514056104320.0,
+      "grad_norm": 3.036925251874556,
+      "language_loss": 0.96520907,
+      "learning_rate": 3.1180625252858496e-06,
+      "loss": 0.99475086,
+      "num_input_tokens_seen": 1685200,
+      "step": 74,
+      "time_per_iteration": 2.797562599182129
+    },
+    {
+      "auxiliary_loss_clip": 0.01764327,
+      "auxiliary_loss_mlp": 0.01146123,
+      "balance_loss_clip": 1.24038887,
+      "balance_loss_mlp": 1.06262922,
+      "epoch": 0.009018216797931822,
+      "flos": 23075838178560.0,
+      "grad_norm": 2.9692665309820736,
+      "language_loss": 0.80106759,
+      "learning_rate": 3.1277867780021663e-06,
+      "loss": 0.83017206,
+      "num_input_tokens_seen": 1701835,
+      "step": 75,
+      "time_per_iteration": 2.8285348415374756
+    },
+    {
+      "auxiliary_loss_clip": 0.01754783,
+      "auxiliary_loss_mlp": 0.01142356,
+      "balance_loss_clip": 1.23892689,
+      "balance_loss_mlp": 1.06496572,
+      "epoch": 0.009138459688570914,
+      "flos": 15918877284480.0,
+      "grad_norm": 2.239690515227744,
+      "language_loss": 0.9559927,
+      "learning_rate": 3.1373822288779824e-06,
+      "loss": 0.98496401,
+      "num_input_tokens_seen": 1718415,
+      "step": 76,
+      "time_per_iteration": 2.7086715698242188
+    },
+    {
+      "auxiliary_loss_clip": 0.01753644,
+      "auxiliary_loss_mlp": 0.01150377,
+      "balance_loss_clip": 1.24100995,
+      "balance_loss_mlp": 1.06898069,
+      "epoch": 0.009258702579210003,
+      "flos": 27016531372800.0,
+      "grad_norm": 2.296988922495127,
+      "language_loss": 0.79536629,
+      "learning_rate": 3.1468522454274533e-06,
+      "loss": 0.8244065,
+      "num_input_tokens_seen": 1738770,
+      "step": 77,
+      "time_per_iteration": 2.7888739109039307
+    },
+    {
+      "auxiliary_loss_clip": 0.01745446,
+      "auxiliary_loss_mlp": 0.01137342,
+      "balance_loss_clip": 1.23528409,
+      "balance_loss_mlp": 1.05918884,
+      "epoch": 0.009378945469849095,
+      "flos": 26903196984960.0,
+      "grad_norm": 1.9236652964208127,
+      "language_loss": 0.91852468,
+      "learning_rate": 3.15620006480197e-06,
+      "loss": 0.94735253,
+      "num_input_tokens_seen": 1758040,
+      "step": 78,
+      "time_per_iteration": 2.835317373275757
+    },
+    {
+      "auxiliary_loss_clip": 0.0174441,
+      "auxiliary_loss_mlp": 0.01139184,
+      "balance_loss_clip": 1.23519874,
+      "balance_loss_mlp": 1.06670499,
+      "epoch": 0.009499188360488187,
+      "flos": 35694236327040.0,
+      "grad_norm": 3.059235943052791,
+      "language_loss": 0.75050932,
+      "learning_rate": 3.1654288004333087e-06,
+      "loss": 0.77934527,
+      "num_input_tokens_seen": 1776705,
+      "step": 79,
+      "time_per_iteration": 2.90307354927063
+    },
+    {
+      "auxiliary_loss_clip": 0.01722531,
+      "auxiliary_loss_mlp": 0.01130586,
+      "balance_loss_clip": 1.23009825,
+      "balance_loss_mlp": 1.05562735,
+      "epoch": 0.009619431251127276,
+      "flos": 21503201944320.0,
+      "grad_norm": 3.4198367928986766,
+      "language_loss": 0.75846994,
+      "learning_rate": 3.1745414482589353e-06,
+      "loss": 0.78700101,
+      "num_input_tokens_seen": 1795915,
+      "step": 80,
+      "time_per_iteration": 2.824453592300415
+    },
+    {
+      "auxiliary_loss_clip": 0.01722542,
+      "auxiliary_loss_mlp": 0.01137714,
+      "balance_loss_clip": 1.23166597,
+      "balance_loss_mlp": 1.06800044,
+      "epoch": 0.009739674141766368,
+      "flos": 17421056991360.0,
+      "grad_norm": 3.2229969535540857,
+      "language_loss": 0.87179977,
+      "learning_rate": 3.1835408925606204e-06,
+      "loss": 0.90040237,
+      "num_input_tokens_seen": 1814055,
+      "step": 81,
+      "time_per_iteration": 2.7774605751037598
+    },
+    {
+      "auxiliary_loss_clip": 0.01709043,
+      "auxiliary_loss_mlp": 0.01130823,
+      "balance_loss_clip": 1.22828269,
+      "balance_loss_mlp": 1.06516266,
+      "epoch": 0.00985991703240546,
+      "flos": 27527109246720.0,
+      "grad_norm": 2.1441743967801807,
+      "language_loss": 0.89227402,
+      "learning_rate": 3.1924299114448214e-06,
+      "loss": 0.92067271,
+      "num_input_tokens_seen": 1834535,
+      "step": 82,
+      "time_per_iteration": 2.9237935543060303
+    },
+    {
+      "auxiliary_loss_clip": 0.01705586,
+      "auxiliary_loss_mlp": 0.01131644,
+      "balance_loss_clip": 1.22534657,
+      "balance_loss_mlp": 1.06235993,
+      "epoch": 0.00998015992304455,
+      "flos": 13808084509440.0,
+      "grad_norm": 2.256116635675401,
+      "language_loss": 0.83491474,
+      "learning_rate": 3.2012111819909055e-06,
+      "loss": 0.86328703,
+      "num_input_tokens_seen": 1851865,
+      "step": 83,
+      "time_per_iteration": 2.7475533485412598
+    },
+    {
+      "auxiliary_loss_clip": 0.01682366,
+      "auxiliary_loss_mlp": 0.01137744,
+      "balance_loss_clip": 1.2161597,
+      "balance_loss_mlp": 1.07465887,
+      "epoch": 0.010100402813683641,
+      "flos": 20191385341440.0,
+      "grad_norm": 3.2901707592289444,
+      "language_loss": 0.95135707,
+      "learning_rate": 3.2098872850910627e-06,
+      "loss": 0.97955823,
+      "num_input_tokens_seen": 1868540,
+      "step": 84,
+      "time_per_iteration": 2.7455923557281494
+    },
+    {
+      "auxiliary_loss_clip": 0.01683848,
+      "auxiliary_loss_mlp": 0.01138444,
+      "balance_loss_clip": 1.22173142,
+      "balance_loss_mlp": 1.072927,
+      "epoch": 0.010220645704322733,
+      "flos": 17201642762880.0,
+      "grad_norm": 1.9415579235020548,
+      "language_loss": 0.89120209,
+      "learning_rate": 3.2184607100038194e-06,
+      "loss": 0.91942501,
+      "num_input_tokens_seen": 1887180,
+      "step": 85,
+      "time_per_iteration": 2.7493715286254883
+    },
+    {
+      "auxiliary_loss_clip": 0.01686627,
+      "auxiliary_loss_mlp": 0.01112062,
+      "balance_loss_clip": 1.2205404,
+      "balance_loss_mlp": 1.05093169,
+      "epoch": 0.010340888594961822,
+      "flos": 21470415805440.0,
+      "grad_norm": 2.404231380693293,
+      "language_loss": 0.9300704,
+      "learning_rate": 3.2269338586412414e-06,
+      "loss": 0.95805728,
+      "num_input_tokens_seen": 1904765,
+      "step": 86,
+      "time_per_iteration": 2.832045316696167
+    },
+    {
+      "auxiliary_loss_clip": 0.01663843,
+      "auxiliary_loss_mlp": 0.0112413,
+      "balance_loss_clip": 1.21356153,
+      "balance_loss_mlp": 1.06242776,
+      "epoch": 0.010461131485600914,
+      "flos": 23002831785600.0,
+      "grad_norm": 2.3102650660150443,
+      "language_loss": 0.9639374,
+      "learning_rate": 3.2353090496083106e-06,
+      "loss": 0.99181712,
+      "num_input_tokens_seen": 1922600,
+      "step": 87,
+      "time_per_iteration": 2.85151743888855
+    },
+    {
+      "auxiliary_loss_clip": 0.01649515,
+      "auxiliary_loss_mlp": 0.01134822,
+      "balance_loss_clip": 1.20966125,
+      "balance_loss_mlp": 1.0728327,
+      "epoch": 0.010581374376240005,
+      "flos": 33546850571520.0,
+      "grad_norm": 2.0921861759342852,
+      "language_loss": 0.81157243,
+      "learning_rate": 3.2435885220114572e-06,
+      "loss": 0.83941579,
+      "num_input_tokens_seen": 1943950,
+      "step": 88,
+      "time_per_iteration": 2.8560028076171875
+    },
+    {
+      "auxiliary_loss_clip": 0.01655858,
+      "auxiliary_loss_mlp": 0.01109197,
+      "balance_loss_clip": 1.21267664,
+      "balance_loss_mlp": 1.05366969,
+      "epoch": 0.010701617266879095,
+      "flos": 21763087822080.0,
+      "grad_norm": 2.1431670450371842,
+      "language_loss": 0.93944585,
+      "learning_rate": 3.2517744390519113e-06,
+      "loss": 0.96709645,
+      "num_input_tokens_seen": 1962815,
+      "step": 89,
+      "time_per_iteration": 2.7945780754089355
+    },
+    {
+      "auxiliary_loss_clip": 0.01650624,
+      "auxiliary_loss_mlp": 0.01101801,
+      "balance_loss_clip": 1.20668697,
+      "balance_loss_mlp": 1.04696476,
+      "epoch": 0.010821860157518187,
+      "flos": 19060199256960.0,
+      "grad_norm": 1.9942618180136416,
+      "language_loss": 0.7494424,
+      "learning_rate": 3.259868891418298e-06,
+      "loss": 0.77696669,
+      "num_input_tokens_seen": 1980580,
+      "step": 90,
+      "time_per_iteration": 2.772324562072754
+    },
+    {
+      "auxiliary_loss_clip": 0.01648506,
+      "auxiliary_loss_mlp": 0.01126369,
+      "balance_loss_clip": 1.20815587,
+      "balance_loss_mlp": 1.0698874,
+      "epoch": 0.010942103048157278,
+      "flos": 25447378757760.0,
+      "grad_norm": 1.979606189288899,
+      "language_loss": 0.85118377,
+      "learning_rate": 3.2678739004917757e-06,
+      "loss": 0.87893248,
+      "num_input_tokens_seen": 2000315,
+      "step": 91,
+      "time_per_iteration": 2.7983713150024414
+    },
+    {
+      "auxiliary_loss_clip": 0.01635367,
+      "auxiliary_loss_mlp": 0.01121355,
+      "balance_loss_clip": 1.20575655,
+      "balance_loss_mlp": 1.06518364,
+      "epoch": 0.011062345938796368,
+      "flos": 27493928058240.0,
+      "grad_norm": 2.0109409182865963,
+      "language_loss": 0.92106134,
+      "learning_rate": 3.275791421376029e-06,
+      "loss": 0.94862854,
+      "num_input_tokens_seen": 2023760,
+      "step": 92,
+      "time_per_iteration": 3.7902071475982666
+    },
+    {
+      "auxiliary_loss_clip": 0.01622123,
+      "auxiliary_loss_mlp": 0.01137117,
+      "balance_loss_clip": 1.1984868,
+      "balance_loss_mlp": 1.08316255,
+      "epoch": 0.01118258882943546,
+      "flos": 16071210864000.0,
+      "grad_norm": 1.9667972053585663,
+      "language_loss": 0.95906734,
+      "learning_rate": 3.2836233457634622e-06,
+      "loss": 0.98665971,
+      "num_input_tokens_seen": 2041895,
+      "step": 93,
+      "time_per_iteration": 3.680514335632324
+    },
+    {
+      "auxiliary_loss_clip": 0.01640213,
+      "auxiliary_loss_mlp": 0.01111662,
+      "balance_loss_clip": 1.20704103,
+      "balance_loss_mlp": 1.06283343,
+      "epoch": 0.011302831720074551,
+      "flos": 20668602458880.0,
+      "grad_norm": 2.6185541954149225,
+      "language_loss": 0.85403013,
+      "learning_rate": 3.2913715046481135e-06,
+      "loss": 0.88154888,
+      "num_input_tokens_seen": 2061640,
+      "step": 94,
+      "time_per_iteration": 3.7056121826171875
+    },
+    {
+      "auxiliary_loss_clip": 0.01623585,
+      "auxiliary_loss_mlp": 0.01103778,
+      "balance_loss_clip": 1.19737911,
+      "balance_loss_mlp": 1.05104017,
+      "epoch": 0.011423074610713641,
+      "flos": 13072238490240.0,
+      "grad_norm": 2.373832221529278,
+      "language_loss": 0.88754809,
+      "learning_rate": 3.299037670895023e-06,
+      "loss": 0.91482174,
+      "num_input_tokens_seen": 2078255,
+      "step": 95,
+      "time_per_iteration": 2.715282440185547
+    },
+    {
+      "auxiliary_loss_clip": 0.01614729,
+      "auxiliary_loss_mlp": 0.01111658,
+      "balance_loss_clip": 1.1953311,
+      "balance_loss_mlp": 1.06097007,
+      "epoch": 0.011543317501352733,
+      "flos": 30335646689280.0,
+      "grad_norm": 1.921272734418009,
+      "language_loss": 0.80263513,
+      "learning_rate": 3.3066235616750667e-06,
+      "loss": 0.82989895,
+      "num_input_tokens_seen": 2099490,
+      "step": 96,
+      "time_per_iteration": 2.9072201251983643
+    },
+    {
+      "auxiliary_loss_clip": 0.01614805,
+      "auxiliary_loss_mlp": 0.01091496,
+      "balance_loss_clip": 1.19986105,
+      "balance_loss_mlp": 1.04536247,
+      "epoch": 0.011663560391991824,
+      "flos": 15522962601600.0,
+      "grad_norm": 3.5729178442994027,
+      "language_loss": 0.92093945,
+      "learning_rate": 3.3141308407736276e-06,
+      "loss": 0.94800246,
+      "num_input_tokens_seen": 2116125,
+      "step": 97,
+      "time_per_iteration": 2.757974624633789
+    },
+    {
+      "auxiliary_loss_clip": 0.01603445,
+      "auxiliary_loss_mlp": 0.01104195,
+      "balance_loss_clip": 1.18962383,
+      "balance_loss_mlp": 1.05615377,
+      "epoch": 0.011783803282630914,
+      "flos": 19902125116800.0,
+      "grad_norm": 2.007854718039964,
+      "language_loss": 0.86699188,
+      "learning_rate": 3.321561120780869e-06,
+      "loss": 0.89406824,
+      "num_input_tokens_seen": 2134835,
+      "step": 98,
+      "time_per_iteration": 2.7972960472106934
+    },
+    {
+      "auxiliary_loss_clip": 0.01599815,
+      "auxiliary_loss_mlp": 0.01088874,
+      "balance_loss_clip": 1.19388008,
+      "balance_loss_mlp": 1.0462929,
+      "epoch": 0.011904046173270006,
+      "flos": 22340674517760.0,
+      "grad_norm": 11.86685586654566,
+      "language_loss": 1.01378489,
+      "learning_rate": 3.3289159651708192e-06,
+      "loss": 1.04067183,
+      "num_input_tokens_seen": 2152410,
+      "step": 99,
+      "time_per_iteration": 2.778303861618042
+    },
+    {
+      "auxiliary_loss_clip": 0.01590174,
+      "auxiliary_loss_mlp": 0.01094446,
+      "balance_loss_clip": 1.18938947,
+      "balance_loss_mlp": 1.05217433,
+      "epoch": 0.012024289063909096,
+      "flos": 19100060375040.0,
+      "grad_norm": 1.996137877525179,
+      "language_loss": 0.97496271,
+      "learning_rate": 3.3361968902759768e-06,
+      "loss": 1.00180888,
+      "num_input_tokens_seen": 2172090,
+      "step": 100,
+      "time_per_iteration": 2.841456651687622
+    },
+    {
+      "auxiliary_loss_clip": 0.01580301,
+      "auxiliary_loss_mlp": 0.01110611,
+      "balance_loss_clip": 1.18712068,
+      "balance_loss_mlp": 1.06671786,
+      "epoch": 0.012144531954548187,
+      "flos": 15012205159680.0,
+      "grad_norm": 2.1653407545043906,
+      "language_loss": 0.93925709,
+      "learning_rate": 3.343405367163663e-06,
+      "loss": 0.9661662,
+      "num_input_tokens_seen": 2189020,
+      "step": 101,
+      "time_per_iteration": 2.802994966506958
+    },
+    {
+      "auxiliary_loss_clip": 0.01602812,
+      "auxiliary_loss_mlp": 0.01105022,
+      "balance_loss_clip": 1.19709301,
+      "balance_loss_mlp": 1.06296468,
+      "epoch": 0.012264774845187279,
+      "flos": 15122020014720.0,
+      "grad_norm": 2.5599023615709546,
+      "language_loss": 0.81210625,
+      "learning_rate": 3.350542823419951e-06,
+      "loss": 0.83918458,
+      "num_input_tokens_seen": 2205620,
+      "step": 102,
+      "time_per_iteration": 2.732969284057617
+    },
+    {
+      "auxiliary_loss_clip": 0.01578658,
+      "auxiliary_loss_mlp": 0.01093936,
+      "balance_loss_clip": 1.18506241,
+      "balance_loss_mlp": 1.05116355,
+      "epoch": 0.012385017735826368,
+      "flos": 13949248959360.0,
+      "grad_norm": 3.0879611295779372,
+      "language_loss": 0.87387645,
+      "learning_rate": 3.3576106448465615e-06,
+      "loss": 0.90060234,
+      "num_input_tokens_seen": 2219000,
+      "step": 103,
+      "time_per_iteration": 2.7675552368164062
+    },
+    {
+      "auxiliary_loss_clip": 0.0157756,
+      "auxiliary_loss_mlp": 0.01107421,
+      "balance_loss_clip": 1.1845578,
+      "balance_loss_mlp": 1.06698561,
+      "epoch": 0.01250526062646546,
+      "flos": 23623260428160.0,
+      "grad_norm": 2.7227320394107846,
+      "language_loss": 0.88039041,
+      "learning_rate": 3.3646101770757797e-06,
+      "loss": 0.90724015,
+      "num_input_tokens_seen": 2237790,
+      "step": 104,
+      "time_per_iteration": 2.731309175491333
+    },
+    {
+      "auxiliary_loss_clip": 0.01579204,
+      "auxiliary_loss_mlp": 0.01111907,
+      "balance_loss_clip": 1.18996131,
+      "balance_loss_mlp": 1.06956351,
+      "epoch": 0.012625503517104552,
+      "flos": 34640078958720.0,
+      "grad_norm": 1.90333381934037,
+      "language_loss": 0.85644734,
+      "learning_rate": 3.371542727108104e-06,
+      "loss": 0.88335848,
+      "num_input_tokens_seen": 2259965,
+      "step": 105,
+      "time_per_iteration": 2.9264981746673584
+    },
+    {
+      "auxiliary_loss_clip": 0.01571278,
+      "auxiliary_loss_mlp": 0.01093078,
+      "balance_loss_clip": 1.18362212,
+      "balance_loss_mlp": 1.05450225,
+      "epoch": 0.012745746407743641,
+      "flos": 17821891837440.0,
+      "grad_norm": 2.5758322493886925,
+      "language_loss": 0.89957523,
+      "learning_rate": 3.3784095647770114e-06,
+      "loss": 0.92621881,
+      "num_input_tokens_seen": 2278610,
+      "step": 106,
+      "time_per_iteration": 2.8100011348724365
+    },
+    {
+      "auxiliary_loss_clip": 0.01560427,
+      "auxiliary_loss_mlp": 0.01091332,
+      "balance_loss_clip": 1.18038797,
+      "balance_loss_mlp": 1.05335212,
+      "epoch": 0.012865989298382733,
+      "flos": 20595057361920.0,
+      "grad_norm": 2.1195193398880656,
+      "language_loss": 0.88396829,
+      "learning_rate": 3.3852119241449547e-06,
+      "loss": 0.91048586,
+      "num_input_tokens_seen": 2297730,
+      "step": 107,
+      "time_per_iteration": 2.936950922012329
+    },
+    {
+      "auxiliary_loss_clip": 0.01564176,
+      "auxiliary_loss_mlp": 0.01096647,
+      "balance_loss_clip": 1.17937946,
+      "balance_loss_mlp": 1.06007397,
+      "epoch": 0.012986232189021825,
+      "flos": 23948969978880.0,
+      "grad_norm": 2.584811816029044,
+      "language_loss": 0.96511918,
+      "learning_rate": 3.3919510048344295e-06,
+      "loss": 0.99172741,
+      "num_input_tokens_seen": 2315740,
+      "step": 108,
+      "time_per_iteration": 2.856675624847412
+    },
+    {
+      "auxiliary_loss_clip": 0.01539512,
+      "auxiliary_loss_mlp": 0.01092309,
+      "balance_loss_clip": 1.17268014,
+      "balance_loss_mlp": 1.05680799,
+      "epoch": 0.013106475079660914,
+      "flos": 23725425686400.0,
+      "grad_norm": 2.8532392555189614,
+      "language_loss": 0.86634797,
+      "learning_rate": 3.3986279732976907e-06,
+      "loss": 0.89266622,
+      "num_input_tokens_seen": 2334215,
+      "step": 109,
+      "time_per_iteration": 2.800995111465454
+    },
+    {
+      "auxiliary_loss_clip": 0.01546177,
+      "auxiliary_loss_mlp": 0.01107292,
+      "balance_loss_clip": 1.17766786,
+      "balance_loss_mlp": 1.07365096,
+      "epoch": 0.013226717970300006,
+      "flos": 21102438925440.0,
+      "grad_norm": 2.0291708209078045,
+      "language_loss": 0.95501816,
+      "learning_rate": 3.4052439640284983e-06,
+      "loss": 0.98155284,
+      "num_input_tokens_seen": 2353130,
+      "step": 110,
+      "time_per_iteration": 2.7434537410736084
+    },
+    {
+      "auxiliary_loss_clip": 0.01550042,
+      "auxiliary_loss_mlp": 0.01087338,
+      "balance_loss_clip": 1.181247,
+      "balance_loss_mlp": 1.0532918,
+      "epoch": 0.013346960860939098,
+      "flos": 24863902231680.0,
+      "grad_norm": 1.729399251865375,
+      "language_loss": 0.81158888,
+      "learning_rate": 3.4118000807190217e-06,
+      "loss": 0.83796263,
+      "num_input_tokens_seen": 2374010,
+      "step": 111,
+      "time_per_iteration": 2.766143321990967
+    },
+    {
+      "auxiliary_loss_clip": 0.01542353,
+      "auxiliary_loss_mlp": 0.01093173,
+      "balance_loss_clip": 1.17392898,
+      "balance_loss_mlp": 1.05664754,
+      "epoch": 0.013467203751578187,
+      "flos": 28181940140160.0,
+      "grad_norm": 2.0396549881468,
+      "language_loss": 0.76140022,
+      "learning_rate": 3.4182973973648723e-06,
+      "loss": 0.78775549,
+      "num_input_tokens_seen": 2395220,
+      "step": 112,
+      "time_per_iteration": 2.752223014831543
+    },
+    {
+      "auxiliary_loss_clip": 0.01532672,
+      "auxiliary_loss_mlp": 0.0110173,
+      "balance_loss_clip": 1.17452121,
+      "balance_loss_mlp": 1.0682317,
+      "epoch": 0.013587446642217279,
+      "flos": 18916233546240.0,
+      "grad_norm": 6.4787845585367725,
+      "language_loss": 0.94965303,
+      "learning_rate": 3.424736959321014e-06,
+      "loss": 0.97599697,
+      "num_input_tokens_seen": 2413025,
+      "step": 113,
+      "time_per_iteration": 2.889324903488159
+    },
+    {
+      "auxiliary_loss_clip": 0.01538392,
+      "auxiliary_loss_mlp": 0.01098469,
+      "balance_loss_clip": 1.17755342,
+      "balance_loss_mlp": 1.06492329,
+      "epoch": 0.01370768953285637,
+      "flos": 23988615615360.0,
+      "grad_norm": 2.3477436381209222,
+      "language_loss": 0.88668787,
+      "learning_rate": 3.431119784311155e-06,
+      "loss": 0.91305649,
+      "num_input_tokens_seen": 2432700,
+      "step": 114,
+      "time_per_iteration": 2.7489993572235107
+    },
+    {
+      "auxiliary_loss_clip": 0.01533495,
+      "auxiliary_loss_mlp": 0.01086977,
+      "balance_loss_clip": 1.17806232,
+      "balance_loss_mlp": 1.05498135,
+      "epoch": 0.01382793242349546,
+      "flos": 39202565512320.0,
+      "grad_norm": 1.8688489861506037,
+      "language_loss": 0.7743181,
+      "learning_rate": 3.43744686339307e-06,
+      "loss": 0.8005228,
+      "num_input_tokens_seen": 2455020,
+      "step": 115,
+      "time_per_iteration": 2.8983659744262695
+    },
+    {
+      "auxiliary_loss_clip": 0.01518172,
+      "auxiliary_loss_mlp": 0.01093664,
+      "balance_loss_clip": 1.16536069,
+      "balance_loss_mlp": 1.06063104,
+      "epoch": 0.013948175314134552,
+      "flos": 41353506714240.0,
+      "grad_norm": 17.816743709766648,
+      "language_loss": 0.90690529,
+      "learning_rate": 3.44371916188212e-06,
+      "loss": 0.93302363,
+      "num_input_tokens_seen": 2475775,
+      "step": 116,
+      "time_per_iteration": 2.8805453777313232
+    },
+    {
+      "auxiliary_loss_clip": 0.01514324,
+      "auxiliary_loss_mlp": 0.01089559,
+      "balance_loss_clip": 1.1645484,
+      "balance_loss_mlp": 1.056633,
+      "epoch": 0.014068418204773643,
+      "flos": 22453542028800.0,
+      "grad_norm": 2.0513734312010774,
+      "language_loss": 0.86207402,
+      "learning_rate": 3.449937620235143e-06,
+      "loss": 0.8881129,
+      "num_input_tokens_seen": 2496370,
+      "step": 117,
+      "time_per_iteration": 2.795118570327759
+    },
+    {
+      "auxiliary_loss_clip": 0.01518491,
+      "auxiliary_loss_mlp": 0.01090708,
+      "balance_loss_clip": 1.17040884,
+      "balance_loss_mlp": 1.05904603,
+      "epoch": 0.014188661095412733,
+      "flos": 23805147922560.0,
+      "grad_norm": 1.7459716732171116,
+      "language_loss": 0.89392579,
+      "learning_rate": 3.456103154896722e-06,
+      "loss": 0.92001784,
+      "num_input_tokens_seen": 2517645,
+      "step": 118,
+      "time_per_iteration": 3.67635440826416
+    },
+    {
+      "auxiliary_loss_clip": 0.01513364,
+      "auxiliary_loss_mlp": 0.01070334,
+      "balance_loss_clip": 1.16938853,
+      "balance_loss_mlp": 1.04169989,
+      "epoch": 0.014308903986051825,
+      "flos": 23660248458240.0,
+      "grad_norm": 1.8992078059639352,
+      "language_loss": 0.92193186,
+      "learning_rate": 3.462216659109757e-06,
+      "loss": 0.94776881,
+      "num_input_tokens_seen": 2537825,
+      "step": 119,
+      "time_per_iteration": 4.614622354507446
+    },
+    {
+      "auxiliary_loss_clip": 0.01523678,
+      "auxiliary_loss_mlp": 0.01091443,
+      "balance_loss_clip": 1.17057133,
+      "balance_loss_mlp": 1.06021047,
+      "epoch": 0.014429146876690916,
+      "flos": 20667991927680.0,
+      "grad_norm": 4.188243129687955,
+      "language_loss": 0.85524547,
+      "learning_rate": 3.4682790036921077e-06,
+      "loss": 0.88139665,
+      "num_input_tokens_seen": 2556485,
+      "step": 120,
+      "time_per_iteration": 3.631289005279541
+    },
+    {
+      "auxiliary_loss_clip": 0.01495776,
+      "auxiliary_loss_mlp": 0.01095088,
+      "balance_loss_clip": 1.16473198,
+      "balance_loss_mlp": 1.06734848,
+      "epoch": 0.014549389767330006,
+      "flos": 20229199384320.0,
+      "grad_norm": 1.8787831197776652,
+      "language_loss": 0.83217287,
+      "learning_rate": 3.4742910377810193e-06,
+      "loss": 0.85808146,
+      "num_input_tokens_seen": 2573945,
+      "step": 121,
+      "time_per_iteration": 2.729886770248413
+    },
+    {
+      "auxiliary_loss_clip": 0.01497617,
+      "auxiliary_loss_mlp": 0.01105134,
+      "balance_loss_clip": 1.16217089,
+      "balance_loss_mlp": 1.07517636,
+      "epoch": 0.014669632657969098,
+      "flos": 18004174381440.0,
+      "grad_norm": 2.2572454923291194,
+      "language_loss": 0.88716537,
+      "learning_rate": 3.4802535895469042e-06,
+      "loss": 0.91319287,
+      "num_input_tokens_seen": 2592695,
+      "step": 122,
+      "time_per_iteration": 2.7558400630950928
+    },
+    {
+      "auxiliary_loss_clip": 0.01494708,
+      "auxiliary_loss_mlp": 0.01088993,
+      "balance_loss_clip": 1.1617595,
+      "balance_loss_mlp": 1.0598104,
+      "epoch": 0.01478987554860819,
+      "flos": 22741796672640.0,
+      "grad_norm": 2.1199095985242886,
+      "language_loss": 0.89521635,
+      "learning_rate": 3.4861674668779934e-06,
+      "loss": 0.92105341,
+      "num_input_tokens_seen": 2610925,
+      "step": 123,
+      "time_per_iteration": 2.7713732719421387
+    },
+    {
+      "auxiliary_loss_clip": 0.01491666,
+      "auxiliary_loss_mlp": 0.01096311,
+      "balance_loss_clip": 1.161798,
+      "balance_loss_mlp": 1.06787944,
+      "epoch": 0.01491011843924728,
+      "flos": 17198590106880.0,
+      "grad_norm": 4.078430605412225,
+      "language_loss": 0.84043062,
+      "learning_rate": 3.492033458037272e-06,
+      "loss": 0.86631036,
+      "num_input_tokens_seen": 2629495,
+      "step": 124,
+      "time_per_iteration": 2.682034492492676
+    },
+    {
+      "auxiliary_loss_clip": 0.0148585,
+      "auxiliary_loss_mlp": 0.01070758,
+      "balance_loss_clip": 1.15875173,
+      "balance_loss_mlp": 1.04282749,
+      "epoch": 0.01503036132988637,
+      "flos": 17673867889920.0,
+      "grad_norm": 2.3766289809136523,
+      "language_loss": 0.86952746,
+      "learning_rate": 3.497852332293018e-06,
+      "loss": 0.89509356,
+      "num_input_tokens_seen": 2645070,
+      "step": 125,
+      "time_per_iteration": 2.6742866039276123
+    },
+    {
+      "auxiliary_loss_clip": 0.01496098,
+      "auxiliary_loss_mlp": 0.01085887,
+      "balance_loss_clip": 1.1625849,
+      "balance_loss_mlp": 1.0575031,
+      "epoch": 0.015150604220525462,
+      "flos": 18878239935360.0,
+      "grad_norm": 3.058555880483079,
+      "language_loss": 0.96587431,
+      "learning_rate": 3.5036248405242356e-06,
+      "loss": 0.99169415,
+      "num_input_tokens_seen": 2663825,
+      "step": 126,
+      "time_per_iteration": 2.6963913440704346
+    },
+    {
+      "auxiliary_loss_clip": 0.01487041,
+      "auxiliary_loss_mlp": 0.01067958,
+      "balance_loss_clip": 1.15907121,
+      "balance_loss_mlp": 1.0418874,
+      "epoch": 0.015270847111164552,
+      "flos": 39420184060800.0,
+      "grad_norm": 2.0827096574271518,
+      "language_loss": 0.82779652,
+      "learning_rate": 3.509351715802146e-06,
+      "loss": 0.85334653,
+      "num_input_tokens_seen": 2684710,
+      "step": 127,
+      "time_per_iteration": 2.862795114517212
+    },
+    {
+      "auxiliary_loss_clip": 0.0148624,
+      "auxiliary_loss_mlp": 0.01076051,
+      "balance_loss_clip": 1.1568594,
+      "balance_loss_mlp": 1.04691672,
+      "epoch": 0.015391090001803644,
+      "flos": 43762466286720.0,
+      "grad_norm": 2.105988931544277,
+      "language_loss": 0.78418779,
+      "learning_rate": 3.5150336739488763e-06,
+      "loss": 0.8098107,
+      "num_input_tokens_seen": 2706995,
+      "step": 128,
+      "time_per_iteration": 2.9210822582244873
+    },
+    {
+      "auxiliary_loss_clip": 0.01479319,
+      "auxiliary_loss_mlp": 0.01094987,
+      "balance_loss_clip": 1.15618277,
+      "balance_loss_mlp": 1.0668416,
+      "epoch": 0.015511332892442733,
+      "flos": 18916341287040.0,
+      "grad_norm": 1.8755131379491867,
+      "language_loss": 0.84034145,
+      "learning_rate": 3.5206714140744143e-06,
+      "loss": 0.86608446,
+      "num_input_tokens_seen": 2727050,
+      "step": 129,
+      "time_per_iteration": 2.768864870071411
+    },
+    {
+      "auxiliary_loss_clip": 0.01483573,
+      "auxiliary_loss_mlp": 0.01082435,
+      "balance_loss_clip": 1.16078687,
+      "balance_loss_mlp": 1.05625713,
+      "epoch": 0.015631575783081827,
+      "flos": 24535283679360.0,
+      "grad_norm": 4.310873434187784,
+      "language_loss": 0.87491357,
+      "learning_rate": 3.5262656190928208e-06,
+      "loss": 0.90057367,
+      "num_input_tokens_seen": 2745350,
+      "step": 130,
+      "time_per_iteration": 2.747046709060669
+    },
+    {
+      "auxiliary_loss_clip": 0.01416957,
+      "auxiliary_loss_mlp": 0.01038016,
+      "balance_loss_clip": 1.21044803,
+      "balance_loss_mlp": 1.02323365,
+      "epoch": 0.015751818673720917,
+      "flos": 62328536098560.0,
+      "grad_norm": 1.0278222438858746,
+      "language_loss": 0.7146225,
+      "learning_rate": 3.5318169562186737e-06,
+      "loss": 0.73917222,
+      "num_input_tokens_seen": 2814195,
+      "step": 131,
+      "time_per_iteration": 3.300032377243042
+    },
+    {
+      "auxiliary_loss_clip": 0.01483809,
+      "auxiliary_loss_mlp": 0.01082231,
+      "balance_loss_clip": 1.15807748,
+      "balance_loss_mlp": 1.05635047,
+      "epoch": 0.015872061564360006,
+      "flos": 23878549365120.0,
+      "grad_norm": 1.8536288049340655,
+      "language_loss": 0.82085282,
+      "learning_rate": 3.5373260774446292e-06,
+      "loss": 0.84651321,
+      "num_input_tokens_seen": 2834645,
+      "step": 132,
+      "time_per_iteration": 2.7401225566864014
+    },
+    {
+      "auxiliary_loss_clip": 0.0147685,
+      "auxiliary_loss_mlp": 0.01057798,
+      "balance_loss_clip": 1.15678191,
+      "balance_loss_mlp": 1.03552938,
+      "epoch": 0.0159923044549991,
+      "flos": 23367899664000.0,
+      "grad_norm": 1.865425564022484,
+      "language_loss": 0.90146029,
+      "learning_rate": 3.542793620000961e-06,
+      "loss": 0.92680669,
+      "num_input_tokens_seen": 2854120,
+      "step": 133,
+      "time_per_iteration": 2.8912439346313477
+    },
+    {
+      "auxiliary_loss_clip": 0.01474343,
+      "auxiliary_loss_mlp": 0.01080865,
+      "balance_loss_clip": 1.15678823,
+      "balance_loss_mlp": 1.06101668,
+      "epoch": 0.01611254734563819,
+      "flos": 17858305249920.0,
+      "grad_norm": 2.581248477302466,
+      "language_loss": 0.86804879,
+      "learning_rate": 3.5482202067978894e-06,
+      "loss": 0.89360094,
+      "num_input_tokens_seen": 2871330,
+      "step": 134,
+      "time_per_iteration": 2.718918800354004
+    },
+    {
+      "auxiliary_loss_clip": 0.01468403,
+      "auxiliary_loss_mlp": 0.0107604,
+      "balance_loss_clip": 1.15394425,
+      "balance_loss_mlp": 1.05201924,
+      "epoch": 0.01623279023627728,
+      "flos": 20954774113920.0,
+      "grad_norm": 2.15312230359652,
+      "language_loss": 0.75942039,
+      "learning_rate": 3.553606446851471e-06,
+      "loss": 0.78486478,
+      "num_input_tokens_seen": 2888070,
+      "step": 135,
+      "time_per_iteration": 2.677715539932251
+    },
+    {
+      "auxiliary_loss_clip": 0.01465748,
+      "auxiliary_loss_mlp": 0.01065048,
+      "balance_loss_clip": 1.15520573,
+      "balance_loss_mlp": 1.04330444,
+      "epoch": 0.016353033126916373,
+      "flos": 15742412743680.0,
+      "grad_norm": 2.280958986165735,
+      "language_loss": 0.83494365,
+      "learning_rate": 3.5589529356937613e-06,
+      "loss": 0.86025161,
+      "num_input_tokens_seen": 2906465,
+      "step": 136,
+      "time_per_iteration": 2.6662375926971436
+    },
+    {
+      "auxiliary_loss_clip": 0.01461214,
+      "auxiliary_loss_mlp": 0.01102305,
+      "balance_loss_clip": 1.14844441,
+      "balance_loss_mlp": 1.07692552,
+      "epoch": 0.016473276017555463,
+      "flos": 18807280617600.0,
+      "grad_norm": 3.4364554014137503,
+      "language_loss": 0.77046704,
+      "learning_rate": 3.5642602557679627e-06,
+      "loss": 0.79610223,
+      "num_input_tokens_seen": 2924915,
+      "step": 137,
+      "time_per_iteration": 2.687528610229492
+    },
+    {
+      "auxiliary_loss_clip": 0.01466281,
+      "auxiliary_loss_mlp": 0.01069128,
+      "balance_loss_clip": 1.15756524,
+      "balance_loss_mlp": 1.04489279,
+      "epoch": 0.016593518908194552,
+      "flos": 24352641999360.0,
+      "grad_norm": 2.0813243110345074,
+      "language_loss": 0.84211564,
+      "learning_rate": 3.569528976809202e-06,
+      "loss": 0.86746967,
+      "num_input_tokens_seen": 2942130,
+      "step": 138,
+      "time_per_iteration": 2.6932921409606934
+    },
+    {
+      "auxiliary_loss_clip": 0.0145949,
+      "auxiliary_loss_mlp": 0.01065674,
+      "balance_loss_clip": 1.14894092,
+      "balance_loss_mlp": 1.04294038,
+      "epoch": 0.016713761798833646,
+      "flos": 22346133384960.0,
+      "grad_norm": 1.6529591911382966,
+      "language_loss": 0.89890182,
+      "learning_rate": 3.5747596562115522e-06,
+      "loss": 0.92415345,
+      "num_input_tokens_seen": 2962745,
+      "step": 139,
+      "time_per_iteration": 2.715885877609253
+    },
+    {
+      "auxiliary_loss_clip": 0.01466461,
+      "auxiliary_loss_mlp": 0.01072261,
+      "balance_loss_clip": 1.1523217,
+      "balance_loss_mlp": 1.04863334,
+      "epoch": 0.016834004689472735,
+      "flos": 17821820010240.0,
+      "grad_norm": 2.2648990804843425,
+      "language_loss": 0.90975928,
+      "learning_rate": 3.5799528393819138e-06,
+      "loss": 0.93514645,
+      "num_input_tokens_seen": 2981825,
+      "step": 140,
+      "time_per_iteration": 2.7501652240753174
+    },
+    {
+      "auxiliary_loss_clip": 0.01449983,
+      "auxiliary_loss_mlp": 0.01084381,
+      "balance_loss_clip": 1.14444661,
+      "balance_loss_mlp": 1.06135011,
+      "epoch": 0.016954247580111825,
+      "flos": 20519501103360.0,
+      "grad_norm": 2.009964765712365,
+      "language_loss": 0.88211703,
+      "learning_rate": 3.585109060081286e-06,
+      "loss": 0.90746069,
+      "num_input_tokens_seen": 3001625,
+      "step": 141,
+      "time_per_iteration": 2.712169647216797
+    },
+    {
+      "auxiliary_loss_clip": 0.01461514,
+      "auxiliary_loss_mlp": 0.01076261,
+      "balance_loss_clip": 1.14904189,
+      "balance_loss_mlp": 1.05346799,
+      "epoch": 0.017074490470750915,
+      "flos": 22088869200000.0,
+      "grad_norm": 1.9479756173064928,
+      "language_loss": 0.78453207,
+      "learning_rate": 3.590228840753992e-06,
+      "loss": 0.80990982,
+      "num_input_tokens_seen": 3022055,
+      "step": 142,
+      "time_per_iteration": 2.7825212478637695
+    },
+    {
+      "auxiliary_loss_clip": 0.01448473,
+      "auxiliary_loss_mlp": 0.01080047,
+      "balance_loss_clip": 1.14443004,
+      "balance_loss_mlp": 1.05857706,
+      "epoch": 0.01719473336139001,
+      "flos": 15997270717440.0,
+      "grad_norm": 2.1053555517245512,
+      "language_loss": 0.87140381,
+      "learning_rate": 3.5953126928453423e-06,
+      "loss": 0.89668906,
+      "num_input_tokens_seen": 3039605,
+      "step": 143,
+      "time_per_iteration": 2.674713611602783
+    },
+    {
+      "auxiliary_loss_clip": 0.01452722,
+      "auxiliary_loss_mlp": 0.01069982,
+      "balance_loss_clip": 1.14742541,
+      "balance_loss_mlp": 1.04821408,
+      "epoch": 0.017314976252029098,
+      "flos": 22492038430080.0,
+      "grad_norm": 2.2971328262229953,
+      "language_loss": 0.80525708,
+      "learning_rate": 3.600361117108239e-06,
+      "loss": 0.83048415,
+      "num_input_tokens_seen": 3059405,
+      "step": 144,
+      "time_per_iteration": 2.7032968997955322
+    },
+    {
+      "auxiliary_loss_clip": 0.01445276,
+      "auxiliary_loss_mlp": 0.01083262,
+      "balance_loss_clip": 1.14307404,
+      "balance_loss_mlp": 1.06117296,
+      "epoch": 0.017435219142668188,
+      "flos": 22018053536640.0,
+      "grad_norm": 2.166060253615211,
+      "language_loss": 0.97094035,
+      "learning_rate": 3.6053746038991616e-06,
+      "loss": 0.99622571,
+      "num_input_tokens_seen": 3078490,
+      "step": 145,
+      "time_per_iteration": 5.409006357192993
+    },
+    {
+      "auxiliary_loss_clip": 0.01359112,
+      "auxiliary_loss_mlp": 0.0100782,
+      "balance_loss_clip": 1.16963792,
+      "balance_loss_mlp": 0.99775833,
+      "epoch": 0.01755546203330728,
+      "flos": 72240526149120.0,
+      "grad_norm": 1.0563749353786351,
+      "language_loss": 0.5842849,
+      "learning_rate": 3.6103536334639843e-06,
+      "loss": 0.60795426,
+      "num_input_tokens_seen": 3131755,
+      "step": 146,
+      "time_per_iteration": 4.1931774616241455
+    },
+    {
+      "auxiliary_loss_clip": 0.01437987,
+      "auxiliary_loss_mlp": 0.01061936,
+      "balance_loss_clip": 1.14085603,
+      "balance_loss_mlp": 1.04019248,
+      "epoch": 0.01767570492394637,
+      "flos": 25337061112320.0,
+      "grad_norm": 1.9698376934976205,
+      "language_loss": 0.85410798,
+      "learning_rate": 3.615298676214041e-06,
+      "loss": 0.87910712,
+      "num_input_tokens_seen": 3152035,
+      "step": 147,
+      "time_per_iteration": 2.7616169452667236
+    },
+    {
+      "auxiliary_loss_clip": 0.01444475,
+      "auxiliary_loss_mlp": 0.01061171,
+      "balance_loss_clip": 1.14229584,
+      "balance_loss_mlp": 1.04140639,
+      "epoch": 0.01779594781458546,
+      "flos": 20449188230400.0,
+      "grad_norm": 2.0209068489637283,
+      "language_loss": 0.88885391,
+      "learning_rate": 3.6202101929928317e-06,
+      "loss": 0.91391045,
+      "num_input_tokens_seen": 3170625,
+      "step": 148,
+      "time_per_iteration": 2.738894462585449
+    },
+    {
+      "auxiliary_loss_clip": 0.01437015,
+      "auxiliary_loss_mlp": 0.01062971,
+      "balance_loss_clip": 1.14057636,
+      "balance_loss_mlp": 1.04361105,
+      "epoch": 0.017916190705224554,
+      "flos": 16253601148800.0,
+      "grad_norm": 2.0044782373441676,
+      "language_loss": 0.88486552,
+      "learning_rate": 3.6250886353337413e-06,
+      "loss": 0.90986538,
+      "num_input_tokens_seen": 3188155,
+      "step": 149,
+      "time_per_iteration": 2.7145726680755615
+    },
+    {
+      "auxiliary_loss_clip": 0.01434978,
+      "auxiliary_loss_mlp": 0.01065885,
+      "balance_loss_clip": 1.13796747,
+      "balance_loss_mlp": 1.04465437,
+      "epoch": 0.018036433595863644,
+      "flos": 23330588411520.0,
+      "grad_norm": 2.0438493123875325,
+      "language_loss": 0.8640157,
+      "learning_rate": 3.6299344457091488e-06,
+      "loss": 0.88902432,
+      "num_input_tokens_seen": 3209015,
+      "step": 150,
+      "time_per_iteration": 2.821089506149292
+    },
+    {
+      "auxiliary_loss_clip": 0.0143405,
+      "auxiliary_loss_mlp": 0.01069507,
+      "balance_loss_clip": 1.1393882,
+      "balance_loss_mlp": 1.05085123,
+      "epoch": 0.018156676486502734,
+      "flos": 18588010043520.0,
+      "grad_norm": 2.43222259332194,
+      "language_loss": 0.93902171,
+      "learning_rate": 3.634748057771256e-06,
+      "loss": 0.96405727,
+      "num_input_tokens_seen": 3224955,
+      "step": 151,
+      "time_per_iteration": 2.7888877391815186
+    },
+    {
+      "auxiliary_loss_clip": 0.01431878,
+      "auxiliary_loss_mlp": 0.01062213,
+      "balance_loss_clip": 1.13885713,
+      "balance_loss_mlp": 1.04273462,
+      "epoch": 0.018276919377141827,
+      "flos": 25448707560960.0,
+      "grad_norm": 1.6230131659021398,
+      "language_loss": 0.85562265,
+      "learning_rate": 3.639529896584965e-06,
+      "loss": 0.88056356,
+      "num_input_tokens_seen": 3246330,
+      "step": 152,
+      "time_per_iteration": 2.754772424697876
+    },
+    {
+      "auxiliary_loss_clip": 0.01430521,
+      "auxiliary_loss_mlp": 0.01068008,
+      "balance_loss_clip": 1.13825822,
+      "balance_loss_mlp": 1.05024552,
+      "epoch": 0.018397162267780917,
+      "flos": 20047311889920.0,
+      "grad_norm": 4.428381152506106,
+      "language_loss": 0.88629001,
+      "learning_rate": 3.6442803788531233e-06,
+      "loss": 0.91127527,
+      "num_input_tokens_seen": 3264290,
+      "step": 153,
+      "time_per_iteration": 2.754067897796631
+    },
+    {
+      "auxiliary_loss_clip": 0.0142838,
+      "auxiliary_loss_mlp": 0.01078111,
+      "balance_loss_clip": 1.13552761,
+      "balance_loss_mlp": 1.05876303,
+      "epoch": 0.018517405158420007,
+      "flos": 27565282425600.0,
+      "grad_norm": 7.683943058718452,
+      "language_loss": 0.96017623,
+      "learning_rate": 3.6489999131344357e-06,
+      "loss": 0.98524117,
+      "num_input_tokens_seen": 3287065,
+      "step": 154,
+      "time_per_iteration": 2.768587589263916
+    },
+    {
+      "auxiliary_loss_clip": 0.01418181,
+      "auxiliary_loss_mlp": 0.01061984,
+      "balance_loss_clip": 1.13434935,
+      "balance_loss_mlp": 1.04385233,
+      "epoch": 0.0186376480490591,
+      "flos": 19354056422400.0,
+      "grad_norm": 1.8546286018359346,
+      "language_loss": 0.9070192,
+      "learning_rate": 3.653688900054313e-06,
+      "loss": 0.93182081,
+      "num_input_tokens_seen": 3305595,
+      "step": 155,
+      "time_per_iteration": 2.6791701316833496
+    },
+    {
+      "auxiliary_loss_clip": 0.01427084,
+      "auxiliary_loss_mlp": 0.01061197,
+      "balance_loss_clip": 1.132231,
+      "balance_loss_mlp": 1.04301763,
+      "epoch": 0.01875789093969819,
+      "flos": 26687840993280.0,
+      "grad_norm": 1.9286916374199499,
+      "language_loss": 0.75992632,
+      "learning_rate": 3.6583477325089526e-06,
+      "loss": 0.78480911,
+      "num_input_tokens_seen": 3326135,
+      "step": 156,
+      "time_per_iteration": 2.7643330097198486
+    },
+    {
+      "auxiliary_loss_clip": 0.01415558,
+      "auxiliary_loss_mlp": 0.01067543,
+      "balance_loss_clip": 1.13159347,
+      "balance_loss_mlp": 1.0504601,
+      "epoch": 0.01887813383033728,
+      "flos": 24353001135360.0,
+      "grad_norm": 2.531564039369785,
+      "language_loss": 1.04289293,
+      "learning_rate": 3.6629767958628916e-06,
+      "loss": 1.06772375,
+      "num_input_tokens_seen": 3343510,
+      "step": 157,
+      "time_per_iteration": 2.7242398262023926
+    },
+    {
+      "auxiliary_loss_clip": 0.01423836,
+      "auxiliary_loss_mlp": 0.01079055,
+      "balance_loss_clip": 1.13581812,
+      "balance_loss_mlp": 1.05965948,
+      "epoch": 0.018998376720976373,
+      "flos": 14647532330880.0,
+      "grad_norm": 2.422245585224597,
+      "language_loss": 0.85496145,
+      "learning_rate": 3.667576468140291e-06,
+      "loss": 0.87999034,
+      "num_input_tokens_seen": 3361325,
+      "step": 158,
+      "time_per_iteration": 2.675607919692993
+    },
+    {
+      "auxiliary_loss_clip": 0.01414119,
+      "auxiliary_loss_mlp": 0.0105521,
+      "balance_loss_clip": 1.12814236,
+      "balance_loss_mlp": 1.03679204,
+      "epoch": 0.019118619611615463,
+      "flos": 29305261146240.0,
+      "grad_norm": 2.300903987762929,
+      "language_loss": 0.88948572,
+      "learning_rate": 3.672147120210184e-06,
+      "loss": 0.91417897,
+      "num_input_tokens_seen": 3377925,
+      "step": 159,
+      "time_per_iteration": 2.7247307300567627
+    },
+    {
+      "auxiliary_loss_clip": 0.01415551,
+      "auxiliary_loss_mlp": 0.01064295,
+      "balance_loss_clip": 1.13302207,
+      "balance_loss_mlp": 1.04609144,
+      "epoch": 0.019238862502254553,
+      "flos": 20886723797760.0,
+      "grad_norm": 2.2368126890260265,
+      "language_loss": 0.8668021,
+      "learning_rate": 3.6766891159659177e-06,
+      "loss": 0.89160055,
+      "num_input_tokens_seen": 3396335,
+      "step": 160,
+      "time_per_iteration": 2.723555326461792
+    },
+    {
+      "auxiliary_loss_clip": 0.01413066,
+      "auxiliary_loss_mlp": 0.01061471,
+      "balance_loss_clip": 1.13208127,
+      "balance_loss_mlp": 1.04416203,
+      "epoch": 0.019359105392893646,
+      "flos": 21360672777600.0,
+      "grad_norm": 3.4416405446653564,
+      "language_loss": 0.87812048,
+      "learning_rate": 3.6812028124990075e-06,
+      "loss": 0.90286589,
+      "num_input_tokens_seen": 3413605,
+      "step": 161,
+      "time_per_iteration": 2.7417805194854736
+    },
+    {
+      "auxiliary_loss_clip": 0.01410575,
+      "auxiliary_loss_mlp": 0.01072007,
+      "balance_loss_clip": 1.12930286,
+      "balance_loss_mlp": 1.05436385,
+      "epoch": 0.019479348283532736,
+      "flos": 16283729681280.0,
+      "grad_norm": 2.7778668622955753,
+      "language_loss": 0.81684864,
+      "learning_rate": 3.6856885602676016e-06,
+      "loss": 0.84167445,
+      "num_input_tokens_seen": 3429640,
+      "step": 162,
+      "time_per_iteration": 2.713186025619507
+    },
+    {
+      "auxiliary_loss_clip": 0.01413551,
+      "auxiliary_loss_mlp": 0.01063381,
+      "balance_loss_clip": 1.13031769,
+      "balance_loss_mlp": 1.04490328,
+      "epoch": 0.019599591174171826,
+      "flos": 22091239497600.0,
+      "grad_norm": 2.512429231631629,
+      "language_loss": 0.94595498,
+      "learning_rate": 3.6901467032597733e-06,
+      "loss": 0.97072428,
+      "num_input_tokens_seen": 3448125,
+      "step": 163,
+      "time_per_iteration": 2.785623788833618
+    },
+    {
+      "auxiliary_loss_clip": 0.0141156,
+      "auxiliary_loss_mlp": 0.01063343,
+      "balance_loss_clip": 1.12859368,
+      "balance_loss_mlp": 1.0467726,
+      "epoch": 0.01971983406481092,
+      "flos": 19609668581760.0,
+      "grad_norm": 2.5105230218464922,
+      "language_loss": 0.87361419,
+      "learning_rate": 3.694577579151804e-06,
+      "loss": 0.89836323,
+      "num_input_tokens_seen": 3466535,
+      "step": 164,
+      "time_per_iteration": 2.6948752403259277
+    },
+    {
+      "auxiliary_loss_clip": 0.01407608,
+      "auxiliary_loss_mlp": 0.01061692,
+      "balance_loss_clip": 1.12537348,
+      "balance_loss_mlp": 1.04406059,
+      "epoch": 0.01984007695545001,
+      "flos": 19099342103040.0,
+      "grad_norm": 2.9043137236240333,
+      "language_loss": 0.73799461,
+      "learning_rate": 3.6989815194616703e-06,
+      "loss": 0.76268762,
+      "num_input_tokens_seen": 3483730,
+      "step": 165,
+      "time_per_iteration": 2.7205522060394287
+    },
+    {
+      "auxiliary_loss_clip": 0.01410042,
+      "auxiliary_loss_mlp": 0.01070892,
+      "balance_loss_clip": 1.12655973,
+      "balance_loss_mlp": 1.05224764,
+      "epoch": 0.0199603198460891,
+      "flos": 20848406964480.0,
+      "grad_norm": 2.2098774399712293,
+      "language_loss": 0.79934692,
+      "learning_rate": 3.703358849697888e-06,
+      "loss": 0.82415628,
+      "num_input_tokens_seen": 3503640,
+      "step": 166,
+      "time_per_iteration": 2.775329828262329
+    },
+    {
+      "auxiliary_loss_clip": 0.01405553,
+      "auxiliary_loss_mlp": 0.01061662,
+      "balance_loss_clip": 1.12666273,
+      "balance_loss_mlp": 1.04553354,
+      "epoch": 0.020080562736728192,
+      "flos": 21870747861120.0,
+      "grad_norm": 1.8519501446835394,
+      "language_loss": 0.82693487,
+      "learning_rate": 3.7077098895038803e-06,
+      "loss": 0.85160702,
+      "num_input_tokens_seen": 3523010,
+      "step": 167,
+      "time_per_iteration": 2.716157913208008
+    },
+    {
+      "auxiliary_loss_clip": 0.01405052,
+      "auxiliary_loss_mlp": 0.01067625,
+      "balance_loss_clip": 1.12670302,
+      "balance_loss_mlp": 1.04968452,
+      "epoch": 0.020200805627367282,
+      "flos": 21688788539520.0,
+      "grad_norm": 25.128506044402435,
+      "language_loss": 0.97213089,
+      "learning_rate": 3.712034952798045e-06,
+      "loss": 0.99685764,
+      "num_input_tokens_seen": 3541125,
+      "step": 168,
+      "time_per_iteration": 2.6387271881103516
+    },
+    {
+      "auxiliary_loss_clip": 0.01400073,
+      "auxiliary_loss_mlp": 0.01071394,
+      "balance_loss_clip": 1.11867595,
+      "balance_loss_mlp": 1.05246353,
+      "epoch": 0.02032104851800637,
+      "flos": 33543043729920.0,
+      "grad_norm": 2.2986720030803633,
+      "language_loss": 0.84620273,
+      "learning_rate": 3.7163343479096656e-06,
+      "loss": 0.87091744,
+      "num_input_tokens_seen": 3562700,
+      "step": 169,
+      "time_per_iteration": 2.7436635494232178
+    },
+    {
+      "auxiliary_loss_clip": 0.01403319,
+      "auxiliary_loss_mlp": 0.0105648,
+      "balance_loss_clip": 1.12668514,
+      "balance_loss_mlp": 1.04021978,
+      "epoch": 0.020441291408645465,
+      "flos": 31686965274240.0,
+      "grad_norm": 2.2496263833537054,
+      "language_loss": 0.82828194,
+      "learning_rate": 3.720608377710802e-06,
+      "loss": 0.85288,
+      "num_input_tokens_seen": 3582790,
+      "step": 170,
+      "time_per_iteration": 2.7517659664154053
+    },
+    {
+      "auxiliary_loss_clip": 0.01396984,
+      "auxiliary_loss_mlp": 0.01059674,
+      "balance_loss_clip": 1.12128234,
+      "balance_loss_mlp": 1.04191172,
+      "epoch": 0.020561534299284555,
+      "flos": 20886687884160.0,
+      "grad_norm": 2.095020631789394,
+      "language_loss": 0.86895978,
+      "learning_rate": 3.7248573397443277e-06,
+      "loss": 0.89352632,
+      "num_input_tokens_seen": 3601715,
+      "step": 171,
+      "time_per_iteration": 4.565625190734863
+    },
+    {
+      "auxiliary_loss_clip": 0.01397484,
+      "auxiliary_loss_mlp": 0.01067238,
+      "balance_loss_clip": 1.12252712,
+      "balance_loss_mlp": 1.05021477,
+      "epoch": 0.020681777189923645,
+      "flos": 20996610480000.0,
+      "grad_norm": 2.2087237760096246,
+      "language_loss": 0.97688687,
+      "learning_rate": 3.729081526348224e-06,
+      "loss": 1.0015341,
+      "num_input_tokens_seen": 3620245,
+      "step": 172,
+      "time_per_iteration": 4.567037343978882
+    },
+    {
+      "auxiliary_loss_clip": 0.01394605,
+      "auxiliary_loss_mlp": 0.01061142,
+      "balance_loss_clip": 1.11858273,
+      "balance_loss_mlp": 1.04301059,
+      "epoch": 0.020802020080562738,
+      "flos": 28257532312320.0,
+      "grad_norm": 1.9404563877451293,
+      "language_loss": 0.85078949,
+      "learning_rate": 3.7332812247762777e-06,
+      "loss": 0.87534696,
+      "num_input_tokens_seen": 3641545,
+      "step": 173,
+      "time_per_iteration": 2.8146612644195557
+    },
+    {
+      "auxiliary_loss_clip": 0.01400134,
+      "auxiliary_loss_mlp": 0.0106133,
+      "balance_loss_clip": 1.12523079,
+      "balance_loss_mlp": 1.04408073,
+      "epoch": 0.020922262971201828,
+      "flos": 19681274344320.0,
+      "grad_norm": 2.5169736208016418,
+      "language_loss": 0.95642328,
+      "learning_rate": 3.737456717315293e-06,
+      "loss": 0.98103791,
+      "num_input_tokens_seen": 3660510,
+      "step": 174,
+      "time_per_iteration": 2.7653772830963135
+    },
+    {
+      "auxiliary_loss_clip": 0.01399486,
+      "auxiliary_loss_mlp": 0.01055188,
+      "balance_loss_clip": 1.12655938,
+      "balance_loss_mlp": 1.03868914,
+      "epoch": 0.021042505861840918,
+      "flos": 15666353694720.0,
+      "grad_norm": 1.7503080453917685,
+      "language_loss": 0.90720505,
+      "learning_rate": 3.7416082813989552e-06,
+      "loss": 0.93175179,
+      "num_input_tokens_seen": 3677505,
+      "step": 175,
+      "time_per_iteration": 2.6905086040496826
+    },
+    {
+      "auxiliary_loss_clip": 0.01391165,
+      "auxiliary_loss_mlp": 0.0106623,
+      "balance_loss_clip": 1.11714315,
+      "balance_loss_mlp": 1.04993963,
+      "epoch": 0.02116274875248001,
+      "flos": 21142012734720.0,
+      "grad_norm": 1.976102758694034,
+      "language_loss": 0.89392883,
+      "learning_rate": 3.745736189718439e-06,
+      "loss": 0.91850281,
+      "num_input_tokens_seen": 3696760,
+      "step": 176,
+      "time_per_iteration": 2.882361650466919
+    },
+    {
+      "auxiliary_loss_clip": 0.01382646,
+      "auxiliary_loss_mlp": 0.01051036,
+      "balance_loss_clip": 1.11569095,
+      "balance_loss_mlp": 1.03627765,
+      "epoch": 0.0212829916431191,
+      "flos": 24715770543360.0,
+      "grad_norm": 3.26847303379397,
+      "language_loss": 0.72656226,
+      "learning_rate": 3.749840710329894e-06,
+      "loss": 0.75089908,
+      "num_input_tokens_seen": 3717465,
+      "step": 177,
+      "time_per_iteration": 2.734989881515503
+    },
+    {
+      "auxiliary_loss_clip": 0.01390623,
+      "auxiliary_loss_mlp": 0.01063766,
+      "balance_loss_clip": 1.11795354,
+      "balance_loss_mlp": 1.04640961,
+      "epoch": 0.02140323453375819,
+      "flos": 16645493508480.0,
+      "grad_norm": 4.336749990755572,
+      "language_loss": 0.97878122,
+      "learning_rate": 3.7539221067588938e-06,
+      "loss": 1.0033251,
+      "num_input_tokens_seen": 3731440,
+      "step": 178,
+      "time_per_iteration": 2.7055039405822754
+    },
+    {
+      "auxiliary_loss_clip": 0.01392564,
+      "auxiliary_loss_mlp": 0.01068662,
+      "balance_loss_clip": 1.11945987,
+      "balance_loss_mlp": 1.05067301,
+      "epoch": 0.021523477424397284,
+      "flos": 20299332689280.0,
+      "grad_norm": 3.994200438427755,
+      "language_loss": 0.93881255,
+      "learning_rate": 3.757980638101964e-06,
+      "loss": 0.9634248,
+      "num_input_tokens_seen": 3744935,
+      "step": 179,
+      "time_per_iteration": 2.691927909851074
+    },
+    {
+      "auxiliary_loss_clip": 0.01389032,
+      "auxiliary_loss_mlp": 0.01067118,
+      "balance_loss_clip": 1.11620402,
+      "balance_loss_mlp": 1.04968929,
+      "epoch": 0.021643720315036374,
+      "flos": 26104005331200.0,
+      "grad_norm": 2.4164055507800373,
+      "language_loss": 0.89565539,
+      "learning_rate": 3.7620165591252806e-06,
+      "loss": 0.92021692,
+      "num_input_tokens_seen": 3763035,
+      "step": 180,
+      "time_per_iteration": 2.7967936992645264
+    },
+    {
+      "auxiliary_loss_clip": 0.01385167,
+      "auxiliary_loss_mlp": 0.0107803,
+      "balance_loss_clip": 1.11710668,
+      "balance_loss_mlp": 1.06089926,
+      "epoch": 0.021763963205675464,
+      "flos": 24787663614720.0,
+      "grad_norm": 1.9982514701464826,
+      "language_loss": 0.94487631,
+      "learning_rate": 3.766030120360636e-06,
+      "loss": 0.96950829,
+      "num_input_tokens_seen": 3782665,
+      "step": 181,
+      "time_per_iteration": 2.6932241916656494
+    },
+    {
+      "auxiliary_loss_clip": 0.0137958,
+      "auxiliary_loss_mlp": 0.01064429,
+      "balance_loss_clip": 1.11325932,
+      "balance_loss_mlp": 1.04546261,
+      "epoch": 0.021884206096314557,
+      "flos": 25813559957760.0,
+      "grad_norm": 2.396504573475085,
+      "language_loss": 0.90217137,
+      "learning_rate": 3.7700215681987578e-06,
+      "loss": 0.92661148,
+      "num_input_tokens_seen": 3802435,
+      "step": 182,
+      "time_per_iteration": 2.804126262664795
+    },
+    {
+      "auxiliary_loss_clip": 0.01383077,
+      "auxiliary_loss_mlp": 0.01053563,
+      "balance_loss_clip": 1.11561561,
+      "balance_loss_mlp": 1.03712416,
+      "epoch": 0.022004448986953647,
+      "flos": 20082719721600.0,
+      "grad_norm": 1.7716518309737963,
+      "language_loss": 0.82278413,
+      "learning_rate": 3.7739911449800767e-06,
+      "loss": 0.84715044,
+      "num_input_tokens_seen": 3822490,
+      "step": 183,
+      "time_per_iteration": 2.6714985370635986
+    },
+    {
+      "auxiliary_loss_clip": 0.01388719,
+      "auxiliary_loss_mlp": 0.01065039,
+      "balance_loss_clip": 1.1168859,
+      "balance_loss_mlp": 1.0480274,
+      "epoch": 0.022124691877592736,
+      "flos": 20480609652480.0,
+      "grad_norm": 2.8711278327893854,
+      "language_loss": 0.80891806,
+      "learning_rate": 3.7779390890830114e-06,
+      "loss": 0.83345556,
+      "num_input_tokens_seen": 3841140,
+      "step": 184,
+      "time_per_iteration": 2.760399103164673
+    },
+    {
+      "auxiliary_loss_clip": 0.01381139,
+      "auxiliary_loss_mlp": 0.01059113,
+      "balance_loss_clip": 1.11276412,
+      "balance_loss_mlp": 1.04349649,
+      "epoch": 0.02224493476823183,
+      "flos": 23586847015680.0,
+      "grad_norm": 1.7533705167742542,
+      "language_loss": 0.85867763,
+      "learning_rate": 3.7818656350098723e-06,
+      "loss": 0.88308012,
+      "num_input_tokens_seen": 3862090,
+      "step": 185,
+      "time_per_iteration": 2.721395492553711
+    },
+    {
+      "auxiliary_loss_clip": 0.01377071,
+      "auxiliary_loss_mlp": 0.01055663,
+      "balance_loss_clip": 1.1111989,
+      "balance_loss_mlp": 1.03858089,
+      "epoch": 0.02236517765887092,
+      "flos": 16909940413440.0,
+      "grad_norm": 2.758267755328107,
+      "language_loss": 0.77204657,
+      "learning_rate": 3.7857710134704447e-06,
+      "loss": 0.79637384,
+      "num_input_tokens_seen": 3881025,
+      "step": 186,
+      "time_per_iteration": 2.70103120803833
+    },
+    {
+      "auxiliary_loss_clip": 0.01375348,
+      "auxiliary_loss_mlp": 0.01062702,
+      "balance_loss_clip": 1.11230755,
+      "balance_loss_mlp": 1.04673982,
+      "epoch": 0.02248542054951001,
+      "flos": 43508182930560.0,
+      "grad_norm": 1.968219860555976,
+      "language_loss": 0.792768,
+      "learning_rate": 3.7896554514633234e-06,
+      "loss": 0.81714857,
+      "num_input_tokens_seen": 3905310,
+      "step": 187,
+      "time_per_iteration": 3.0431885719299316
+    },
+    {
+      "auxiliary_loss_clip": 0.01373514,
+      "auxiliary_loss_mlp": 0.01062586,
+      "balance_loss_clip": 1.11188579,
+      "balance_loss_mlp": 1.04693401,
+      "epoch": 0.022605663440149103,
+      "flos": 23367648268800.0,
+      "grad_norm": 2.028903452549462,
+      "language_loss": 0.84118307,
+      "learning_rate": 3.7935191723550955e-06,
+      "loss": 0.86554408,
+      "num_input_tokens_seen": 3924265,
+      "step": 188,
+      "time_per_iteration": 2.8781771659851074
+    },
+    {
+      "auxiliary_loss_clip": 0.01371959,
+      "auxiliary_loss_mlp": 0.01071444,
+      "balance_loss_clip": 1.11061752,
+      "balance_loss_mlp": 1.0558511,
+      "epoch": 0.022725906330788193,
+      "flos": 29019915504000.0,
+      "grad_norm": 2.2517496607355416,
+      "language_loss": 0.88799286,
+      "learning_rate": 3.797362395957408e-06,
+      "loss": 0.91242695,
+      "num_input_tokens_seen": 3944830,
+      "step": 189,
+      "time_per_iteration": 2.7573230266571045
+    },
+    {
+      "auxiliary_loss_clip": 0.01377779,
+      "auxiliary_loss_mlp": 0.010653,
+      "balance_loss_clip": 1.11333621,
+      "balance_loss_mlp": 1.04911172,
+      "epoch": 0.022846149221427282,
+      "flos": 24496176746880.0,
+      "grad_norm": 2.12988571339474,
+      "language_loss": 0.781654,
+      "learning_rate": 3.8011853386020055e-06,
+      "loss": 0.80608475,
+      "num_input_tokens_seen": 3965735,
+      "step": 190,
+      "time_per_iteration": 2.7418322563171387
+    },
+    {
+      "auxiliary_loss_clip": 0.0137102,
+      "auxiliary_loss_mlp": 0.01059666,
+      "balance_loss_clip": 1.10992217,
+      "balance_loss_mlp": 1.0445503,
+      "epoch": 0.022966392112066376,
+      "flos": 15523537219200.0,
+      "grad_norm": 2.8819206628413587,
+      "language_loss": 0.89627492,
+      "learning_rate": 3.804988213213804e-06,
+      "loss": 0.92058176,
+      "num_input_tokens_seen": 3983975,
+      "step": 191,
+      "time_per_iteration": 2.713193893432617
+    },
+    {
+      "auxiliary_loss_clip": 0.01321368,
+      "auxiliary_loss_mlp": 0.01012341,
+      "balance_loss_clip": 1.15047002,
+      "balance_loss_mlp": 1.00547409,
+      "epoch": 0.023086635002705466,
+      "flos": 55650408433920.0,
+      "grad_norm": 1.014760996274798,
+      "language_loss": 0.63178027,
+      "learning_rate": 3.808771229382049e-06,
+      "loss": 0.65511739,
+      "num_input_tokens_seen": 4043440,
+      "step": 192,
+      "time_per_iteration": 3.167344808578491
+    },
+    {
+      "auxiliary_loss_clip": 0.01375371,
+      "auxiliary_loss_mlp": 0.01061787,
+      "balance_loss_clip": 1.1120429,
+      "balance_loss_mlp": 1.04638493,
+      "epoch": 0.023206877893344555,
+      "flos": 19313441118720.0,
+      "grad_norm": 2.6705511444070495,
+      "language_loss": 0.84686369,
+      "learning_rate": 3.8125345934296324e-06,
+      "loss": 0.87123525,
+      "num_input_tokens_seen": 4061750,
+      "step": 193,
+      "time_per_iteration": 2.7078335285186768
+    },
+    {
+      "auxiliary_loss_clip": 0.01369603,
+      "auxiliary_loss_mlp": 0.01062176,
+      "balance_loss_clip": 1.10704875,
+      "balance_loss_mlp": 1.04627967,
+      "epoch": 0.02332712078398365,
+      "flos": 23072965090560.0,
+      "grad_norm": 2.106540662265893,
+      "language_loss": 0.87939942,
+      "learning_rate": 3.81627850848061e-06,
+      "loss": 0.90371728,
+      "num_input_tokens_seen": 4082345,
+      "step": 194,
+      "time_per_iteration": 2.7206146717071533
+    },
+    {
+      "auxiliary_loss_clip": 0.01367923,
+      "auxiliary_loss_mlp": 0.01053361,
+      "balance_loss_clip": 1.10837293,
+      "balance_loss_mlp": 1.03829265,
+      "epoch": 0.02344736367462274,
+      "flos": 24425971614720.0,
+      "grad_norm": 2.4369839338344965,
+      "language_loss": 0.86395639,
+      "learning_rate": 3.820003174525994e-06,
+      "loss": 0.88816917,
+      "num_input_tokens_seen": 4101770,
+      "step": 195,
+      "time_per_iteration": 2.6707067489624023
+    },
+    {
+      "auxiliary_loss_clip": 0.01368594,
+      "auxiliary_loss_mlp": 0.01058498,
+      "balance_loss_clip": 1.10968137,
+      "balance_loss_mlp": 1.0433104,
+      "epoch": 0.02356760656526183,
+      "flos": 21579799697280.0,
+      "grad_norm": 2.3844778636094786,
+      "language_loss": 0.82746482,
+      "learning_rate": 3.823708788487851e-06,
+      "loss": 0.85173577,
+      "num_input_tokens_seen": 4118770,
+      "step": 196,
+      "time_per_iteration": 2.773864507675171
+    },
+    {
+      "auxiliary_loss_clip": 0.01364825,
+      "auxiliary_loss_mlp": 0.01056981,
+      "balance_loss_clip": 1.10823083,
+      "balance_loss_mlp": 1.04286647,
+      "epoch": 0.02368784945590092,
+      "flos": 25193598192000.0,
+      "grad_norm": 1.947127639789531,
+      "language_loss": 0.84669024,
+      "learning_rate": 3.827395544281781e-06,
+      "loss": 0.87090832,
+      "num_input_tokens_seen": 4141110,
+      "step": 197,
+      "time_per_iteration": 2.736971616744995
+    },
+    {
+      "auxiliary_loss_clip": 0.01369052,
+      "auxiliary_loss_mlp": 0.01059501,
+      "balance_loss_clip": 1.11097777,
+      "balance_loss_mlp": 1.04407549,
+      "epoch": 0.02380809234654001,
+      "flos": 27562481164800.0,
+      "grad_norm": 1.9203811047886539,
+      "language_loss": 0.78950226,
+      "learning_rate": 3.831063632877802e-06,
+      "loss": 0.81378782,
+      "num_input_tokens_seen": 4161430,
+      "step": 198,
+      "time_per_iteration": 4.62250828742981
+    },
+    {
+      "auxiliary_loss_clip": 0.01370298,
+      "auxiliary_loss_mlp": 0.01056398,
+      "balance_loss_clip": 1.11475766,
+      "balance_loss_mlp": 1.04226017,
+      "epoch": 0.0239283352371791,
+      "flos": 18259786540800.0,
+      "grad_norm": 2.6139292135865393,
+      "language_loss": 0.75942528,
+      "learning_rate": 3.834713242359712e-06,
+      "loss": 0.78369224,
+      "num_input_tokens_seen": 4179260,
+      "step": 199,
+      "time_per_iteration": 3.58005428314209
+    },
+    {
+      "auxiliary_loss_clip": 0.01365847,
+      "auxiliary_loss_mlp": 0.01060264,
+      "balance_loss_clip": 1.10648704,
+      "balance_loss_mlp": 1.0441227,
+      "epoch": 0.02404857812781819,
+      "flos": 21395110942080.0,
+      "grad_norm": 3.143066947586685,
+      "language_loss": 0.87106884,
+      "learning_rate": 3.838344557982959e-06,
+      "loss": 0.89532995,
+      "num_input_tokens_seen": 4200640,
+      "step": 200,
+      "time_per_iteration": 2.7053656578063965
+    },
+    {
+      "auxiliary_loss_clip": 0.01357324,
+      "auxiliary_loss_mlp": 0.01062096,
+      "balance_loss_clip": 1.10248566,
+      "balance_loss_mlp": 1.04814887,
+      "epoch": 0.024168821018457284,
+      "flos": 16654256426880.0,
+      "grad_norm": 3.1236754245402794,
+      "language_loss": 0.84376091,
+      "learning_rate": 3.841957762231063e-06,
+      "loss": 0.86795509,
+      "num_input_tokens_seen": 4218170,
+      "step": 201,
+      "time_per_iteration": 2.701277256011963
+    },
+    {
+      "auxiliary_loss_clip": 0.01357486,
+      "auxiliary_loss_mlp": 0.01053472,
+      "balance_loss_clip": 1.10162556,
+      "balance_loss_mlp": 1.03796268,
+      "epoch": 0.024289063909096374,
+      "flos": 22820872464000.0,
+      "grad_norm": 1.9935856315476568,
+      "language_loss": 0.87764692,
+      "learning_rate": 3.8455530348706454e-06,
+      "loss": 0.90175653,
+      "num_input_tokens_seen": 4237770,
+      "step": 202,
+      "time_per_iteration": 2.708739995956421
+    },
+    {
+      "auxiliary_loss_clip": 0.01363511,
+      "auxiliary_loss_mlp": 0.01050405,
+      "balance_loss_clip": 1.1098907,
+      "balance_loss_mlp": 1.03573084,
+      "epoch": 0.024409306799735464,
+      "flos": 17748598135680.0,
+      "grad_norm": 2.1015233338579797,
+      "language_loss": 0.77252632,
+      "learning_rate": 3.849130553005099e-06,
+      "loss": 0.79666549,
+      "num_input_tokens_seen": 4255985,
+      "step": 203,
+      "time_per_iteration": 2.691192388534546
+    },
+    {
+      "auxiliary_loss_clip": 0.01361008,
+      "auxiliary_loss_mlp": 0.01054209,
+      "balance_loss_clip": 1.1058358,
+      "balance_loss_mlp": 1.03908122,
+      "epoch": 0.024529549690374557,
+      "flos": 21616213109760.0,
+      "grad_norm": 1.7481070008999944,
+      "language_loss": 0.83719546,
+      "learning_rate": 3.852690491126933e-06,
+      "loss": 0.86134768,
+      "num_input_tokens_seen": 4276035,
+      "step": 204,
+      "time_per_iteration": 2.7284510135650635
+    },
+    {
+      "auxiliary_loss_clip": 0.01362711,
+      "auxiliary_loss_mlp": 0.01061187,
+      "balance_loss_clip": 1.10587502,
+      "balance_loss_mlp": 1.04603553,
+      "epoch": 0.024649792581013647,
+      "flos": 25551662918400.0,
+      "grad_norm": 3.1750541450046716,
+      "language_loss": 0.91069967,
+      "learning_rate": 3.856233021168845e-06,
+      "loss": 0.93493867,
+      "num_input_tokens_seen": 4295730,
+      "step": 205,
+      "time_per_iteration": 2.737128496170044
+    },
+    {
+      "auxiliary_loss_clip": 0.01350741,
+      "auxiliary_loss_mlp": 0.01054018,
+      "balance_loss_clip": 1.10084009,
+      "balance_loss_mlp": 1.03959942,
+      "epoch": 0.024770035471652737,
+      "flos": 34495574544000.0,
+      "grad_norm": 2.2293687470857555,
+      "language_loss": 0.91149247,
+      "learning_rate": 3.859758312553544e-06,
+      "loss": 0.93554008,
+      "num_input_tokens_seen": 4317950,
+      "step": 206,
+      "time_per_iteration": 2.807807207107544
+    },
+    {
+      "auxiliary_loss_clip": 0.01360609,
+      "auxiliary_loss_mlp": 0.01055406,
+      "balance_loss_clip": 1.10787773,
+      "balance_loss_mlp": 1.04027796,
+      "epoch": 0.02489027836229183,
+      "flos": 21505428587520.0,
+      "grad_norm": 1.7990226888444933,
+      "language_loss": 0.91946191,
+      "learning_rate": 3.8632665322423735e-06,
+      "loss": 0.94362211,
+      "num_input_tokens_seen": 4337605,
+      "step": 207,
+      "time_per_iteration": 2.6524860858917236
+    },
+    {
+      "auxiliary_loss_clip": 0.01353387,
+      "auxiliary_loss_mlp": 0.01056676,
+      "balance_loss_clip": 1.10148585,
+      "balance_loss_mlp": 1.04231119,
+      "epoch": 0.02501052125293092,
+      "flos": 23219013790080.0,
+      "grad_norm": 2.426966164429914,
+      "language_loss": 0.85860586,
+      "learning_rate": 3.866757844782762e-06,
+      "loss": 0.88270652,
+      "num_input_tokens_seen": 4358110,
+      "step": 208,
+      "time_per_iteration": 2.726747512817383
+    },
+    {
+      "auxiliary_loss_clip": 0.01356936,
+      "auxiliary_loss_mlp": 0.01061816,
+      "balance_loss_clip": 1.10407984,
+      "balance_loss_mlp": 1.0471828,
+      "epoch": 0.02513076414357001,
+      "flos": 26388920010240.0,
+      "grad_norm": 2.2159538458786554,
+      "language_loss": 0.91186011,
+      "learning_rate": 3.870232412354527e-06,
+      "loss": 0.93604761,
+      "num_input_tokens_seen": 4374955,
+      "step": 209,
+      "time_per_iteration": 2.703935384750366
+    },
+    {
+      "auxiliary_loss_clip": 0.01355846,
+      "auxiliary_loss_mlp": 0.01049512,
+      "balance_loss_clip": 1.10270393,
+      "balance_loss_mlp": 1.03458667,
+      "epoch": 0.025251007034209103,
+      "flos": 13590430047360.0,
+      "grad_norm": 1.9343410711817621,
+      "language_loss": 0.92597818,
+      "learning_rate": 3.873690394815086e-06,
+      "loss": 0.95003182,
+      "num_input_tokens_seen": 4391535,
+      "step": 210,
+      "time_per_iteration": 2.6869688034057617
+    },
+    {
+      "auxiliary_loss_clip": 0.01352364,
+      "auxiliary_loss_mlp": 0.01064584,
+      "balance_loss_clip": 1.0998311,
+      "balance_loss_mlp": 1.04877687,
+      "epoch": 0.025371249924848193,
+      "flos": 15049229103360.0,
+      "grad_norm": 2.250389026877228,
+      "language_loss": 0.91373515,
+      "learning_rate": 3.877131949743587e-06,
+      "loss": 0.93790466,
+      "num_input_tokens_seen": 4408400,
+      "step": 211,
+      "time_per_iteration": 2.6407101154327393
+    },
+    {
+      "auxiliary_loss_clip": 0.01350895,
+      "auxiliary_loss_mlp": 0.01060625,
+      "balance_loss_clip": 1.09955192,
+      "balance_loss_mlp": 1.04549754,
+      "epoch": 0.025491492815487283,
+      "flos": 25553853648000.0,
+      "grad_norm": 2.116202532507836,
+      "language_loss": 0.77923107,
+      "learning_rate": 3.880557232483993e-06,
+      "loss": 0.80334628,
+      "num_input_tokens_seen": 4427840,
+      "step": 212,
+      "time_per_iteration": 2.727445602416992
+    },
+    {
+      "auxiliary_loss_clip": 0.01355653,
+      "auxiliary_loss_mlp": 0.01073516,
+      "balance_loss_clip": 1.10165727,
+      "balance_loss_mlp": 1.05766141,
+      "epoch": 0.025611735706126376,
+      "flos": 20630752502400.0,
+      "grad_norm": 2.305281130286858,
+      "language_loss": 0.86760783,
+      "learning_rate": 3.883966396187164e-06,
+      "loss": 0.89189953,
+      "num_input_tokens_seen": 4447110,
+      "step": 213,
+      "time_per_iteration": 2.6865460872650146
+    },
+    {
+      "auxiliary_loss_clip": 0.01353221,
+      "auxiliary_loss_mlp": 0.01058073,
+      "balance_loss_clip": 1.10262012,
+      "balance_loss_mlp": 1.0430764,
+      "epoch": 0.025731978596765466,
+      "flos": 19062282245760.0,
+      "grad_norm": 1.9109290989689054,
+      "language_loss": 0.90084136,
+      "learning_rate": 3.887359591851937e-06,
+      "loss": 0.92495435,
+      "num_input_tokens_seen": 4464715,
+      "step": 214,
+      "time_per_iteration": 2.679037570953369
+    },
+    {
+      "auxiliary_loss_clip": 0.01350696,
+      "auxiliary_loss_mlp": 0.01052534,
+      "balance_loss_clip": 1.10145235,
+      "balance_loss_mlp": 1.03920698,
+      "epoch": 0.025852221487404556,
+      "flos": 22163814927360.0,
+      "grad_norm": 1.6416418831948538,
+      "language_loss": 0.92327261,
+      "learning_rate": 3.890736968365265e-06,
+      "loss": 0.94730484,
+      "num_input_tokens_seen": 4485030,
+      "step": 215,
+      "time_per_iteration": 2.6640326976776123
+    },
+    {
+      "auxiliary_loss_clip": 0.01351373,
+      "auxiliary_loss_mlp": 0.01056772,
+      "balance_loss_clip": 1.1015085,
+      "balance_loss_mlp": 1.04218125,
+      "epoch": 0.02597246437804365,
+      "flos": 26541971861760.0,
+      "grad_norm": 9.460204320478706,
+      "language_loss": 0.84868574,
+      "learning_rate": 3.894098672541412e-06,
+      "loss": 0.87276721,
+      "num_input_tokens_seen": 4505935,
+      "step": 216,
+      "time_per_iteration": 2.7159528732299805
+    },
+    {
+      "auxiliary_loss_clip": 0.0134702,
+      "auxiliary_loss_mlp": 0.01054774,
+      "balance_loss_clip": 1.0973264,
+      "balance_loss_mlp": 1.03920507,
+      "epoch": 0.02609270726868274,
+      "flos": 32671671696000.0,
+      "grad_norm": 2.052670679499285,
+      "language_loss": 0.75290227,
+      "learning_rate": 3.89744484916025e-06,
+      "loss": 0.7769202,
+      "num_input_tokens_seen": 4527045,
+      "step": 217,
+      "time_per_iteration": 2.7957708835601807
+    },
+    {
+      "auxiliary_loss_clip": 0.01350511,
+      "auxiliary_loss_mlp": 0.01056168,
+      "balance_loss_clip": 1.09916961,
+      "balance_loss_mlp": 1.04079044,
+      "epoch": 0.02621295015932183,
+      "flos": 26243553669120.0,
+      "grad_norm": 2.166026634929153,
+      "language_loss": 0.87481594,
+      "learning_rate": 3.900775641004673e-06,
+      "loss": 0.89888275,
+      "num_input_tokens_seen": 4546360,
+      "step": 218,
+      "time_per_iteration": 2.842043399810791
+    },
+    {
+      "auxiliary_loss_clip": 0.01358814,
+      "auxiliary_loss_mlp": 0.01054375,
+      "balance_loss_clip": 1.10299373,
+      "balance_loss_mlp": 1.03864563,
+      "epoch": 0.026333193049960922,
+      "flos": 42921402353280.0,
+      "grad_norm": 2.7244196739388435,
+      "language_loss": 0.74189711,
+      "learning_rate": 3.904091188897156e-06,
+      "loss": 0.76602906,
+      "num_input_tokens_seen": 4565495,
+      "step": 219,
+      "time_per_iteration": 2.8627712726593018
+    },
+    {
+      "auxiliary_loss_clip": 0.01350067,
+      "auxiliary_loss_mlp": 0.0105667,
+      "balance_loss_clip": 1.10173917,
+      "balance_loss_mlp": 1.04225791,
+      "epoch": 0.026453435940600012,
+      "flos": 17963846386560.0,
+      "grad_norm": 2.115099690714036,
+      "language_loss": 0.81795448,
+      "learning_rate": 3.90739163173548e-06,
+      "loss": 0.84202194,
+      "num_input_tokens_seen": 4583330,
+      "step": 220,
+      "time_per_iteration": 2.6409943103790283
+    },
+    {
+      "auxiliary_loss_clip": 0.01347996,
+      "auxiliary_loss_mlp": 0.01051823,
+      "balance_loss_clip": 1.09861612,
+      "balance_loss_mlp": 1.03819704,
+      "epoch": 0.026573678831239102,
+      "flos": 18984319776000.0,
+      "grad_norm": 2.4989597652970623,
+      "language_loss": 0.88617784,
+      "learning_rate": 3.910677106527646e-06,
+      "loss": 0.91017604,
+      "num_input_tokens_seen": 4600520,
+      "step": 221,
+      "time_per_iteration": 2.6702141761779785
+    },
+    {
+      "auxiliary_loss_clip": 0.01348353,
+      "auxiliary_loss_mlp": 0.01066946,
+      "balance_loss_clip": 1.10157871,
+      "balance_loss_mlp": 1.05105567,
+      "epoch": 0.026693921721878195,
+      "flos": 29241448634880.0,
+      "grad_norm": 2.1749976003806664,
+      "language_loss": 0.841658,
+      "learning_rate": 3.913947748426004e-06,
+      "loss": 0.86581099,
+      "num_input_tokens_seen": 4617340,
+      "step": 222,
+      "time_per_iteration": 2.724642276763916
+    },
+    {
+      "auxiliary_loss_clip": 0.01344916,
+      "auxiliary_loss_mlp": 0.01050226,
+      "balance_loss_clip": 1.09891748,
+      "balance_loss_mlp": 1.03562844,
+      "epoch": 0.026814164612517285,
+      "flos": 14128083797760.0,
+      "grad_norm": 3.8669336641155896,
+      "language_loss": 0.76537514,
+      "learning_rate": 3.9172036907606136e-06,
+      "loss": 0.78932655,
+      "num_input_tokens_seen": 4630820,
+      "step": 223,
+      "time_per_iteration": 3.5696048736572266
+    },
+    {
+      "auxiliary_loss_clip": 0.01351941,
+      "auxiliary_loss_mlp": 0.01057332,
+      "balance_loss_clip": 1.1022439,
+      "balance_loss_mlp": 1.04219198,
+      "epoch": 0.026934407503156375,
+      "flos": 23511973115520.0,
+      "grad_norm": 5.304073168014867,
+      "language_loss": 0.95104957,
+      "learning_rate": 3.920445065071855e-06,
+      "loss": 0.97514236,
+      "num_input_tokens_seen": 4651985,
+      "step": 224,
+      "time_per_iteration": 3.619943857192993
+    },
+    {
+      "auxiliary_loss_clip": 0.01350372,
+      "auxiliary_loss_mlp": 0.01053221,
+      "balance_loss_clip": 1.10036182,
+      "balance_loss_mlp": 1.03762865,
+      "epoch": 0.027054650393795468,
+      "flos": 28950356816640.0,
+      "grad_norm": 2.9089003696025886,
+      "language_loss": 0.79842222,
+      "learning_rate": 3.923672001142322e-06,
+      "loss": 0.82245815,
+      "num_input_tokens_seen": 4672295,
+      "step": 225,
+      "time_per_iteration": 3.591242551803589
+    },
+    {
+      "auxiliary_loss_clip": 0.01349635,
+      "auxiliary_loss_mlp": 0.01052866,
+      "balance_loss_clip": 1.10019803,
+      "balance_loss_mlp": 1.03825045,
+      "epoch": 0.027174893284434558,
+      "flos": 31431568596480.0,
+      "grad_norm": 1.9198712683571613,
+      "language_loss": 0.8457309,
+      "learning_rate": 3.926884627027996e-06,
+      "loss": 0.86975592,
+      "num_input_tokens_seen": 4696065,
+      "step": 226,
+      "time_per_iteration": 2.7085719108581543
+    },
+    {
+      "auxiliary_loss_clip": 0.01343514,
+      "auxiliary_loss_mlp": 0.01052363,
+      "balance_loss_clip": 1.09650767,
+      "balance_loss_mlp": 1.03675854,
+      "epoch": 0.027295136175073648,
+      "flos": 22054466949120.0,
+      "grad_norm": 2.7471556865772584,
+      "language_loss": 0.77543211,
+      "learning_rate": 3.930083069088744e-06,
+      "loss": 0.79939085,
+      "num_input_tokens_seen": 4716065,
+      "step": 227,
+      "time_per_iteration": 2.7152795791625977
+    },
+    {
+      "auxiliary_loss_clip": 0.01294442,
+      "auxiliary_loss_mlp": 0.01010351,
+      "balance_loss_clip": 1.13552809,
+      "balance_loss_mlp": 1.00405633,
+      "epoch": 0.02741537906571274,
+      "flos": 60800752972800.0,
+      "grad_norm": 0.982946146488047,
+      "language_loss": 0.59285885,
+      "learning_rate": 3.933267452018137e-06,
+      "loss": 0.61590677,
+      "num_input_tokens_seen": 4775860,
+      "step": 228,
+      "time_per_iteration": 3.226308822631836
+    },
+    {
+      "auxiliary_loss_clip": 0.01346216,
+      "auxiliary_loss_mlp": 0.01058412,
+      "balance_loss_clip": 1.09895706,
+      "balance_loss_mlp": 1.04319525,
+      "epoch": 0.02753562195635183,
+      "flos": 24606278910720.0,
+      "grad_norm": 2.547810458863279,
+      "language_loss": 0.84476227,
+      "learning_rate": 3.936437898872622e-06,
+      "loss": 0.86880851,
+      "num_input_tokens_seen": 4795835,
+      "step": 229,
+      "time_per_iteration": 2.6901509761810303
+    },
+    {
+      "auxiliary_loss_clip": 0.01344473,
+      "auxiliary_loss_mlp": 0.01060243,
+      "balance_loss_clip": 1.09930861,
+      "balance_loss_mlp": 1.04368472,
+      "epoch": 0.02765586484699092,
+      "flos": 34094236907520.0,
+      "grad_norm": 3.141017320831649,
+      "language_loss": 0.79737258,
+      "learning_rate": 3.9395945311000525e-06,
+      "loss": 0.82141972,
+      "num_input_tokens_seen": 4817460,
+      "step": 230,
+      "time_per_iteration": 2.762923002243042
+    },
+    {
+      "auxiliary_loss_clip": 0.01345257,
+      "auxiliary_loss_mlp": 0.01058089,
+      "balance_loss_clip": 1.09991872,
+      "balance_loss_mlp": 1.04223394,
+      "epoch": 0.027776107737630014,
+      "flos": 14829922615680.0,
+      "grad_norm": 2.731867278947274,
+      "language_loss": 0.9098345,
+      "learning_rate": 3.942737468567608e-06,
+      "loss": 0.93386793,
+      "num_input_tokens_seen": 4835475,
+      "step": 231,
+      "time_per_iteration": 2.694908380508423
+    },
+    {
+      "auxiliary_loss_clip": 0.01343292,
+      "auxiliary_loss_mlp": 0.01049448,
+      "balance_loss_clip": 1.09799826,
+      "balance_loss_mlp": 1.03446901,
+      "epoch": 0.027896350628269104,
+      "flos": 47920347066240.0,
+      "grad_norm": 2.686162408830448,
+      "language_loss": 0.8635546,
+      "learning_rate": 3.9458668295891026e-06,
+      "loss": 0.88748193,
+      "num_input_tokens_seen": 4857760,
+      "step": 232,
+      "time_per_iteration": 2.880542039871216
+    },
+    {
+      "auxiliary_loss_clip": 0.01342377,
+      "auxiliary_loss_mlp": 0.01049406,
+      "balance_loss_clip": 1.09724379,
+      "balance_loss_mlp": 1.03454113,
+      "epoch": 0.028016593518908194,
+      "flos": 21684550734720.0,
+      "grad_norm": 2.1969705065643015,
+      "language_loss": 0.86786014,
+      "learning_rate": 3.948982730951712e-06,
+      "loss": 0.89177799,
+      "num_input_tokens_seen": 4875855,
+      "step": 233,
+      "time_per_iteration": 2.7622835636138916
+    },
+    {
+      "auxiliary_loss_clip": 0.01350369,
+      "auxiliary_loss_mlp": 0.01053804,
+      "balance_loss_clip": 1.10084271,
+      "balance_loss_mlp": 1.03778243,
+      "epoch": 0.028136836409547287,
+      "flos": 18439483305600.0,
+      "grad_norm": 2.2658017164542312,
+      "language_loss": 0.82178175,
+      "learning_rate": 3.9520852879421254e-06,
+      "loss": 0.84582353,
+      "num_input_tokens_seen": 4893200,
+      "step": 234,
+      "time_per_iteration": 2.6530425548553467
+    },
+    {
+      "auxiliary_loss_clip": 0.01342645,
+      "auxiliary_loss_mlp": 0.01046098,
+      "balance_loss_clip": 1.09832716,
+      "balance_loss_mlp": 1.03158998,
+      "epoch": 0.028257079300186377,
+      "flos": 31576934937600.0,
+      "grad_norm": 2.4562586152342853,
+      "language_loss": 0.81622946,
+      "learning_rate": 3.955174614372137e-06,
+      "loss": 0.84011686,
+      "num_input_tokens_seen": 4912965,
+      "step": 235,
+      "time_per_iteration": 2.7360708713531494
+    },
+    {
+      "auxiliary_loss_clip": 0.01345726,
+      "auxiliary_loss_mlp": 0.01044479,
+      "balance_loss_clip": 1.10118413,
+      "balance_loss_mlp": 1.02905345,
+      "epoch": 0.028377322190825467,
+      "flos": 23513337832320.0,
+      "grad_norm": 2.322059255886768,
+      "language_loss": 0.84258842,
+      "learning_rate": 3.9582508226037045e-06,
+      "loss": 0.86649048,
+      "num_input_tokens_seen": 4933105,
+      "step": 236,
+      "time_per_iteration": 2.737420082092285
+    },
+    {
+      "auxiliary_loss_clip": 0.01349512,
+      "auxiliary_loss_mlp": 0.01053434,
+      "balance_loss_clip": 1.09908199,
+      "balance_loss_mlp": 1.03765059,
+      "epoch": 0.02849756508146456,
+      "flos": 20479604071680.0,
+      "grad_norm": 2.490439469771005,
+      "language_loss": 0.94158798,
+      "learning_rate": 3.9613140235734636e-06,
+      "loss": 0.96561742,
+      "num_input_tokens_seen": 4950085,
+      "step": 237,
+      "time_per_iteration": 2.627868890762329
+    },
+    {
+      "auxiliary_loss_clip": 0.01342181,
+      "auxiliary_loss_mlp": 0.01064519,
+      "balance_loss_clip": 1.0982964,
+      "balance_loss_mlp": 1.05017185,
+      "epoch": 0.02861780797210365,
+      "flos": 14283362292480.0,
+      "grad_norm": 2.4509775116959553,
+      "language_loss": 0.8132,
+      "learning_rate": 3.96436432681674e-06,
+      "loss": 0.83726698,
+      "num_input_tokens_seen": 4968075,
+      "step": 238,
+      "time_per_iteration": 2.6665332317352295
+    },
+    {
+      "auxiliary_loss_clip": 0.01340043,
+      "auxiliary_loss_mlp": 0.01053252,
+      "balance_loss_clip": 1.09741926,
+      "balance_loss_mlp": 1.03823137,
+      "epoch": 0.02873805086274274,
+      "flos": 25808532053760.0,
+      "grad_norm": 3.237851825223377,
+      "language_loss": 0.88933849,
+      "learning_rate": 3.967401840491044e-06,
+      "loss": 0.91327143,
+      "num_input_tokens_seen": 4987355,
+      "step": 239,
+      "time_per_iteration": 0.018114328384399414
+    },
+    {
+      "auxiliary_loss_clip": 0.01341683,
+      "auxiliary_loss_mlp": 0.01051703,
+      "balance_loss_clip": 1.09982848,
+      "balance_loss_mlp": 1.03757668,
+      "epoch": 0.028858293753381833,
+      "flos": 17304238984320.0,
+      "grad_norm": 2.2854932885537305,
+      "language_loss": 0.88070738,
+      "learning_rate": 3.97042667139909e-06,
+      "loss": 0.90464127,
+      "num_input_tokens_seen": 5004680,
+      "step": 240,
+      "time_per_iteration": 2.681523323059082
+    },
+    {
+      "auxiliary_loss_clip": 0.01339038,
+      "auxiliary_loss_mlp": 0.01057862,
+      "balance_loss_clip": 1.09906077,
+      "balance_loss_mlp": 1.04243612,
+      "epoch": 0.028978536644020923,
+      "flos": 23038347358080.0,
+      "grad_norm": 2.390598708859977,
+      "language_loss": 0.87467515,
+      "learning_rate": 3.973438925011327e-06,
+      "loss": 0.89864409,
+      "num_input_tokens_seen": 5022965,
+      "step": 241,
+      "time_per_iteration": 2.6437644958496094
+    },
+    {
+      "auxiliary_loss_clip": 0.01341336,
+      "auxiliary_loss_mlp": 0.01043885,
+      "balance_loss_clip": 1.09697044,
+      "balance_loss_mlp": 1.02887642,
+      "epoch": 0.029098779534660012,
+      "flos": 28329712692480.0,
+      "grad_norm": 2.3622140655135415,
+      "language_loss": 0.91546607,
+      "learning_rate": 3.976438705488002e-06,
+      "loss": 0.9393183,
+      "num_input_tokens_seen": 5042625,
+      "step": 242,
+      "time_per_iteration": 2.739619493484497
+    },
+    {
+      "auxiliary_loss_clip": 0.01339141,
+      "auxiliary_loss_mlp": 0.01063455,
+      "balance_loss_clip": 1.09839153,
+      "balance_loss_mlp": 1.04799402,
+      "epoch": 0.029219022425299106,
+      "flos": 13881665520000.0,
+      "grad_norm": 3.204884689864057,
+      "language_loss": 0.93013251,
+      "learning_rate": 3.9794261157007744e-06,
+      "loss": 0.95415843,
+      "num_input_tokens_seen": 5060380,
+      "step": 243,
+      "time_per_iteration": 2.7517921924591064
+    },
+    {
+      "auxiliary_loss_clip": 0.01345059,
+      "auxiliary_loss_mlp": 0.01055729,
+      "balance_loss_clip": 1.10045397,
+      "balance_loss_mlp": 1.03950453,
+      "epoch": 0.029339265315938196,
+      "flos": 19422501788160.0,
+      "grad_norm": 2.174167068581041,
+      "language_loss": 0.84665525,
+      "learning_rate": 3.982401257253887e-06,
+      "loss": 0.87066311,
+      "num_input_tokens_seen": 5078720,
+      "step": 244,
+      "time_per_iteration": 2.714397668838501
+    },
+    {
+      "auxiliary_loss_clip": 0.01341253,
+      "auxiliary_loss_mlp": 0.01051076,
+      "balance_loss_clip": 1.09828413,
+      "balance_loss_mlp": 1.03561485,
+      "epoch": 0.029459508206577285,
+      "flos": 15669550005120.0,
+      "grad_norm": 2.0694228536415618,
+      "language_loss": 0.89407104,
+      "learning_rate": 3.985364230504893e-06,
+      "loss": 0.91799432,
+      "num_input_tokens_seen": 5096605,
+      "step": 245,
+      "time_per_iteration": 2.6182732582092285
+    },
+    {
+      "auxiliary_loss_clip": 0.01338853,
+      "auxiliary_loss_mlp": 0.01062094,
+      "balance_loss_clip": 1.09700501,
+      "balance_loss_mlp": 1.04637074,
+      "epoch": 0.02957975109721638,
+      "flos": 28220975245440.0,
+      "grad_norm": 2.086805995980599,
+      "language_loss": 0.841887,
+      "learning_rate": 3.988315134584976e-06,
+      "loss": 0.86589646,
+      "num_input_tokens_seen": 5116285,
+      "step": 246,
+      "time_per_iteration": 2.780465602874756
+    },
+    {
+      "auxiliary_loss_clip": 0.01341313,
+      "auxiliary_loss_mlp": 0.01055845,
+      "balance_loss_clip": 1.09906268,
+      "balance_loss_mlp": 1.04000199,
+      "epoch": 0.02969999398785547,
+      "flos": 24315869450880.0,
+      "grad_norm": 1.7546851826729368,
+      "language_loss": 0.80480319,
+      "learning_rate": 3.991254067418851e-06,
+      "loss": 0.82877469,
+      "num_input_tokens_seen": 5136825,
+      "step": 247,
+      "time_per_iteration": 2.6979424953460693
+    },
+    {
+      "auxiliary_loss_clip": 0.01337713,
+      "auxiliary_loss_mlp": 0.01055764,
+      "balance_loss_clip": 1.09807861,
+      "balance_loss_mlp": 1.04155445,
+      "epoch": 0.02982023687849456,
+      "flos": 35078584193280.0,
+      "grad_norm": 2.023760068913404,
+      "language_loss": 0.83029139,
+      "learning_rate": 3.994181125744254e-06,
+      "loss": 0.85422611,
+      "num_input_tokens_seen": 5158630,
+      "step": 248,
+      "time_per_iteration": 2.7561774253845215
+    },
+    {
+      "auxiliary_loss_clip": 0.01333846,
+      "auxiliary_loss_mlp": 0.0105445,
+      "balance_loss_clip": 1.09581196,
+      "balance_loss_mlp": 1.04055047,
+      "epoch": 0.02994047976913365,
+      "flos": 26177155378560.0,
+      "grad_norm": 2.1632866017062464,
+      "language_loss": 0.73896509,
+      "learning_rate": 3.99709640513106e-06,
+      "loss": 0.76284802,
+      "num_input_tokens_seen": 5179510,
+      "step": 249,
+      "time_per_iteration": 2.686190605163574
+    },
+    {
+      "auxiliary_loss_clip": 0.01339694,
+      "auxiliary_loss_mlp": 0.01053676,
+      "balance_loss_clip": 1.09666014,
+      "balance_loss_mlp": 1.03794074,
+      "epoch": 0.03006072265977274,
+      "flos": 25625028447360.0,
+      "grad_norm": 3.453565838454771,
+      "language_loss": 0.85480922,
+      "learning_rate": 4e-06,
+      "loss": 0.87874299,
+      "num_input_tokens_seen": 5199345,
+      "step": 250,
+      "time_per_iteration": 4.538034439086914
+    },
+    {
+      "auxiliary_loss_clip": 0.01336879,
+      "auxiliary_loss_mlp": 0.01057412,
+      "balance_loss_clip": 1.09775543,
+      "balance_loss_mlp": 1.04277921,
+      "epoch": 0.03018096555041183,
+      "flos": 22127078292480.0,
+      "grad_norm": 3.308302740888094,
+      "language_loss": 0.88360703,
+      "learning_rate": 3.999999848300794e-06,
+      "loss": 0.90754992,
+      "num_input_tokens_seen": 5218330,
+      "step": 251,
+      "time_per_iteration": 3.543375253677368
+    },
+    {
+      "auxiliary_loss_clip": 0.01335282,
+      "auxiliary_loss_mlp": 0.01049447,
+      "balance_loss_clip": 1.0947926,
+      "balance_loss_mlp": 1.03546381,
+      "epoch": 0.030301208441050925,
+      "flos": 30188197359360.0,
+      "grad_norm": 1.6256796727422218,
+      "language_loss": 0.88932729,
+      "learning_rate": 3.999999393203203e-06,
+      "loss": 0.91317463,
+      "num_input_tokens_seen": 5240740,
+      "step": 252,
+      "time_per_iteration": 2.727595806121826
+    },
+    {
+      "auxiliary_loss_clip": 0.01336104,
+      "auxiliary_loss_mlp": 0.01049659,
+      "balance_loss_clip": 1.09706759,
+      "balance_loss_mlp": 1.03461528,
+      "epoch": 0.030421451331690014,
+      "flos": 23621392920960.0,
+      "grad_norm": 2.0704301085418897,
+      "language_loss": 0.8504563,
+      "learning_rate": 3.999998634707293e-06,
+      "loss": 0.87431395,
+      "num_input_tokens_seen": 5260290,
+      "step": 253,
+      "time_per_iteration": 2.62968111038208
+    },
+    {
+      "auxiliary_loss_clip": 0.01339607,
+      "auxiliary_loss_mlp": 0.01059539,
+      "balance_loss_clip": 1.09919596,
+      "balance_loss_mlp": 1.04346967,
+      "epoch": 0.030541694222329104,
+      "flos": 27928446883200.0,
+      "grad_norm": 2.2778057863835155,
+      "language_loss": 0.96407402,
+      "learning_rate": 3.999997572813182e-06,
+      "loss": 0.98806548,
+      "num_input_tokens_seen": 5278100,
+      "step": 254,
+      "time_per_iteration": 2.69323992729187
+    },
+    {
+      "auxiliary_loss_clip": 0.01334615,
+      "auxiliary_loss_mlp": 0.01049294,
+      "balance_loss_clip": 1.09590483,
+      "balance_loss_mlp": 1.03482246,
+      "epoch": 0.030661937112968194,
+      "flos": 18588441006720.0,
+      "grad_norm": 1.896984991709446,
+      "language_loss": 0.87687641,
+      "learning_rate": 3.999996207521028e-06,
+      "loss": 0.90071547,
+      "num_input_tokens_seen": 5296810,
+      "step": 255,
+      "time_per_iteration": 2.6010689735412598
+    },
+    {
+      "auxiliary_loss_clip": 0.0133518,
+      "auxiliary_loss_mlp": 0.01057149,
+      "balance_loss_clip": 1.09528291,
+      "balance_loss_mlp": 1.04163957,
+      "epoch": 0.030782180003607287,
+      "flos": 12969139478400.0,
+      "grad_norm": 2.2218159050655957,
+      "language_loss": 0.82083851,
+      "learning_rate": 3.999994538831039e-06,
+      "loss": 0.84476179,
+      "num_input_tokens_seen": 5313395,
+      "step": 256,
+      "time_per_iteration": 2.62636661529541
+    },
+    {
+      "auxiliary_loss_clip": 0.0133297,
+      "auxiliary_loss_mlp": 0.01058779,
+      "balance_loss_clip": 1.09451115,
+      "balance_loss_mlp": 1.04428864,
+      "epoch": 0.030902422894246377,
+      "flos": 23335364920320.0,
+      "grad_norm": 11.67173623595197,
+      "language_loss": 0.85627842,
+      "learning_rate": 3.99999256674347e-06,
+      "loss": 0.88019586,
+      "num_input_tokens_seen": 5333545,
+      "step": 257,
+      "time_per_iteration": 2.6845614910125732
+    },
+    {
+      "auxiliary_loss_clip": 0.01267139,
+      "auxiliary_loss_mlp": 0.01004587,
+      "balance_loss_clip": 1.11199784,
+      "balance_loss_mlp": 0.99862689,
+      "epoch": 0.031022665784885467,
+      "flos": 55094151438720.0,
+      "grad_norm": 1.0150008814587979,
+      "language_loss": 0.53496408,
+      "learning_rate": 3.999990291258618e-06,
+      "loss": 0.55768144,
+      "num_input_tokens_seen": 5392235,
+      "step": 258,
+      "time_per_iteration": 3.184180498123169
+    },
+    {
+      "auxiliary_loss_clip": 0.01338253,
+      "auxiliary_loss_mlp": 0.01060743,
+      "balance_loss_clip": 1.10000277,
+      "balance_loss_mlp": 1.04562759,
+      "epoch": 0.03114290867552456,
+      "flos": 19317786664320.0,
+      "grad_norm": 2.3348444859032202,
+      "language_loss": 0.86402541,
+      "learning_rate": 3.999987712376829e-06,
+      "loss": 0.88801539,
+      "num_input_tokens_seen": 5410555,
+      "step": 259,
+      "time_per_iteration": 2.678488254547119
+    },
+    {
+      "auxiliary_loss_clip": 0.01332569,
+      "auxiliary_loss_mlp": 0.01065317,
+      "balance_loss_clip": 1.09587288,
+      "balance_loss_mlp": 1.05149484,
+      "epoch": 0.031263151566163654,
+      "flos": 20959442881920.0,
+      "grad_norm": 1.9202520456930272,
+      "language_loss": 0.82101572,
+      "learning_rate": 3.999984830098494e-06,
+      "loss": 0.84499454,
+      "num_input_tokens_seen": 5430135,
+      "step": 260,
+      "time_per_iteration": 2.6474626064300537
+    },
+    {
+      "auxiliary_loss_clip": 0.01329711,
+      "auxiliary_loss_mlp": 0.01055303,
+      "balance_loss_clip": 1.09232235,
+      "balance_loss_mlp": 1.04137909,
+      "epoch": 0.03138339445680274,
+      "flos": 14793006412800.0,
+      "grad_norm": 3.180392566266878,
+      "language_loss": 0.97718728,
+      "learning_rate": 3.999981644424051e-06,
+      "loss": 1.00103748,
+      "num_input_tokens_seen": 5444935,
+      "step": 261,
+      "time_per_iteration": 2.659151315689087
+    },
+    {
+      "auxiliary_loss_clip": 0.01334359,
+      "auxiliary_loss_mlp": 0.01051564,
+      "balance_loss_clip": 1.09691453,
+      "balance_loss_mlp": 1.03700888,
+      "epoch": 0.03150363734744183,
+      "flos": 11655599022720.0,
+      "grad_norm": 2.5985951166025334,
+      "language_loss": 0.86190969,
+      "learning_rate": 3.999978155353982e-06,
+      "loss": 0.88576889,
+      "num_input_tokens_seen": 5462080,
+      "step": 262,
+      "time_per_iteration": 2.7226550579071045
+    },
+    {
+      "auxiliary_loss_clip": 0.01329129,
+      "auxiliary_loss_mlp": 0.01058476,
+      "balance_loss_clip": 1.09097934,
+      "balance_loss_mlp": 1.04377127,
+      "epoch": 0.03162388023808092,
+      "flos": 33727732485120.0,
+      "grad_norm": 5.478802941736048,
+      "language_loss": 0.80147207,
+      "learning_rate": 3.9999743628888186e-06,
+      "loss": 0.82534814,
+      "num_input_tokens_seen": 5483870,
+      "step": 263,
+      "time_per_iteration": 2.732710361480713
+    },
+    {
+      "auxiliary_loss_clip": 0.0132891,
+      "auxiliary_loss_mlp": 0.01059359,
+      "balance_loss_clip": 1.09167361,
+      "balance_loss_mlp": 1.04388559,
+      "epoch": 0.03174412312872001,
+      "flos": 20810952057600.0,
+      "grad_norm": 2.212064564021404,
+      "language_loss": 0.89475316,
+      "learning_rate": 3.999970267029133e-06,
+      "loss": 0.91863585,
+      "num_input_tokens_seen": 5502830,
+      "step": 264,
+      "time_per_iteration": 2.647722005844116
+    },
+    {
+      "auxiliary_loss_clip": 0.01327458,
+      "auxiliary_loss_mlp": 0.01054764,
+      "balance_loss_clip": 1.09328365,
+      "balance_loss_mlp": 1.04095364,
+      "epoch": 0.0318643660193591,
+      "flos": 23727939638400.0,
+      "grad_norm": 1.923797836887217,
+      "language_loss": 0.80032778,
+      "learning_rate": 3.999965867775548e-06,
+      "loss": 0.82414997,
+      "num_input_tokens_seen": 5523225,
+      "step": 265,
+      "time_per_iteration": 2.700697660446167
+    },
+    {
+      "auxiliary_loss_clip": 0.01324071,
+      "auxiliary_loss_mlp": 0.0105931,
+      "balance_loss_clip": 1.09037375,
+      "balance_loss_mlp": 1.04474831,
+      "epoch": 0.0319846089099982,
+      "flos": 13917863450880.0,
+      "grad_norm": 2.682816862472668,
+      "language_loss": 0.86927426,
+      "learning_rate": 3.9999611651287315e-06,
+      "loss": 0.89310807,
+      "num_input_tokens_seen": 5541380,
+      "step": 266,
+      "time_per_iteration": 2.612830877304077
+    },
+    {
+      "auxiliary_loss_clip": 0.01329046,
+      "auxiliary_loss_mlp": 0.01055633,
+      "balance_loss_clip": 1.09299922,
+      "balance_loss_mlp": 1.04082727,
+      "epoch": 0.03210485180063729,
+      "flos": 14753253035520.0,
+      "grad_norm": 2.512670108770371,
+      "language_loss": 0.78644943,
+      "learning_rate": 3.999956159089396e-06,
+      "loss": 0.81029624,
+      "num_input_tokens_seen": 5558830,
+      "step": 267,
+      "time_per_iteration": 2.6167824268341064
+    },
+    {
+      "auxiliary_loss_clip": 0.01329591,
+      "auxiliary_loss_mlp": 0.01066596,
+      "balance_loss_clip": 1.09551108,
+      "balance_loss_mlp": 1.05175495,
+      "epoch": 0.03222509469127638,
+      "flos": 28913153304960.0,
+      "grad_norm": 2.5095861065164073,
+      "language_loss": 0.79645407,
+      "learning_rate": 3.999950849658302e-06,
+      "loss": 0.82041597,
+      "num_input_tokens_seen": 5577750,
+      "step": 268,
+      "time_per_iteration": 2.7161495685577393
+    },
+    {
+      "auxiliary_loss_clip": 0.01330178,
+      "auxiliary_loss_mlp": 0.01058056,
+      "balance_loss_clip": 1.09329104,
+      "balance_loss_mlp": 1.04403663,
+      "epoch": 0.03234533758191547,
+      "flos": 16946389739520.0,
+      "grad_norm": 3.0530387595615243,
+      "language_loss": 0.84054255,
+      "learning_rate": 3.999945236836254e-06,
+      "loss": 0.86442482,
+      "num_input_tokens_seen": 5596715,
+      "step": 269,
+      "time_per_iteration": 2.599591016769409
+    },
+    {
+      "auxiliary_loss_clip": 0.01332774,
+      "auxiliary_loss_mlp": 0.01053487,
+      "balance_loss_clip": 1.0954591,
+      "balance_loss_mlp": 1.0385735,
+      "epoch": 0.03246558047255456,
+      "flos": 18989096284800.0,
+      "grad_norm": 5.354781927929036,
+      "language_loss": 0.94995075,
+      "learning_rate": 3.999939320624103e-06,
+      "loss": 0.97381341,
+      "num_input_tokens_seen": 5611865,
+      "step": 270,
+      "time_per_iteration": 2.585845708847046
+    },
+    {
+      "auxiliary_loss_clip": 0.01322728,
+      "auxiliary_loss_mlp": 0.01065049,
+      "balance_loss_clip": 1.09244967,
+      "balance_loss_mlp": 1.04982615,
+      "epoch": 0.03258582336319365,
+      "flos": 23728334688000.0,
+      "grad_norm": 3.854429789775514,
+      "language_loss": 0.89705098,
+      "learning_rate": 3.999933101022749e-06,
+      "loss": 0.92092878,
+      "num_input_tokens_seen": 5632270,
+      "step": 271,
+      "time_per_iteration": 2.7589218616485596
+    },
+    {
+      "auxiliary_loss_clip": 0.01332448,
+      "auxiliary_loss_mlp": 0.01052869,
+      "balance_loss_clip": 1.09685087,
+      "balance_loss_mlp": 1.03840327,
+      "epoch": 0.032706066253832745,
+      "flos": 27670823562240.0,
+      "grad_norm": 1.9742924802911415,
+      "language_loss": 0.86924839,
+      "learning_rate": 3.999926578033132e-06,
+      "loss": 0.89310157,
+      "num_input_tokens_seen": 5652085,
+      "step": 272,
+      "time_per_iteration": 2.6617178916931152
+    },
+    {
+      "auxiliary_loss_clip": 0.01327117,
+      "auxiliary_loss_mlp": 0.01055436,
+      "balance_loss_clip": 1.09121978,
+      "balance_loss_mlp": 1.03924739,
+      "epoch": 0.032826309144471835,
+      "flos": 45624685968000.0,
+      "grad_norm": 2.2195503889936568,
+      "language_loss": 0.63004243,
+      "learning_rate": 3.999919751656244e-06,
+      "loss": 0.65386802,
+      "num_input_tokens_seen": 5678985,
+      "step": 273,
+      "time_per_iteration": 2.868218183517456
+    },
+    {
+      "auxiliary_loss_clip": 0.01324086,
+      "auxiliary_loss_mlp": 0.01058573,
+      "balance_loss_clip": 1.09288442,
+      "balance_loss_mlp": 1.04255104,
+      "epoch": 0.032946552035110925,
+      "flos": 25812374808960.0,
+      "grad_norm": 2.529698726771498,
+      "language_loss": 0.75764,
+      "learning_rate": 3.9999126218931195e-06,
+      "loss": 0.7814666,
+      "num_input_tokens_seen": 5697020,
+      "step": 274,
+      "time_per_iteration": 2.7508387565612793
+    },
+    {
+      "auxiliary_loss_clip": 0.01328244,
+      "auxiliary_loss_mlp": 0.01060912,
+      "balance_loss_clip": 1.09545255,
+      "balance_loss_mlp": 1.04713142,
+      "epoch": 0.033066794925750015,
+      "flos": 15121984101120.0,
+      "grad_norm": 2.776467699451331,
+      "language_loss": 0.89650035,
+      "learning_rate": 3.99990518874484e-06,
+      "loss": 0.92039192,
+      "num_input_tokens_seen": 5713460,
+      "step": 275,
+      "time_per_iteration": 2.6673946380615234
+    },
+    {
+      "auxiliary_loss_clip": 0.01327935,
+      "auxiliary_loss_mlp": 0.01061773,
+      "balance_loss_clip": 1.09484816,
+      "balance_loss_mlp": 1.04755127,
+      "epoch": 0.033187037816389105,
+      "flos": 22776593973120.0,
+      "grad_norm": 3.4134569555191163,
+      "language_loss": 0.92681563,
+      "learning_rate": 3.999897452212534e-06,
+      "loss": 0.95071268,
+      "num_input_tokens_seen": 5730790,
+      "step": 276,
+      "time_per_iteration": 3.5454299449920654
+    },
+    {
+      "auxiliary_loss_clip": 0.01330176,
+      "auxiliary_loss_mlp": 0.01045641,
+      "balance_loss_clip": 1.09313691,
+      "balance_loss_mlp": 1.03050184,
+      "epoch": 0.033307280707028195,
+      "flos": 23331414424320.0,
+      "grad_norm": 2.1148381877171594,
+      "language_loss": 1.00128508,
+      "learning_rate": 3.999889412297374e-06,
+      "loss": 1.02504325,
+      "num_input_tokens_seen": 5750215,
+      "step": 277,
+      "time_per_iteration": 3.5809473991394043
+    },
+    {
+      "auxiliary_loss_clip": 0.01325412,
+      "auxiliary_loss_mlp": 0.01060674,
+      "balance_loss_clip": 1.09203768,
+      "balance_loss_mlp": 1.0453558,
+      "epoch": 0.03342752359766729,
+      "flos": 28840290566400.0,
+      "grad_norm": 3.866682466045861,
+      "language_loss": 0.78948897,
+      "learning_rate": 3.999881069000581e-06,
+      "loss": 0.81334984,
+      "num_input_tokens_seen": 5769945,
+      "step": 278,
+      "time_per_iteration": 2.6851370334625244
+    },
+    {
+      "auxiliary_loss_clip": 0.01322594,
+      "auxiliary_loss_mlp": 0.0105377,
+      "balance_loss_clip": 1.09002376,
+      "balance_loss_mlp": 1.03857112,
+      "epoch": 0.03354776648830638,
+      "flos": 19384544090880.0,
+      "grad_norm": 2.756139086218236,
+      "language_loss": 0.86676461,
+      "learning_rate": 3.99987242232342e-06,
+      "loss": 0.8905282,
+      "num_input_tokens_seen": 5784950,
+      "step": 279,
+      "time_per_iteration": 2.6347029209136963
+    },
+    {
+      "auxiliary_loss_clip": 0.01328089,
+      "auxiliary_loss_mlp": 0.01065647,
+      "balance_loss_clip": 1.09546971,
+      "balance_loss_mlp": 1.05068588,
+      "epoch": 0.03366800937894547,
+      "flos": 17858628472320.0,
+      "grad_norm": 2.4724564933496365,
+      "language_loss": 0.79464638,
+      "learning_rate": 3.9998634722672026e-06,
+      "loss": 0.81858373,
+      "num_input_tokens_seen": 5805005,
+      "step": 280,
+      "time_per_iteration": 2.7160584926605225
+    },
+    {
+      "auxiliary_loss_clip": 0.01326873,
+      "auxiliary_loss_mlp": 0.01055396,
+      "balance_loss_clip": 1.09353781,
+      "balance_loss_mlp": 1.04132962,
+      "epoch": 0.03378825226958456,
+      "flos": 35951033635200.0,
+      "grad_norm": 2.5586419192768637,
+      "language_loss": 0.7856822,
+      "learning_rate": 3.999854218833286e-06,
+      "loss": 0.80950493,
+      "num_input_tokens_seen": 5825825,
+      "step": 281,
+      "time_per_iteration": 2.7886548042297363
+    },
+    {
+      "auxiliary_loss_clip": 0.01324929,
+      "auxiliary_loss_mlp": 0.01055037,
+      "balance_loss_clip": 1.09307837,
+      "balance_loss_mlp": 1.04118514,
+      "epoch": 0.03390849516022365,
+      "flos": 25702488126720.0,
+      "grad_norm": 1.973426291927537,
+      "language_loss": 0.82147652,
+      "learning_rate": 3.999844662023075e-06,
+      "loss": 0.84527618,
+      "num_input_tokens_seen": 5845700,
+      "step": 282,
+      "time_per_iteration": 2.6806318759918213
+    },
+    {
+      "auxiliary_loss_clip": 0.01319966,
+      "auxiliary_loss_mlp": 0.0105536,
+      "balance_loss_clip": 1.09219742,
+      "balance_loss_mlp": 1.04138827,
+      "epoch": 0.03402873805086274,
+      "flos": 21284505987840.0,
+      "grad_norm": 2.4752122992211016,
+      "language_loss": 0.92159081,
+      "learning_rate": 3.999834801838018e-06,
+      "loss": 0.94534409,
+      "num_input_tokens_seen": 5864680,
+      "step": 283,
+      "time_per_iteration": 2.6267974376678467
+    },
+    {
+      "auxiliary_loss_clip": 0.01320739,
+      "auxiliary_loss_mlp": 0.01045006,
+      "balance_loss_clip": 1.09322834,
+      "balance_loss_mlp": 1.03049827,
+      "epoch": 0.03414898094150183,
+      "flos": 22710913954560.0,
+      "grad_norm": 1.8504925395315959,
+      "language_loss": 0.73902237,
+      "learning_rate": 3.9998246382796115e-06,
+      "loss": 0.76267976,
+      "num_input_tokens_seen": 5884260,
+      "step": 284,
+      "time_per_iteration": 2.6083638668060303
+    },
+    {
+      "auxiliary_loss_clip": 0.01327032,
+      "auxiliary_loss_mlp": 0.01065252,
+      "balance_loss_clip": 1.0933156,
+      "balance_loss_mlp": 1.0502913,
+      "epoch": 0.03426922383214093,
+      "flos": 18879927874560.0,
+      "grad_norm": 2.2198417640985038,
+      "language_loss": 0.90919793,
+      "learning_rate": 3.999814171349399e-06,
+      "loss": 0.93312073,
+      "num_input_tokens_seen": 5902120,
+      "step": 285,
+      "time_per_iteration": 2.66696834564209
+    },
+    {
+      "auxiliary_loss_clip": 0.01319532,
+      "auxiliary_loss_mlp": 0.01065958,
+      "balance_loss_clip": 1.08913326,
+      "balance_loss_mlp": 1.05149198,
+      "epoch": 0.03438946672278002,
+      "flos": 34752012716160.0,
+      "grad_norm": 1.6683656394211213,
+      "language_loss": 0.73609507,
+      "learning_rate": 3.9998034010489655e-06,
+      "loss": 0.75994998,
+      "num_input_tokens_seen": 5925810,
+      "step": 286,
+      "time_per_iteration": 2.7041008472442627
+    },
+    {
+      "auxiliary_loss_clip": 0.01327643,
+      "auxiliary_loss_mlp": 0.01049444,
+      "balance_loss_clip": 1.09740543,
+      "balance_loss_mlp": 1.03540123,
+      "epoch": 0.03450970961341911,
+      "flos": 22164102236160.0,
+      "grad_norm": 2.3965787733240598,
+      "language_loss": 0.75972819,
+      "learning_rate": 3.999792327379946e-06,
+      "loss": 0.78349912,
+      "num_input_tokens_seen": 5945185,
+      "step": 287,
+      "time_per_iteration": 2.616563320159912
+    },
+    {
+      "auxiliary_loss_clip": 0.01324618,
+      "auxiliary_loss_mlp": 0.01057538,
+      "balance_loss_clip": 1.09523225,
+      "balance_loss_mlp": 1.04303002,
+      "epoch": 0.034629952504058197,
+      "flos": 21725740656000.0,
+      "grad_norm": 2.380724942557271,
+      "language_loss": 0.96633935,
+      "learning_rate": 3.999780950344021e-06,
+      "loss": 0.99016088,
+      "num_input_tokens_seen": 5963375,
+      "step": 288,
+      "time_per_iteration": 2.6032893657684326
+    },
+    {
+      "auxiliary_loss_clip": 0.01326535,
+      "auxiliary_loss_mlp": 0.01055196,
+      "balance_loss_clip": 1.09305072,
+      "balance_loss_mlp": 1.04115915,
+      "epoch": 0.034750195394697286,
+      "flos": 20047994248320.0,
+      "grad_norm": 1.9105777645225372,
+      "language_loss": 0.82639277,
+      "learning_rate": 3.999769269942916e-06,
+      "loss": 0.85021007,
+      "num_input_tokens_seen": 5983415,
+      "step": 289,
+      "time_per_iteration": 2.6502907276153564
+    },
+    {
+      "auxiliary_loss_clip": 0.01325465,
+      "auxiliary_loss_mlp": 0.01060317,
+      "balance_loss_clip": 1.0947361,
+      "balance_loss_mlp": 1.04736471,
+      "epoch": 0.034870438285336376,
+      "flos": 27965865876480.0,
+      "grad_norm": 1.9625225208901669,
+      "language_loss": 0.80971527,
+      "learning_rate": 3.999757286178402e-06,
+      "loss": 0.83357298,
+      "num_input_tokens_seen": 6005850,
+      "step": 290,
+      "time_per_iteration": 2.7036664485931396
+    },
+    {
+      "auxiliary_loss_clip": 0.01319373,
+      "auxiliary_loss_mlp": 0.0105445,
+      "balance_loss_clip": 1.09029722,
+      "balance_loss_mlp": 1.03830957,
+      "epoch": 0.03499068117597547,
+      "flos": 22017514832640.0,
+      "grad_norm": 1.9307504032109595,
+      "language_loss": 0.9061594,
+      "learning_rate": 3.999744999052299e-06,
+      "loss": 0.92989767,
+      "num_input_tokens_seen": 6027240,
+      "step": 291,
+      "time_per_iteration": 2.636772394180298
+    },
+    {
+      "auxiliary_loss_clip": 0.01253732,
+      "auxiliary_loss_mlp": 0.01008762,
+      "balance_loss_clip": 1.10562325,
+      "balance_loss_mlp": 1.00339723,
+      "epoch": 0.03511092406661456,
+      "flos": 57242147725440.0,
+      "grad_norm": 0.9552839422220246,
+      "language_loss": 0.61154181,
+      "learning_rate": 3.9997324085664675e-06,
+      "loss": 0.63416672,
+      "num_input_tokens_seen": 6087470,
+      "step": 292,
+      "time_per_iteration": 3.159714937210083
+    },
+    {
+      "auxiliary_loss_clip": 0.01322663,
+      "auxiliary_loss_mlp": 0.01046228,
+      "balance_loss_clip": 1.09208989,
+      "balance_loss_mlp": 1.03260243,
+      "epoch": 0.03523116695725365,
+      "flos": 22928065626240.0,
+      "grad_norm": 2.2378609600620116,
+      "language_loss": 0.92041886,
+      "learning_rate": 3.999719514722821e-06,
+      "loss": 0.94410777,
+      "num_input_tokens_seen": 6107600,
+      "step": 293,
+      "time_per_iteration": 2.62870717048645
+    },
+    {
+      "auxiliary_loss_clip": 0.01316663,
+      "auxiliary_loss_mlp": 0.01049828,
+      "balance_loss_clip": 1.09123707,
+      "balance_loss_mlp": 1.0355227,
+      "epoch": 0.03535140984789274,
+      "flos": 36903241226880.0,
+      "grad_norm": 2.1420325021003794,
+      "language_loss": 0.74753416,
+      "learning_rate": 3.999706317523314e-06,
+      "loss": 0.77119899,
+      "num_input_tokens_seen": 6126160,
+      "step": 294,
+      "time_per_iteration": 2.748469114303589
+    },
+    {
+      "auxiliary_loss_clip": 0.01318117,
+      "auxiliary_loss_mlp": 0.01055426,
+      "balance_loss_clip": 1.09242582,
+      "balance_loss_mlp": 1.04066801,
+      "epoch": 0.03547165273853183,
+      "flos": 20449152316800.0,
+      "grad_norm": 2.353250915138766,
+      "language_loss": 0.86147094,
+      "learning_rate": 3.999692816969948e-06,
+      "loss": 0.88520634,
+      "num_input_tokens_seen": 6145695,
+      "step": 295,
+      "time_per_iteration": 2.625680923461914
+    },
+    {
+      "auxiliary_loss_clip": 0.01247087,
+      "auxiliary_loss_mlp": 0.01005397,
+      "balance_loss_clip": 1.10034156,
+      "balance_loss_mlp": 1.00017571,
+      "epoch": 0.03559189562917092,
+      "flos": 69850564871040.0,
+      "grad_norm": 1.000430273333583,
+      "language_loss": 0.69349778,
+      "learning_rate": 3.999679013064772e-06,
+      "loss": 0.71602267,
+      "num_input_tokens_seen": 6212440,
+      "step": 296,
+      "time_per_iteration": 3.2765519618988037
+    },
+    {
+      "auxiliary_loss_clip": 0.01316511,
+      "auxiliary_loss_mlp": 0.01055579,
+      "balance_loss_clip": 1.08961487,
+      "balance_loss_mlp": 1.04099989,
+      "epoch": 0.03571213851981002,
+      "flos": 21651944163840.0,
+      "grad_norm": 2.6889417404900944,
+      "language_loss": 0.85540426,
+      "learning_rate": 3.99966490580988e-06,
+      "loss": 0.87912512,
+      "num_input_tokens_seen": 6229800,
+      "step": 297,
+      "time_per_iteration": 2.606851100921631
+    },
+    {
+      "auxiliary_loss_clip": 0.01321268,
+      "auxiliary_loss_mlp": 0.0106139,
+      "balance_loss_clip": 1.0918802,
+      "balance_loss_mlp": 1.04631579,
+      "epoch": 0.03583238141044911,
+      "flos": 43945610757120.0,
+      "grad_norm": 2.69156414991708,
+      "language_loss": 0.65827692,
+      "learning_rate": 3.999650495207411e-06,
+      "loss": 0.68210346,
+      "num_input_tokens_seen": 6255825,
+      "step": 298,
+      "time_per_iteration": 2.8176090717315674
+    },
+    {
+      "auxiliary_loss_clip": 0.01317263,
+      "auxiliary_loss_mlp": 0.01057336,
+      "balance_loss_clip": 1.09203339,
+      "balance_loss_mlp": 1.04205942,
+      "epoch": 0.0359526243010882,
+      "flos": 18910810592640.0,
+      "grad_norm": 2.890446148932292,
+      "language_loss": 0.90478301,
+      "learning_rate": 3.999635781259553e-06,
+      "loss": 0.92852902,
+      "num_input_tokens_seen": 6271090,
+      "step": 299,
+      "time_per_iteration": 2.6257500648498535
+    },
+    {
+      "auxiliary_loss_clip": 0.01235342,
+      "auxiliary_loss_mlp": 0.01005329,
+      "balance_loss_clip": 1.09091163,
+      "balance_loss_mlp": 1.00022686,
+      "epoch": 0.03607286719172729,
+      "flos": 61668892782720.0,
+      "grad_norm": 0.9228511378902715,
+      "language_loss": 0.52293402,
+      "learning_rate": 3.999620763968535e-06,
+      "loss": 0.54534072,
+      "num_input_tokens_seen": 6329965,
+      "step": 300,
+      "time_per_iteration": 3.0535807609558105
+    },
+    {
+      "auxiliary_loss_clip": 0.01321671,
+      "auxiliary_loss_mlp": 0.01053391,
+      "balance_loss_clip": 1.09503627,
+      "balance_loss_mlp": 1.03925908,
+      "epoch": 0.03619311008236638,
+      "flos": 27819062991360.0,
+      "grad_norm": 1.7626203508716394,
+      "language_loss": 0.86561698,
+      "learning_rate": 3.999605443336638e-06,
+      "loss": 0.88936758,
+      "num_input_tokens_seen": 6352095,
+      "step": 301,
+      "time_per_iteration": 2.6757659912109375
+    },
+    {
+      "auxiliary_loss_clip": 0.01315928,
+      "auxiliary_loss_mlp": 0.01060494,
+      "balance_loss_clip": 1.08654475,
+      "balance_loss_mlp": 1.04468703,
+      "epoch": 0.03631335297300547,
+      "flos": 13621133197440.0,
+      "grad_norm": 2.457563448606435,
+      "language_loss": 0.89499485,
+      "learning_rate": 3.999589819366185e-06,
+      "loss": 0.91875911,
+      "num_input_tokens_seen": 6365885,
+      "step": 302,
+      "time_per_iteration": 3.487703561782837
+    },
+    {
+      "auxiliary_loss_clip": 0.013165,
+      "auxiliary_loss_mlp": 0.01046253,
+      "balance_loss_clip": 1.08863652,
+      "balance_loss_mlp": 1.03192377,
+      "epoch": 0.036433595863644565,
+      "flos": 27631788456960.0,
+      "grad_norm": 2.3324321576073284,
+      "language_loss": 0.84978521,
+      "learning_rate": 3.999573892059547e-06,
+      "loss": 0.87341279,
+      "num_input_tokens_seen": 6385015,
+      "step": 303,
+      "time_per_iteration": 3.6203930377960205
+    },
+    {
+      "auxiliary_loss_clip": 0.01320956,
+      "auxiliary_loss_mlp": 0.01066891,
+      "balance_loss_clip": 1.09187448,
+      "balance_loss_mlp": 1.0516324,
+      "epoch": 0.036553838754283655,
+      "flos": 24572020314240.0,
+      "grad_norm": 2.013143178351301,
+      "language_loss": 0.80999774,
+      "learning_rate": 3.999557661419138e-06,
+      "loss": 0.83387625,
+      "num_input_tokens_seen": 6405165,
+      "step": 304,
+      "time_per_iteration": 4.461326837539673
+    },
+    {
+      "auxiliary_loss_clip": 0.01323587,
+      "auxiliary_loss_mlp": 0.01056355,
+      "balance_loss_clip": 1.09365129,
+      "balance_loss_mlp": 1.04237735,
+      "epoch": 0.036674081644922744,
+      "flos": 23404313076480.0,
+      "grad_norm": 1.8905628149585525,
+      "language_loss": 0.81370723,
+      "learning_rate": 3.9995411274474225e-06,
+      "loss": 0.83750671,
+      "num_input_tokens_seen": 6424445,
+      "step": 305,
+      "time_per_iteration": 2.6403045654296875
+    },
+    {
+      "auxiliary_loss_clip": 0.01324838,
+      "auxiliary_loss_mlp": 0.01056632,
+      "balance_loss_clip": 1.09563875,
+      "balance_loss_mlp": 1.04217815,
+      "epoch": 0.036794324535561834,
+      "flos": 27489690253440.0,
+      "grad_norm": 2.073334096880232,
+      "language_loss": 0.81599182,
+      "learning_rate": 3.999524290146908e-06,
+      "loss": 0.83980644,
+      "num_input_tokens_seen": 6444650,
+      "step": 306,
+      "time_per_iteration": 2.6481003761291504
+    },
+    {
+      "auxiliary_loss_clip": 0.01319562,
+      "auxiliary_loss_mlp": 0.01052027,
+      "balance_loss_clip": 1.0918541,
+      "balance_loss_mlp": 1.0375669,
+      "epoch": 0.036914567426200924,
+      "flos": 19463476227840.0,
+      "grad_norm": 2.8750279931375977,
+      "language_loss": 0.92976999,
+      "learning_rate": 3.9995071495201485e-06,
+      "loss": 0.95348585,
+      "num_input_tokens_seen": 6461755,
+      "step": 307,
+      "time_per_iteration": 2.8121542930603027
+    },
+    {
+      "auxiliary_loss_clip": 0.01318725,
+      "auxiliary_loss_mlp": 0.01054091,
+      "balance_loss_clip": 1.09129012,
+      "balance_loss_mlp": 1.04007781,
+      "epoch": 0.037034810316840014,
+      "flos": 22309324922880.0,
+      "grad_norm": 26.41444751656569,
+      "language_loss": 0.97708136,
+      "learning_rate": 3.999489705569744e-06,
+      "loss": 1.00080943,
+      "num_input_tokens_seen": 6479455,
+      "step": 308,
+      "time_per_iteration": 2.5880260467529297
+    },
+    {
+      "auxiliary_loss_clip": 0.01319021,
+      "auxiliary_loss_mlp": 0.01055573,
+      "balance_loss_clip": 1.09127355,
+      "balance_loss_mlp": 1.04141676,
+      "epoch": 0.03715505320747911,
+      "flos": 18588333265920.0,
+      "grad_norm": 2.215013477577618,
+      "language_loss": 0.86484087,
+      "learning_rate": 3.999471958298341e-06,
+      "loss": 0.88858682,
+      "num_input_tokens_seen": 6498365,
+      "step": 309,
+      "time_per_iteration": 2.593712568283081
+    },
+    {
+      "auxiliary_loss_clip": 0.01324717,
+      "auxiliary_loss_mlp": 0.01056285,
+      "balance_loss_clip": 1.09564435,
+      "balance_loss_mlp": 1.04120517,
+      "epoch": 0.0372752960981182,
+      "flos": 35955343267200.0,
+      "grad_norm": 1.9621088024366926,
+      "language_loss": 0.76244557,
+      "learning_rate": 3.999453907708631e-06,
+      "loss": 0.7862556,
+      "num_input_tokens_seen": 6520770,
+      "step": 310,
+      "time_per_iteration": 2.7113888263702393
+    },
+    {
+      "auxiliary_loss_clip": 0.01315025,
+      "auxiliary_loss_mlp": 0.01060915,
+      "balance_loss_clip": 1.09079385,
+      "balance_loss_mlp": 1.04756927,
+      "epoch": 0.03739553898875729,
+      "flos": 20814040627200.0,
+      "grad_norm": 1.8680262397763308,
+      "language_loss": 0.81465566,
+      "learning_rate": 3.999435553803353e-06,
+      "loss": 0.83841509,
+      "num_input_tokens_seen": 6540170,
+      "step": 311,
+      "time_per_iteration": 2.611269235610962
+    },
+    {
+      "auxiliary_loss_clip": 0.01314084,
+      "auxiliary_loss_mlp": 0.01061623,
+      "balance_loss_clip": 1.08779478,
+      "balance_loss_mlp": 1.0465548,
+      "epoch": 0.03751578187939638,
+      "flos": 20264140339200.0,
+      "grad_norm": 2.943131768626363,
+      "language_loss": 0.83418417,
+      "learning_rate": 3.999416896585292e-06,
+      "loss": 0.85794121,
+      "num_input_tokens_seen": 6557200,
+      "step": 312,
+      "time_per_iteration": 2.6067564487457275
+    },
+    {
+      "auxiliary_loss_clip": 0.0131759,
+      "auxiliary_loss_mlp": 0.01056039,
+      "balance_loss_clip": 1.09182167,
+      "balance_loss_mlp": 1.04238391,
+      "epoch": 0.03763602477003547,
+      "flos": 20668063754880.0,
+      "grad_norm": 3.709514220955351,
+      "language_loss": 0.85834336,
+      "learning_rate": 3.9993979360572775e-06,
+      "loss": 0.8820796,
+      "num_input_tokens_seen": 6577340,
+      "step": 313,
+      "time_per_iteration": 2.6433498859405518
+    },
+    {
+      "auxiliary_loss_clip": 0.01322585,
+      "auxiliary_loss_mlp": 0.01058863,
+      "balance_loss_clip": 1.09326661,
+      "balance_loss_mlp": 1.04297245,
+      "epoch": 0.03775626766067456,
+      "flos": 16691352197760.0,
+      "grad_norm": 2.7189865648530875,
+      "language_loss": 0.82835263,
+      "learning_rate": 3.999378672222185e-06,
+      "loss": 0.85216713,
+      "num_input_tokens_seen": 6595125,
+      "step": 314,
+      "time_per_iteration": 2.5843801498413086
+    },
+    {
+      "auxiliary_loss_clip": 0.01310222,
+      "auxiliary_loss_mlp": 0.0105923,
+      "balance_loss_clip": 1.08859015,
+      "balance_loss_mlp": 1.04535389,
+      "epoch": 0.03787651055131366,
+      "flos": 21141797253120.0,
+      "grad_norm": 1.9014341607425074,
+      "language_loss": 0.82697517,
+      "learning_rate": 3.9993591050829385e-06,
+      "loss": 0.85066968,
+      "num_input_tokens_seen": 6612990,
+      "step": 315,
+      "time_per_iteration": 2.6221089363098145
+    },
+    {
+      "auxiliary_loss_clip": 0.01318443,
+      "auxiliary_loss_mlp": 0.01050505,
+      "balance_loss_clip": 1.09360957,
+      "balance_loss_mlp": 1.03616428,
+      "epoch": 0.037996753441952746,
+      "flos": 22018089450240.0,
+      "grad_norm": 1.93256041473364,
+      "language_loss": 0.79469073,
+      "learning_rate": 3.999339234642506e-06,
+      "loss": 0.81838024,
+      "num_input_tokens_seen": 6632740,
+      "step": 316,
+      "time_per_iteration": 2.6091904640197754
+    },
+    {
+      "auxiliary_loss_clip": 0.0131664,
+      "auxiliary_loss_mlp": 0.01053302,
+      "balance_loss_clip": 1.09153688,
+      "balance_loss_mlp": 1.03834128,
+      "epoch": 0.038116996332591836,
+      "flos": 27709391790720.0,
+      "grad_norm": 3.060179142511417,
+      "language_loss": 0.83780169,
+      "learning_rate": 3.9993190609038994e-06,
+      "loss": 0.8615011,
+      "num_input_tokens_seen": 6651505,
+      "step": 317,
+      "time_per_iteration": 2.6601297855377197
+    },
+    {
+      "auxiliary_loss_clip": 0.01319361,
+      "auxiliary_loss_mlp": 0.01062773,
+      "balance_loss_clip": 1.09254265,
+      "balance_loss_mlp": 1.04840839,
+      "epoch": 0.038237239223230926,
+      "flos": 21178067011200.0,
+      "grad_norm": 2.090386900369453,
+      "language_loss": 0.82924205,
+      "learning_rate": 3.999298583870182e-06,
+      "loss": 0.8530634,
+      "num_input_tokens_seen": 6671090,
+      "step": 318,
+      "time_per_iteration": 2.6636996269226074
+    },
+    {
+      "auxiliary_loss_clip": 0.01314205,
+      "auxiliary_loss_mlp": 0.01054702,
+      "balance_loss_clip": 1.08953464,
+      "balance_loss_mlp": 1.04106414,
+      "epoch": 0.038357482113870016,
+      "flos": 25556618995200.0,
+      "grad_norm": 1.8484473538681887,
+      "language_loss": 0.77783185,
+      "learning_rate": 3.999277803544458e-06,
+      "loss": 0.80152094,
+      "num_input_tokens_seen": 6691245,
+      "step": 319,
+      "time_per_iteration": 2.686126470565796
+    },
+    {
+      "auxiliary_loss_clip": 0.0120876,
+      "auxiliary_loss_mlp": 0.01010572,
+      "balance_loss_clip": 1.07097876,
+      "balance_loss_mlp": 1.00573242,
+      "epoch": 0.038477725004509106,
+      "flos": 59227578034560.0,
+      "grad_norm": 0.9550138452786125,
+      "language_loss": 0.62428832,
+      "learning_rate": 3.999256719929882e-06,
+      "loss": 0.64648163,
+      "num_input_tokens_seen": 6752520,
+      "step": 320,
+      "time_per_iteration": 3.1476049423217773
+    },
+    {
+      "auxiliary_loss_clip": 0.01207313,
+      "auxiliary_loss_mlp": 0.01006673,
+      "balance_loss_clip": 1.06990457,
+      "balance_loss_mlp": 1.00185728,
+      "epoch": 0.0385979678951482,
+      "flos": 67317676398720.0,
+      "grad_norm": 1.2030289880227205,
+      "language_loss": 0.67108512,
+      "learning_rate": 3.999235333029651e-06,
+      "loss": 0.69322503,
+      "num_input_tokens_seen": 6806460,
+      "step": 321,
+      "time_per_iteration": 3.0663397312164307
+    },
+    {
+      "auxiliary_loss_clip": 0.01319369,
+      "auxiliary_loss_mlp": 0.01056937,
+      "balance_loss_clip": 1.09542871,
+      "balance_loss_mlp": 1.04200017,
+      "epoch": 0.03871821078578729,
+      "flos": 22746752749440.0,
+      "grad_norm": 2.1273180013967834,
+      "language_loss": 0.82035661,
+      "learning_rate": 3.999213642847009e-06,
+      "loss": 0.84411967,
+      "num_input_tokens_seen": 6827045,
+      "step": 322,
+      "time_per_iteration": 2.669813871383667
+    },
+    {
+      "auxiliary_loss_clip": 0.01310026,
+      "auxiliary_loss_mlp": 0.01059104,
+      "balance_loss_clip": 1.08778286,
+      "balance_loss_mlp": 1.04468012,
+      "epoch": 0.03883845367642638,
+      "flos": 26280613526400.0,
+      "grad_norm": 1.7598425966338869,
+      "language_loss": 0.91308618,
+      "learning_rate": 3.999191649385247e-06,
+      "loss": 0.93677747,
+      "num_input_tokens_seen": 6848220,
+      "step": 323,
+      "time_per_iteration": 2.662250518798828
+    },
+    {
+      "auxiliary_loss_clip": 0.01202396,
+      "auxiliary_loss_mlp": 0.01003276,
+      "balance_loss_clip": 1.06624007,
+      "balance_loss_mlp": 0.99865019,
+      "epoch": 0.03895869656706547,
+      "flos": 56962835568000.0,
+      "grad_norm": 0.9044010503991111,
+      "language_loss": 0.5982824,
+      "learning_rate": 3.999169352647702e-06,
+      "loss": 0.62033916,
+      "num_input_tokens_seen": 6909400,
+      "step": 324,
+      "time_per_iteration": 3.1315605640411377
+    },
+    {
+      "auxiliary_loss_clip": 0.01318533,
+      "auxiliary_loss_mlp": 0.01065432,
+      "balance_loss_clip": 1.09132993,
+      "balance_loss_mlp": 1.05035794,
+      "epoch": 0.03907893945770456,
+      "flos": 24863363527680.0,
+      "grad_norm": 2.357880815631523,
+      "language_loss": 0.83029407,
+      "learning_rate": 3.999146752637755e-06,
+      "loss": 0.85413373,
+      "num_input_tokens_seen": 6930445,
+      "step": 325,
+      "time_per_iteration": 2.650099515914917
+    },
+    {
+      "auxiliary_loss_clip": 0.01309269,
+      "auxiliary_loss_mlp": 0.01058158,
+      "balance_loss_clip": 1.08716941,
+      "balance_loss_mlp": 1.0434947,
+      "epoch": 0.03919918234834365,
+      "flos": 18368595815040.0,
+      "grad_norm": 2.837603890668335,
+      "language_loss": 0.89649308,
+      "learning_rate": 3.999123849358836e-06,
+      "loss": 0.92016739,
+      "num_input_tokens_seen": 6948110,
+      "step": 326,
+      "time_per_iteration": 2.6258556842803955
+    },
+    {
+      "auxiliary_loss_clip": 0.01308693,
+      "auxiliary_loss_mlp": 0.01048576,
+      "balance_loss_clip": 1.08620095,
+      "balance_loss_mlp": 1.03486681,
+      "epoch": 0.03931942523898275,
+      "flos": 25225414663680.0,
+      "grad_norm": 2.3279215652349445,
+      "language_loss": 0.74711829,
+      "learning_rate": 3.999100642814418e-06,
+      "loss": 0.77069104,
+      "num_input_tokens_seen": 6968550,
+      "step": 327,
+      "time_per_iteration": 2.7076363563537598
+    },
+    {
+      "auxiliary_loss_clip": 0.01316621,
+      "auxiliary_loss_mlp": 0.01063706,
+      "balance_loss_clip": 1.09325886,
+      "balance_loss_mlp": 1.04933524,
+      "epoch": 0.03943966812962184,
+      "flos": 23257905240960.0,
+      "grad_norm": 2.183568470199827,
+      "language_loss": 0.88149959,
+      "learning_rate": 3.999077133008022e-06,
+      "loss": 0.90530288,
+      "num_input_tokens_seen": 6987135,
+      "step": 328,
+      "time_per_iteration": 2.6436216831207275
+    },
+    {
+      "auxiliary_loss_clip": 0.01315415,
+      "auxiliary_loss_mlp": 0.01055324,
+      "balance_loss_clip": 1.09243834,
+      "balance_loss_mlp": 1.04132295,
+      "epoch": 0.03955991102026093,
+      "flos": 29168837291520.0,
+      "grad_norm": 2.1145441282087045,
+      "language_loss": 0.90474641,
+      "learning_rate": 3.9990533199432145e-06,
+      "loss": 0.9284538,
+      "num_input_tokens_seen": 7008630,
+      "step": 329,
+      "time_per_iteration": 4.569812059402466
+    },
+    {
+      "auxiliary_loss_clip": 0.01314199,
+      "auxiliary_loss_mlp": 0.01051919,
+      "balance_loss_clip": 1.09009469,
+      "balance_loss_mlp": 1.03752446,
+      "epoch": 0.03968015391090002,
+      "flos": 17602441695360.0,
+      "grad_norm": 2.477621102563168,
+      "language_loss": 0.75760794,
+      "learning_rate": 3.999029203623608e-06,
+      "loss": 0.78126907,
+      "num_input_tokens_seen": 7026350,
+      "step": 330,
+      "time_per_iteration": 3.5798158645629883
+    },
+    {
+      "auxiliary_loss_clip": 0.0131146,
+      "auxiliary_loss_mlp": 0.01050654,
+      "balance_loss_clip": 1.09039438,
+      "balance_loss_mlp": 1.03675389,
+      "epoch": 0.03980039680153911,
+      "flos": 21799285752960.0,
+      "grad_norm": 1.9796100175006286,
+      "language_loss": 0.86890543,
+      "learning_rate": 3.99900478405286e-06,
+      "loss": 0.89252657,
+      "num_input_tokens_seen": 7045660,
+      "step": 331,
+      "time_per_iteration": 3.587165594100952
+    },
+    {
+      "auxiliary_loss_clip": 0.0131707,
+      "auxiliary_loss_mlp": 0.01055732,
+      "balance_loss_clip": 1.09573567,
+      "balance_loss_mlp": 1.04143262,
+      "epoch": 0.0399206396921782,
+      "flos": 15195134148480.0,
+      "grad_norm": 2.9580602096524813,
+      "language_loss": 0.82770026,
+      "learning_rate": 3.998980061234676e-06,
+      "loss": 0.85142827,
+      "num_input_tokens_seen": 7063575,
+      "step": 332,
+      "time_per_iteration": 2.616187572479248
+    },
+    {
+      "auxiliary_loss_clip": 0.01313096,
+      "auxiliary_loss_mlp": 0.01063387,
+      "balance_loss_clip": 1.0900898,
+      "balance_loss_mlp": 1.04885554,
+      "epoch": 0.040040882582817294,
+      "flos": 14422910630400.0,
+      "grad_norm": 2.6250396573838906,
+      "language_loss": 0.75703758,
+      "learning_rate": 3.9989550351728055e-06,
+      "loss": 0.78080237,
+      "num_input_tokens_seen": 7080505,
+      "step": 333,
+      "time_per_iteration": 2.5663530826568604
+    },
+    {
+      "auxiliary_loss_clip": 0.01311341,
+      "auxiliary_loss_mlp": 0.01052819,
+      "balance_loss_clip": 1.09086919,
+      "balance_loss_mlp": 1.03905594,
+      "epoch": 0.040161125473456384,
+      "flos": 19280906375040.0,
+      "grad_norm": 2.377694539633658,
+      "language_loss": 0.8467257,
+      "learning_rate": 3.998929705871046e-06,
+      "loss": 0.87036729,
+      "num_input_tokens_seen": 7097860,
+      "step": 334,
+      "time_per_iteration": 2.594193696975708
+    },
+    {
+      "auxiliary_loss_clip": 0.01309325,
+      "auxiliary_loss_mlp": 0.01057013,
+      "balance_loss_clip": 1.0896827,
+      "balance_loss_mlp": 1.04326844,
+      "epoch": 0.040281368364095474,
+      "flos": 17821101738240.0,
+      "grad_norm": 2.845736804498238,
+      "language_loss": 0.8909018,
+      "learning_rate": 3.99890407333324e-06,
+      "loss": 0.91456521,
+      "num_input_tokens_seen": 7116390,
+      "step": 335,
+      "time_per_iteration": 2.5981552600860596
+    },
+    {
+      "auxiliary_loss_clip": 0.01307567,
+      "auxiliary_loss_mlp": 0.01055131,
+      "balance_loss_clip": 1.08633053,
+      "balance_loss_mlp": 1.04071844,
+      "epoch": 0.040401611254734564,
+      "flos": 19573757959680.0,
+      "grad_norm": 2.3811017563707995,
+      "language_loss": 0.87204266,
+      "learning_rate": 3.998878137563275e-06,
+      "loss": 0.89566958,
+      "num_input_tokens_seen": 7135940,
+      "step": 336,
+      "time_per_iteration": 2.6289615631103516
+    },
+    {
+      "auxiliary_loss_clip": 0.01305633,
+      "auxiliary_loss_mlp": 0.01046596,
+      "balance_loss_clip": 1.08697772,
+      "balance_loss_mlp": 1.03151584,
+      "epoch": 0.040521854145373654,
+      "flos": 22054466949120.0,
+      "grad_norm": 2.2324109039013895,
+      "language_loss": 0.84983945,
+      "learning_rate": 3.998851898565085e-06,
+      "loss": 0.87336177,
+      "num_input_tokens_seen": 7155745,
+      "step": 337,
+      "time_per_iteration": 2.620145320892334
+    },
+    {
+      "auxiliary_loss_clip": 0.01308998,
+      "auxiliary_loss_mlp": 0.01049342,
+      "balance_loss_clip": 1.08789515,
+      "balance_loss_mlp": 1.03526974,
+      "epoch": 0.04064209703601274,
+      "flos": 22674644196480.0,
+      "grad_norm": 2.214350414984848,
+      "language_loss": 0.82811528,
+      "learning_rate": 3.998825356342653e-06,
+      "loss": 0.8516987,
+      "num_input_tokens_seen": 7175920,
+      "step": 338,
+      "time_per_iteration": 2.640328884124756
+    },
+    {
+      "auxiliary_loss_clip": 0.01309366,
+      "auxiliary_loss_mlp": 0.01049505,
+      "balance_loss_clip": 1.08721924,
+      "balance_loss_mlp": 1.0351162,
+      "epoch": 0.04076233992665183,
+      "flos": 38582172783360.0,
+      "grad_norm": 3.69406433642311,
+      "language_loss": 0.73286611,
+      "learning_rate": 3.998798510900003e-06,
+      "loss": 0.75645483,
+      "num_input_tokens_seen": 7198720,
+      "step": 339,
+      "time_per_iteration": 2.754089593887329
+    },
+    {
+      "auxiliary_loss_clip": 0.0130365,
+      "auxiliary_loss_mlp": 0.01048285,
+      "balance_loss_clip": 1.08238518,
+      "balance_loss_mlp": 1.034361,
+      "epoch": 0.04088258281729093,
+      "flos": 25885309374720.0,
+      "grad_norm": 2.531568276724195,
+      "language_loss": 0.83789796,
+      "learning_rate": 3.998771362241207e-06,
+      "loss": 0.86141729,
+      "num_input_tokens_seen": 7219125,
+      "step": 340,
+      "time_per_iteration": 2.6324732303619385
+    },
+    {
+      "auxiliary_loss_clip": 0.01307926,
+      "auxiliary_loss_mlp": 0.01043521,
+      "balance_loss_clip": 1.08821273,
+      "balance_loss_mlp": 1.03027713,
+      "epoch": 0.04100282570793002,
+      "flos": 19789832223360.0,
+      "grad_norm": 1.8171591746293552,
+      "language_loss": 0.88082856,
+      "learning_rate": 3.998743910370385e-06,
+      "loss": 0.90434301,
+      "num_input_tokens_seen": 7237985,
+      "step": 341,
+      "time_per_iteration": 2.6540615558624268
+    },
+    {
+      "auxiliary_loss_clip": 0.01314809,
+      "auxiliary_loss_mlp": 0.01054133,
+      "balance_loss_clip": 1.09515572,
+      "balance_loss_mlp": 1.04081726,
+      "epoch": 0.04112306859856911,
+      "flos": 22565152563840.0,
+      "grad_norm": 2.3649564611972247,
+      "language_loss": 0.73410296,
+      "learning_rate": 3.998716155291702e-06,
+      "loss": 0.75779241,
+      "num_input_tokens_seen": 7255825,
+      "step": 342,
+      "time_per_iteration": 2.600909471511841
+    },
+    {
+      "auxiliary_loss_clip": 0.01311224,
+      "auxiliary_loss_mlp": 0.01051765,
+      "balance_loss_clip": 1.09220028,
+      "balance_loss_mlp": 1.03876543,
+      "epoch": 0.0412433114892082,
+      "flos": 25040654081280.0,
+      "grad_norm": 2.5878285005949486,
+      "language_loss": 0.90464705,
+      "learning_rate": 3.998688097009366e-06,
+      "loss": 0.92827702,
+      "num_input_tokens_seen": 7276590,
+      "step": 343,
+      "time_per_iteration": 2.6670353412628174
+    },
+    {
+      "auxiliary_loss_clip": 0.01306987,
+      "auxiliary_loss_mlp": 0.01048005,
+      "balance_loss_clip": 1.08880818,
+      "balance_loss_mlp": 1.03477263,
+      "epoch": 0.04136355437984729,
+      "flos": 25191371548800.0,
+      "grad_norm": 3.039270178495479,
+      "language_loss": 0.80082053,
+      "learning_rate": 3.998659735527636e-06,
+      "loss": 0.82437044,
+      "num_input_tokens_seen": 7295680,
+      "step": 344,
+      "time_per_iteration": 2.6320793628692627
+    },
+    {
+      "auxiliary_loss_clip": 0.0130807,
+      "auxiliary_loss_mlp": 0.01051415,
+      "balance_loss_clip": 1.08832955,
+      "balance_loss_mlp": 1.03769398,
+      "epoch": 0.04148379727048638,
+      "flos": 22966777509120.0,
+      "grad_norm": 2.1211479314687285,
+      "language_loss": 0.77879167,
+      "learning_rate": 3.998631070850813e-06,
+      "loss": 0.80238652,
+      "num_input_tokens_seen": 7316300,
+      "step": 345,
+      "time_per_iteration": 2.7204134464263916
+    },
+    {
+      "auxiliary_loss_clip": 0.01308283,
+      "auxiliary_loss_mlp": 0.01058604,
+      "balance_loss_clip": 1.09113646,
+      "balance_loss_mlp": 1.04537201,
+      "epoch": 0.041604040161125476,
+      "flos": 14063481187200.0,
+      "grad_norm": 2.6473637431708683,
+      "language_loss": 0.83384061,
+      "learning_rate": 3.9986021029832455e-06,
+      "loss": 0.85750949,
+      "num_input_tokens_seen": 7333615,
+      "step": 346,
+      "time_per_iteration": 2.6298117637634277
+    },
+    {
+      "auxiliary_loss_clip": 0.01306337,
+      "auxiliary_loss_mlp": 0.01058518,
+      "balance_loss_clip": 1.0859462,
+      "balance_loss_mlp": 1.04386663,
+      "epoch": 0.041724283051764566,
+      "flos": 12091877614080.0,
+      "grad_norm": 5.068928889622225,
+      "language_loss": 0.91789019,
+      "learning_rate": 3.9985728319293285e-06,
+      "loss": 0.94153869,
+      "num_input_tokens_seen": 7347590,
+      "step": 347,
+      "time_per_iteration": 2.622990369796753
+    },
+    {
+      "auxiliary_loss_clip": 0.01309711,
+      "auxiliary_loss_mlp": 0.01053537,
+      "balance_loss_clip": 1.0872283,
+      "balance_loss_mlp": 1.03855252,
+      "epoch": 0.041844525942403656,
+      "flos": 12385303816320.0,
+      "grad_norm": 2.543618564914954,
+      "language_loss": 0.85718197,
+      "learning_rate": 3.998543257693501e-06,
+      "loss": 0.88081443,
+      "num_input_tokens_seen": 7364345,
+      "step": 348,
+      "time_per_iteration": 2.6099817752838135
+    },
+    {
+      "auxiliary_loss_clip": 0.01313406,
+      "auxiliary_loss_mlp": 0.010536,
+      "balance_loss_clip": 1.09271121,
+      "balance_loss_mlp": 1.04099321,
+      "epoch": 0.041964768833042745,
+      "flos": 23769345041280.0,
+      "grad_norm": 1.9353825484519982,
+      "language_loss": 0.87794471,
+      "learning_rate": 3.998513380280251e-06,
+      "loss": 0.90161479,
+      "num_input_tokens_seen": 7384625,
+      "step": 349,
+      "time_per_iteration": 2.669072151184082
+    },
+    {
+      "auxiliary_loss_clip": 0.01312311,
+      "auxiliary_loss_mlp": 0.01053917,
+      "balance_loss_clip": 1.09017849,
+      "balance_loss_mlp": 1.04020238,
+      "epoch": 0.042085011723681835,
+      "flos": 11875336473600.0,
+      "grad_norm": 2.1915583198588107,
+      "language_loss": 0.94667542,
+      "learning_rate": 3.99848319969411e-06,
+      "loss": 0.97033775,
+      "num_input_tokens_seen": 7402225,
+      "step": 350,
+      "time_per_iteration": 2.5798609256744385
+    },
+    {
+      "auxiliary_loss_clip": 0.01316216,
+      "auxiliary_loss_mlp": 0.0105596,
+      "balance_loss_clip": 1.0943079,
+      "balance_loss_mlp": 1.04161906,
+      "epoch": 0.042205254614320925,
+      "flos": 16873957964160.0,
+      "grad_norm": 2.1895912133191104,
+      "language_loss": 0.79203308,
+      "learning_rate": 3.9984527159396564e-06,
+      "loss": 0.81575483,
+      "num_input_tokens_seen": 7420865,
+      "step": 351,
+      "time_per_iteration": 2.6342029571533203
+    },
+    {
+      "auxiliary_loss_clip": 0.01300953,
+      "auxiliary_loss_mlp": 0.01046956,
+      "balance_loss_clip": 1.08174562,
+      "balance_loss_mlp": 1.03200698,
+      "epoch": 0.04232549750496002,
+      "flos": 25118508810240.0,
+      "grad_norm": 2.568861046791861,
+      "language_loss": 0.84188473,
+      "learning_rate": 3.9984219290215154e-06,
+      "loss": 0.86536384,
+      "num_input_tokens_seen": 7441040,
+      "step": 352,
+      "time_per_iteration": 2.693084239959717
+    },
+    {
+      "auxiliary_loss_clip": 0.01309131,
+      "auxiliary_loss_mlp": 0.01051674,
+      "balance_loss_clip": 1.08850837,
+      "balance_loss_mlp": 1.037184,
+      "epoch": 0.04244574039559911,
+      "flos": 26724541714560.0,
+      "grad_norm": 1.6188780996509067,
+      "language_loss": 0.89199901,
+      "learning_rate": 3.998390838944356e-06,
+      "loss": 0.91560704,
+      "num_input_tokens_seen": 7462545,
+      "step": 353,
+      "time_per_iteration": 2.792365312576294
+    },
+    {
+      "auxiliary_loss_clip": 0.01308982,
+      "auxiliary_loss_mlp": 0.01056297,
+      "balance_loss_clip": 1.08837152,
+      "balance_loss_mlp": 1.04255223,
+      "epoch": 0.0425659832862382,
+      "flos": 20923244951040.0,
+      "grad_norm": 3.2382416460170567,
+      "language_loss": 0.90409052,
+      "learning_rate": 3.998359445712895e-06,
+      "loss": 0.92774332,
+      "num_input_tokens_seen": 7481650,
+      "step": 354,
+      "time_per_iteration": 2.7807109355926514
+    },
+    {
+      "auxiliary_loss_clip": 0.01306724,
+      "auxiliary_loss_mlp": 0.01051058,
+      "balance_loss_clip": 1.08637822,
+      "balance_loss_mlp": 1.03688347,
+      "epoch": 0.04268622617687729,
+      "flos": 23331127115520.0,
+      "grad_norm": 2.614984203504092,
+      "language_loss": 0.81009555,
+      "learning_rate": 3.9983277493318955e-06,
+      "loss": 0.83367336,
+      "num_input_tokens_seen": 7500945,
+      "step": 355,
+      "time_per_iteration": 4.474182844161987
+    },
+    {
+      "auxiliary_loss_clip": 0.01306123,
+      "auxiliary_loss_mlp": 0.01050972,
+      "balance_loss_clip": 1.08537221,
+      "balance_loss_mlp": 1.03638053,
+      "epoch": 0.04280646906751638,
+      "flos": 25994010908160.0,
+      "grad_norm": 1.6026662469556396,
+      "language_loss": 0.81184798,
+      "learning_rate": 3.998295749806165e-06,
+      "loss": 0.83541894,
+      "num_input_tokens_seen": 7522170,
+      "step": 356,
+      "time_per_iteration": 3.5499775409698486
+    },
+    {
+      "auxiliary_loss_clip": 0.01305359,
+      "auxiliary_loss_mlp": 0.01056713,
+      "balance_loss_clip": 1.08752346,
+      "balance_loss_mlp": 1.04310501,
+      "epoch": 0.04292671195815547,
+      "flos": 26906824258560.0,
+      "grad_norm": 2.363367110446849,
+      "language_loss": 0.8309198,
+      "learning_rate": 3.998263447140558e-06,
+      "loss": 0.85454053,
+      "num_input_tokens_seen": 7542370,
+      "step": 357,
+      "time_per_iteration": 3.534044027328491
+    },
+    {
+      "auxiliary_loss_clip": 0.01304056,
+      "auxiliary_loss_mlp": 0.01053822,
+      "balance_loss_clip": 1.08481097,
+      "balance_loss_mlp": 1.04032719,
+      "epoch": 0.04304695484879457,
+      "flos": 39457315745280.0,
+      "grad_norm": 1.9398768946309888,
+      "language_loss": 0.8171953,
+      "learning_rate": 3.998230841339976e-06,
+      "loss": 0.84077406,
+      "num_input_tokens_seen": 7564380,
+      "step": 358,
+      "time_per_iteration": 2.752437114715576
+    },
+    {
+      "auxiliary_loss_clip": 0.01304387,
+      "auxiliary_loss_mlp": 0.0106937,
+      "balance_loss_clip": 1.08835304,
+      "balance_loss_mlp": 1.05569029,
+      "epoch": 0.04316719773943366,
+      "flos": 19646297475840.0,
+      "grad_norm": 2.1792611961934627,
+      "language_loss": 0.85042834,
+      "learning_rate": 3.998197932409363e-06,
+      "loss": 0.87416589,
+      "num_input_tokens_seen": 7582390,
+      "step": 359,
+      "time_per_iteration": 2.602876901626587
+    },
+    {
+      "auxiliary_loss_clip": 0.01301058,
+      "auxiliary_loss_mlp": 0.01051727,
+      "balance_loss_clip": 1.08521342,
+      "balance_loss_mlp": 1.03859019,
+      "epoch": 0.04328744063007275,
+      "flos": 22452320966400.0,
+      "grad_norm": 3.185368029813027,
+      "language_loss": 0.85971242,
+      "learning_rate": 3.9981647203537125e-06,
+      "loss": 0.88324028,
+      "num_input_tokens_seen": 7599890,
+      "step": 360,
+      "time_per_iteration": 2.583787679672241
+    },
+    {
+      "auxiliary_loss_clip": 0.01305604,
+      "auxiliary_loss_mlp": 0.01055699,
+      "balance_loss_clip": 1.08653164,
+      "balance_loss_mlp": 1.04246044,
+      "epoch": 0.04340768352071184,
+      "flos": 21283033530240.0,
+      "grad_norm": 1.9792481402973836,
+      "language_loss": 0.95948601,
+      "learning_rate": 3.998131205178063e-06,
+      "loss": 0.9830991,
+      "num_input_tokens_seen": 7618360,
+      "step": 361,
+      "time_per_iteration": 2.6178455352783203
+    },
+    {
+      "auxiliary_loss_clip": 0.01303372,
+      "auxiliary_loss_mlp": 0.01050853,
+      "balance_loss_clip": 1.08522749,
+      "balance_loss_mlp": 1.03539193,
+      "epoch": 0.04352792641135093,
+      "flos": 11583705951360.0,
+      "grad_norm": 3.2614151861735965,
+      "language_loss": 0.76711673,
+      "learning_rate": 3.998097386887498e-06,
+      "loss": 0.79065895,
+      "num_input_tokens_seen": 7635435,
+      "step": 362,
+      "time_per_iteration": 2.574432849884033
+    },
+    {
+      "auxiliary_loss_clip": 0.01303618,
+      "auxiliary_loss_mlp": 0.01047155,
+      "balance_loss_clip": 1.08762252,
+      "balance_loss_mlp": 1.03416157,
+      "epoch": 0.04364816930199002,
+      "flos": 23623547736960.0,
+      "grad_norm": 1.7510516813012547,
+      "language_loss": 0.85092843,
+      "learning_rate": 3.998063265487148e-06,
+      "loss": 0.8744362,
+      "num_input_tokens_seen": 7656485,
+      "step": 363,
+      "time_per_iteration": 2.661924123764038
+    },
+    {
+      "auxiliary_loss_clip": 0.0130237,
+      "auxiliary_loss_mlp": 0.01048702,
+      "balance_loss_clip": 1.08658648,
+      "balance_loss_mlp": 1.03555369,
+      "epoch": 0.043768412192629114,
+      "flos": 14429734214400.0,
+      "grad_norm": 1.8879752967229084,
+      "language_loss": 0.80998111,
+      "learning_rate": 3.99802884098219e-06,
+      "loss": 0.83349192,
+      "num_input_tokens_seen": 7674595,
+      "step": 364,
+      "time_per_iteration": 2.6175994873046875
+    },
+    {
+      "auxiliary_loss_clip": 0.01299612,
+      "auxiliary_loss_mlp": 0.010425,
+      "balance_loss_clip": 1.08116603,
+      "balance_loss_mlp": 1.02817726,
+      "epoch": 0.043888655083268203,
+      "flos": 26468893641600.0,
+      "grad_norm": 2.6969064074211055,
+      "language_loss": 0.82289845,
+      "learning_rate": 3.997994113377845e-06,
+      "loss": 0.84631956,
+      "num_input_tokens_seen": 7693495,
+      "step": 365,
+      "time_per_iteration": 2.621397018432617
+    },
+    {
+      "auxiliary_loss_clip": 0.01303556,
+      "auxiliary_loss_mlp": 0.0104855,
+      "balance_loss_clip": 1.08668065,
+      "balance_loss_mlp": 1.03499579,
+      "epoch": 0.04400889797390729,
+      "flos": 27235263242880.0,
+      "grad_norm": 2.3778560846013455,
+      "language_loss": 0.83328032,
+      "learning_rate": 3.9979590826793815e-06,
+      "loss": 0.85680139,
+      "num_input_tokens_seen": 7714685,
+      "step": 366,
+      "time_per_iteration": 2.6679019927978516
+    },
+    {
+      "auxiliary_loss_clip": 0.01303551,
+      "auxiliary_loss_mlp": 0.01057058,
+      "balance_loss_clip": 1.08564651,
+      "balance_loss_mlp": 1.04266918,
+      "epoch": 0.04412914086454638,
+      "flos": 20119528183680.0,
+      "grad_norm": 2.0232462251891365,
+      "language_loss": 0.80927324,
+      "learning_rate": 3.997923748892113e-06,
+      "loss": 0.83287936,
+      "num_input_tokens_seen": 7734005,
+      "step": 367,
+      "time_per_iteration": 2.586362600326538
+    },
+    {
+      "auxiliary_loss_clip": 0.01304617,
+      "auxiliary_loss_mlp": 0.01059457,
+      "balance_loss_clip": 1.08766675,
+      "balance_loss_mlp": 1.04597497,
+      "epoch": 0.04424938375518547,
+      "flos": 22604618632320.0,
+      "grad_norm": 1.7762986930242897,
+      "language_loss": 0.88537717,
+      "learning_rate": 3.9978881120214015e-06,
+      "loss": 0.90901792,
+      "num_input_tokens_seen": 7755525,
+      "step": 368,
+      "time_per_iteration": 2.6624162197113037
+    },
+    {
+      "auxiliary_loss_clip": 0.01298059,
+      "auxiliary_loss_mlp": 0.01059918,
+      "balance_loss_clip": 1.08087933,
+      "balance_loss_mlp": 1.04650712,
+      "epoch": 0.04436962664582456,
+      "flos": 24132365844480.0,
+      "grad_norm": 2.25329599163098,
+      "language_loss": 0.79330897,
+      "learning_rate": 3.997852172072652e-06,
+      "loss": 0.81688869,
+      "num_input_tokens_seen": 7776740,
+      "step": 369,
+      "time_per_iteration": 2.612854242324829
+    },
+    {
+      "auxiliary_loss_clip": 0.013002,
+      "auxiliary_loss_mlp": 0.01046262,
+      "balance_loss_clip": 1.08435297,
+      "balance_loss_mlp": 1.03208804,
+      "epoch": 0.04448986953646366,
+      "flos": 18222906251520.0,
+      "grad_norm": 2.7196320014946402,
+      "language_loss": 0.8922081,
+      "learning_rate": 3.9978159290513155e-06,
+      "loss": 0.91567272,
+      "num_input_tokens_seen": 7794820,
+      "step": 370,
+      "time_per_iteration": 2.5863258838653564
+    },
+    {
+      "auxiliary_loss_clip": 0.01301708,
+      "auxiliary_loss_mlp": 0.01046621,
+      "balance_loss_clip": 1.08448958,
+      "balance_loss_mlp": 1.03353798,
+      "epoch": 0.04461011242710275,
+      "flos": 30117920400000.0,
+      "grad_norm": 1.6680496226121366,
+      "language_loss": 0.80228978,
+      "learning_rate": 3.997779382962892e-06,
+      "loss": 0.82577312,
+      "num_input_tokens_seen": 7817705,
+      "step": 371,
+      "time_per_iteration": 2.712160348892212
+    },
+    {
+      "auxiliary_loss_clip": 0.0129867,
+      "auxiliary_loss_mlp": 0.01055214,
+      "balance_loss_clip": 1.08248854,
+      "balance_loss_mlp": 1.04176152,
+      "epoch": 0.04473035531774184,
+      "flos": 29752529299200.0,
+      "grad_norm": 2.3302537462959574,
+      "language_loss": 0.73756182,
+      "learning_rate": 3.997742533812924e-06,
+      "loss": 0.76110065,
+      "num_input_tokens_seen": 7840970,
+      "step": 372,
+      "time_per_iteration": 2.7309818267822266
+    },
+    {
+      "auxiliary_loss_clip": 0.01303978,
+      "auxiliary_loss_mlp": 0.01049706,
+      "balance_loss_clip": 1.08784819,
+      "balance_loss_mlp": 1.03577018,
+      "epoch": 0.04485059820838093,
+      "flos": 13151565676800.0,
+      "grad_norm": 3.2705447918352237,
+      "language_loss": 0.9271276,
+      "learning_rate": 3.997705381607001e-06,
+      "loss": 0.95066446,
+      "num_input_tokens_seen": 7857785,
+      "step": 373,
+      "time_per_iteration": 2.6399617195129395
+    },
+    {
+      "auxiliary_loss_clip": 0.01198749,
+      "auxiliary_loss_mlp": 0.01011213,
+      "balance_loss_clip": 1.0660615,
+      "balance_loss_mlp": 1.00682628,
+      "epoch": 0.04497084109902002,
+      "flos": 68094209548800.0,
+      "grad_norm": 0.9836124747511189,
+      "language_loss": 0.60252666,
+      "learning_rate": 3.997667926350761e-06,
+      "loss": 0.62462628,
+      "num_input_tokens_seen": 7916115,
+      "step": 374,
+      "time_per_iteration": 3.10239577293396
+    },
+    {
+      "auxiliary_loss_clip": 0.01196648,
+      "auxiliary_loss_mlp": 0.01007312,
+      "balance_loss_clip": 1.06474435,
+      "balance_loss_mlp": 1.00280559,
+      "epoch": 0.04509108398965911,
+      "flos": 64342263346560.0,
+      "grad_norm": 0.905668008621706,
+      "language_loss": 0.57798165,
+      "learning_rate": 3.997630168049886e-06,
+      "loss": 0.60002124,
+      "num_input_tokens_seen": 7974480,
+      "step": 375,
+      "time_per_iteration": 3.217982292175293
+    },
+    {
+      "auxiliary_loss_clip": 0.01306359,
+      "auxiliary_loss_mlp": 0.0104424,
+      "balance_loss_clip": 1.08775926,
+      "balance_loss_mlp": 1.03083456,
+      "epoch": 0.045211326880298205,
+      "flos": 22271115830400.0,
+      "grad_norm": 2.116741185652129,
+      "language_loss": 0.77618718,
+      "learning_rate": 3.997592106710101e-06,
+      "loss": 0.79969323,
+      "num_input_tokens_seen": 7993940,
+      "step": 376,
+      "time_per_iteration": 2.615664482116699
+    },
+    {
+      "auxiliary_loss_clip": 0.01300245,
+      "auxiliary_loss_mlp": 0.01053235,
+      "balance_loss_clip": 1.084162,
+      "balance_loss_mlp": 1.03960347,
+      "epoch": 0.045331569770937295,
+      "flos": 32159441796480.0,
+      "grad_norm": 3.137266415377361,
+      "language_loss": 0.66134745,
+      "learning_rate": 3.997553742337182e-06,
+      "loss": 0.68488228,
+      "num_input_tokens_seen": 8013365,
+      "step": 377,
+      "time_per_iteration": 2.7381834983825684
+    },
+    {
+      "auxiliary_loss_clip": 0.01301411,
+      "auxiliary_loss_mlp": 0.01053363,
+      "balance_loss_clip": 1.08613181,
+      "balance_loss_mlp": 1.04055953,
+      "epoch": 0.045451812661576385,
+      "flos": 22163455791360.0,
+      "grad_norm": 1.9492665660125146,
+      "language_loss": 0.91387641,
+      "learning_rate": 3.997515074936949e-06,
+      "loss": 0.93742406,
+      "num_input_tokens_seen": 8034240,
+      "step": 378,
+      "time_per_iteration": 2.6207218170166016
+    },
+    {
+      "auxiliary_loss_clip": 0.01297385,
+      "auxiliary_loss_mlp": 0.01045638,
+      "balance_loss_clip": 1.08355474,
+      "balance_loss_mlp": 1.03227496,
+      "epoch": 0.045572055552215475,
+      "flos": 16581968305920.0,
+      "grad_norm": 3.5398669458010072,
+      "language_loss": 0.86683911,
+      "learning_rate": 3.997476104515268e-06,
+      "loss": 0.89026928,
+      "num_input_tokens_seen": 8052430,
+      "step": 379,
+      "time_per_iteration": 2.6588921546936035
+    },
+    {
+      "auxiliary_loss_clip": 0.0129526,
+      "auxiliary_loss_mlp": 0.01044619,
+      "balance_loss_clip": 1.08435404,
+      "balance_loss_mlp": 1.03236401,
+      "epoch": 0.045692298442854565,
+      "flos": 17603375448960.0,
+      "grad_norm": 2.5194703361921604,
+      "language_loss": 0.77494735,
+      "learning_rate": 3.9974368310780485e-06,
+      "loss": 0.79834616,
+      "num_input_tokens_seen": 8069605,
+      "step": 380,
+      "time_per_iteration": 2.5814156532287598
+    },
+    {
+      "auxiliary_loss_clip": 0.0130738,
+      "auxiliary_loss_mlp": 0.01061646,
+      "balance_loss_clip": 1.08682084,
+      "balance_loss_mlp": 1.047436,
+      "epoch": 0.045812541333493655,
+      "flos": 26761098781440.0,
+      "grad_norm": 2.762949458350533,
+      "language_loss": 0.74577075,
+      "learning_rate": 3.997397254631251e-06,
+      "loss": 0.76946092,
+      "num_input_tokens_seen": 8090225,
+      "step": 381,
+      "time_per_iteration": 3.619298219680786
+    },
+    {
+      "auxiliary_loss_clip": 0.01190175,
+      "auxiliary_loss_mlp": 0.01026415,
+      "balance_loss_clip": 1.05861235,
+      "balance_loss_mlp": 1.02178943,
+      "epoch": 0.04593278422413275,
+      "flos": 60250349894400.0,
+      "grad_norm": 0.8273765413568055,
+      "language_loss": 0.60081244,
+      "learning_rate": 3.997357375180878e-06,
+      "loss": 0.62297833,
+      "num_input_tokens_seen": 8154505,
+      "step": 382,
+      "time_per_iteration": 3.2793266773223877
+    },
+    {
+      "auxiliary_loss_clip": 0.01295848,
+      "auxiliary_loss_mlp": 0.01051379,
+      "balance_loss_clip": 1.08219826,
+      "balance_loss_mlp": 1.03851628,
+      "epoch": 0.04605302711477184,
+      "flos": 21799249839360.0,
+      "grad_norm": 2.0993621747149613,
+      "language_loss": 0.75170445,
+      "learning_rate": 3.997317192732979e-06,
+      "loss": 0.77517676,
+      "num_input_tokens_seen": 8173285,
+      "step": 383,
+      "time_per_iteration": 3.5043282508850098
+    },
+    {
+      "auxiliary_loss_clip": 0.01298142,
+      "auxiliary_loss_mlp": 0.01053932,
+      "balance_loss_clip": 1.08233356,
+      "balance_loss_mlp": 1.03954375,
+      "epoch": 0.04617327000541093,
+      "flos": 19459705299840.0,
+      "grad_norm": 1.810003540733061,
+      "language_loss": 0.82497561,
+      "learning_rate": 3.99727670729365e-06,
+      "loss": 0.84849632,
+      "num_input_tokens_seen": 8191845,
+      "step": 384,
+      "time_per_iteration": 3.465014696121216
+    },
+    {
+      "auxiliary_loss_clip": 0.01298231,
+      "auxiliary_loss_mlp": 0.0105191,
+      "balance_loss_clip": 1.08554554,
+      "balance_loss_mlp": 1.03938079,
+      "epoch": 0.04629351289605002,
+      "flos": 25411468135680.0,
+      "grad_norm": 1.9416919996229298,
+      "language_loss": 0.77745366,
+      "learning_rate": 3.997235918869033e-06,
+      "loss": 0.80095506,
+      "num_input_tokens_seen": 8212880,
+      "step": 385,
+      "time_per_iteration": 2.757336139678955
+    },
+    {
+      "auxiliary_loss_clip": 0.01299321,
+      "auxiliary_loss_mlp": 0.01053274,
+      "balance_loss_clip": 1.08487654,
+      "balance_loss_mlp": 1.04023302,
+      "epoch": 0.04641375578668911,
+      "flos": 20558284813440.0,
+      "grad_norm": 2.183075926779125,
+      "language_loss": 0.82317382,
+      "learning_rate": 3.997194827465315e-06,
+      "loss": 0.84669983,
+      "num_input_tokens_seen": 8231475,
+      "step": 386,
+      "time_per_iteration": 2.621617555618286
+    },
+    {
+      "auxiliary_loss_clip": 0.01297931,
+      "auxiliary_loss_mlp": 0.01048016,
+      "balance_loss_clip": 1.08308935,
+      "balance_loss_mlp": 1.03437853,
+      "epoch": 0.0465339986773282,
+      "flos": 13188661447680.0,
+      "grad_norm": 2.915285899334016,
+      "language_loss": 0.91379786,
+      "learning_rate": 3.997153433088728e-06,
+      "loss": 0.93725729,
+      "num_input_tokens_seen": 8248600,
+      "step": 387,
+      "time_per_iteration": 2.589742422103882
+    },
+    {
+      "auxiliary_loss_clip": 0.01298954,
+      "auxiliary_loss_mlp": 0.01050822,
+      "balance_loss_clip": 1.08403444,
+      "balance_loss_mlp": 1.03707719,
+      "epoch": 0.0466542415679673,
+      "flos": 25556547168000.0,
+      "grad_norm": 1.809849255364686,
+      "language_loss": 0.81295216,
+      "learning_rate": 3.997111735745554e-06,
+      "loss": 0.83644986,
+      "num_input_tokens_seen": 8271570,
+      "step": 388,
+      "time_per_iteration": 2.6413590908050537
+    },
+    {
+      "auxiliary_loss_clip": 0.0129533,
+      "auxiliary_loss_mlp": 0.01045376,
+      "balance_loss_clip": 1.08322394,
+      "balance_loss_mlp": 1.03288269,
+      "epoch": 0.04677448445860639,
+      "flos": 22236749493120.0,
+      "grad_norm": 2.2429408254507126,
+      "language_loss": 0.82765275,
+      "learning_rate": 3.997069735442118e-06,
+      "loss": 0.85105979,
+      "num_input_tokens_seen": 8291265,
+      "step": 389,
+      "time_per_iteration": 2.5964834690093994
+    },
+    {
+      "auxiliary_loss_clip": 0.01295169,
+      "auxiliary_loss_mlp": 0.01052795,
+      "balance_loss_clip": 1.08252358,
+      "balance_loss_mlp": 1.0395273,
+      "epoch": 0.04689472734924548,
+      "flos": 28147825198080.0,
+      "grad_norm": 1.6056739006725278,
+      "language_loss": 0.80395365,
+      "learning_rate": 3.997027432184792e-06,
+      "loss": 0.82743323,
+      "num_input_tokens_seen": 8315925,
+      "step": 390,
+      "time_per_iteration": 2.6949026584625244
+    },
+    {
+      "auxiliary_loss_clip": 0.01293934,
+      "auxiliary_loss_mlp": 0.01044426,
+      "balance_loss_clip": 1.08066821,
+      "balance_loss_mlp": 1.03121781,
+      "epoch": 0.04701497023988457,
+      "flos": 23148952312320.0,
+      "grad_norm": 1.8737046216379776,
+      "language_loss": 0.89227974,
+      "learning_rate": 3.99698482597999e-06,
+      "loss": 0.91566336,
+      "num_input_tokens_seen": 8333605,
+      "step": 391,
+      "time_per_iteration": 2.6441550254821777
+    },
+    {
+      "auxiliary_loss_clip": 0.01180948,
+      "auxiliary_loss_mlp": 0.01001955,
+      "balance_loss_clip": 1.05214572,
+      "balance_loss_mlp": 0.99763966,
+      "epoch": 0.04713521313052366,
+      "flos": 64827668764800.0,
+      "grad_norm": 0.8700629774026185,
+      "language_loss": 0.63913035,
+      "learning_rate": 3.99694191683418e-06,
+      "loss": 0.66095936,
+      "num_input_tokens_seen": 8394405,
+      "step": 392,
+      "time_per_iteration": 3.258383274078369
+    },
+    {
+      "auxiliary_loss_clip": 0.01301264,
+      "auxiliary_loss_mlp": 0.01055715,
+      "balance_loss_clip": 1.08713627,
+      "balance_loss_mlp": 1.04109991,
+      "epoch": 0.047255456021162746,
+      "flos": 18771585477120.0,
+      "grad_norm": 2.5070191776787576,
+      "language_loss": 0.81781697,
+      "learning_rate": 3.996898704753867e-06,
+      "loss": 0.8413868,
+      "num_input_tokens_seen": 8412355,
+      "step": 393,
+      "time_per_iteration": 2.6314265727996826
+    },
+    {
+      "auxiliary_loss_clip": 0.01298251,
+      "auxiliary_loss_mlp": 0.01048645,
+      "balance_loss_clip": 1.08171844,
+      "balance_loss_mlp": 1.03490639,
+      "epoch": 0.04737569891180184,
+      "flos": 22053820504320.0,
+      "grad_norm": 2.7647938008001307,
+      "language_loss": 0.87784374,
+      "learning_rate": 3.996855189745609e-06,
+      "loss": 0.90131271,
+      "num_input_tokens_seen": 8431620,
+      "step": 394,
+      "time_per_iteration": 2.6061179637908936
+    },
+    {
+      "auxiliary_loss_clip": 0.01296107,
+      "auxiliary_loss_mlp": 0.01065119,
+      "balance_loss_clip": 1.08297896,
+      "balance_loss_mlp": 1.05120707,
+      "epoch": 0.04749594180244093,
+      "flos": 29057370410880.0,
+      "grad_norm": 1.918380578137693,
+      "language_loss": 0.92398453,
+      "learning_rate": 3.996811371816007e-06,
+      "loss": 0.94759679,
+      "num_input_tokens_seen": 8454045,
+      "step": 395,
+      "time_per_iteration": 2.7444663047790527
+    },
+    {
+      "auxiliary_loss_clip": 0.01295112,
+      "auxiliary_loss_mlp": 0.01056932,
+      "balance_loss_clip": 1.08324122,
+      "balance_loss_mlp": 1.04348493,
+      "epoch": 0.04761618469308002,
+      "flos": 35112268172160.0,
+      "grad_norm": 1.8928836966179192,
+      "language_loss": 0.77733541,
+      "learning_rate": 3.996767250971707e-06,
+      "loss": 0.80085588,
+      "num_input_tokens_seen": 8476785,
+      "step": 396,
+      "time_per_iteration": 2.846000909805298
+    },
+    {
+      "auxiliary_loss_clip": 0.01298315,
+      "auxiliary_loss_mlp": 0.0105093,
+      "balance_loss_clip": 1.0849421,
+      "balance_loss_mlp": 1.03874731,
+      "epoch": 0.04773642758371911,
+      "flos": 25630702796160.0,
+      "grad_norm": 4.021906739245687,
+      "language_loss": 0.8698988,
+      "learning_rate": 3.996722827219403e-06,
+      "loss": 0.89339125,
+      "num_input_tokens_seen": 8498400,
+      "step": 397,
+      "time_per_iteration": 2.7793469429016113
+    },
+    {
+      "auxiliary_loss_clip": 0.01296966,
+      "auxiliary_loss_mlp": 0.01049665,
+      "balance_loss_clip": 1.08337355,
+      "balance_loss_mlp": 1.03531194,
+      "epoch": 0.0478566704743582,
+      "flos": 20631506688000.0,
+      "grad_norm": 2.4168682817562077,
+      "language_loss": 0.8250556,
+      "learning_rate": 3.996678100565833e-06,
+      "loss": 0.84852189,
+      "num_input_tokens_seen": 8517455,
+      "step": 398,
+      "time_per_iteration": 2.6806962490081787
+    },
+    {
+      "auxiliary_loss_clip": 0.01294167,
+      "auxiliary_loss_mlp": 0.01052662,
+      "balance_loss_clip": 1.08231819,
+      "balance_loss_mlp": 1.03988862,
+      "epoch": 0.04797691336499729,
+      "flos": 18835721210880.0,
+      "grad_norm": 5.309619745661796,
+      "language_loss": 0.8835752,
+      "learning_rate": 3.996633071017783e-06,
+      "loss": 0.90704352,
+      "num_input_tokens_seen": 8534085,
+      "step": 399,
+      "time_per_iteration": 2.6742827892303467
+    },
+    {
+      "auxiliary_loss_clip": 0.01295851,
+      "auxiliary_loss_mlp": 0.01058969,
+      "balance_loss_clip": 1.08484197,
+      "balance_loss_mlp": 1.04527175,
+      "epoch": 0.04809715625563638,
+      "flos": 21099673578240.0,
+      "grad_norm": 2.3475826943489566,
+      "language_loss": 0.81540626,
+      "learning_rate": 3.996587738582084e-06,
+      "loss": 0.83895445,
+      "num_input_tokens_seen": 8550885,
+      "step": 400,
+      "time_per_iteration": 2.706061601638794
+    },
+    {
+      "auxiliary_loss_clip": 0.01292976,
+      "auxiliary_loss_mlp": 0.01050743,
+      "balance_loss_clip": 1.08157873,
+      "balance_loss_mlp": 1.03826141,
+      "epoch": 0.04821739914627548,
+      "flos": 23805650712960.0,
+      "grad_norm": 2.9839395616629205,
+      "language_loss": 0.86175275,
+      "learning_rate": 3.9965421032656115e-06,
+      "loss": 0.88519001,
+      "num_input_tokens_seen": 8570815,
+      "step": 401,
+      "time_per_iteration": 2.7361044883728027
+    },
+    {
+      "auxiliary_loss_clip": 0.01291077,
+      "auxiliary_loss_mlp": 0.01049124,
+      "balance_loss_clip": 1.08114362,
+      "balance_loss_mlp": 1.03664255,
+      "epoch": 0.04833764203691457,
+      "flos": 22200587475840.0,
+      "grad_norm": 2.3679509064145927,
+      "language_loss": 0.94306862,
+      "learning_rate": 3.99649616507529e-06,
+      "loss": 0.96647066,
+      "num_input_tokens_seen": 8589910,
+      "step": 402,
+      "time_per_iteration": 2.6628611087799072
+    },
+    {
+      "auxiliary_loss_clip": 0.01175973,
+      "auxiliary_loss_mlp": 0.01004453,
+      "balance_loss_clip": 1.04868567,
+      "balance_loss_mlp": 1.00042343,
+      "epoch": 0.04845788492755366,
+      "flos": 65904376896000.0,
+      "grad_norm": 0.9862401558800402,
+      "language_loss": 0.63082868,
+      "learning_rate": 3.996449924018088e-06,
+      "loss": 0.65263295,
+      "num_input_tokens_seen": 8650370,
+      "step": 403,
+      "time_per_iteration": 3.1459217071533203
+    },
+    {
+      "auxiliary_loss_clip": 0.0129566,
+      "auxiliary_loss_mlp": 0.0104715,
+      "balance_loss_clip": 1.08507454,
+      "balance_loss_mlp": 1.03414989,
+      "epoch": 0.04857812781819275,
+      "flos": 19281301424640.0,
+      "grad_norm": 1.8518587466222352,
+      "language_loss": 0.79446232,
+      "learning_rate": 3.99640338010102e-06,
+      "loss": 0.81789041,
+      "num_input_tokens_seen": 8669475,
+      "step": 404,
+      "time_per_iteration": 2.6388165950775146
+    },
+    {
+      "auxiliary_loss_clip": 0.01292825,
+      "auxiliary_loss_mlp": 0.01043025,
+      "balance_loss_clip": 1.08116484,
+      "balance_loss_mlp": 1.02988863,
+      "epoch": 0.04869837070883184,
+      "flos": 24062376193920.0,
+      "grad_norm": 1.9626407057949127,
+      "language_loss": 0.78810692,
+      "learning_rate": 3.996356533331146e-06,
+      "loss": 0.81146538,
+      "num_input_tokens_seen": 8691345,
+      "step": 405,
+      "time_per_iteration": 2.6542952060699463
+    },
+    {
+      "auxiliary_loss_clip": 0.01296827,
+      "auxiliary_loss_mlp": 0.01053931,
+      "balance_loss_clip": 1.08010101,
+      "balance_loss_mlp": 1.03948319,
+      "epoch": 0.04881861359947093,
+      "flos": 25187169657600.0,
+      "grad_norm": 2.085417777478674,
+      "language_loss": 0.61827564,
+      "learning_rate": 3.996309383715573e-06,
+      "loss": 0.64178324,
+      "num_input_tokens_seen": 8710125,
+      "step": 406,
+      "time_per_iteration": 2.789222240447998
+    },
+    {
+      "auxiliary_loss_clip": 0.01298533,
+      "auxiliary_loss_mlp": 0.01056671,
+      "balance_loss_clip": 1.08519697,
+      "balance_loss_mlp": 1.04268229,
+      "epoch": 0.048938856490110025,
+      "flos": 16362913213440.0,
+      "grad_norm": 5.835409776644763,
+      "language_loss": 0.73598611,
+      "learning_rate": 3.996261931261454e-06,
+      "loss": 0.75953817,
+      "num_input_tokens_seen": 8728705,
+      "step": 407,
+      "time_per_iteration": 3.5638177394866943
+    },
+    {
+      "auxiliary_loss_clip": 0.01297322,
+      "auxiliary_loss_mlp": 0.01051731,
+      "balance_loss_clip": 1.08500671,
+      "balance_loss_mlp": 1.0392797,
+      "epoch": 0.049059099380749115,
+      "flos": 29895094379520.0,
+      "grad_norm": 1.5734532798930945,
+      "language_loss": 0.86288208,
+      "learning_rate": 3.996214175975987e-06,
+      "loss": 0.88637263,
+      "num_input_tokens_seen": 8749225,
+      "step": 408,
+      "time_per_iteration": 3.554943799972534
+    },
+    {
+      "auxiliary_loss_clip": 0.01298593,
+      "auxiliary_loss_mlp": 0.01051723,
+      "balance_loss_clip": 1.08709502,
+      "balance_loss_mlp": 1.03779936,
+      "epoch": 0.049179342271388204,
+      "flos": 35918858027520.0,
+      "grad_norm": 2.163340387866288,
+      "language_loss": 0.79053247,
+      "learning_rate": 3.996166117866417e-06,
+      "loss": 0.81403565,
+      "num_input_tokens_seen": 8771160,
+      "step": 409,
+      "time_per_iteration": 2.740786075592041
+    },
+    {
+      "auxiliary_loss_clip": 0.0129051,
+      "auxiliary_loss_mlp": 0.01044582,
+      "balance_loss_clip": 1.08019876,
+      "balance_loss_mlp": 1.03227937,
+      "epoch": 0.049299585162027294,
+      "flos": 14611226659200.0,
+      "grad_norm": 2.118581201925525,
+      "language_loss": 0.86588931,
+      "learning_rate": 3.996117756940035e-06,
+      "loss": 0.88924015,
+      "num_input_tokens_seen": 8787845,
+      "step": 410,
+      "time_per_iteration": 4.35185170173645
+    },
+    {
+      "auxiliary_loss_clip": 0.01293029,
+      "auxiliary_loss_mlp": 0.01050356,
+      "balance_loss_clip": 1.08238447,
+      "balance_loss_mlp": 1.03639102,
+      "epoch": 0.049419828052666384,
+      "flos": 19567939956480.0,
+      "grad_norm": 2.0198351493791638,
+      "language_loss": 0.97566295,
+      "learning_rate": 3.996069093204175e-06,
+      "loss": 0.99909687,
+      "num_input_tokens_seen": 8803805,
+      "step": 411,
+      "time_per_iteration": 2.562957763671875
+    },
+    {
+      "auxiliary_loss_clip": 0.01296566,
+      "auxiliary_loss_mlp": 0.01057773,
+      "balance_loss_clip": 1.08426404,
+      "balance_loss_mlp": 1.04509521,
+      "epoch": 0.049540070943305474,
+      "flos": 13659916907520.0,
+      "grad_norm": 2.165081711231086,
+      "language_loss": 0.8811996,
+      "learning_rate": 3.996020126666221e-06,
+      "loss": 0.90474296,
+      "num_input_tokens_seen": 8820785,
+      "step": 412,
+      "time_per_iteration": 2.6026453971862793
+    },
+    {
+      "auxiliary_loss_clip": 0.01296181,
+      "auxiliary_loss_mlp": 0.01045226,
+      "balance_loss_clip": 1.08359051,
+      "balance_loss_mlp": 1.03267896,
+      "epoch": 0.04966031383394457,
+      "flos": 21832035978240.0,
+      "grad_norm": 2.307778857358149,
+      "language_loss": 0.82236099,
+      "learning_rate": 3.995970857333601e-06,
+      "loss": 0.84577501,
+      "num_input_tokens_seen": 8841195,
+      "step": 413,
+      "time_per_iteration": 2.6226089000701904
+    },
+    {
+      "auxiliary_loss_clip": 0.01294188,
+      "auxiliary_loss_mlp": 0.01052988,
+      "balance_loss_clip": 1.08169842,
+      "balance_loss_mlp": 1.03930879,
+      "epoch": 0.04978055672458366,
+      "flos": 28618793349120.0,
+      "grad_norm": 1.8340840259648281,
+      "language_loss": 0.79632199,
+      "learning_rate": 3.995921285213789e-06,
+      "loss": 0.81979382,
+      "num_input_tokens_seen": 8861455,
+      "step": 414,
+      "time_per_iteration": 2.673548698425293
+    },
+    {
+      "auxiliary_loss_clip": 0.01289354,
+      "auxiliary_loss_mlp": 0.01043798,
+      "balance_loss_clip": 1.08044446,
+      "balance_loss_mlp": 1.03108454,
+      "epoch": 0.04990079961522275,
+      "flos": 19828220883840.0,
+      "grad_norm": 2.7596917216462518,
+      "language_loss": 0.80496013,
+      "learning_rate": 3.995871410314305e-06,
+      "loss": 0.82829165,
+      "num_input_tokens_seen": 8880015,
+      "step": 415,
+      "time_per_iteration": 2.566574811935425
+    },
+    {
+      "auxiliary_loss_clip": 0.01179791,
+      "auxiliary_loss_mlp": 0.0100478,
+      "balance_loss_clip": 1.04446602,
+      "balance_loss_mlp": 1.00056028,
+      "epoch": 0.05002104250586184,
+      "flos": 62735045293440.0,
+      "grad_norm": 0.9151621284623224,
+      "language_loss": 0.59673333,
+      "learning_rate": 3.995821232642714e-06,
+      "loss": 0.61857903,
+      "num_input_tokens_seen": 8938420,
+      "step": 416,
+      "time_per_iteration": 3.311159372329712
+    },
+    {
+      "auxiliary_loss_clip": 0.01296677,
+      "auxiliary_loss_mlp": 0.01058982,
+      "balance_loss_clip": 1.08156085,
+      "balance_loss_mlp": 1.04621446,
+      "epoch": 0.05014128539650093,
+      "flos": 27928518710400.0,
+      "grad_norm": 2.027754073416025,
+      "language_loss": 0.82164413,
+      "learning_rate": 3.995770752206629e-06,
+      "loss": 0.84520072,
+      "num_input_tokens_seen": 8959495,
+      "step": 417,
+      "time_per_iteration": 2.7293853759765625
+    },
+    {
+      "auxiliary_loss_clip": 0.0129366,
+      "auxiliary_loss_mlp": 0.01050829,
+      "balance_loss_clip": 1.0824883,
+      "balance_loss_mlp": 1.03808594,
+      "epoch": 0.05026152828714002,
+      "flos": 17705576620800.0,
+      "grad_norm": 3.1120215200027945,
+      "language_loss": 0.96864808,
+      "learning_rate": 3.995719969013709e-06,
+      "loss": 0.99209291,
+      "num_input_tokens_seen": 8976675,
+      "step": 418,
+      "time_per_iteration": 2.6188268661499023
+    },
+    {
+      "auxiliary_loss_clip": 0.01300692,
+      "auxiliary_loss_mlp": 0.01047152,
+      "balance_loss_clip": 1.07728314,
+      "balance_loss_mlp": 1.03434861,
+      "epoch": 0.05038177117777912,
+      "flos": 19133277477120.0,
+      "grad_norm": 2.5423204191126225,
+      "language_loss": 0.85683626,
+      "learning_rate": 3.995668883071655e-06,
+      "loss": 0.88031471,
+      "num_input_tokens_seen": 8992900,
+      "step": 419,
+      "time_per_iteration": 2.751718759536743
+    },
+    {
+      "auxiliary_loss_clip": 0.01292763,
+      "auxiliary_loss_mlp": 0.01055084,
+      "balance_loss_clip": 1.08141458,
+      "balance_loss_mlp": 1.04128528,
+      "epoch": 0.050502014068418206,
+      "flos": 20667704618880.0,
+      "grad_norm": 2.3589061506459164,
+      "language_loss": 0.91028261,
+      "learning_rate": 3.995617494388219e-06,
+      "loss": 0.93376106,
+      "num_input_tokens_seen": 9011020,
+      "step": 420,
+      "time_per_iteration": 2.592637300491333
+    },
+    {
+      "auxiliary_loss_clip": 0.0129924,
+      "auxiliary_loss_mlp": 0.0105507,
+      "balance_loss_clip": 1.07578135,
+      "balance_loss_mlp": 1.04181433,
+      "epoch": 0.050622256959057296,
+      "flos": 21361103740800.0,
+      "grad_norm": 1.9301003860847699,
+      "language_loss": 0.80528933,
+      "learning_rate": 3.995565802971196e-06,
+      "loss": 0.82883239,
+      "num_input_tokens_seen": 9030995,
+      "step": 421,
+      "time_per_iteration": 2.708003520965576
+    },
+    {
+      "auxiliary_loss_clip": 0.0129783,
+      "auxiliary_loss_mlp": 0.01048795,
+      "balance_loss_clip": 1.07657552,
+      "balance_loss_mlp": 1.03642702,
+      "epoch": 0.050742499849696386,
+      "flos": 27673588909440.0,
+      "grad_norm": 2.0247253087986397,
+      "language_loss": 0.67457026,
+      "learning_rate": 3.995513808828427e-06,
+      "loss": 0.69803649,
+      "num_input_tokens_seen": 9053790,
+      "step": 422,
+      "time_per_iteration": 2.730257511138916
+    },
+    {
+      "auxiliary_loss_clip": 0.01299252,
+      "auxiliary_loss_mlp": 0.01052927,
+      "balance_loss_clip": 1.07550287,
+      "balance_loss_mlp": 1.03976071,
+      "epoch": 0.050862742740335476,
+      "flos": 19865999013120.0,
+      "grad_norm": 1.865309515794368,
+      "language_loss": 0.76610333,
+      "learning_rate": 3.9954615119678e-06,
+      "loss": 0.78962517,
+      "num_input_tokens_seen": 9072345,
+      "step": 423,
+      "time_per_iteration": 2.6885459423065186
+    },
+    {
+      "auxiliary_loss_clip": 0.01284811,
+      "auxiliary_loss_mlp": 0.01044652,
+      "balance_loss_clip": 1.07610202,
+      "balance_loss_mlp": 1.03169978,
+      "epoch": 0.050982985630974566,
+      "flos": 22085098272000.0,
+      "grad_norm": 2.0178706348738507,
+      "language_loss": 0.80842316,
+      "learning_rate": 3.995408912397248e-06,
+      "loss": 0.83171779,
+      "num_input_tokens_seen": 9090240,
+      "step": 424,
+      "time_per_iteration": 2.6687495708465576
+    },
+    {
+      "auxiliary_loss_clip": 0.01307589,
+      "auxiliary_loss_mlp": 0.01068049,
+      "balance_loss_clip": 1.07992911,
+      "balance_loss_mlp": 1.05480456,
+      "epoch": 0.05110322852161366,
+      "flos": 20740962407040.0,
+      "grad_norm": 2.4928021888021115,
+      "language_loss": 0.93297148,
+      "learning_rate": 3.99535601012475e-06,
+      "loss": 0.95672786,
+      "num_input_tokens_seen": 9105570,
+      "step": 425,
+      "time_per_iteration": 2.695495843887329
+    },
+    {
+      "auxiliary_loss_clip": 0.01306041,
+      "auxiliary_loss_mlp": 0.01383222,
+      "balance_loss_clip": 1.0768019,
+      "balance_loss_mlp": 1.00060558,
+      "epoch": 0.05122347141225275,
+      "flos": 28547295327360.0,
+      "grad_norm": 1.5825703217909484,
+      "language_loss": 0.75596654,
+      "learning_rate": 3.995302805158333e-06,
+      "loss": 0.78285909,
+      "num_input_tokens_seen": 9128225,
+      "step": 426,
+      "time_per_iteration": 2.792088031768799
+    },
+    {
+      "auxiliary_loss_clip": 0.01289816,
+      "auxiliary_loss_mlp": 0.01044532,
+      "balance_loss_clip": 1.07247186,
+      "balance_loss_mlp": 1.03013754,
+      "epoch": 0.05134371430289184,
+      "flos": 19722679747200.0,
+      "grad_norm": 1.8611426575640342,
+      "language_loss": 0.83538574,
+      "learning_rate": 3.9952492975060665e-06,
+      "loss": 0.85872924,
+      "num_input_tokens_seen": 9148295,
+      "step": 427,
+      "time_per_iteration": 2.73032546043396
+    },
+    {
+      "auxiliary_loss_clip": 0.01288252,
+      "auxiliary_loss_mlp": 0.01049052,
+      "balance_loss_clip": 1.07535386,
+      "balance_loss_mlp": 1.03520536,
+      "epoch": 0.05146395719353093,
+      "flos": 34458945649920.0,
+      "grad_norm": 2.2740563147544597,
+      "language_loss": 0.85092568,
+      "learning_rate": 3.995195487176067e-06,
+      "loss": 0.87429869,
+      "num_input_tokens_seen": 9168525,
+      "step": 428,
+      "time_per_iteration": 2.893331289291382
+    },
+    {
+      "auxiliary_loss_clip": 0.01288154,
+      "auxiliary_loss_mlp": 0.01043495,
+      "balance_loss_clip": 1.0800817,
+      "balance_loss_mlp": 1.0311991,
+      "epoch": 0.05158420008417002,
+      "flos": 21760286561280.0,
+      "grad_norm": 2.010881998898254,
+      "language_loss": 0.85752356,
+      "learning_rate": 3.995141374176499e-06,
+      "loss": 0.88084006,
+      "num_input_tokens_seen": 9186920,
+      "step": 429,
+      "time_per_iteration": 2.7725119590759277
+    },
+    {
+      "auxiliary_loss_clip": 0.01195737,
+      "auxiliary_loss_mlp": 0.01378784,
+      "balance_loss_clip": 1.03875947,
+      "balance_loss_mlp": 1.00037956,
+      "epoch": 0.05170444297480911,
+      "flos": 72553956226560.0,
+      "grad_norm": 0.8706990069175944,
+      "language_loss": 0.63080877,
+      "learning_rate": 3.995086958515572e-06,
+      "loss": 0.65655398,
+      "num_input_tokens_seen": 9244940,
+      "step": 430,
+      "time_per_iteration": 3.3441271781921387
+    },
+    {
+      "auxiliary_loss_clip": 0.01165786,
+      "auxiliary_loss_mlp": 0.01378706,
+      "balance_loss_clip": 1.04146886,
+      "balance_loss_mlp": 1.00038326,
+      "epoch": 0.05182468586544821,
+      "flos": 62416159326720.0,
+      "grad_norm": 0.8582693621026216,
+      "language_loss": 0.59943092,
+      "learning_rate": 3.995032240201538e-06,
+      "loss": 0.62487584,
+      "num_input_tokens_seen": 9307335,
+      "step": 431,
+      "time_per_iteration": 3.1941962242126465
+    },
+    {
+      "auxiliary_loss_clip": 0.01181757,
+      "auxiliary_loss_mlp": 0.01011745,
+      "balance_loss_clip": 1.03501725,
+      "balance_loss_mlp": 1.00764453,
+      "epoch": 0.0519449287560873,
+      "flos": 41225989432320.0,
+      "grad_norm": 1.0992074719225604,
+      "language_loss": 0.63164133,
+      "learning_rate": 3.9949772192427e-06,
+      "loss": 0.65357637,
+      "num_input_tokens_seen": 9353960,
+      "step": 432,
+      "time_per_iteration": 2.915034294128418
+    },
+    {
+      "auxiliary_loss_clip": 0.01296453,
+      "auxiliary_loss_mlp": 0.01051476,
+      "balance_loss_clip": 1.07246459,
+      "balance_loss_mlp": 1.0394001,
+      "epoch": 0.05206517164672639,
+      "flos": 17494530261120.0,
+      "grad_norm": 1.8929294182486038,
+      "language_loss": 0.79299378,
+      "learning_rate": 3.994921895647405e-06,
+      "loss": 0.81647313,
+      "num_input_tokens_seen": 9372130,
+      "step": 433,
+      "time_per_iteration": 3.5611155033111572
+    },
+    {
+      "auxiliary_loss_clip": 0.01161083,
+      "auxiliary_loss_mlp": 0.01005146,
+      "balance_loss_clip": 1.03761554,
+      "balance_loss_mlp": 1.00102127,
+      "epoch": 0.05218541453736548,
+      "flos": 64002762973440.0,
+      "grad_norm": 0.8395158463723692,
+      "language_loss": 0.55390692,
+      "learning_rate": 3.994866269424043e-06,
+      "loss": 0.57556915,
+      "num_input_tokens_seen": 9428500,
+      "step": 434,
+      "time_per_iteration": 4.039564609527588
+    },
+    {
+      "auxiliary_loss_clip": 0.01309303,
+      "auxiliary_loss_mlp": 0.01050506,
+      "balance_loss_clip": 1.05943656,
+      "balance_loss_mlp": 1.03768516,
+      "epoch": 0.05230565742800457,
+      "flos": 19317319787520.0,
+      "grad_norm": 2.182129608855124,
+      "language_loss": 0.78468353,
+      "learning_rate": 3.9948103405810545e-06,
+      "loss": 0.8082816,
+      "num_input_tokens_seen": 9447450,
+      "step": 435,
+      "time_per_iteration": 2.978563070297241
+    },
+    {
+      "auxiliary_loss_clip": 0.01281553,
+      "auxiliary_loss_mlp": 0.01049258,
+      "balance_loss_clip": 1.0661366,
+      "balance_loss_mlp": 1.03594244,
+      "epoch": 0.05242590031864366,
+      "flos": 25298636538240.0,
+      "grad_norm": 1.91187581959264,
+      "language_loss": 0.8614186,
+      "learning_rate": 3.994754109126923e-06,
+      "loss": 0.88472676,
+      "num_input_tokens_seen": 9468945,
+      "step": 436,
+      "time_per_iteration": 4.526792287826538
+    },
+    {
+      "auxiliary_loss_clip": 0.01306302,
+      "auxiliary_loss_mlp": 0.01047795,
+      "balance_loss_clip": 1.06742549,
+      "balance_loss_mlp": 1.03565347,
+      "epoch": 0.052546143209282754,
+      "flos": 26211629456640.0,
+      "grad_norm": 1.8596107071671824,
+      "language_loss": 0.93550575,
+      "learning_rate": 3.994697575070181e-06,
+      "loss": 0.95904666,
+      "num_input_tokens_seen": 9488405,
+      "step": 437,
+      "time_per_iteration": 2.8114922046661377
+    },
+    {
+      "auxiliary_loss_clip": 0.01301672,
+      "auxiliary_loss_mlp": 0.01043406,
+      "balance_loss_clip": 1.07932687,
+      "balance_loss_mlp": 1.03136015,
+      "epoch": 0.052666386099921844,
+      "flos": 22158140578560.0,
+      "grad_norm": 1.8303334457634768,
+      "language_loss": 0.91463923,
+      "learning_rate": 3.994640738419402e-06,
+      "loss": 0.93808997,
+      "num_input_tokens_seen": 9507780,
+      "step": 438,
+      "time_per_iteration": 2.7457644939422607
+    },
+    {
+      "auxiliary_loss_clip": 0.01297904,
+      "auxiliary_loss_mlp": 0.01042648,
+      "balance_loss_clip": 1.08022261,
+      "balance_loss_mlp": 1.03036928,
+      "epoch": 0.052786628990560934,
+      "flos": 23881817502720.0,
+      "grad_norm": 1.9035807112603134,
+      "language_loss": 0.80724287,
+      "learning_rate": 3.9945835991832075e-06,
+      "loss": 0.83064842,
+      "num_input_tokens_seen": 9529665,
+      "step": 439,
+      "time_per_iteration": 2.7689714431762695
+    },
+    {
+      "auxiliary_loss_clip": 0.0128817,
+      "auxiliary_loss_mlp": 0.01046899,
+      "balance_loss_clip": 1.08301592,
+      "balance_loss_mlp": 1.03410769,
+      "epoch": 0.052906871881200024,
+      "flos": 24605021934720.0,
+      "grad_norm": 2.4565858520976938,
+      "language_loss": 0.92963535,
+      "learning_rate": 3.994526157370268e-06,
+      "loss": 0.952986,
+      "num_input_tokens_seen": 9548280,
+      "step": 440,
+      "time_per_iteration": 2.647120952606201
+    },
+    {
+      "auxiliary_loss_clip": 0.01178893,
+      "auxiliary_loss_mlp": 0.0100423,
+      "balance_loss_clip": 1.03169274,
+      "balance_loss_mlp": 1.00024831,
+      "epoch": 0.053027114771839114,
+      "flos": 56461631143680.0,
+      "grad_norm": 0.8909285516005787,
+      "language_loss": 0.5927332,
+      "learning_rate": 3.994468412989296e-06,
+      "loss": 0.61456442,
+      "num_input_tokens_seen": 9609690,
+      "step": 441,
+      "time_per_iteration": 3.3138058185577393
+    },
+    {
+      "auxiliary_loss_clip": 0.01265567,
+      "auxiliary_loss_mlp": 0.010368,
+      "balance_loss_clip": 1.06838119,
+      "balance_loss_mlp": 1.02443767,
+      "epoch": 0.053147357662478203,
+      "flos": 17311098481920.0,
+      "grad_norm": 2.10418824520268,
+      "language_loss": 0.92669845,
+      "learning_rate": 3.994410366049052e-06,
+      "loss": 0.94972211,
+      "num_input_tokens_seen": 9627550,
+      "step": 442,
+      "time_per_iteration": 2.6490163803100586
+    },
+    {
+      "auxiliary_loss_clip": 0.01289961,
+      "auxiliary_loss_mlp": 0.01040068,
+      "balance_loss_clip": 1.07792139,
+      "balance_loss_mlp": 1.02753365,
+      "epoch": 0.0532676005531173,
+      "flos": 17164977955200.0,
+      "grad_norm": 2.122277037259409,
+      "language_loss": 0.82921338,
+      "learning_rate": 3.994352016558341e-06,
+      "loss": 0.85251367,
+      "num_input_tokens_seen": 9644855,
+      "step": 443,
+      "time_per_iteration": 2.6256234645843506
+    },
+    {
+      "auxiliary_loss_clip": 0.01294736,
+      "auxiliary_loss_mlp": 0.01046561,
+      "balance_loss_clip": 1.0796119,
+      "balance_loss_mlp": 1.03444958,
+      "epoch": 0.05338784344375639,
+      "flos": 27819960831360.0,
+      "grad_norm": 2.0448187466316368,
+      "language_loss": 0.74012256,
+      "learning_rate": 3.994293364526014e-06,
+      "loss": 0.7635355,
+      "num_input_tokens_seen": 9665740,
+      "step": 444,
+      "time_per_iteration": 2.7497100830078125
+    },
+    {
+      "auxiliary_loss_clip": 0.01290678,
+      "auxiliary_loss_mlp": 0.0104434,
+      "balance_loss_clip": 1.07520771,
+      "balance_loss_mlp": 1.03169179,
+      "epoch": 0.05350808633439548,
+      "flos": 21507691144320.0,
+      "grad_norm": 2.0015955122566984,
+      "language_loss": 0.84786248,
+      "learning_rate": 3.99423440996097e-06,
+      "loss": 0.87121266,
+      "num_input_tokens_seen": 9685280,
+      "step": 445,
+      "time_per_iteration": 2.715574264526367
+    },
+    {
+      "auxiliary_loss_clip": 0.01306379,
+      "auxiliary_loss_mlp": 0.01050381,
+      "balance_loss_clip": 1.07934844,
+      "balance_loss_mlp": 1.03818607,
+      "epoch": 0.05362832922503457,
+      "flos": 20084299920000.0,
+      "grad_norm": 2.401696545176789,
+      "language_loss": 0.81226927,
+      "learning_rate": 3.994175152872152e-06,
+      "loss": 0.83583689,
+      "num_input_tokens_seen": 9704365,
+      "step": 446,
+      "time_per_iteration": 2.7052063941955566
+    },
+    {
+      "auxiliary_loss_clip": 0.01291094,
+      "auxiliary_loss_mlp": 0.01041362,
+      "balance_loss_clip": 1.0748347,
+      "balance_loss_mlp": 1.02993619,
+      "epoch": 0.05374857211567366,
+      "flos": 26137222433280.0,
+      "grad_norm": 2.0855102825739857,
+      "language_loss": 0.78899765,
+      "learning_rate": 3.994115593268548e-06,
+      "loss": 0.81232214,
+      "num_input_tokens_seen": 9724145,
+      "step": 447,
+      "time_per_iteration": 2.6672239303588867
+    },
+    {
+      "auxiliary_loss_clip": 0.01288378,
+      "auxiliary_loss_mlp": 0.01044393,
+      "balance_loss_clip": 1.08241415,
+      "balance_loss_mlp": 1.03174496,
+      "epoch": 0.05386881500631275,
+      "flos": 27486817165440.0,
+      "grad_norm": 2.218067736171111,
+      "language_loss": 0.82269925,
+      "learning_rate": 3.994055731159195e-06,
+      "loss": 0.84602696,
+      "num_input_tokens_seen": 9741615,
+      "step": 448,
+      "time_per_iteration": 2.7176408767700195
+    },
+    {
+      "auxiliary_loss_clip": 0.0129664,
+      "auxiliary_loss_mlp": 0.01039782,
+      "balance_loss_clip": 1.08275557,
+      "balance_loss_mlp": 1.02791512,
+      "epoch": 0.053989057896951846,
+      "flos": 23585087249280.0,
+      "grad_norm": 2.408398786212518,
+      "language_loss": 0.86964178,
+      "learning_rate": 3.993995566553172e-06,
+      "loss": 0.89300597,
+      "num_input_tokens_seen": 9760580,
+      "step": 449,
+      "time_per_iteration": 2.6967313289642334
+    },
+    {
+      "auxiliary_loss_clip": 0.01279115,
+      "auxiliary_loss_mlp": 0.0103983,
+      "balance_loss_clip": 1.06956875,
+      "balance_loss_mlp": 1.02776623,
+      "epoch": 0.054109300787590936,
+      "flos": 25228862369280.0,
+      "grad_norm": 1.6967878699645167,
+      "language_loss": 0.77080327,
+      "learning_rate": 3.993935099459607e-06,
+      "loss": 0.79399276,
+      "num_input_tokens_seen": 9782195,
+      "step": 450,
+      "time_per_iteration": 2.950282573699951
+    },
+    {
+      "auxiliary_loss_clip": 0.01282351,
+      "auxiliary_loss_mlp": 0.01051093,
+      "balance_loss_clip": 1.07958794,
+      "balance_loss_mlp": 1.04045916,
+      "epoch": 0.054229543678230026,
+      "flos": 23841525421440.0,
+      "grad_norm": 1.8678099120926026,
+      "language_loss": 0.74092984,
+      "learning_rate": 3.993874329887673e-06,
+      "loss": 0.76426429,
+      "num_input_tokens_seen": 9800850,
+      "step": 451,
+      "time_per_iteration": 2.879185676574707
+    },
+    {
+      "auxiliary_loss_clip": 0.01293412,
+      "auxiliary_loss_mlp": 0.01045352,
+      "balance_loss_clip": 1.08015478,
+      "balance_loss_mlp": 1.03283477,
+      "epoch": 0.054349786568869116,
+      "flos": 16320933192960.0,
+      "grad_norm": 6.165448948422885,
+      "language_loss": 0.86430633,
+      "learning_rate": 3.993813257846589e-06,
+      "loss": 0.887694,
+      "num_input_tokens_seen": 9817605,
+      "step": 452,
+      "time_per_iteration": 2.7187552452087402
+    },
+    {
+      "auxiliary_loss_clip": 0.01297982,
+      "auxiliary_loss_mlp": 0.01049621,
+      "balance_loss_clip": 1.07979548,
+      "balance_loss_mlp": 1.03743148,
+      "epoch": 0.054470029459508205,
+      "flos": 18660729127680.0,
+      "grad_norm": 2.2430591305495358,
+      "language_loss": 0.93076777,
+      "learning_rate": 3.993751883345619e-06,
+      "loss": 0.95424378,
+      "num_input_tokens_seen": 9835965,
+      "step": 453,
+      "time_per_iteration": 2.6522226333618164
+    },
+    {
+      "auxiliary_loss_clip": 0.01286752,
+      "auxiliary_loss_mlp": 0.01051468,
+      "balance_loss_clip": 1.07373571,
+      "balance_loss_mlp": 1.0392251,
+      "epoch": 0.054590272350147295,
+      "flos": 17785298856960.0,
+      "grad_norm": 2.524232017686473,
+      "language_loss": 0.8750819,
+      "learning_rate": 3.993690206394073e-06,
+      "loss": 0.89846408,
+      "num_input_tokens_seen": 9852265,
+      "step": 454,
+      "time_per_iteration": 2.714414596557617
+    },
+    {
+      "auxiliary_loss_clip": 0.01305088,
+      "auxiliary_loss_mlp": 0.01055765,
+      "balance_loss_clip": 1.07644844,
+      "balance_loss_mlp": 1.04384446,
+      "epoch": 0.054710515240786385,
+      "flos": 17785945301760.0,
+      "grad_norm": 3.062835340621488,
+      "language_loss": 0.8787024,
+      "learning_rate": 3.993628227001307e-06,
+      "loss": 0.90231097,
+      "num_input_tokens_seen": 9870465,
+      "step": 455,
+      "time_per_iteration": 2.809573173522949
+    },
+    {
+      "auxiliary_loss_clip": 0.01290651,
+      "auxiliary_loss_mlp": 0.01045914,
+      "balance_loss_clip": 1.07201886,
+      "balance_loss_mlp": 1.03535223,
+      "epoch": 0.05483075813142548,
+      "flos": 48210900180480.0,
+      "grad_norm": 1.9004327826476004,
+      "language_loss": 0.7119776,
+      "learning_rate": 3.993565945176726e-06,
+      "loss": 0.73534334,
+      "num_input_tokens_seen": 9891490,
+      "step": 456,
+      "time_per_iteration": 3.0415186882019043
+    },
+    {
+      "auxiliary_loss_clip": 0.01297137,
+      "auxiliary_loss_mlp": 0.01045912,
+      "balance_loss_clip": 1.07788813,
+      "balance_loss_mlp": 1.03462839,
+      "epoch": 0.05495100102206457,
+      "flos": 19682244011520.0,
+      "grad_norm": 1.9788636482117148,
+      "language_loss": 0.84328628,
+      "learning_rate": 3.993503360929776e-06,
+      "loss": 0.8667168,
+      "num_input_tokens_seen": 9910375,
+      "step": 457,
+      "time_per_iteration": 2.7019729614257812
+    },
+    {
+      "auxiliary_loss_clip": 0.01325633,
+      "auxiliary_loss_mlp": 0.01048692,
+      "balance_loss_clip": 1.06746936,
+      "balance_loss_mlp": 1.03594255,
+      "epoch": 0.05507124391270366,
+      "flos": 26360048453760.0,
+      "grad_norm": 1.737803084952984,
+      "language_loss": 0.81212974,
+      "learning_rate": 3.99344047426995e-06,
+      "loss": 0.83587301,
+      "num_input_tokens_seen": 9931635,
+      "step": 458,
+      "time_per_iteration": 3.2282330989837646
+    },
+    {
+      "auxiliary_loss_clip": 0.01313994,
+      "auxiliary_loss_mlp": 0.0104827,
+      "balance_loss_clip": 1.07270169,
+      "balance_loss_mlp": 1.03576505,
+      "epoch": 0.05519148680334275,
+      "flos": 22601314581120.0,
+      "grad_norm": 2.0565246045121715,
+      "language_loss": 0.93422657,
+      "learning_rate": 3.993377285206789e-06,
+      "loss": 0.95784914,
+      "num_input_tokens_seen": 9951420,
+      "step": 459,
+      "time_per_iteration": 4.050993204116821
+    },
+    {
+      "auxiliary_loss_clip": 0.01269833,
+      "auxiliary_loss_mlp": 0.01057396,
+      "balance_loss_clip": 1.06689954,
+      "balance_loss_mlp": 1.04518342,
+      "epoch": 0.05531172969398184,
+      "flos": 40552519380480.0,
+      "grad_norm": 1.6965632127298806,
+      "language_loss": 0.86701953,
+      "learning_rate": 3.99331379374988e-06,
+      "loss": 0.89029181,
+      "num_input_tokens_seen": 9975025,
+      "step": 460,
+      "time_per_iteration": 4.417022466659546
+    },
+    {
+      "auxiliary_loss_clip": 0.01292357,
+      "auxiliary_loss_mlp": 0.01047336,
+      "balance_loss_clip": 1.06885874,
+      "balance_loss_mlp": 1.03517628,
+      "epoch": 0.05543197258462093,
+      "flos": 23477894087040.0,
+      "grad_norm": 2.0748245070579427,
+      "language_loss": 0.80171847,
+      "learning_rate": 3.993249999908852e-06,
+      "loss": 0.82511544,
+      "num_input_tokens_seen": 9995175,
+      "step": 461,
+      "time_per_iteration": 2.825619697570801
+    },
+    {
+      "auxiliary_loss_clip": 0.01286159,
+      "auxiliary_loss_mlp": 0.01064615,
+      "balance_loss_clip": 1.07872653,
+      "balance_loss_mlp": 1.05225849,
+      "epoch": 0.05555221547526003,
+      "flos": 18624603024000.0,
+      "grad_norm": 2.202175254693931,
+      "language_loss": 0.87429464,
+      "learning_rate": 3.993185903693384e-06,
+      "loss": 0.89780241,
+      "num_input_tokens_seen": 10011975,
+      "step": 462,
+      "time_per_iteration": 4.442130088806152
+    },
+    {
+      "auxiliary_loss_clip": 0.01298884,
+      "auxiliary_loss_mlp": 0.01040623,
+      "balance_loss_clip": 1.07508862,
+      "balance_loss_mlp": 1.02813578,
+      "epoch": 0.05567245836589912,
+      "flos": 23587098410880.0,
+      "grad_norm": 2.0063765519235024,
+      "language_loss": 0.82534027,
+      "learning_rate": 3.9931215051131995e-06,
+      "loss": 0.84873533,
+      "num_input_tokens_seen": 10032620,
+      "step": 463,
+      "time_per_iteration": 2.791595458984375
+    },
+    {
+      "auxiliary_loss_clip": 0.01300876,
+      "auxiliary_loss_mlp": 0.01061067,
+      "balance_loss_clip": 1.07091737,
+      "balance_loss_mlp": 1.04887199,
+      "epoch": 0.05579270125653821,
+      "flos": 27746667129600.0,
+      "grad_norm": 1.6977634962694703,
+      "language_loss": 0.80204356,
+      "learning_rate": 3.993056804178068e-06,
+      "loss": 0.82566297,
+      "num_input_tokens_seen": 10054165,
+      "step": 464,
+      "time_per_iteration": 2.783304452896118
+    },
+    {
+      "auxiliary_loss_clip": 0.01305758,
+      "auxiliary_loss_mlp": 0.01045496,
+      "balance_loss_clip": 1.07292747,
+      "balance_loss_mlp": 1.03284752,
+      "epoch": 0.0559129441471773,
+      "flos": 27014161075200.0,
+      "grad_norm": 2.141788637320988,
+      "language_loss": 0.84692723,
+      "learning_rate": 3.992991800897803e-06,
+      "loss": 0.87043977,
+      "num_input_tokens_seen": 10073970,
+      "step": 465,
+      "time_per_iteration": 2.8651375770568848
+    },
+    {
+      "auxiliary_loss_clip": 0.01282244,
+      "auxiliary_loss_mlp": 0.01047073,
+      "balance_loss_clip": 1.0788753,
+      "balance_loss_mlp": 1.03484249,
+      "epoch": 0.05603318703781639,
+      "flos": 15229787794560.0,
+      "grad_norm": 2.224270217594689,
+      "language_loss": 0.90066993,
+      "learning_rate": 3.9929264952822665e-06,
+      "loss": 0.92396307,
+      "num_input_tokens_seen": 10091505,
+      "step": 466,
+      "time_per_iteration": 2.673694372177124
+    },
+    {
+      "auxiliary_loss_clip": 0.01296586,
+      "auxiliary_loss_mlp": 0.0104938,
+      "balance_loss_clip": 1.07587624,
+      "balance_loss_mlp": 1.0365119,
+      "epoch": 0.05615342992845548,
+      "flos": 22266482976000.0,
+      "grad_norm": 1.913039028080947,
+      "language_loss": 0.88055229,
+      "learning_rate": 3.992860887341366e-06,
+      "loss": 0.90401196,
+      "num_input_tokens_seen": 10109675,
+      "step": 467,
+      "time_per_iteration": 2.664595603942871
+    },
+    {
+      "auxiliary_loss_clip": 0.01284193,
+      "auxiliary_loss_mlp": 0.01056456,
+      "balance_loss_clip": 1.0696274,
+      "balance_loss_mlp": 1.04418373,
+      "epoch": 0.056273672819094574,
+      "flos": 23584979508480.0,
+      "grad_norm": 2.4733171010997923,
+      "language_loss": 0.81123626,
+      "learning_rate": 3.992794977085052e-06,
+      "loss": 0.83464277,
+      "num_input_tokens_seen": 10127675,
+      "step": 468,
+      "time_per_iteration": 2.8174874782562256
+    },
+    {
+      "auxiliary_loss_clip": 0.01296297,
+      "auxiliary_loss_mlp": 0.01049216,
+      "balance_loss_clip": 1.06643927,
+      "balance_loss_mlp": 1.03633583,
+      "epoch": 0.056393915709733664,
+      "flos": 19858708552320.0,
+      "grad_norm": 1.964497549829656,
+      "language_loss": 0.84829569,
+      "learning_rate": 3.992728764523326e-06,
+      "loss": 0.87175077,
+      "num_input_tokens_seen": 10146620,
+      "step": 469,
+      "time_per_iteration": 2.899806499481201
+    },
+    {
+      "auxiliary_loss_clip": 0.01298184,
+      "auxiliary_loss_mlp": 0.01050403,
+      "balance_loss_clip": 1.07588887,
+      "balance_loss_mlp": 1.03800535,
+      "epoch": 0.05651415860037275,
+      "flos": 22163779013760.0,
+      "grad_norm": 2.9619916549191396,
+      "language_loss": 0.80744088,
+      "learning_rate": 3.99266224966623e-06,
+      "loss": 0.83092678,
+      "num_input_tokens_seen": 10167535,
+      "step": 470,
+      "time_per_iteration": 2.8497776985168457
+    },
+    {
+      "auxiliary_loss_clip": 0.01279814,
+      "auxiliary_loss_mlp": 0.01044937,
+      "balance_loss_clip": 1.07181728,
+      "balance_loss_mlp": 1.03323698,
+      "epoch": 0.05663440149101184,
+      "flos": 19463548055040.0,
+      "grad_norm": 1.9059033710477369,
+      "language_loss": 0.87789321,
+      "learning_rate": 3.992595432523855e-06,
+      "loss": 0.90114069,
+      "num_input_tokens_seen": 10184825,
+      "step": 471,
+      "time_per_iteration": 2.8111653327941895
+    },
+    {
+      "auxiliary_loss_clip": 0.01283856,
+      "auxiliary_loss_mlp": 0.01036463,
+      "balance_loss_clip": 1.06718123,
+      "balance_loss_mlp": 1.0249238,
+      "epoch": 0.05675464438165093,
+      "flos": 22670226823680.0,
+      "grad_norm": 1.8394350958931798,
+      "language_loss": 0.86096215,
+      "learning_rate": 3.992528313106338e-06,
+      "loss": 0.88416535,
+      "num_input_tokens_seen": 10203025,
+      "step": 472,
+      "time_per_iteration": 2.766505479812622
+    },
+    {
+      "auxiliary_loss_clip": 0.01284026,
+      "auxiliary_loss_mlp": 0.01382776,
+      "balance_loss_clip": 1.07978153,
+      "balance_loss_mlp": 1.00035501,
+      "epoch": 0.05687488727229002,
+      "flos": 16901177495040.0,
+      "grad_norm": 2.802929988624542,
+      "language_loss": 0.81868541,
+      "learning_rate": 3.9924608914238595e-06,
+      "loss": 0.84535336,
+      "num_input_tokens_seen": 10218020,
+      "step": 473,
+      "time_per_iteration": 2.724492311477661
+    },
+    {
+      "auxiliary_loss_clip": 0.01287298,
+      "auxiliary_loss_mlp": 0.01047691,
+      "balance_loss_clip": 1.07354665,
+      "balance_loss_mlp": 1.0352633,
+      "epoch": 0.05699513016292912,
+      "flos": 29168980945920.0,
+      "grad_norm": 4.2307201716242595,
+      "language_loss": 0.84011734,
+      "learning_rate": 3.992393167486648e-06,
+      "loss": 0.86346716,
+      "num_input_tokens_seen": 10237170,
+      "step": 474,
+      "time_per_iteration": 2.8145859241485596
+    },
+    {
+      "auxiliary_loss_clip": 0.01281241,
+      "auxiliary_loss_mlp": 0.01048142,
+      "balance_loss_clip": 1.07706857,
+      "balance_loss_mlp": 1.03531551,
+      "epoch": 0.05711537305356821,
+      "flos": 18916197632640.0,
+      "grad_norm": 2.4492354640859344,
+      "language_loss": 0.8082642,
+      "learning_rate": 3.992325141304977e-06,
+      "loss": 0.83155799,
+      "num_input_tokens_seen": 10255125,
+      "step": 475,
+      "time_per_iteration": 2.7680068016052246
+    },
+    {
+      "auxiliary_loss_clip": 0.01284525,
+      "auxiliary_loss_mlp": 0.01043882,
+      "balance_loss_clip": 1.06880796,
+      "balance_loss_mlp": 1.03177631,
+      "epoch": 0.0572356159442073,
+      "flos": 26758979879040.0,
+      "grad_norm": 3.694045151324362,
+      "language_loss": 0.86201477,
+      "learning_rate": 3.992256812889166e-06,
+      "loss": 0.88529885,
+      "num_input_tokens_seen": 10271230,
+      "step": 476,
+      "time_per_iteration": 2.870018720626831
+    },
+    {
+      "auxiliary_loss_clip": 0.01286,
+      "auxiliary_loss_mlp": 0.01048499,
+      "balance_loss_clip": 1.07976866,
+      "balance_loss_mlp": 1.03600526,
+      "epoch": 0.05735585883484639,
+      "flos": 35116146840960.0,
+      "grad_norm": 2.3293338010770333,
+      "language_loss": 0.76917601,
+      "learning_rate": 3.992188182249582e-06,
+      "loss": 0.79252094,
+      "num_input_tokens_seen": 10293125,
+      "step": 477,
+      "time_per_iteration": 2.7926712036132812
+    },
+    {
+      "auxiliary_loss_clip": 0.01294454,
+      "auxiliary_loss_mlp": 0.01050176,
+      "balance_loss_clip": 1.07447743,
+      "balance_loss_mlp": 1.03733671,
+      "epoch": 0.05747610172548548,
+      "flos": 18734381965440.0,
+      "grad_norm": 4.0732910062890735,
+      "language_loss": 0.90612763,
+      "learning_rate": 3.992119249396633e-06,
+      "loss": 0.92957395,
+      "num_input_tokens_seen": 10311810,
+      "step": 478,
+      "time_per_iteration": 2.848651647567749
+    },
+    {
+      "auxiliary_loss_clip": 0.01285961,
+      "auxiliary_loss_mlp": 0.01383069,
+      "balance_loss_clip": 1.07020581,
+      "balance_loss_mlp": 1.00037253,
+      "epoch": 0.05759634461612457,
+      "flos": 27964752554880.0,
+      "grad_norm": 1.8107920102306305,
+      "language_loss": 0.82009649,
+      "learning_rate": 3.992050014340778e-06,
+      "loss": 0.84678674,
+      "num_input_tokens_seen": 10332165,
+      "step": 479,
+      "time_per_iteration": 2.931861162185669
+    },
+    {
+      "auxiliary_loss_clip": 0.01163174,
+      "auxiliary_loss_mlp": 0.01009853,
+      "balance_loss_clip": 1.03705788,
+      "balance_loss_mlp": 1.00589561,
+      "epoch": 0.057716587506763666,
+      "flos": 69292009405440.0,
+      "grad_norm": 0.8414860853206028,
+      "language_loss": 0.54998374,
+      "learning_rate": 3.99198047709252e-06,
+      "loss": 0.57171392,
+      "num_input_tokens_seen": 10393685,
+      "step": 480,
+      "time_per_iteration": 3.3499057292938232
+    },
+    {
+      "auxiliary_loss_clip": 0.01294636,
+      "auxiliary_loss_mlp": 0.01051104,
+      "balance_loss_clip": 1.06721878,
+      "balance_loss_mlp": 1.03806901,
+      "epoch": 0.057836830397402755,
+      "flos": 25009196745600.0,
+      "grad_norm": 2.3928223693688935,
+      "language_loss": 0.78511894,
+      "learning_rate": 3.991910637662408e-06,
+      "loss": 0.80857635,
+      "num_input_tokens_seen": 10413975,
+      "step": 481,
+      "time_per_iteration": 2.8415801525115967
+    },
+    {
+      "auxiliary_loss_clip": 0.0128008,
+      "auxiliary_loss_mlp": 0.01040518,
+      "balance_loss_clip": 1.07691503,
+      "balance_loss_mlp": 1.02925265,
+      "epoch": 0.057957073288041845,
+      "flos": 25593894334080.0,
+      "grad_norm": 1.853781086470067,
+      "language_loss": 0.80460429,
+      "learning_rate": 3.9918404960610355e-06,
+      "loss": 0.82781029,
+      "num_input_tokens_seen": 10433005,
+      "step": 482,
+      "time_per_iteration": 2.942938804626465
+    },
+    {
+      "auxiliary_loss_clip": 0.01295097,
+      "auxiliary_loss_mlp": 0.01049881,
+      "balance_loss_clip": 1.07610416,
+      "balance_loss_mlp": 1.03794217,
+      "epoch": 0.058077316178680935,
+      "flos": 20777411733120.0,
+      "grad_norm": 2.320408683691299,
+      "language_loss": 0.77270961,
+      "learning_rate": 3.991770052299043e-06,
+      "loss": 0.79615939,
+      "num_input_tokens_seen": 10451235,
+      "step": 483,
+      "time_per_iteration": 2.9692587852478027
+    },
+    {
+      "auxiliary_loss_clip": 0.01297839,
+      "auxiliary_loss_mlp": 0.01050586,
+      "balance_loss_clip": 1.07233834,
+      "balance_loss_mlp": 1.03896356,
+      "epoch": 0.058197559069320025,
+      "flos": 18916484941440.0,
+      "grad_norm": 2.6616943302176406,
+      "language_loss": 0.8759504,
+      "learning_rate": 3.991699306387118e-06,
+      "loss": 0.89943463,
+      "num_input_tokens_seen": 10469705,
+      "step": 484,
+      "time_per_iteration": 2.74149489402771
+    },
+    {
+      "auxiliary_loss_clip": 0.01289792,
+      "auxiliary_loss_mlp": 0.01057048,
+      "balance_loss_clip": 1.07584369,
+      "balance_loss_mlp": 1.04513335,
+      "epoch": 0.058317801959959115,
+      "flos": 24863327614080.0,
+      "grad_norm": 3.2267808197245262,
+      "language_loss": 0.78071254,
+      "learning_rate": 3.991628258335991e-06,
+      "loss": 0.80418098,
+      "num_input_tokens_seen": 10491910,
+      "step": 485,
+      "time_per_iteration": 3.7101409435272217
+    },
+    {
+      "auxiliary_loss_clip": 0.01292002,
+      "auxiliary_loss_mlp": 0.01040068,
+      "balance_loss_clip": 1.0692699,
+      "balance_loss_mlp": 1.02775943,
+      "epoch": 0.05843804485059821,
+      "flos": 23257977068160.0,
+      "grad_norm": 2.832700749115095,
+      "language_loss": 0.87682962,
+      "learning_rate": 3.991556908156442e-06,
+      "loss": 0.9001503,
+      "num_input_tokens_seen": 10508435,
+      "step": 486,
+      "time_per_iteration": 3.936037540435791
+    },
+    {
+      "auxiliary_loss_clip": 0.01298545,
+      "auxiliary_loss_mlp": 0.01053651,
+      "balance_loss_clip": 1.07188737,
+      "balance_loss_mlp": 1.04156303,
+      "epoch": 0.0585582877412373,
+      "flos": 23150532510720.0,
+      "grad_norm": 1.8810932802410325,
+      "language_loss": 0.87616682,
+      "learning_rate": 3.9914852558592914e-06,
+      "loss": 0.89968872,
+      "num_input_tokens_seen": 10529485,
+      "step": 487,
+      "time_per_iteration": 2.7993087768554688
+    },
+    {
+      "auxiliary_loss_clip": 0.01288546,
+      "auxiliary_loss_mlp": 0.01053984,
+      "balance_loss_clip": 1.07499027,
+      "balance_loss_mlp": 1.04130006,
+      "epoch": 0.05867853063187639,
+      "flos": 23506406507520.0,
+      "grad_norm": 3.2705974379994207,
+      "language_loss": 0.80246538,
+      "learning_rate": 3.991413301455413e-06,
+      "loss": 0.82589066,
+      "num_input_tokens_seen": 10545935,
+      "step": 488,
+      "time_per_iteration": 4.533856153488159
+    },
+    {
+      "auxiliary_loss_clip": 0.01281704,
+      "auxiliary_loss_mlp": 0.01054277,
+      "balance_loss_clip": 1.07132626,
+      "balance_loss_mlp": 1.04224277,
+      "epoch": 0.05879877352251548,
+      "flos": 29495803818240.0,
+      "grad_norm": 2.3927070199306235,
+      "language_loss": 0.7793231,
+      "learning_rate": 3.991341044955719e-06,
+      "loss": 0.80268294,
+      "num_input_tokens_seen": 10565690,
+      "step": 489,
+      "time_per_iteration": 2.83793306350708
+    },
+    {
+      "auxiliary_loss_clip": 0.01285996,
+      "auxiliary_loss_mlp": 0.01383039,
+      "balance_loss_clip": 1.07310081,
+      "balance_loss_mlp": 1.00037909,
+      "epoch": 0.05891901641315457,
+      "flos": 20157485880960.0,
+      "grad_norm": 2.2131682603610128,
+      "language_loss": 0.8155061,
+      "learning_rate": 3.991268486371172e-06,
+      "loss": 0.84219646,
+      "num_input_tokens_seen": 10584245,
+      "step": 490,
+      "time_per_iteration": 2.679490566253662
+    },
+    {
+      "auxiliary_loss_clip": 0.0129291,
+      "auxiliary_loss_mlp": 0.01044388,
+      "balance_loss_clip": 1.07005012,
+      "balance_loss_mlp": 1.03258061,
+      "epoch": 0.05903925930379366,
+      "flos": 24644200694400.0,
+      "grad_norm": 6.557698021257683,
+      "language_loss": 0.87761897,
+      "learning_rate": 3.991195625712779e-06,
+      "loss": 0.90099192,
+      "num_input_tokens_seen": 10601210,
+      "step": 491,
+      "time_per_iteration": 2.76204776763916
+    },
+    {
+      "auxiliary_loss_clip": 0.01281747,
+      "auxiliary_loss_mlp": 0.01042419,
+      "balance_loss_clip": 1.07844472,
+      "balance_loss_mlp": 1.03114784,
+      "epoch": 0.05915950219443276,
+      "flos": 21250391045760.0,
+      "grad_norm": 2.4716363878134224,
+      "language_loss": 0.81770486,
+      "learning_rate": 3.991122462991592e-06,
+      "loss": 0.84094656,
+      "num_input_tokens_seen": 10620730,
+      "step": 492,
+      "time_per_iteration": 2.704596519470215
+    },
+    {
+      "auxiliary_loss_clip": 0.01282263,
+      "auxiliary_loss_mlp": 0.01043218,
+      "balance_loss_clip": 1.07629693,
+      "balance_loss_mlp": 1.03076041,
+      "epoch": 0.05927974508507185,
+      "flos": 9902727319680.0,
+      "grad_norm": 3.686687170909808,
+      "language_loss": 0.8127079,
+      "learning_rate": 3.991048998218712e-06,
+      "loss": 0.83596265,
+      "num_input_tokens_seen": 10634035,
+      "step": 493,
+      "time_per_iteration": 2.59844970703125
+    },
+    {
+      "auxiliary_loss_clip": 0.01285172,
+      "auxiliary_loss_mlp": 0.01048505,
+      "balance_loss_clip": 1.07230353,
+      "balance_loss_mlp": 1.0365603,
+      "epoch": 0.05939998797571094,
+      "flos": 18259499232000.0,
+      "grad_norm": 2.482395333925963,
+      "language_loss": 0.76119006,
+      "learning_rate": 3.990975231405281e-06,
+      "loss": 0.78452682,
+      "num_input_tokens_seen": 10652485,
+      "step": 494,
+      "time_per_iteration": 2.654465436935425
+    },
+    {
+      "auxiliary_loss_clip": 0.01286765,
+      "auxiliary_loss_mlp": 0.01049919,
+      "balance_loss_clip": 1.07654929,
+      "balance_loss_mlp": 1.03815877,
+      "epoch": 0.05952023086635003,
+      "flos": 28256598558720.0,
+      "grad_norm": 1.838205808503201,
+      "language_loss": 0.78688526,
+      "learning_rate": 3.990901162562491e-06,
+      "loss": 0.81025219,
+      "num_input_tokens_seen": 10673175,
+      "step": 495,
+      "time_per_iteration": 2.7682135105133057
+    },
+    {
+      "auxiliary_loss_clip": 0.01297865,
+      "auxiliary_loss_mlp": 0.01382738,
+      "balance_loss_clip": 1.06527305,
+      "balance_loss_mlp": 1.00037313,
+      "epoch": 0.05964047375698912,
+      "flos": 14902498045440.0,
+      "grad_norm": 1.9864883110444103,
+      "language_loss": 0.90544295,
+      "learning_rate": 3.9908267917015765e-06,
+      "loss": 0.93224895,
+      "num_input_tokens_seen": 10691235,
+      "step": 496,
+      "time_per_iteration": 2.7021806240081787
+    },
+    {
+      "auxiliary_loss_clip": 0.01271503,
+      "auxiliary_loss_mlp": 0.01040164,
+      "balance_loss_clip": 1.0696311,
+      "balance_loss_mlp": 1.02808774,
+      "epoch": 0.059760716647628206,
+      "flos": 23185581206400.0,
+      "grad_norm": 2.2252128532413233,
+      "language_loss": 0.93012333,
+      "learning_rate": 3.990752118833821e-06,
+      "loss": 0.9532401,
+      "num_input_tokens_seen": 10708675,
+      "step": 497,
+      "time_per_iteration": 2.7194628715515137
+    },
+    {
+      "auxiliary_loss_clip": 0.01281524,
+      "auxiliary_loss_mlp": 0.01047955,
+      "balance_loss_clip": 1.07884264,
+      "balance_loss_mlp": 1.03599191,
+      "epoch": 0.0598809595382673,
+      "flos": 22746968231040.0,
+      "grad_norm": 1.7829258445594511,
+      "language_loss": 0.77992815,
+      "learning_rate": 3.990677143970553e-06,
+      "loss": 0.80322289,
+      "num_input_tokens_seen": 10729485,
+      "step": 498,
+      "time_per_iteration": 2.6941134929656982
+    },
+    {
+      "auxiliary_loss_clip": 0.01298601,
+      "auxiliary_loss_mlp": 0.0104877,
+      "balance_loss_clip": 1.07570529,
+      "balance_loss_mlp": 1.03641987,
+      "epoch": 0.06000120242890639,
+      "flos": 22127221946880.0,
+      "grad_norm": 6.168674719311637,
+      "language_loss": 0.81395477,
+      "learning_rate": 3.990601867123144e-06,
+      "loss": 0.83742845,
+      "num_input_tokens_seen": 10749210,
+      "step": 499,
+      "time_per_iteration": 2.8175835609436035
+    },
+    {
+      "auxiliary_loss_clip": 0.01299086,
+      "auxiliary_loss_mlp": 0.01046483,
+      "balance_loss_clip": 1.06626844,
+      "balance_loss_mlp": 1.03449106,
+      "epoch": 0.06012144531954548,
+      "flos": 19171773878400.0,
+      "grad_norm": 2.167634809381349,
+      "language_loss": 0.8475678,
+      "learning_rate": 3.990526288303014e-06,
+      "loss": 0.87102354,
+      "num_input_tokens_seen": 10768000,
+      "step": 500,
+      "time_per_iteration": 2.816568613052368
+    },
+    {
+      "auxiliary_loss_clip": 0.01290741,
+      "auxiliary_loss_mlp": 0.01382753,
+      "balance_loss_clip": 1.07178104,
+      "balance_loss_mlp": 1.00029469,
+      "epoch": 0.06024168821018457,
+      "flos": 22783345729920.0,
+      "grad_norm": 3.5145882269873456,
+      "language_loss": 0.90975344,
+      "learning_rate": 3.9904504075216295e-06,
+      "loss": 0.93648839,
+      "num_input_tokens_seen": 10788760,
+      "step": 501,
+      "time_per_iteration": 2.783174991607666
+    },
+    {
+      "auxiliary_loss_clip": 0.01298526,
+      "auxiliary_loss_mlp": 0.01048495,
+      "balance_loss_clip": 1.06727338,
+      "balance_loss_mlp": 1.03560865,
+      "epoch": 0.06036193110082366,
+      "flos": 18770687637120.0,
+      "grad_norm": 2.307617683304687,
+      "language_loss": 0.93877572,
+      "learning_rate": 3.990374224790501e-06,
+      "loss": 0.96224588,
+      "num_input_tokens_seen": 10806965,
+      "step": 502,
+      "time_per_iteration": 2.772639036178589
+    },
+    {
+      "auxiliary_loss_clip": 0.01295856,
+      "auxiliary_loss_mlp": 0.01046069,
+      "balance_loss_clip": 1.07434773,
+      "balance_loss_mlp": 1.03362906,
+      "epoch": 0.06048217399146275,
+      "flos": 17201570935680.0,
+      "grad_norm": 2.1999664867884774,
+      "language_loss": 0.70960361,
+      "learning_rate": 3.990297740121185e-06,
+      "loss": 0.73302281,
+      "num_input_tokens_seen": 10824900,
+      "step": 503,
+      "time_per_iteration": 2.7304792404174805
+    },
+    {
+      "auxiliary_loss_clip": 0.01285889,
+      "auxiliary_loss_mlp": 0.01382282,
+      "balance_loss_clip": 1.07463121,
+      "balance_loss_mlp": 1.00030053,
+      "epoch": 0.06060241688210185,
+      "flos": 24024131187840.0,
+      "grad_norm": 1.8734048573839204,
+      "language_loss": 0.7840811,
+      "learning_rate": 3.990220953525284e-06,
+      "loss": 0.81076276,
+      "num_input_tokens_seen": 10842010,
+      "step": 504,
+      "time_per_iteration": 2.7260677814483643
+    },
+    {
+      "auxiliary_loss_clip": 0.01273314,
+      "auxiliary_loss_mlp": 0.01051135,
+      "balance_loss_clip": 1.06545675,
+      "balance_loss_mlp": 1.03873134,
+      "epoch": 0.06072265977274094,
+      "flos": 14611190745600.0,
+      "grad_norm": 3.0670023115789595,
+      "language_loss": 0.7411021,
+      "learning_rate": 3.9901438650144465e-06,
+      "loss": 0.7643466,
+      "num_input_tokens_seen": 10858260,
+      "step": 505,
+      "time_per_iteration": 2.7004878520965576
+    },
+    {
+      "auxiliary_loss_clip": 0.01271996,
+      "auxiliary_loss_mlp": 0.01048691,
+      "balance_loss_clip": 1.07145143,
+      "balance_loss_mlp": 1.03616202,
+      "epoch": 0.06084290266338003,
+      "flos": 20558284813440.0,
+      "grad_norm": 3.991851191322872,
+      "language_loss": 0.9166317,
+      "learning_rate": 3.990066474600367e-06,
+      "loss": 0.93983853,
+      "num_input_tokens_seen": 10876230,
+      "step": 506,
+      "time_per_iteration": 2.707181930541992
+    },
+    {
+      "auxiliary_loss_clip": 0.01272231,
+      "auxiliary_loss_mlp": 0.01043974,
+      "balance_loss_clip": 1.06860685,
+      "balance_loss_mlp": 1.03258312,
+      "epoch": 0.06096314555401912,
+      "flos": 22309217182080.0,
+      "grad_norm": 2.0183781389534827,
+      "language_loss": 0.6766867,
+      "learning_rate": 3.989988782294786e-06,
+      "loss": 0.69984877,
+      "num_input_tokens_seen": 10896320,
+      "step": 507,
+      "time_per_iteration": 2.74017071723938
+    },
+    {
+      "auxiliary_loss_clip": 0.01275423,
+      "auxiliary_loss_mlp": 0.01048456,
+      "balance_loss_clip": 1.0630188,
+      "balance_loss_mlp": 1.0365293,
+      "epoch": 0.06108338844465821,
+      "flos": 19131374056320.0,
+      "grad_norm": 1.6917743062452455,
+      "language_loss": 0.94756615,
+      "learning_rate": 3.989910788109489e-06,
+      "loss": 0.97080505,
+      "num_input_tokens_seen": 10912970,
+      "step": 508,
+      "time_per_iteration": 2.9066200256347656
+    },
+    {
+      "auxiliary_loss_clip": 0.01294441,
+      "auxiliary_loss_mlp": 0.01053519,
+      "balance_loss_clip": 1.06852794,
+      "balance_loss_mlp": 1.04094839,
+      "epoch": 0.0612036313352973,
+      "flos": 33584018169600.0,
+      "grad_norm": 2.5599946070046316,
+      "language_loss": 0.74875319,
+      "learning_rate": 3.989832492056307e-06,
+      "loss": 0.77223277,
+      "num_input_tokens_seen": 10933995,
+      "step": 509,
+      "time_per_iteration": 2.8571178913116455
+    },
+    {
+      "auxiliary_loss_clip": 0.01284589,
+      "auxiliary_loss_mlp": 0.01044741,
+      "balance_loss_clip": 1.0745647,
+      "balance_loss_mlp": 1.03267682,
+      "epoch": 0.06132387422593639,
+      "flos": 27490552179840.0,
+      "grad_norm": 4.30976042829379,
+      "language_loss": 0.8084591,
+      "learning_rate": 3.989753894147119e-06,
+      "loss": 0.83175242,
+      "num_input_tokens_seen": 10954120,
+      "step": 510,
+      "time_per_iteration": 2.6979448795318604
+    },
+    {
+      "auxiliary_loss_clip": 0.01280737,
+      "auxiliary_loss_mlp": 0.0105176,
+      "balance_loss_clip": 1.07607889,
+      "balance_loss_mlp": 1.04024434,
+      "epoch": 0.061444117116575485,
+      "flos": 25885057979520.0,
+      "grad_norm": 1.795357519954519,
+      "language_loss": 0.79997289,
+      "learning_rate": 3.989674994393846e-06,
+      "loss": 0.82329786,
+      "num_input_tokens_seen": 10973595,
+      "step": 511,
+      "time_per_iteration": 3.6602108478546143
+    },
+    {
+      "auxiliary_loss_clip": 0.01282683,
+      "auxiliary_loss_mlp": 0.01048679,
+      "balance_loss_clip": 1.07832384,
+      "balance_loss_mlp": 1.03659678,
+      "epoch": 0.061564360007214575,
+      "flos": 28512031150080.0,
+      "grad_norm": 2.7845465051410105,
+      "language_loss": 0.94214225,
+      "learning_rate": 3.98959579280846e-06,
+      "loss": 0.96545577,
+      "num_input_tokens_seen": 10991995,
+      "step": 512,
+      "time_per_iteration": 2.706982135772705
+    },
+    {
+      "auxiliary_loss_clip": 0.01284922,
+      "auxiliary_loss_mlp": 0.01057315,
+      "balance_loss_clip": 1.06795394,
+      "balance_loss_mlp": 1.04414201,
+      "epoch": 0.061684602897853665,
+      "flos": 12094355652480.0,
+      "grad_norm": 2.1085887790692257,
+      "language_loss": 0.83152258,
+      "learning_rate": 3.989516289402973e-06,
+      "loss": 0.85494494,
+      "num_input_tokens_seen": 11007625,
+      "step": 513,
+      "time_per_iteration": 3.672677516937256
+    },
+    {
+      "auxiliary_loss_clip": 0.01277009,
+      "auxiliary_loss_mlp": 0.01048766,
+      "balance_loss_clip": 1.0563252,
+      "balance_loss_mlp": 1.03665984,
+      "epoch": 0.061804845788492754,
+      "flos": 19532639865600.0,
+      "grad_norm": 3.079419271898475,
+      "language_loss": 0.80496764,
+      "learning_rate": 3.989436484189447e-06,
+      "loss": 0.82822537,
+      "num_input_tokens_seen": 11025570,
+      "step": 514,
+      "time_per_iteration": 4.771639108657837
+    },
+    {
+      "auxiliary_loss_clip": 0.01284151,
+      "auxiliary_loss_mlp": 0.01047907,
+      "balance_loss_clip": 1.07113016,
+      "balance_loss_mlp": 1.03548551,
+      "epoch": 0.061925088679131844,
+      "flos": 15341111020800.0,
+      "grad_norm": 2.8412083094602383,
+      "language_loss": 0.80667865,
+      "learning_rate": 3.9893563771799885e-06,
+      "loss": 0.82999921,
+      "num_input_tokens_seen": 11042045,
+      "step": 515,
+      "time_per_iteration": 3.1121065616607666
+    },
+    {
+      "auxiliary_loss_clip": 0.01278298,
+      "auxiliary_loss_mlp": 0.01045473,
+      "balance_loss_clip": 1.07702422,
+      "balance_loss_mlp": 1.03305137,
+      "epoch": 0.062045331569770934,
+      "flos": 25919927107200.0,
+      "grad_norm": 2.3179580727567184,
+      "language_loss": 0.85948473,
+      "learning_rate": 3.989275968386749e-06,
+      "loss": 0.8827225,
+      "num_input_tokens_seen": 11059955,
+      "step": 516,
+      "time_per_iteration": 2.640467882156372
+    },
+    {
+      "auxiliary_loss_clip": 0.01278069,
+      "auxiliary_loss_mlp": 0.01042938,
+      "balance_loss_clip": 1.06606317,
+      "balance_loss_mlp": 1.03074861,
+      "epoch": 0.06216557446041003,
+      "flos": 28110621686400.0,
+      "grad_norm": 2.2892445824827248,
+      "language_loss": 0.76666236,
+      "learning_rate": 3.989195257821926e-06,
+      "loss": 0.78987241,
+      "num_input_tokens_seen": 11078440,
+      "step": 517,
+      "time_per_iteration": 2.808838129043579
+    },
+    {
+      "auxiliary_loss_clip": 0.01291015,
+      "auxiliary_loss_mlp": 0.01050493,
+      "balance_loss_clip": 1.07493174,
+      "balance_loss_mlp": 1.03818476,
+      "epoch": 0.06228581735104912,
+      "flos": 23478181395840.0,
+      "grad_norm": 2.049755553605639,
+      "language_loss": 0.84555942,
+      "learning_rate": 3.989114245497765e-06,
+      "loss": 0.86897445,
+      "num_input_tokens_seen": 11098240,
+      "step": 518,
+      "time_per_iteration": 2.723484516143799
+    },
+    {
+      "auxiliary_loss_clip": 0.01284602,
+      "auxiliary_loss_mlp": 0.01048991,
+      "balance_loss_clip": 1.0719794,
+      "balance_loss_mlp": 1.03755903,
+      "epoch": 0.06240606024168821,
+      "flos": 15195205975680.0,
+      "grad_norm": 2.178340079581876,
+      "language_loss": 0.94563937,
+      "learning_rate": 3.989032931426554e-06,
+      "loss": 0.96897531,
+      "num_input_tokens_seen": 11115395,
+      "step": 519,
+      "time_per_iteration": 2.702824115753174
+    },
+    {
+      "auxiliary_loss_clip": 0.0128731,
+      "auxiliary_loss_mlp": 0.01043531,
+      "balance_loss_clip": 1.07103169,
+      "balance_loss_mlp": 1.03205061,
+      "epoch": 0.06252630313232731,
+      "flos": 20631829910400.0,
+      "grad_norm": 2.1832210609898097,
+      "language_loss": 0.86758983,
+      "learning_rate": 3.9889513156206295e-06,
+      "loss": 0.89089823,
+      "num_input_tokens_seen": 11134835,
+      "step": 520,
+      "time_per_iteration": 2.7074596881866455
+    },
+    {
+      "auxiliary_loss_clip": 0.01296227,
+      "auxiliary_loss_mlp": 0.01045947,
+      "balance_loss_clip": 1.06884515,
+      "balance_loss_mlp": 1.03371,
+      "epoch": 0.06264654602296639,
+      "flos": 20778058177920.0,
+      "grad_norm": 2.569648066122966,
+      "language_loss": 0.73458427,
+      "learning_rate": 3.988869398092371e-06,
+      "loss": 0.75800598,
+      "num_input_tokens_seen": 11154745,
+      "step": 521,
+      "time_per_iteration": 2.8289942741394043
+    },
+    {
+      "auxiliary_loss_clip": 0.01291421,
+      "auxiliary_loss_mlp": 0.01045142,
+      "balance_loss_clip": 1.07170892,
+      "balance_loss_mlp": 1.03229761,
+      "epoch": 0.06276678891360549,
+      "flos": 29605798241280.0,
+      "grad_norm": 2.269432694239991,
+      "language_loss": 0.78898257,
+      "learning_rate": 3.988787178854206e-06,
+      "loss": 0.81234819,
+      "num_input_tokens_seen": 11174280,
+      "step": 522,
+      "time_per_iteration": 2.8013925552368164
+    },
+    {
+      "auxiliary_loss_clip": 0.01277966,
+      "auxiliary_loss_mlp": 0.01053239,
+      "balance_loss_clip": 1.07596397,
+      "balance_loss_mlp": 1.03917205,
+      "epoch": 0.06288703180424457,
+      "flos": 22126288193280.0,
+      "grad_norm": 2.8180318943764493,
+      "language_loss": 0.87548524,
+      "learning_rate": 3.988704657918608e-06,
+      "loss": 0.89879727,
+      "num_input_tokens_seen": 11193340,
+      "step": 523,
+      "time_per_iteration": 2.654170513153076
+    },
+    {
+      "auxiliary_loss_clip": 0.01287914,
+      "auxiliary_loss_mlp": 0.01041177,
+      "balance_loss_clip": 1.07798696,
+      "balance_loss_mlp": 1.02950597,
+      "epoch": 0.06300727469488367,
+      "flos": 14976689587200.0,
+      "grad_norm": 2.445801302515699,
+      "language_loss": 0.79649425,
+      "learning_rate": 3.988621835298094e-06,
+      "loss": 0.81978512,
+      "num_input_tokens_seen": 11210555,
+      "step": 524,
+      "time_per_iteration": 2.663442611694336
+    },
+    {
+      "auxiliary_loss_clip": 0.01277145,
+      "auxiliary_loss_mlp": 0.01046978,
+      "balance_loss_clip": 1.07853544,
+      "balance_loss_mlp": 1.03530777,
+      "epoch": 0.06312751758552275,
+      "flos": 24535391420160.0,
+      "grad_norm": 2.1587138447359697,
+      "language_loss": 0.91557652,
+      "learning_rate": 3.988538711005229e-06,
+      "loss": 0.93881774,
+      "num_input_tokens_seen": 11230010,
+      "step": 525,
+      "time_per_iteration": 2.689793109893799
+    },
+    {
+      "auxiliary_loss_clip": 0.01274103,
+      "auxiliary_loss_mlp": 0.01055728,
+      "balance_loss_clip": 1.06976271,
+      "balance_loss_mlp": 1.04389608,
+      "epoch": 0.06324776047616185,
+      "flos": 21507008785920.0,
+      "grad_norm": 2.4870989132557333,
+      "language_loss": 0.88449395,
+      "learning_rate": 3.988455285052622e-06,
+      "loss": 0.90779221,
+      "num_input_tokens_seen": 11246190,
+      "step": 526,
+      "time_per_iteration": 2.6288039684295654
+    },
+    {
+      "auxiliary_loss_clip": 0.01276303,
+      "auxiliary_loss_mlp": 0.01049691,
+      "balance_loss_clip": 1.07256532,
+      "balance_loss_mlp": 1.03808594,
+      "epoch": 0.06336800336680094,
+      "flos": 21688034353920.0,
+      "grad_norm": 2.926780930285324,
+      "language_loss": 0.83734834,
+      "learning_rate": 3.98837155745293e-06,
+      "loss": 0.86060834,
+      "num_input_tokens_seen": 11264230,
+      "step": 527,
+      "time_per_iteration": 2.5793583393096924
+    },
+    {
+      "auxiliary_loss_clip": 0.01285738,
+      "auxiliary_loss_mlp": 0.01044574,
+      "balance_loss_clip": 1.0778172,
+      "balance_loss_mlp": 1.03347564,
+      "epoch": 0.06348824625744003,
+      "flos": 19500895221120.0,
+      "grad_norm": 3.777597441634588,
+      "language_loss": 0.75811696,
+      "learning_rate": 3.988287528218854e-06,
+      "loss": 0.78142011,
+      "num_input_tokens_seen": 11283015,
+      "step": 528,
+      "time_per_iteration": 2.5873467922210693
+    },
+    {
+      "auxiliary_loss_clip": 0.01284484,
+      "auxiliary_loss_mlp": 0.01056861,
+      "balance_loss_clip": 1.07931948,
+      "balance_loss_mlp": 1.04579258,
+      "epoch": 0.06360848914807912,
+      "flos": 15481233976320.0,
+      "grad_norm": 1.9372033440387515,
+      "language_loss": 0.90347195,
+      "learning_rate": 3.98820319736314e-06,
+      "loss": 0.92688537,
+      "num_input_tokens_seen": 11299630,
+      "step": 529,
+      "time_per_iteration": 2.523776054382324
+    },
+    {
+      "auxiliary_loss_clip": 0.01298661,
+      "auxiliary_loss_mlp": 0.01047074,
+      "balance_loss_clip": 1.06929708,
+      "balance_loss_mlp": 1.03499234,
+      "epoch": 0.0637287320387182,
+      "flos": 20593369422720.0,
+      "grad_norm": 1.9516672009790363,
+      "language_loss": 0.85460091,
+      "learning_rate": 3.988118564898582e-06,
+      "loss": 0.87805837,
+      "num_input_tokens_seen": 11319170,
+      "step": 530,
+      "time_per_iteration": 2.7321274280548096
+    },
+    {
+      "auxiliary_loss_clip": 0.01289228,
+      "auxiliary_loss_mlp": 0.01383089,
+      "balance_loss_clip": 1.07187343,
+      "balance_loss_mlp": 1.00040269,
+      "epoch": 0.0638489749293573,
+      "flos": 17412222245760.0,
+      "grad_norm": 2.6567981685190944,
+      "language_loss": 0.89233536,
+      "learning_rate": 3.988033630838019e-06,
+      "loss": 0.9190585,
+      "num_input_tokens_seen": 11333210,
+      "step": 531,
+      "time_per_iteration": 2.688222885131836
+    },
+    {
+      "auxiliary_loss_clip": 0.01284938,
+      "auxiliary_loss_mlp": 0.0104689,
+      "balance_loss_clip": 1.07753277,
+      "balance_loss_mlp": 1.03536844,
+      "epoch": 0.0639692178199964,
+      "flos": 23807661874560.0,
+      "grad_norm": 1.818599553005039,
+      "language_loss": 0.88319594,
+      "learning_rate": 3.987948395194334e-06,
+      "loss": 0.90651423,
+      "num_input_tokens_seen": 11355590,
+      "step": 532,
+      "time_per_iteration": 2.73616886138916
+    },
+    {
+      "auxiliary_loss_clip": 0.01272133,
+      "auxiliary_loss_mlp": 0.01056228,
+      "balance_loss_clip": 1.07117701,
+      "balance_loss_mlp": 1.04478359,
+      "epoch": 0.06408946071063548,
+      "flos": 18477225521280.0,
+      "grad_norm": 2.5145922449800175,
+      "language_loss": 0.7655493,
+      "learning_rate": 3.987862857980458e-06,
+      "loss": 0.7888329,
+      "num_input_tokens_seen": 11371535,
+      "step": 533,
+      "time_per_iteration": 2.6529417037963867
+    },
+    {
+      "auxiliary_loss_clip": 0.01304433,
+      "auxiliary_loss_mlp": 0.01053183,
+      "balance_loss_clip": 1.07201767,
+      "balance_loss_mlp": 1.04079103,
+      "epoch": 0.06420970360127458,
+      "flos": 27162220936320.0,
+      "grad_norm": 2.3202250728116116,
+      "language_loss": 0.76831609,
+      "learning_rate": 3.987777019209368e-06,
+      "loss": 0.79189229,
+      "num_input_tokens_seen": 11392050,
+      "step": 534,
+      "time_per_iteration": 2.809584140777588
+    },
+    {
+      "auxiliary_loss_clip": 0.01278449,
+      "auxiliary_loss_mlp": 0.01048571,
+      "balance_loss_clip": 1.07878864,
+      "balance_loss_mlp": 1.0366621,
+      "epoch": 0.06432994649191366,
+      "flos": 23659673840640.0,
+      "grad_norm": 4.18178051680393,
+      "language_loss": 0.80998784,
+      "learning_rate": 3.987690878894084e-06,
+      "loss": 0.83325803,
+      "num_input_tokens_seen": 11411765,
+      "step": 535,
+      "time_per_iteration": 2.7172837257385254
+    },
+    {
+      "auxiliary_loss_clip": 0.01290765,
+      "auxiliary_loss_mlp": 0.01049039,
+      "balance_loss_clip": 1.0725832,
+      "balance_loss_mlp": 1.03679049,
+      "epoch": 0.06445018938255276,
+      "flos": 23403953940480.0,
+      "grad_norm": 2.2971400148663474,
+      "language_loss": 0.84997952,
+      "learning_rate": 3.987604437047673e-06,
+      "loss": 0.87337756,
+      "num_input_tokens_seen": 11431565,
+      "step": 536,
+      "time_per_iteration": 2.732740640640259
+    },
+    {
+      "auxiliary_loss_clip": 0.01284829,
+      "auxiliary_loss_mlp": 0.01040344,
+      "balance_loss_clip": 1.07587385,
+      "balance_loss_mlp": 1.02902555,
+      "epoch": 0.06457043227319184,
+      "flos": 19646692525440.0,
+      "grad_norm": 2.137490759348878,
+      "language_loss": 0.77690911,
+      "learning_rate": 3.987517693683251e-06,
+      "loss": 0.80016083,
+      "num_input_tokens_seen": 11450140,
+      "step": 537,
+      "time_per_iteration": 3.563037633895874
+    },
+    {
+      "auxiliary_loss_clip": 0.01284046,
+      "auxiliary_loss_mlp": 0.01050168,
+      "balance_loss_clip": 1.07469404,
+      "balance_loss_mlp": 1.03847969,
+      "epoch": 0.06469067516383094,
+      "flos": 16978744915200.0,
+      "grad_norm": 2.8440766892714455,
+      "language_loss": 0.9620207,
+      "learning_rate": 3.9874306488139745e-06,
+      "loss": 0.98536283,
+      "num_input_tokens_seen": 11465400,
+      "step": 538,
+      "time_per_iteration": 2.6534340381622314
+    },
+    {
+      "auxiliary_loss_clip": 0.01293503,
+      "auxiliary_loss_mlp": 0.0104209,
+      "balance_loss_clip": 1.07088542,
+      "balance_loss_mlp": 1.0308187,
+      "epoch": 0.06481091805447003,
+      "flos": 23296401642240.0,
+      "grad_norm": 2.0206278127683817,
+      "language_loss": 0.8795383,
+      "learning_rate": 3.987343302453049e-06,
+      "loss": 0.90289426,
+      "num_input_tokens_seen": 11486675,
+      "step": 539,
+      "time_per_iteration": 3.6805825233459473
+    },
+    {
+      "auxiliary_loss_clip": 0.01286355,
+      "auxiliary_loss_mlp": 0.01050424,
+      "balance_loss_clip": 1.07416534,
+      "balance_loss_mlp": 1.03825235,
+      "epoch": 0.06493116094510912,
+      "flos": 29172356824320.0,
+      "grad_norm": 1.7300217800579845,
+      "language_loss": 0.8256703,
+      "learning_rate": 3.987255654613724e-06,
+      "loss": 0.84903806,
+      "num_input_tokens_seen": 11510440,
+      "step": 540,
+      "time_per_iteration": 3.668525457382202
+    },
+    {
+      "auxiliary_loss_clip": 0.01293484,
+      "auxiliary_loss_mlp": 0.01051152,
+      "balance_loss_clip": 1.0700171,
+      "balance_loss_mlp": 1.03938627,
+      "epoch": 0.06505140383574821,
+      "flos": 19865065259520.0,
+      "grad_norm": 2.513175330480901,
+      "language_loss": 0.70321906,
+      "learning_rate": 3.987167705309296e-06,
+      "loss": 0.72666538,
+      "num_input_tokens_seen": 11529715,
+      "step": 541,
+      "time_per_iteration": 2.6802258491516113
+    },
+    {
+      "auxiliary_loss_clip": 0.01283702,
+      "auxiliary_loss_mlp": 0.01382256,
+      "balance_loss_clip": 1.07503271,
+      "balance_loss_mlp": 1.0003593,
+      "epoch": 0.0651716467263873,
+      "flos": 17924703540480.0,
+      "grad_norm": 2.1811852257114652,
+      "language_loss": 0.9543274,
+      "learning_rate": 3.987079454553108e-06,
+      "loss": 0.98098695,
+      "num_input_tokens_seen": 11547665,
+      "step": 542,
+      "time_per_iteration": 2.6474602222442627
+    },
+    {
+      "auxiliary_loss_clip": 0.01290409,
+      "auxiliary_loss_mlp": 0.01040577,
+      "balance_loss_clip": 1.07334399,
+      "balance_loss_mlp": 1.02928221,
+      "epoch": 0.0652918896170264,
+      "flos": 20842840356480.0,
+      "grad_norm": 1.8043276982793526,
+      "language_loss": 0.91206962,
+      "learning_rate": 3.986990902358546e-06,
+      "loss": 0.93537951,
+      "num_input_tokens_seen": 11564605,
+      "step": 543,
+      "time_per_iteration": 2.674638032913208
+    },
+    {
+      "auxiliary_loss_clip": 0.01282279,
+      "auxiliary_loss_mlp": 0.01053356,
+      "balance_loss_clip": 1.07332635,
+      "balance_loss_mlp": 1.04068398,
+      "epoch": 0.06541213250766549,
+      "flos": 21872507627520.0,
+      "grad_norm": 2.101832066202977,
+      "language_loss": 0.93098974,
+      "learning_rate": 3.986902048739045e-06,
+      "loss": 0.95434612,
+      "num_input_tokens_seen": 11584550,
+      "step": 544,
+      "time_per_iteration": 2.631817102432251
+    },
+    {
+      "auxiliary_loss_clip": 0.01291507,
+      "auxiliary_loss_mlp": 0.01044322,
+      "balance_loss_clip": 1.07329035,
+      "balance_loss_mlp": 1.03192401,
+      "epoch": 0.06553237539830457,
+      "flos": 23110743219840.0,
+      "grad_norm": 3.3045642232727195,
+      "language_loss": 0.79686511,
+      "learning_rate": 3.986812893708082e-06,
+      "loss": 0.82022333,
+      "num_input_tokens_seen": 11600740,
+      "step": 545,
+      "time_per_iteration": 2.6695072650909424
+    },
+    {
+      "auxiliary_loss_clip": 0.0129211,
+      "auxiliary_loss_mlp": 0.01047951,
+      "balance_loss_clip": 1.07013416,
+      "balance_loss_mlp": 1.03477836,
+      "epoch": 0.06565261828894367,
+      "flos": 17923769786880.0,
+      "grad_norm": 1.9940766109246306,
+      "language_loss": 0.81238735,
+      "learning_rate": 3.9867234372791826e-06,
+      "loss": 0.83578795,
+      "num_input_tokens_seen": 11618695,
+      "step": 546,
+      "time_per_iteration": 2.700145959854126
+    },
+    {
+      "auxiliary_loss_clip": 0.0128018,
+      "auxiliary_loss_mlp": 0.01040001,
+      "balance_loss_clip": 1.07439506,
+      "balance_loss_mlp": 1.02825868,
+      "epoch": 0.06577286117958275,
+      "flos": 22783058421120.0,
+      "grad_norm": 1.5996289706712536,
+      "language_loss": 0.87071115,
+      "learning_rate": 3.986633679465918e-06,
+      "loss": 0.89391297,
+      "num_input_tokens_seen": 11638850,
+      "step": 547,
+      "time_per_iteration": 2.7447190284729004
+    },
+    {
+      "auxiliary_loss_clip": 0.01304028,
+      "auxiliary_loss_mlp": 0.01050256,
+      "balance_loss_clip": 1.06962943,
+      "balance_loss_mlp": 1.03819251,
+      "epoch": 0.06589310407022185,
+      "flos": 23696194993920.0,
+      "grad_norm": 2.0731878933116086,
+      "language_loss": 0.80656731,
+      "learning_rate": 3.986543620281904e-06,
+      "loss": 0.83011013,
+      "num_input_tokens_seen": 11658500,
+      "step": 548,
+      "time_per_iteration": 3.1247732639312744
+    },
+    {
+      "auxiliary_loss_clip": 0.01269455,
+      "auxiliary_loss_mlp": 0.01049632,
+      "balance_loss_clip": 1.0707022,
+      "balance_loss_mlp": 1.03726387,
+      "epoch": 0.06601334696086093,
+      "flos": 26864772410880.0,
+      "grad_norm": 1.728783639469958,
+      "language_loss": 0.9131664,
+      "learning_rate": 3.986453259740802e-06,
+      "loss": 0.93635738,
+      "num_input_tokens_seen": 11676670,
+      "step": 549,
+      "time_per_iteration": 2.9940640926361084
+    },
+    {
+      "auxiliary_loss_clip": 0.01292396,
+      "auxiliary_loss_mlp": 0.01048784,
+      "balance_loss_clip": 1.07618952,
+      "balance_loss_mlp": 1.03736961,
+      "epoch": 0.06613358985150003,
+      "flos": 12567694101120.0,
+      "grad_norm": 3.511758724118501,
+      "language_loss": 0.79120791,
+      "learning_rate": 3.986362597856319e-06,
+      "loss": 0.81461978,
+      "num_input_tokens_seen": 11693170,
+      "step": 550,
+      "time_per_iteration": 2.6634278297424316
+    },
+    {
+      "auxiliary_loss_clip": 0.01277252,
+      "auxiliary_loss_mlp": 0.01383338,
+      "balance_loss_clip": 1.06782627,
+      "balance_loss_mlp": 1.00031793,
+      "epoch": 0.06625383274213913,
+      "flos": 18332505624960.0,
+      "grad_norm": 2.3291214444409376,
+      "language_loss": 0.81418848,
+      "learning_rate": 3.986271634642211e-06,
+      "loss": 0.84079432,
+      "num_input_tokens_seen": 11710150,
+      "step": 551,
+      "time_per_iteration": 2.7383804321289062
+    },
+    {
+      "auxiliary_loss_clip": 0.01272902,
+      "auxiliary_loss_mlp": 0.01038363,
+      "balance_loss_clip": 1.07669592,
+      "balance_loss_mlp": 1.02538729,
+      "epoch": 0.06637407563277821,
+      "flos": 15375585098880.0,
+      "grad_norm": 2.175281466528723,
+      "language_loss": 0.81557596,
+      "learning_rate": 3.986180370112274e-06,
+      "loss": 0.83868861,
+      "num_input_tokens_seen": 11726670,
+      "step": 552,
+      "time_per_iteration": 2.597367763519287
+    },
+    {
+      "auxiliary_loss_clip": 0.01283756,
+      "auxiliary_loss_mlp": 0.01382766,
+      "balance_loss_clip": 1.07684517,
+      "balance_loss_mlp": 1.00029302,
+      "epoch": 0.0664943185234173,
+      "flos": 24025244509440.0,
+      "grad_norm": 1.7249995253227388,
+      "language_loss": 0.74494249,
+      "learning_rate": 3.986088804280354e-06,
+      "loss": 0.77160776,
+      "num_input_tokens_seen": 11746400,
+      "step": 553,
+      "time_per_iteration": 2.7655389308929443
+    },
+    {
+      "auxiliary_loss_clip": 0.01282921,
+      "auxiliary_loss_mlp": 0.01043672,
+      "balance_loss_clip": 1.06902957,
+      "balance_loss_mlp": 1.03170323,
+      "epoch": 0.06661456141405639,
+      "flos": 20957503547520.0,
+      "grad_norm": 2.638844898852347,
+      "language_loss": 0.94379735,
+      "learning_rate": 3.985996937160342e-06,
+      "loss": 0.96706331,
+      "num_input_tokens_seen": 11765590,
+      "step": 554,
+      "time_per_iteration": 2.754848003387451
+    },
+    {
+      "auxiliary_loss_clip": 0.01280055,
+      "auxiliary_loss_mlp": 0.01035347,
+      "balance_loss_clip": 1.07698393,
+      "balance_loss_mlp": 1.02340245,
+      "epoch": 0.06673480430469549,
+      "flos": 52223953322880.0,
+      "grad_norm": 2.119834846392197,
+      "language_loss": 0.68720347,
+      "learning_rate": 3.985904768766173e-06,
+      "loss": 0.71035743,
+      "num_input_tokens_seen": 11788365,
+      "step": 555,
+      "time_per_iteration": 3.000251293182373
+    },
+    {
+      "auxiliary_loss_clip": 0.01297254,
+      "auxiliary_loss_mlp": 0.01042095,
+      "balance_loss_clip": 1.07122457,
+      "balance_loss_mlp": 1.02929163,
+      "epoch": 0.06685504719533458,
+      "flos": 16217079995520.0,
+      "grad_norm": 3.053867075743763,
+      "language_loss": 0.75920463,
+      "learning_rate": 3.98581229911183e-06,
+      "loss": 0.78259814,
+      "num_input_tokens_seen": 11807285,
+      "step": 556,
+      "time_per_iteration": 2.7281718254089355
+    },
+    {
+      "auxiliary_loss_clip": 0.01280128,
+      "auxiliary_loss_mlp": 0.01053417,
+      "balance_loss_clip": 1.07257915,
+      "balance_loss_mlp": 1.04103768,
+      "epoch": 0.06697529008597367,
+      "flos": 22491535639680.0,
+      "grad_norm": 2.362392400735536,
+      "language_loss": 0.92127812,
+      "learning_rate": 3.985719528211341e-06,
+      "loss": 0.94461358,
+      "num_input_tokens_seen": 11826655,
+      "step": 557,
+      "time_per_iteration": 2.6738171577453613
+    },
+    {
+      "auxiliary_loss_clip": 0.01189373,
+      "auxiliary_loss_mlp": 0.01012142,
+      "balance_loss_clip": 1.04520226,
+      "balance_loss_mlp": 1.00825548,
+      "epoch": 0.06709553297661276,
+      "flos": 62688216936960.0,
+      "grad_norm": 0.8468176659684239,
+      "language_loss": 0.62997329,
+      "learning_rate": 3.985626456078777e-06,
+      "loss": 0.65198839,
+      "num_input_tokens_seen": 11891310,
+      "step": 558,
+      "time_per_iteration": 3.381007432937622
+    },
+    {
+      "auxiliary_loss_clip": 0.01296209,
+      "auxiliary_loss_mlp": 0.01049885,
+      "balance_loss_clip": 1.07173467,
+      "balance_loss_mlp": 1.03822041,
+      "epoch": 0.06721577586725185,
+      "flos": 11216590997760.0,
+      "grad_norm": 2.75720275365305,
+      "language_loss": 0.86134112,
+      "learning_rate": 3.985533082728259e-06,
+      "loss": 0.8848021,
+      "num_input_tokens_seen": 11906965,
+      "step": 559,
+      "time_per_iteration": 2.7352752685546875
+    },
+    {
+      "auxiliary_loss_clip": 0.01269105,
+      "auxiliary_loss_mlp": 0.01039056,
+      "balance_loss_clip": 1.07198668,
+      "balance_loss_mlp": 1.02675319,
+      "epoch": 0.06733601875789094,
+      "flos": 25922189664000.0,
+      "grad_norm": 2.5050042108486807,
+      "language_loss": 0.74692702,
+      "learning_rate": 3.985439408173951e-06,
+      "loss": 0.77000868,
+      "num_input_tokens_seen": 11927190,
+      "step": 560,
+      "time_per_iteration": 2.704852342605591
+    },
+    {
+      "auxiliary_loss_clip": 0.01279844,
+      "auxiliary_loss_mlp": 0.01049884,
+      "balance_loss_clip": 1.0798316,
+      "balance_loss_mlp": 1.03807628,
+      "epoch": 0.06745626164853002,
+      "flos": 20813645577600.0,
+      "grad_norm": 3.828010274272392,
+      "language_loss": 0.70519847,
+      "learning_rate": 3.9853454324300634e-06,
+      "loss": 0.72849578,
+      "num_input_tokens_seen": 11946400,
+      "step": 561,
+      "time_per_iteration": 2.6167585849761963
+    },
+    {
+      "auxiliary_loss_clip": 0.01312917,
+      "auxiliary_loss_mlp": 0.01047969,
+      "balance_loss_clip": 1.0640502,
+      "balance_loss_mlp": 1.03581572,
+      "epoch": 0.06757650453916912,
+      "flos": 19829262378240.0,
+      "grad_norm": 2.137915083408154,
+      "language_loss": 0.78026378,
+      "learning_rate": 3.985251155510852e-06,
+      "loss": 0.80387259,
+      "num_input_tokens_seen": 11965430,
+      "step": 562,
+      "time_per_iteration": 3.031951427459717
+    },
+    {
+      "auxiliary_loss_clip": 0.01302922,
+      "auxiliary_loss_mlp": 0.01038452,
+      "balance_loss_clip": 1.06980062,
+      "balance_loss_mlp": 1.026227,
+      "epoch": 0.06769674742980822,
+      "flos": 25739224761600.0,
+      "grad_norm": 1.821127770672979,
+      "language_loss": 0.80337441,
+      "learning_rate": 3.98515657743062e-06,
+      "loss": 0.82678819,
+      "num_input_tokens_seen": 11984895,
+      "step": 563,
+      "time_per_iteration": 3.9482812881469727
+    },
+    {
+      "auxiliary_loss_clip": 0.01287434,
+      "auxiliary_loss_mlp": 0.01049091,
+      "balance_loss_clip": 1.071805,
+      "balance_loss_mlp": 1.03692603,
+      "epoch": 0.0678169903204473,
+      "flos": 13074788355840.0,
+      "grad_norm": 1.856383188897722,
+      "language_loss": 0.77853191,
+      "learning_rate": 3.985061698203711e-06,
+      "loss": 0.80189717,
+      "num_input_tokens_seen": 12002010,
+      "step": 564,
+      "time_per_iteration": 2.7179415225982666
+    },
+    {
+      "auxiliary_loss_clip": 0.01167513,
+      "auxiliary_loss_mlp": 0.01009886,
+      "balance_loss_clip": 1.04666972,
+      "balance_loss_mlp": 1.00521338,
+      "epoch": 0.0679372332110864,
+      "flos": 70865830788480.0,
+      "grad_norm": 0.8860481837258503,
+      "language_loss": 0.6380055,
+      "learning_rate": 3.984966517844523e-06,
+      "loss": 0.65977955,
+      "num_input_tokens_seen": 12057255,
+      "step": 565,
+      "time_per_iteration": 4.2034666538238525
+    },
+    {
+      "auxiliary_loss_clip": 0.01275101,
+      "auxiliary_loss_mlp": 0.01041976,
+      "balance_loss_clip": 1.07587528,
+      "balance_loss_mlp": 1.02951217,
+      "epoch": 0.06805747610172548,
+      "flos": 28256418990720.0,
+      "grad_norm": 2.8490035911287612,
+      "language_loss": 0.80353922,
+      "learning_rate": 3.984871036367492e-06,
+      "loss": 0.82670999,
+      "num_input_tokens_seen": 12077280,
+      "step": 566,
+      "time_per_iteration": 3.633204221725464
+    },
+    {
+      "auxiliary_loss_clip": 0.01280117,
+      "auxiliary_loss_mlp": 0.01382633,
+      "balance_loss_clip": 1.07502675,
+      "balance_loss_mlp": 1.00034797,
+      "epoch": 0.06817771899236458,
+      "flos": 20120533764480.0,
+      "grad_norm": 2.1119084546111866,
+      "language_loss": 0.83228111,
+      "learning_rate": 3.984775253787102e-06,
+      "loss": 0.85890865,
+      "num_input_tokens_seen": 12095570,
+      "step": 567,
+      "time_per_iteration": 2.6764540672302246
+    },
+    {
+      "auxiliary_loss_clip": 0.0128365,
+      "auxiliary_loss_mlp": 0.0104308,
+      "balance_loss_clip": 1.07306373,
+      "balance_loss_mlp": 1.03128982,
+      "epoch": 0.06829796188300366,
+      "flos": 17930629284480.0,
+      "grad_norm": 3.143604878973736,
+      "language_loss": 0.8805455,
+      "learning_rate": 3.984679170117885e-06,
+      "loss": 0.90381283,
+      "num_input_tokens_seen": 12111775,
+      "step": 568,
+      "time_per_iteration": 2.691500663757324
+    },
+    {
+      "auxiliary_loss_clip": 0.01274398,
+      "auxiliary_loss_mlp": 0.01046393,
+      "balance_loss_clip": 1.07157946,
+      "balance_loss_mlp": 1.03472829,
+      "epoch": 0.06841820477364276,
+      "flos": 14501627285760.0,
+      "grad_norm": 2.485745949865142,
+      "language_loss": 0.7845788,
+      "learning_rate": 3.984582785374415e-06,
+      "loss": 0.8077867,
+      "num_input_tokens_seen": 12129215,
+      "step": 569,
+      "time_per_iteration": 2.64306640625
+    },
+    {
+      "auxiliary_loss_clip": 0.01286701,
+      "auxiliary_loss_mlp": 0.01382373,
+      "balance_loss_clip": 1.07326126,
+      "balance_loss_mlp": 1.00023401,
+      "epoch": 0.06853844766428185,
+      "flos": 21938474954880.0,
+      "grad_norm": 2.0365458725572783,
+      "language_loss": 0.80619144,
+      "learning_rate": 3.9844860995713155e-06,
+      "loss": 0.83288223,
+      "num_input_tokens_seen": 12148755,
+      "step": 570,
+      "time_per_iteration": 2.7964928150177
+    },
+    {
+      "auxiliary_loss_clip": 0.01282536,
+      "auxiliary_loss_mlp": 0.01040966,
+      "balance_loss_clip": 1.07951021,
+      "balance_loss_mlp": 1.02932549,
+      "epoch": 0.06865869055492094,
+      "flos": 16800628348800.0,
+      "grad_norm": 2.73138357094909,
+      "language_loss": 0.82671231,
+      "learning_rate": 3.9843891127232524e-06,
+      "loss": 0.84994733,
+      "num_input_tokens_seen": 12166290,
+      "step": 571,
+      "time_per_iteration": 2.710481882095337
+    },
+    {
+      "auxiliary_loss_clip": 0.01289893,
+      "auxiliary_loss_mlp": 0.01040086,
+      "balance_loss_clip": 1.06526756,
+      "balance_loss_mlp": 1.02852297,
+      "epoch": 0.06877893344556003,
+      "flos": 19937281553280.0,
+      "grad_norm": 2.5566616933876167,
+      "language_loss": 0.66875398,
+      "learning_rate": 3.984291824844938e-06,
+      "loss": 0.69205374,
+      "num_input_tokens_seen": 12181385,
+      "step": 572,
+      "time_per_iteration": 2.756087064743042
+    },
+    {
+      "auxiliary_loss_clip": 0.01270421,
+      "auxiliary_loss_mlp": 0.01038602,
+      "balance_loss_clip": 1.07426536,
+      "balance_loss_mlp": 1.02616239,
+      "epoch": 0.06889917633619912,
+      "flos": 23039388852480.0,
+      "grad_norm": 2.522951282072005,
+      "language_loss": 0.85111398,
+      "learning_rate": 3.984194235951132e-06,
+      "loss": 0.87420422,
+      "num_input_tokens_seen": 12197530,
+      "step": 573,
+      "time_per_iteration": 2.6300299167633057
+    },
+    {
+      "auxiliary_loss_clip": 0.01275579,
+      "auxiliary_loss_mlp": 0.01046814,
+      "balance_loss_clip": 1.07878733,
+      "balance_loss_mlp": 1.03467846,
+      "epoch": 0.06901941922683821,
+      "flos": 20960556203520.0,
+      "grad_norm": 2.315127896593087,
+      "language_loss": 0.84738898,
+      "learning_rate": 3.9840963460566375e-06,
+      "loss": 0.87061286,
+      "num_input_tokens_seen": 12216310,
+      "step": 574,
+      "time_per_iteration": 2.6369147300720215
+    },
+    {
+      "auxiliary_loss_clip": 0.01287859,
+      "auxiliary_loss_mlp": 0.01041678,
+      "balance_loss_clip": 1.06147969,
+      "balance_loss_mlp": 1.0302099,
+      "epoch": 0.06913966211747731,
+      "flos": 24821850384000.0,
+      "grad_norm": 1.6569431197939037,
+      "language_loss": 0.89386332,
+      "learning_rate": 3.983998155176305e-06,
+      "loss": 0.91715872,
+      "num_input_tokens_seen": 12236670,
+      "step": 575,
+      "time_per_iteration": 2.8763928413391113
+    },
+    {
+      "auxiliary_loss_clip": 0.01156706,
+      "auxiliary_loss_mlp": 0.01003699,
+      "balance_loss_clip": 1.03893447,
+      "balance_loss_mlp": 0.99959832,
+      "epoch": 0.06925990500811639,
+      "flos": 58367446957440.0,
+      "grad_norm": 0.8169886826509524,
+      "language_loss": 0.56994188,
+      "learning_rate": 3.9838996633250305e-06,
+      "loss": 0.59154594,
+      "num_input_tokens_seen": 12297185,
+      "step": 576,
+      "time_per_iteration": 3.1662392616271973
+    },
+    {
+      "auxiliary_loss_clip": 0.01278557,
+      "auxiliary_loss_mlp": 0.01056763,
+      "balance_loss_clip": 1.07149863,
+      "balance_loss_mlp": 1.04478288,
+      "epoch": 0.06938014789875549,
+      "flos": 12749940731520.0,
+      "grad_norm": 2.5602510473688196,
+      "language_loss": 0.88220942,
+      "learning_rate": 3.983800870517753e-06,
+      "loss": 0.90556258,
+      "num_input_tokens_seen": 12313975,
+      "step": 577,
+      "time_per_iteration": 2.7065024375915527
+    },
+    {
+      "auxiliary_loss_clip": 0.01278924,
+      "auxiliary_loss_mlp": 0.01040713,
+      "balance_loss_clip": 1.07966828,
+      "balance_loss_mlp": 1.02941191,
+      "epoch": 0.06950039078939457,
+      "flos": 22820226019200.0,
+      "grad_norm": 6.8502993313011125,
+      "language_loss": 0.78069526,
+      "learning_rate": 3.983701776769463e-06,
+      "loss": 0.8038916,
+      "num_input_tokens_seen": 12331385,
+      "step": 578,
+      "time_per_iteration": 2.668621063232422
+    },
+    {
+      "auxiliary_loss_clip": 0.01263154,
+      "auxiliary_loss_mlp": 0.01043721,
+      "balance_loss_clip": 1.07102251,
+      "balance_loss_mlp": 1.03244948,
+      "epoch": 0.06962063368003367,
+      "flos": 21941348042880.0,
+      "grad_norm": 2.226407994192909,
+      "language_loss": 0.85883927,
+      "learning_rate": 3.9836023820951885e-06,
+      "loss": 0.88190806,
+      "num_input_tokens_seen": 12350600,
+      "step": 579,
+      "time_per_iteration": 2.7145354747772217
+    },
+    {
+      "auxiliary_loss_clip": 0.01285362,
+      "auxiliary_loss_mlp": 0.01046164,
+      "balance_loss_clip": 1.06704652,
+      "balance_loss_mlp": 1.03511333,
+      "epoch": 0.06974087657067275,
+      "flos": 20706021452160.0,
+      "grad_norm": 2.284338404423597,
+      "language_loss": 0.68467414,
+      "learning_rate": 3.983502686510011e-06,
+      "loss": 0.70798945,
+      "num_input_tokens_seen": 12371430,
+      "step": 580,
+      "time_per_iteration": 2.776210069656372
+    },
+    {
+      "auxiliary_loss_clip": 0.01278533,
+      "auxiliary_loss_mlp": 0.01382356,
+      "balance_loss_clip": 1.07288718,
+      "balance_loss_mlp": 1.00011253,
+      "epoch": 0.06986111946131185,
+      "flos": 22638230784000.0,
+      "grad_norm": 2.0271946452599967,
+      "language_loss": 0.73479283,
+      "learning_rate": 3.9834026900290525e-06,
+      "loss": 0.76140165,
+      "num_input_tokens_seen": 12390825,
+      "step": 581,
+      "time_per_iteration": 2.752289056777954
+    },
+    {
+      "auxiliary_loss_clip": 0.01272359,
+      "auxiliary_loss_mlp": 0.01040916,
+      "balance_loss_clip": 1.07663274,
+      "balance_loss_mlp": 1.0288285,
+      "epoch": 0.06998136235195095,
+      "flos": 26943453152640.0,
+      "grad_norm": 2.3694038350542574,
+      "language_loss": 1.00024498,
+      "learning_rate": 3.983302392667482e-06,
+      "loss": 1.02337766,
+      "num_input_tokens_seen": 12411670,
+      "step": 582,
+      "time_per_iteration": 2.678539276123047
+    },
+    {
+      "auxiliary_loss_clip": 0.01280627,
+      "auxiliary_loss_mlp": 0.01041833,
+      "balance_loss_clip": 1.07795107,
+      "balance_loss_mlp": 1.03104472,
+      "epoch": 0.07010160524259003,
+      "flos": 22492505306880.0,
+      "grad_norm": 1.8063031060097559,
+      "language_loss": 0.93485796,
+      "learning_rate": 3.983201794440517e-06,
+      "loss": 0.95808256,
+      "num_input_tokens_seen": 12431245,
+      "step": 583,
+      "time_per_iteration": 2.682666540145874
+    },
+    {
+      "auxiliary_loss_clip": 0.0127135,
+      "auxiliary_loss_mlp": 0.01048408,
+      "balance_loss_clip": 1.06971133,
+      "balance_loss_mlp": 1.03629029,
+      "epoch": 0.07022184813322913,
+      "flos": 18332541538560.0,
+      "grad_norm": 1.8916423775025737,
+      "language_loss": 0.67567295,
+      "learning_rate": 3.9831008953634165e-06,
+      "loss": 0.69887054,
+      "num_input_tokens_seen": 12450535,
+      "step": 584,
+      "time_per_iteration": 2.6807334423065186
+    },
+    {
+      "auxiliary_loss_clip": 0.01278454,
+      "auxiliary_loss_mlp": 0.01049445,
+      "balance_loss_clip": 1.06296563,
+      "balance_loss_mlp": 1.03760767,
+      "epoch": 0.07034209102386821,
+      "flos": 24675550289280.0,
+      "grad_norm": 2.0694502988109096,
+      "language_loss": 0.81150341,
+      "learning_rate": 3.9829996954514864e-06,
+      "loss": 0.83478242,
+      "num_input_tokens_seen": 12469675,
+      "step": 585,
+      "time_per_iteration": 2.7705581188201904
+    },
+    {
+      "auxiliary_loss_clip": 0.01266001,
+      "auxiliary_loss_mlp": 0.0104288,
+      "balance_loss_clip": 1.07191563,
+      "balance_loss_mlp": 1.03174639,
+      "epoch": 0.0704623339145073,
+      "flos": 25995878415360.0,
+      "grad_norm": 1.912596429167658,
+      "language_loss": 0.84406388,
+      "learning_rate": 3.982898194720079e-06,
+      "loss": 0.86715269,
+      "num_input_tokens_seen": 12490405,
+      "step": 586,
+      "time_per_iteration": 2.7415971755981445
+    },
+    {
+      "auxiliary_loss_clip": 0.01279604,
+      "auxiliary_loss_mlp": 0.01382583,
+      "balance_loss_clip": 1.07383084,
+      "balance_loss_mlp": 1.00011599,
+      "epoch": 0.0705825768051464,
+      "flos": 25338318088320.0,
+      "grad_norm": 3.3571860142235344,
+      "language_loss": 0.8259896,
+      "learning_rate": 3.982796393184592e-06,
+      "loss": 0.85261142,
+      "num_input_tokens_seen": 12509485,
+      "step": 587,
+      "time_per_iteration": 2.727501153945923
+    },
+    {
+      "auxiliary_loss_clip": 0.0116038,
+      "auxiliary_loss_mlp": 0.01004915,
+      "balance_loss_clip": 1.03467822,
+      "balance_loss_mlp": 1.00121999,
+      "epoch": 0.07070281969578548,
+      "flos": 66047552507520.0,
+      "grad_norm": 0.7903037229355261,
+      "language_loss": 0.62692475,
+      "learning_rate": 3.98269429086047e-06,
+      "loss": 0.64857775,
+      "num_input_tokens_seen": 12567325,
+      "step": 588,
+      "time_per_iteration": 3.1211044788360596
+    },
+    {
+      "auxiliary_loss_clip": 0.01270347,
+      "auxiliary_loss_mlp": 0.01049333,
+      "balance_loss_clip": 1.07199609,
+      "balance_loss_mlp": 1.03666127,
+      "epoch": 0.07082306258642458,
+      "flos": 23653568528640.0,
+      "grad_norm": 10.804979468353348,
+      "language_loss": 0.8654092,
+      "learning_rate": 3.982591887763199e-06,
+      "loss": 0.88860595,
+      "num_input_tokens_seen": 12584785,
+      "step": 589,
+      "time_per_iteration": 3.6056275367736816
+    },
+    {
+      "auxiliary_loss_clip": 0.01263302,
+      "auxiliary_loss_mlp": 0.01041056,
+      "balance_loss_clip": 1.05809045,
+      "balance_loss_mlp": 1.02964771,
+      "epoch": 0.07094330547706366,
+      "flos": 13880049408000.0,
+      "grad_norm": 2.3366268724435213,
+      "language_loss": 0.81934375,
+      "learning_rate": 3.982489183908316e-06,
+      "loss": 0.84238732,
+      "num_input_tokens_seen": 12601205,
+      "step": 590,
+      "time_per_iteration": 2.6892590522766113
+    },
+    {
+      "auxiliary_loss_clip": 0.01271938,
+      "auxiliary_loss_mlp": 0.01046057,
+      "balance_loss_clip": 1.05695105,
+      "balance_loss_mlp": 1.03532195,
+      "epoch": 0.07106354836770276,
+      "flos": 24645098534400.0,
+      "grad_norm": 2.057740357381453,
+      "language_loss": 0.84830159,
+      "learning_rate": 3.982386179311399e-06,
+      "loss": 0.87148154,
+      "num_input_tokens_seen": 12621725,
+      "step": 591,
+      "time_per_iteration": 3.720888614654541
+    },
+    {
+      "auxiliary_loss_clip": 0.01282399,
+      "auxiliary_loss_mlp": 0.01058524,
+      "balance_loss_clip": 1.076056,
+      "balance_loss_mlp": 1.04643071,
+      "epoch": 0.07118379125834184,
+      "flos": 16217223649920.0,
+      "grad_norm": 2.4607232044651983,
+      "language_loss": 0.87563789,
+      "learning_rate": 3.982282873988075e-06,
+      "loss": 0.89904714,
+      "num_input_tokens_seen": 12639600,
+      "step": 592,
+      "time_per_iteration": 3.6971325874328613
+    },
+    {
+      "auxiliary_loss_clip": 0.01287321,
+      "auxiliary_loss_mlp": 0.01047856,
+      "balance_loss_clip": 1.07515442,
+      "balance_loss_mlp": 1.03631687,
+      "epoch": 0.07130403414898094,
+      "flos": 19719986227200.0,
+      "grad_norm": 1.673807303459961,
+      "language_loss": 0.86970299,
+      "learning_rate": 3.982179267954016e-06,
+      "loss": 0.89305472,
+      "num_input_tokens_seen": 12660030,
+      "step": 593,
+      "time_per_iteration": 2.7033023834228516
+    },
+    {
+      "auxiliary_loss_clip": 0.01270753,
+      "auxiliary_loss_mlp": 0.0105079,
+      "balance_loss_clip": 1.07483339,
+      "balance_loss_mlp": 1.0390842,
+      "epoch": 0.07142427703962004,
+      "flos": 21871933009920.0,
+      "grad_norm": 3.093490660143408,
+      "language_loss": 0.95680046,
+      "learning_rate": 3.982075361224937e-06,
+      "loss": 0.98001587,
+      "num_input_tokens_seen": 12678395,
+      "step": 594,
+      "time_per_iteration": 2.5950889587402344
+    },
+    {
+      "auxiliary_loss_clip": 0.01275767,
+      "auxiliary_loss_mlp": 0.01382179,
+      "balance_loss_clip": 1.07647729,
+      "balance_loss_mlp": 1.00009465,
+      "epoch": 0.07154451993025912,
+      "flos": 18296595002880.0,
+      "grad_norm": 5.965271780035816,
+      "language_loss": 0.88235927,
+      "learning_rate": 3.981971153816602e-06,
+      "loss": 0.90893877,
+      "num_input_tokens_seen": 12696000,
+      "step": 595,
+      "time_per_iteration": 2.5865914821624756
+    },
+    {
+      "auxiliary_loss_clip": 0.01270942,
+      "auxiliary_loss_mlp": 0.01044269,
+      "balance_loss_clip": 1.08018875,
+      "balance_loss_mlp": 1.03318822,
+      "epoch": 0.07166476282089822,
+      "flos": 22160690444160.0,
+      "grad_norm": 1.7259993051016322,
+      "language_loss": 0.96357381,
+      "learning_rate": 3.981866645744819e-06,
+      "loss": 0.98672593,
+      "num_input_tokens_seen": 12716715,
+      "step": 596,
+      "time_per_iteration": 2.6409826278686523
+    },
+    {
+      "auxiliary_loss_clip": 0.01273578,
+      "auxiliary_loss_mlp": 0.01381994,
+      "balance_loss_clip": 1.07731462,
+      "balance_loss_mlp": 1.0000242,
+      "epoch": 0.0717850057115373,
+      "flos": 14136343925760.0,
+      "grad_norm": 3.2738853736723654,
+      "language_loss": 0.8138938,
+      "learning_rate": 3.9817618370254416e-06,
+      "loss": 0.84044945,
+      "num_input_tokens_seen": 12733370,
+      "step": 597,
+      "time_per_iteration": 2.5588605403900146
+    },
+    {
+      "auxiliary_loss_clip": 0.01268994,
+      "auxiliary_loss_mlp": 0.0104216,
+      "balance_loss_clip": 1.07534385,
+      "balance_loss_mlp": 1.02994728,
+      "epoch": 0.0719052486021764,
+      "flos": 30917794412160.0,
+      "grad_norm": 5.105680174536041,
+      "language_loss": 0.87480617,
+      "learning_rate": 3.9816567276743684e-06,
+      "loss": 0.89791769,
+      "num_input_tokens_seen": 12753235,
+      "step": 598,
+      "time_per_iteration": 2.663069009780884
+    },
+    {
+      "auxiliary_loss_clip": 0.0127697,
+      "auxiliary_loss_mlp": 0.0104597,
+      "balance_loss_clip": 1.06966436,
+      "balance_loss_mlp": 1.03406692,
+      "epoch": 0.0720254914928155,
+      "flos": 21287019939840.0,
+      "grad_norm": 2.6976270468364802,
+      "language_loss": 0.77400863,
+      "learning_rate": 3.9815513177075466e-06,
+      "loss": 0.79723799,
+      "num_input_tokens_seen": 12772020,
+      "step": 599,
+      "time_per_iteration": 2.708580255508423
+    },
+    {
+      "auxiliary_loss_clip": 0.01267052,
+      "auxiliary_loss_mlp": 0.01040292,
+      "balance_loss_clip": 1.07376361,
+      "balance_loss_mlp": 1.02864563,
+      "epoch": 0.07214573438345458,
+      "flos": 27819170732160.0,
+      "grad_norm": 1.5453128590492546,
+      "language_loss": 0.70238805,
+      "learning_rate": 3.9814456071409646e-06,
+      "loss": 0.72546148,
+      "num_input_tokens_seen": 12792555,
+      "step": 600,
+      "time_per_iteration": 2.682587146759033
+    },
+    {
+      "auxiliary_loss_clip": 0.0130094,
+      "auxiliary_loss_mlp": 0.01039342,
+      "balance_loss_clip": 1.06661141,
+      "balance_loss_mlp": 1.02714646,
+      "epoch": 0.07226597727409367,
+      "flos": 25483576688640.0,
+      "grad_norm": 2.967351886414557,
+      "language_loss": 0.85180938,
+      "learning_rate": 3.981339595990659e-06,
+      "loss": 0.87521219,
+      "num_input_tokens_seen": 12811085,
+      "step": 601,
+      "time_per_iteration": 2.7379956245422363
+    },
+    {
+      "auxiliary_loss_clip": 0.01275395,
+      "auxiliary_loss_mlp": 0.01045499,
+      "balance_loss_clip": 1.07437038,
+      "balance_loss_mlp": 1.03369761,
+      "epoch": 0.07238622016473276,
+      "flos": 23513840622720.0,
+      "grad_norm": 1.9657797045235919,
+      "language_loss": 0.81329596,
+      "learning_rate": 3.981233284272713e-06,
+      "loss": 0.83650488,
+      "num_input_tokens_seen": 12830830,
+      "step": 602,
+      "time_per_iteration": 2.6474058628082275
+    },
+    {
+      "auxiliary_loss_clip": 0.01287815,
+      "auxiliary_loss_mlp": 0.01041066,
+      "balance_loss_clip": 1.06890404,
+      "balance_loss_mlp": 1.02931798,
+      "epoch": 0.07250646305537185,
+      "flos": 25453519983360.0,
+      "grad_norm": 1.5610707280014529,
+      "language_loss": 0.89995825,
+      "learning_rate": 3.981126672003253e-06,
+      "loss": 0.92324704,
+      "num_input_tokens_seen": 12853505,
+      "step": 603,
+      "time_per_iteration": 2.8373517990112305
+    },
+    {
+      "auxiliary_loss_clip": 0.0128692,
+      "auxiliary_loss_mlp": 0.01043073,
+      "balance_loss_clip": 1.0685761,
+      "balance_loss_mlp": 1.03225434,
+      "epoch": 0.07262670594601094,
+      "flos": 27155038216320.0,
+      "grad_norm": 2.9259070722183766,
+      "language_loss": 0.78223801,
+      "learning_rate": 3.981019759198451e-06,
+      "loss": 0.80553794,
+      "num_input_tokens_seen": 12872455,
+      "step": 604,
+      "time_per_iteration": 2.691317081451416
+    },
+    {
+      "auxiliary_loss_clip": 0.0128794,
+      "auxiliary_loss_mlp": 0.01038514,
+      "balance_loss_clip": 1.07011724,
+      "balance_loss_mlp": 1.02769589,
+      "epoch": 0.07274694883665003,
+      "flos": 26651607148800.0,
+      "grad_norm": 2.2541077635767115,
+      "language_loss": 0.84452462,
+      "learning_rate": 3.980912545874528e-06,
+      "loss": 0.86778915,
+      "num_input_tokens_seen": 12892620,
+      "step": 605,
+      "time_per_iteration": 2.740063190460205
+    },
+    {
+      "auxiliary_loss_clip": 0.01265824,
+      "auxiliary_loss_mlp": 0.01382561,
+      "balance_loss_clip": 1.06994247,
+      "balance_loss_mlp": 1.00002789,
+      "epoch": 0.07286719172728913,
+      "flos": 29862344154240.0,
+      "grad_norm": 2.2570199409527536,
+      "language_loss": 0.85767806,
+      "learning_rate": 3.980805032047746e-06,
+      "loss": 0.88416195,
+      "num_input_tokens_seen": 12914090,
+      "step": 606,
+      "time_per_iteration": 2.6993408203125
+    },
+    {
+      "auxiliary_loss_clip": 0.01279435,
+      "auxiliary_loss_mlp": 0.01041496,
+      "balance_loss_clip": 1.07005203,
+      "balance_loss_mlp": 1.02906871,
+      "epoch": 0.07298743461792821,
+      "flos": 17382057799680.0,
+      "grad_norm": 2.0041933913702934,
+      "language_loss": 0.80938429,
+      "learning_rate": 3.980697217734415e-06,
+      "loss": 0.83259368,
+      "num_input_tokens_seen": 12931830,
+      "step": 607,
+      "time_per_iteration": 2.648196220397949
+    },
+    {
+      "auxiliary_loss_clip": 0.01300299,
+      "auxiliary_loss_mlp": 0.01382348,
+      "balance_loss_clip": 1.06516576,
+      "balance_loss_mlp": 0.99999142,
+      "epoch": 0.07310767750856731,
+      "flos": 19498201701120.0,
+      "grad_norm": 2.0299942279842815,
+      "language_loss": 0.91442031,
+      "learning_rate": 3.980589102950891e-06,
+      "loss": 0.94124681,
+      "num_input_tokens_seen": 12949995,
+      "step": 608,
+      "time_per_iteration": 2.7212164402008057
+    },
+    {
+      "auxiliary_loss_clip": 0.01278535,
+      "auxiliary_loss_mlp": 0.01047515,
+      "balance_loss_clip": 1.07165647,
+      "balance_loss_mlp": 1.03533208,
+      "epoch": 0.07322792039920639,
+      "flos": 29168693637120.0,
+      "grad_norm": 2.60076873813455,
+      "language_loss": 0.75500625,
+      "learning_rate": 3.9804806877135755e-06,
+      "loss": 0.77826679,
+      "num_input_tokens_seen": 12968040,
+      "step": 609,
+      "time_per_iteration": 2.706712245941162
+    },
+    {
+      "auxiliary_loss_clip": 0.01273608,
+      "auxiliary_loss_mlp": 0.01382478,
+      "balance_loss_clip": 1.06884277,
+      "balance_loss_mlp": 1.00000513,
+      "epoch": 0.07334816328984549,
+      "flos": 23477822259840.0,
+      "grad_norm": 2.0829938557512517,
+      "language_loss": 0.86132914,
+      "learning_rate": 3.980371972038915e-06,
+      "loss": 0.88788998,
+      "num_input_tokens_seen": 12988530,
+      "step": 610,
+      "time_per_iteration": 2.6564104557037354
+    },
+    {
+      "auxiliary_loss_clip": 0.01275676,
+      "auxiliary_loss_mlp": 0.01049502,
+      "balance_loss_clip": 1.08034408,
+      "balance_loss_mlp": 1.03753328,
+      "epoch": 0.07346840618048459,
+      "flos": 22962467877120.0,
+      "grad_norm": 1.7782361571803607,
+      "language_loss": 0.8430863,
+      "learning_rate": 3.980262955943399e-06,
+      "loss": 0.86633807,
+      "num_input_tokens_seen": 13008195,
+      "step": 611,
+      "time_per_iteration": 2.6503419876098633
+    },
+    {
+      "auxiliary_loss_clip": 0.01277428,
+      "auxiliary_loss_mlp": 0.01049522,
+      "balance_loss_clip": 1.07244515,
+      "balance_loss_mlp": 1.0380187,
+      "epoch": 0.07358864907112367,
+      "flos": 17673903803520.0,
+      "grad_norm": 2.4794362962543333,
+      "language_loss": 0.86553729,
+      "learning_rate": 3.980153639443569e-06,
+      "loss": 0.88880682,
+      "num_input_tokens_seen": 13024180,
+      "step": 612,
+      "time_per_iteration": 2.6598944664001465
+    },
+    {
+      "auxiliary_loss_clip": 0.01289807,
+      "auxiliary_loss_mlp": 0.0104593,
+      "balance_loss_clip": 1.07127225,
+      "balance_loss_mlp": 1.03344882,
+      "epoch": 0.07370889196176277,
+      "flos": 24097029840000.0,
+      "grad_norm": 1.880119338697321,
+      "language_loss": 0.79659724,
+      "learning_rate": 3.980044022556005e-06,
+      "loss": 0.81995463,
+      "num_input_tokens_seen": 13043865,
+      "step": 613,
+      "time_per_iteration": 2.713930130004883
+    },
+    {
+      "auxiliary_loss_clip": 0.01274142,
+      "auxiliary_loss_mlp": 0.01052464,
+      "balance_loss_clip": 1.07368517,
+      "balance_loss_mlp": 1.03988767,
+      "epoch": 0.07382913485240185,
+      "flos": 25885919905920.0,
+      "grad_norm": 2.1103932452111107,
+      "language_loss": 0.72666627,
+      "learning_rate": 3.9799341052973375e-06,
+      "loss": 0.74993235,
+      "num_input_tokens_seen": 13063700,
+      "step": 614,
+      "time_per_iteration": 2.7005929946899414
+    },
+    {
+      "auxiliary_loss_clip": 0.01278798,
+      "auxiliary_loss_mlp": 0.01050505,
+      "balance_loss_clip": 1.07191253,
+      "balance_loss_mlp": 1.03770757,
+      "epoch": 0.07394937774304094,
+      "flos": 16873850223360.0,
+      "grad_norm": 4.275070566655856,
+      "language_loss": 0.75500548,
+      "learning_rate": 3.979823887684241e-06,
+      "loss": 0.7782985,
+      "num_input_tokens_seen": 13082640,
+      "step": 615,
+      "time_per_iteration": 3.5518898963928223
+    },
+    {
+      "auxiliary_loss_clip": 0.01266968,
+      "auxiliary_loss_mlp": 0.01051246,
+      "balance_loss_clip": 1.07479787,
+      "balance_loss_mlp": 1.03961742,
+      "epoch": 0.07406962063368003,
+      "flos": 20703471586560.0,
+      "grad_norm": 2.300898962563342,
+      "language_loss": 0.84657091,
+      "learning_rate": 3.979713369733434e-06,
+      "loss": 0.86975306,
+      "num_input_tokens_seen": 13100505,
+      "step": 616,
+      "time_per_iteration": 2.6211323738098145
+    },
+    {
+      "auxiliary_loss_clip": 0.01267422,
+      "auxiliary_loss_mlp": 0.01046221,
+      "balance_loss_clip": 1.0716176,
+      "balance_loss_mlp": 1.03394842,
+      "epoch": 0.07418986352431912,
+      "flos": 21430985650560.0,
+      "grad_norm": 2.0111863777773897,
+      "language_loss": 0.85105956,
+      "learning_rate": 3.979602551461683e-06,
+      "loss": 0.87419599,
+      "num_input_tokens_seen": 13121285,
+      "step": 617,
+      "time_per_iteration": 3.613299608230591
+    },
+    {
+      "auxiliary_loss_clip": 0.01282502,
+      "auxiliary_loss_mlp": 0.01059579,
+      "balance_loss_clip": 1.07457995,
+      "balance_loss_mlp": 1.04750323,
+      "epoch": 0.07431010641495822,
+      "flos": 12021133777920.0,
+      "grad_norm": 2.3269794895763374,
+      "language_loss": 0.91705513,
+      "learning_rate": 3.979491432885799e-06,
+      "loss": 0.94047594,
+      "num_input_tokens_seen": 13137550,
+      "step": 618,
+      "time_per_iteration": 4.488139867782593
+    },
+    {
+      "auxiliary_loss_clip": 0.01269072,
+      "auxiliary_loss_mlp": 0.01381441,
+      "balance_loss_clip": 1.06668162,
+      "balance_loss_mlp": 0.99998909,
+      "epoch": 0.0744303493055973,
+      "flos": 20957575374720.0,
+      "grad_norm": 2.1873255749683773,
+      "language_loss": 0.83218956,
+      "learning_rate": 3.97938001402264e-06,
+      "loss": 0.85869467,
+      "num_input_tokens_seen": 13156675,
+      "step": 619,
+      "time_per_iteration": 2.7869553565979004
+    },
+    {
+      "auxiliary_loss_clip": 0.01283552,
+      "auxiliary_loss_mlp": 0.01044938,
+      "balance_loss_clip": 1.06845975,
+      "balance_loss_mlp": 1.03318381,
+      "epoch": 0.0745505921962364,
+      "flos": 16253134272000.0,
+      "grad_norm": 3.147421101092579,
+      "language_loss": 0.7996875,
+      "learning_rate": 3.979268294889105e-06,
+      "loss": 0.82297242,
+      "num_input_tokens_seen": 13172225,
+      "step": 620,
+      "time_per_iteration": 2.778351306915283
+    },
+    {
+      "auxiliary_loss_clip": 0.01266606,
+      "auxiliary_loss_mlp": 0.01052465,
+      "balance_loss_clip": 1.07457149,
+      "balance_loss_mlp": 1.04108,
+      "epoch": 0.07467083508687548,
+      "flos": 50944635550080.0,
+      "grad_norm": 1.8681368195729895,
+      "language_loss": 0.73798275,
+      "learning_rate": 3.979156275502143e-06,
+      "loss": 0.76117349,
+      "num_input_tokens_seen": 13195885,
+      "step": 621,
+      "time_per_iteration": 2.8700218200683594
+    },
+    {
+      "auxiliary_loss_clip": 0.01290306,
+      "auxiliary_loss_mlp": 0.01043038,
+      "balance_loss_clip": 1.07112992,
+      "balance_loss_mlp": 1.03041339,
+      "epoch": 0.07479107797751458,
+      "flos": 17529686697600.0,
+      "grad_norm": 2.6781637149212636,
+      "language_loss": 0.91576326,
+      "learning_rate": 3.979043955878749e-06,
+      "loss": 0.93909675,
+      "num_input_tokens_seen": 13213730,
+      "step": 622,
+      "time_per_iteration": 2.7461936473846436
+    },
+    {
+      "auxiliary_loss_clip": 0.01278323,
+      "auxiliary_loss_mlp": 0.01049446,
+      "balance_loss_clip": 1.07192016,
+      "balance_loss_mlp": 1.03816855,
+      "epoch": 0.07491132086815366,
+      "flos": 23473943591040.0,
+      "grad_norm": 1.9577984257549879,
+      "language_loss": 0.83325255,
+      "learning_rate": 3.978931336035959e-06,
+      "loss": 0.85653025,
+      "num_input_tokens_seen": 13232540,
+      "step": 623,
+      "time_per_iteration": 2.6859312057495117
+    },
+    {
+      "auxiliary_loss_clip": 0.01274522,
+      "auxiliary_loss_mlp": 0.01046967,
+      "balance_loss_clip": 1.0748347,
+      "balance_loss_mlp": 1.03543925,
+      "epoch": 0.07503156375879276,
+      "flos": 20157557708160.0,
+      "grad_norm": 2.34779797885042,
+      "language_loss": 0.82529628,
+      "learning_rate": 3.9788184159908595e-06,
+      "loss": 0.84851116,
+      "num_input_tokens_seen": 13249670,
+      "step": 624,
+      "time_per_iteration": 2.6525650024414062
+    },
+    {
+      "auxiliary_loss_clip": 0.01268055,
+      "auxiliary_loss_mlp": 0.01055148,
+      "balance_loss_clip": 1.06845176,
+      "balance_loss_mlp": 1.04284608,
+      "epoch": 0.07515180664943186,
+      "flos": 15115519653120.0,
+      "grad_norm": 4.629777212615311,
+      "language_loss": 0.8283481,
+      "learning_rate": 3.97870519576058e-06,
+      "loss": 0.85158014,
+      "num_input_tokens_seen": 13266095,
+      "step": 625,
+      "time_per_iteration": 2.7016615867614746
+    },
+    {
+      "auxiliary_loss_clip": 0.0128231,
+      "auxiliary_loss_mlp": 0.01382,
+      "balance_loss_clip": 1.06666183,
+      "balance_loss_mlp": 0.99999136,
+      "epoch": 0.07527204954007094,
+      "flos": 21287702298240.0,
+      "grad_norm": 2.171257297017563,
+      "language_loss": 0.80973685,
+      "learning_rate": 3.978591675362295e-06,
+      "loss": 0.83638,
+      "num_input_tokens_seen": 13284810,
+      "step": 626,
+      "time_per_iteration": 2.7677149772644043
+    },
+    {
+      "auxiliary_loss_clip": 0.012959,
+      "auxiliary_loss_mlp": 0.01046694,
+      "balance_loss_clip": 1.07049775,
+      "balance_loss_mlp": 1.03426075,
+      "epoch": 0.07539229243071004,
+      "flos": 21324187537920.0,
+      "grad_norm": 2.00645189390948,
+      "language_loss": 0.87645102,
+      "learning_rate": 3.978477854813226e-06,
+      "loss": 0.89987695,
+      "num_input_tokens_seen": 13304150,
+      "step": 627,
+      "time_per_iteration": 2.7685158252716064
+    },
+    {
+      "auxiliary_loss_clip": 0.01273072,
+      "auxiliary_loss_mlp": 0.01039006,
+      "balance_loss_clip": 1.0713824,
+      "balance_loss_mlp": 1.02713895,
+      "epoch": 0.07551253532134912,
+      "flos": 13042540920960.0,
+      "grad_norm": 2.0268160760006615,
+      "language_loss": 0.82313019,
+      "learning_rate": 3.97836373413064e-06,
+      "loss": 0.84625101,
+      "num_input_tokens_seen": 13322205,
+      "step": 628,
+      "time_per_iteration": 2.6491289138793945
+    },
+    {
+      "auxiliary_loss_clip": 0.01265411,
+      "auxiliary_loss_mlp": 0.0105276,
+      "balance_loss_clip": 1.07360554,
+      "balance_loss_mlp": 1.04084492,
+      "epoch": 0.07563277821198822,
+      "flos": 19208761908480.0,
+      "grad_norm": 2.0833428709949846,
+      "language_loss": 0.74543494,
+      "learning_rate": 3.978249313331848e-06,
+      "loss": 0.76861668,
+      "num_input_tokens_seen": 13340435,
+      "step": 629,
+      "time_per_iteration": 2.6300694942474365
+    },
+    {
+      "auxiliary_loss_clip": 0.01276716,
+      "auxiliary_loss_mlp": 0.01381978,
+      "balance_loss_clip": 1.07009518,
+      "balance_loss_mlp": 1.00000608,
+      "epoch": 0.07575302110262731,
+      "flos": 19537200892800.0,
+      "grad_norm": 3.6223437574492605,
+      "language_loss": 0.62019598,
+      "learning_rate": 3.978134592434208e-06,
+      "loss": 0.64678288,
+      "num_input_tokens_seen": 13358185,
+      "step": 630,
+      "time_per_iteration": 2.6927921772003174
+    },
+    {
+      "auxiliary_loss_clip": 0.01183037,
+      "auxiliary_loss_mlp": 0.01007425,
+      "balance_loss_clip": 1.03521466,
+      "balance_loss_mlp": 1.00413501,
+      "epoch": 0.0758732639932664,
+      "flos": 67961808017280.0,
+      "grad_norm": 1.0463284214030657,
+      "language_loss": 0.59374082,
+      "learning_rate": 3.978019571455123e-06,
+      "loss": 0.61564547,
+      "num_input_tokens_seen": 13410130,
+      "step": 631,
+      "time_per_iteration": 3.3279755115509033
+    },
+    {
+      "auxiliary_loss_clip": 0.01264689,
+      "auxiliary_loss_mlp": 0.01051377,
+      "balance_loss_clip": 1.07537389,
+      "balance_loss_mlp": 1.0396291,
+      "epoch": 0.07599350688390549,
+      "flos": 18989204025600.0,
+      "grad_norm": 2.319048199786777,
+      "language_loss": 0.83866858,
+      "learning_rate": 3.977904250412042e-06,
+      "loss": 0.86182922,
+      "num_input_tokens_seen": 13429085,
+      "step": 632,
+      "time_per_iteration": 2.6206843852996826
+    },
+    {
+      "auxiliary_loss_clip": 0.01285866,
+      "auxiliary_loss_mlp": 0.01050453,
+      "balance_loss_clip": 1.07229745,
+      "balance_loss_mlp": 1.0393312,
+      "epoch": 0.07611374977454458,
+      "flos": 21069006341760.0,
+      "grad_norm": 2.6395584823958154,
+      "language_loss": 0.85683239,
+      "learning_rate": 3.97778862932246e-06,
+      "loss": 0.88019562,
+      "num_input_tokens_seen": 13446250,
+      "step": 633,
+      "time_per_iteration": 2.7309200763702393
+    },
+    {
+      "auxiliary_loss_clip": 0.01288266,
+      "auxiliary_loss_mlp": 0.01054928,
+      "balance_loss_clip": 1.05151057,
+      "balance_loss_mlp": 1.04273844,
+      "epoch": 0.07623399266518367,
+      "flos": 18514536773760.0,
+      "grad_norm": 2.2970202240249864,
+      "language_loss": 0.93950868,
+      "learning_rate": 3.9776727082039144e-06,
+      "loss": 0.96294057,
+      "num_input_tokens_seen": 13463220,
+      "step": 634,
+      "time_per_iteration": 2.863375663757324
+    },
+    {
+      "auxiliary_loss_clip": 0.01148352,
+      "auxiliary_loss_mlp": 0.01003264,
+      "balance_loss_clip": 1.03583395,
+      "balance_loss_mlp": 1.00016499,
+      "epoch": 0.07635423555582276,
+      "flos": 44663036077440.0,
+      "grad_norm": 0.8170032272805334,
+      "language_loss": 0.55512238,
+      "learning_rate": 3.977556487073991e-06,
+      "loss": 0.57663858,
+      "num_input_tokens_seen": 13517775,
+      "step": 635,
+      "time_per_iteration": 3.1394424438476562
+    },
+    {
+      "auxiliary_loss_clip": 0.01266706,
+      "auxiliary_loss_mlp": 0.01041132,
+      "balance_loss_clip": 1.06460941,
+      "balance_loss_mlp": 1.03015304,
+      "epoch": 0.07647447844646185,
+      "flos": 21761148487680.0,
+      "grad_norm": 1.8254915439747654,
+      "language_loss": 0.81762564,
+      "learning_rate": 3.97743996595032e-06,
+      "loss": 0.84070402,
+      "num_input_tokens_seen": 13537815,
+      "step": 636,
+      "time_per_iteration": 2.7771925926208496
+    },
+    {
+      "auxiliary_loss_clip": 0.01267012,
+      "auxiliary_loss_mlp": 0.01041705,
+      "balance_loss_clip": 1.07454252,
+      "balance_loss_mlp": 1.0296824,
+      "epoch": 0.07659472133710095,
+      "flos": 23806799948160.0,
+      "grad_norm": 1.7013640301094972,
+      "language_loss": 0.81952727,
+      "learning_rate": 3.9773231448505804e-06,
+      "loss": 0.84261447,
+      "num_input_tokens_seen": 13559605,
+      "step": 637,
+      "time_per_iteration": 2.7193336486816406
+    },
+    {
+      "auxiliary_loss_clip": 0.01278681,
+      "auxiliary_loss_mlp": 0.01382072,
+      "balance_loss_clip": 1.07002366,
+      "balance_loss_mlp": 0.9999187,
+      "epoch": 0.07671496422774003,
+      "flos": 21469984842240.0,
+      "grad_norm": 2.2313165380196427,
+      "language_loss": 0.78130591,
+      "learning_rate": 3.977206023792491e-06,
+      "loss": 0.80791342,
+      "num_input_tokens_seen": 13579495,
+      "step": 638,
+      "time_per_iteration": 2.737410545349121
+    },
+    {
+      "auxiliary_loss_clip": 0.01270641,
+      "auxiliary_loss_mlp": 0.01040444,
+      "balance_loss_clip": 1.07369876,
+      "balance_loss_mlp": 1.02818978,
+      "epoch": 0.07683520711837913,
+      "flos": 16980971558400.0,
+      "grad_norm": 2.712164004895122,
+      "language_loss": 0.8098892,
+      "learning_rate": 3.97708860279382e-06,
+      "loss": 0.833,
+      "num_input_tokens_seen": 13597605,
+      "step": 639,
+      "time_per_iteration": 2.677635431289673
+    },
+    {
+      "auxiliary_loss_clip": 0.01279022,
+      "auxiliary_loss_mlp": 0.01053451,
+      "balance_loss_clip": 1.06602859,
+      "balance_loss_mlp": 1.04259706,
+      "epoch": 0.07695545000901821,
+      "flos": 23476744851840.0,
+      "grad_norm": 1.6451125290958468,
+      "language_loss": 0.77943277,
+      "learning_rate": 3.97697088187238e-06,
+      "loss": 0.8027575,
+      "num_input_tokens_seen": 13618120,
+      "step": 640,
+      "time_per_iteration": 2.811051368713379
+    },
+    {
+      "auxiliary_loss_clip": 0.01282006,
+      "auxiliary_loss_mlp": 0.01045491,
+      "balance_loss_clip": 1.07548833,
+      "balance_loss_mlp": 1.03399277,
+      "epoch": 0.07707569289965731,
+      "flos": 17634258167040.0,
+      "grad_norm": 1.9934725674370934,
+      "language_loss": 0.92257375,
+      "learning_rate": 3.976852861046029e-06,
+      "loss": 0.9458487,
+      "num_input_tokens_seen": 13634735,
+      "step": 641,
+      "time_per_iteration": 3.530000686645508
+    },
+    {
+      "auxiliary_loss_clip": 0.01287211,
+      "auxiliary_loss_mlp": 0.01045143,
+      "balance_loss_clip": 1.06509924,
+      "balance_loss_mlp": 1.03384233,
+      "epoch": 0.0771959357902964,
+      "flos": 25775674087680.0,
+      "grad_norm": 2.1870807733769118,
+      "language_loss": 0.80221486,
+      "learning_rate": 3.97673454033267e-06,
+      "loss": 0.8255384,
+      "num_input_tokens_seen": 13656835,
+      "step": 642,
+      "time_per_iteration": 2.815446138381958
+    },
+    {
+      "auxiliary_loss_clip": 0.01278306,
+      "auxiliary_loss_mlp": 0.01042356,
+      "balance_loss_clip": 1.06860733,
+      "balance_loss_mlp": 1.03070307,
+      "epoch": 0.07731617868093549,
+      "flos": 19828651847040.0,
+      "grad_norm": 2.2533229921143785,
+      "language_loss": 0.82777572,
+      "learning_rate": 3.976615919750254e-06,
+      "loss": 0.85098231,
+      "num_input_tokens_seen": 13674535,
+      "step": 643,
+      "time_per_iteration": 3.6461849212646484
+    },
+    {
+      "auxiliary_loss_clip": 0.0127213,
+      "auxiliary_loss_mlp": 0.01045987,
+      "balance_loss_clip": 1.07484841,
+      "balance_loss_mlp": 1.03419769,
+      "epoch": 0.07743642157157458,
+      "flos": 21324654414720.0,
+      "grad_norm": 2.432736584095714,
+      "language_loss": 0.86783326,
+      "learning_rate": 3.976496999316775e-06,
+      "loss": 0.89101446,
+      "num_input_tokens_seen": 13693290,
+      "step": 644,
+      "time_per_iteration": 3.5903499126434326
+    },
+    {
+      "auxiliary_loss_clip": 0.01279408,
+      "auxiliary_loss_mlp": 0.01047263,
+      "balance_loss_clip": 1.07562637,
+      "balance_loss_mlp": 1.03554463,
+      "epoch": 0.07755666446221367,
+      "flos": 19969133938560.0,
+      "grad_norm": 2.017678059918407,
+      "language_loss": 0.83901,
+      "learning_rate": 3.976377779050271e-06,
+      "loss": 0.86227673,
+      "num_input_tokens_seen": 13711420,
+      "step": 645,
+      "time_per_iteration": 2.8036060333251953
+    },
+    {
+      "auxiliary_loss_clip": 0.01256624,
+      "auxiliary_loss_mlp": 0.01046752,
+      "balance_loss_clip": 1.0690794,
+      "balance_loss_mlp": 1.0344733,
+      "epoch": 0.07767690735285276,
+      "flos": 23623224514560.0,
+      "grad_norm": 1.9411006070605967,
+      "language_loss": 0.8399424,
+      "learning_rate": 3.976258258968831e-06,
+      "loss": 0.86297619,
+      "num_input_tokens_seen": 13729965,
+      "step": 646,
+      "time_per_iteration": 2.6935973167419434
+    },
+    {
+      "auxiliary_loss_clip": 0.01291462,
+      "auxiliary_loss_mlp": 0.01047635,
+      "balance_loss_clip": 1.07307231,
+      "balance_loss_mlp": 1.03627968,
+      "epoch": 0.07779715024349185,
+      "flos": 22236246702720.0,
+      "grad_norm": 2.2733981815759834,
+      "language_loss": 0.74227118,
+      "learning_rate": 3.976138439090583e-06,
+      "loss": 0.76566213,
+      "num_input_tokens_seen": 13748045,
+      "step": 647,
+      "time_per_iteration": 2.8211722373962402
+    },
+    {
+      "auxiliary_loss_clip": 0.01289487,
+      "auxiliary_loss_mlp": 0.01053385,
+      "balance_loss_clip": 1.07105482,
+      "balance_loss_mlp": 1.04073668,
+      "epoch": 0.07791739313413094,
+      "flos": 20955097336320.0,
+      "grad_norm": 2.1879800437727654,
+      "language_loss": 0.85526872,
+      "learning_rate": 3.976018319433706e-06,
+      "loss": 0.8786974,
+      "num_input_tokens_seen": 13765590,
+      "step": 648,
+      "time_per_iteration": 2.7673299312591553
+    },
+    {
+      "auxiliary_loss_clip": 0.01271813,
+      "auxiliary_loss_mlp": 0.01041714,
+      "balance_loss_clip": 1.07357657,
+      "balance_loss_mlp": 1.02920866,
+      "epoch": 0.07803763602477004,
+      "flos": 19312327797120.0,
+      "grad_norm": 2.299757732309599,
+      "language_loss": 0.911874,
+      "learning_rate": 3.9758979000164205e-06,
+      "loss": 0.93500924,
+      "num_input_tokens_seen": 13782410,
+      "step": 649,
+      "time_per_iteration": 2.689335584640503
+    },
+    {
+      "auxiliary_loss_clip": 0.01290909,
+      "auxiliary_loss_mlp": 0.01045792,
+      "balance_loss_clip": 1.06940448,
+      "balance_loss_mlp": 1.03332865,
+      "epoch": 0.07815787891540912,
+      "flos": 22710806213760.0,
+      "grad_norm": 1.8680825494177487,
+      "language_loss": 0.7193768,
+      "learning_rate": 3.975777180856995e-06,
+      "loss": 0.74274379,
+      "num_input_tokens_seen": 13801530,
+      "step": 650,
+      "time_per_iteration": 2.7815372943878174
+    },
+    {
+      "auxiliary_loss_clip": 0.01266355,
+      "auxiliary_loss_mlp": 0.0105395,
+      "balance_loss_clip": 1.07347322,
+      "balance_loss_mlp": 1.04153383,
+      "epoch": 0.07827812180604822,
+      "flos": 22711129436160.0,
+      "grad_norm": 2.3329491073809048,
+      "language_loss": 0.86227417,
+      "learning_rate": 3.975656161973742e-06,
+      "loss": 0.88547719,
+      "num_input_tokens_seen": 13820615,
+      "step": 651,
+      "time_per_iteration": 2.637251615524292
+    },
+    {
+      "auxiliary_loss_clip": 0.01265931,
+      "auxiliary_loss_mlp": 0.01042947,
+      "balance_loss_clip": 1.07350385,
+      "balance_loss_mlp": 1.03076386,
+      "epoch": 0.0783983646966873,
+      "flos": 21725597001600.0,
+      "grad_norm": 2.5811453731283955,
+      "language_loss": 0.88666183,
+      "learning_rate": 3.9755348433850194e-06,
+      "loss": 0.90975058,
+      "num_input_tokens_seen": 13835955,
+      "step": 652,
+      "time_per_iteration": 2.631772518157959
+    },
+    {
+      "auxiliary_loss_clip": 0.01158037,
+      "auxiliary_loss_mlp": 0.01008521,
+      "balance_loss_clip": 1.02816427,
+      "balance_loss_mlp": 1.0049212,
+      "epoch": 0.0785186075873264,
+      "flos": 60640877537280.0,
+      "grad_norm": 0.9604387172138625,
+      "language_loss": 0.63643724,
+      "learning_rate": 3.975413225109232e-06,
+      "loss": 0.65810281,
+      "num_input_tokens_seen": 13896505,
+      "step": 653,
+      "time_per_iteration": 3.2646756172180176
+    },
+    {
+      "auxiliary_loss_clip": 0.01270876,
+      "auxiliary_loss_mlp": 0.01035617,
+      "balance_loss_clip": 1.07190323,
+      "balance_loss_mlp": 1.02406549,
+      "epoch": 0.0786388504779655,
+      "flos": 23877902920320.0,
+      "grad_norm": 3.7653889906365063,
+      "language_loss": 0.93605506,
+      "learning_rate": 3.975291307164829e-06,
+      "loss": 0.95911998,
+      "num_input_tokens_seen": 13915150,
+      "step": 654,
+      "time_per_iteration": 2.66363787651062
+    },
+    {
+      "auxiliary_loss_clip": 0.01273109,
+      "auxiliary_loss_mlp": 0.01045468,
+      "balance_loss_clip": 1.06445539,
+      "balance_loss_mlp": 1.03392208,
+      "epoch": 0.07875909336860458,
+      "flos": 15158684822400.0,
+      "grad_norm": 2.1297444149743474,
+      "language_loss": 0.85111696,
+      "learning_rate": 3.975169089570306e-06,
+      "loss": 0.87430269,
+      "num_input_tokens_seen": 13933525,
+      "step": 655,
+      "time_per_iteration": 2.6819920539855957
+    },
+    {
+      "auxiliary_loss_clip": 0.01253194,
+      "auxiliary_loss_mlp": 0.01043563,
+      "balance_loss_clip": 1.07012296,
+      "balance_loss_mlp": 1.03129661,
+      "epoch": 0.07887933625924368,
+      "flos": 22236857233920.0,
+      "grad_norm": 2.2147049865396005,
+      "language_loss": 0.91460311,
+      "learning_rate": 3.975046572344202e-06,
+      "loss": 0.93757069,
+      "num_input_tokens_seen": 13949985,
+      "step": 656,
+      "time_per_iteration": 2.661581039428711
+    },
+    {
+      "auxiliary_loss_clip": 0.0128555,
+      "auxiliary_loss_mlp": 0.01044757,
+      "balance_loss_clip": 1.06672549,
+      "balance_loss_mlp": 1.03358078,
+      "epoch": 0.07899957914988276,
+      "flos": 20777734955520.0,
+      "grad_norm": 2.018991328543865,
+      "language_loss": 0.71231556,
+      "learning_rate": 3.974923755505103e-06,
+      "loss": 0.73561859,
+      "num_input_tokens_seen": 13969215,
+      "step": 657,
+      "time_per_iteration": 2.779662847518921
+    },
+    {
+      "auxiliary_loss_clip": 0.01270161,
+      "auxiliary_loss_mlp": 0.01045997,
+      "balance_loss_clip": 1.06613445,
+      "balance_loss_mlp": 1.03213835,
+      "epoch": 0.07911982204052186,
+      "flos": 23003047267200.0,
+      "grad_norm": 1.8819855388823419,
+      "language_loss": 0.91107357,
+      "learning_rate": 3.974800639071641e-06,
+      "loss": 0.93423516,
+      "num_input_tokens_seen": 13989935,
+      "step": 658,
+      "time_per_iteration": 2.7969212532043457
+    },
+    {
+      "auxiliary_loss_clip": 0.01284295,
+      "auxiliary_loss_mlp": 0.01381938,
+      "balance_loss_clip": 1.05967641,
+      "balance_loss_mlp": 0.99985135,
+      "epoch": 0.07924006493116094,
+      "flos": 23111389664640.0,
+      "grad_norm": 2.994675038938138,
+      "language_loss": 1.00666046,
+      "learning_rate": 3.974677223062492e-06,
+      "loss": 1.03332281,
+      "num_input_tokens_seen": 14007150,
+      "step": 659,
+      "time_per_iteration": 2.75994873046875
+    },
+    {
+      "auxiliary_loss_clip": 0.01277835,
+      "auxiliary_loss_mlp": 0.01041325,
+      "balance_loss_clip": 1.07194507,
+      "balance_loss_mlp": 1.02935028,
+      "epoch": 0.07936030782180004,
+      "flos": 16472153450880.0,
+      "grad_norm": 2.065045295342362,
+      "language_loss": 0.74309659,
+      "learning_rate": 3.974553507496378e-06,
+      "loss": 0.76628822,
+      "num_input_tokens_seen": 14025725,
+      "step": 660,
+      "time_per_iteration": 2.620663642883301
+    },
+    {
+      "auxiliary_loss_clip": 0.01260388,
+      "auxiliary_loss_mlp": 0.01051596,
+      "balance_loss_clip": 1.06771171,
+      "balance_loss_mlp": 1.03905559,
+      "epoch": 0.07948055071243913,
+      "flos": 23733290764800.0,
+      "grad_norm": 2.5958493442348476,
+      "language_loss": 0.8901819,
+      "learning_rate": 3.974429492392068e-06,
+      "loss": 0.91330177,
+      "num_input_tokens_seen": 14045750,
+      "step": 661,
+      "time_per_iteration": 2.749390125274658
+    },
+    {
+      "auxiliary_loss_clip": 0.01265956,
+      "auxiliary_loss_mlp": 0.01382147,
+      "balance_loss_clip": 1.07490361,
+      "balance_loss_mlp": 0.99987948,
+      "epoch": 0.07960079360307822,
+      "flos": 19573326996480.0,
+      "grad_norm": 2.0097799502299045,
+      "language_loss": 0.91047508,
+      "learning_rate": 3.974305177768373e-06,
+      "loss": 0.93695611,
+      "num_input_tokens_seen": 14063960,
+      "step": 662,
+      "time_per_iteration": 2.6421048641204834
+    },
+    {
+      "auxiliary_loss_clip": 0.0127623,
+      "auxiliary_loss_mlp": 0.01048572,
+      "balance_loss_clip": 1.06785274,
+      "balance_loss_mlp": 1.03646612,
+      "epoch": 0.07972103649371731,
+      "flos": 23513409659520.0,
+      "grad_norm": 2.8874137818224557,
+      "language_loss": 0.8623302,
+      "learning_rate": 3.974180563644152e-06,
+      "loss": 0.88557827,
+      "num_input_tokens_seen": 14082525,
+      "step": 663,
+      "time_per_iteration": 2.780571222305298
+    },
+    {
+      "auxiliary_loss_clip": 0.01276743,
+      "auxiliary_loss_mlp": 0.01043132,
+      "balance_loss_clip": 1.06886458,
+      "balance_loss_mlp": 1.03152728,
+      "epoch": 0.0798412793843564,
+      "flos": 16726867770240.0,
+      "grad_norm": 2.534315687114384,
+      "language_loss": 0.89350283,
+      "learning_rate": 3.97405565003831e-06,
+      "loss": 0.91670156,
+      "num_input_tokens_seen": 14098610,
+      "step": 664,
+      "time_per_iteration": 2.6793735027313232
+    },
+    {
+      "auxiliary_loss_clip": 0.01290074,
+      "auxiliary_loss_mlp": 0.0104029,
+      "balance_loss_clip": 1.06987262,
+      "balance_loss_mlp": 1.02860808,
+      "epoch": 0.07996152227499549,
+      "flos": 18223337214720.0,
+      "grad_norm": 2.1813084617528498,
+      "language_loss": 0.7841922,
+      "learning_rate": 3.973930436969794e-06,
+      "loss": 0.80749583,
+      "num_input_tokens_seen": 14117065,
+      "step": 665,
+      "time_per_iteration": 2.729094982147217
+    },
+    {
+      "auxiliary_loss_clip": 0.01263148,
+      "auxiliary_loss_mlp": 0.01058104,
+      "balance_loss_clip": 1.06827784,
+      "balance_loss_mlp": 1.04591429,
+      "epoch": 0.08008176516563459,
+      "flos": 20594877793920.0,
+      "grad_norm": 5.333544511746557,
+      "language_loss": 0.86135423,
+      "learning_rate": 3.973804924457602e-06,
+      "loss": 0.88456678,
+      "num_input_tokens_seen": 14135145,
+      "step": 666,
+      "time_per_iteration": 2.6880290508270264
+    },
+    {
+      "auxiliary_loss_clip": 0.01264549,
+      "auxiliary_loss_mlp": 0.01045574,
+      "balance_loss_clip": 1.0667733,
+      "balance_loss_mlp": 1.03328955,
+      "epoch": 0.08020200805627367,
+      "flos": 31834306863360.0,
+      "grad_norm": 1.7721630744348738,
+      "language_loss": 0.85886168,
+      "learning_rate": 3.973679112520771e-06,
+      "loss": 0.8819629,
+      "num_input_tokens_seen": 14156860,
+      "step": 667,
+      "time_per_iteration": 3.7228925228118896
+    },
+    {
+      "auxiliary_loss_clip": 0.01274985,
+      "auxiliary_loss_mlp": 0.01050784,
+      "balance_loss_clip": 1.06528687,
+      "balance_loss_mlp": 1.03782547,
+      "epoch": 0.08032225094691277,
+      "flos": 17783503176960.0,
+      "grad_norm": 2.4961518663584057,
+      "language_loss": 0.98992795,
+      "learning_rate": 3.973553001178389e-06,
+      "loss": 1.01318562,
+      "num_input_tokens_seen": 14174365,
+      "step": 668,
+      "time_per_iteration": 2.718242645263672
+    },
+    {
+      "auxiliary_loss_clip": 0.01287359,
+      "auxiliary_loss_mlp": 0.01042623,
+      "balance_loss_clip": 1.07049286,
+      "balance_loss_mlp": 1.03035641,
+      "epoch": 0.08044249383755185,
+      "flos": 24061693835520.0,
+      "grad_norm": 2.183354301932254,
+      "language_loss": 0.75671875,
+      "learning_rate": 3.973426590449585e-06,
+      "loss": 0.78001857,
+      "num_input_tokens_seen": 14192320,
+      "step": 669,
+      "time_per_iteration": 4.58692479133606
+    },
+    {
+      "auxiliary_loss_clip": 0.01293635,
+      "auxiliary_loss_mlp": 0.01051692,
+      "balance_loss_clip": 1.06718755,
+      "balance_loss_mlp": 1.03925252,
+      "epoch": 0.08056273672819095,
+      "flos": 18223624523520.0,
+      "grad_norm": 2.0506883975995787,
+      "language_loss": 0.75581634,
+      "learning_rate": 3.9732998803535364e-06,
+      "loss": 0.7792697,
+      "num_input_tokens_seen": 14210380,
+      "step": 670,
+      "time_per_iteration": 3.6097447872161865
+    },
+    {
+      "auxiliary_loss_clip": 0.01263528,
+      "auxiliary_loss_mlp": 0.01058315,
+      "balance_loss_clip": 1.07299757,
+      "balance_loss_mlp": 1.04637623,
+      "epoch": 0.08068297961883003,
+      "flos": 19676856971520.0,
+      "grad_norm": 2.8692269456807717,
+      "language_loss": 0.85102069,
+      "learning_rate": 3.973172870909465e-06,
+      "loss": 0.87423915,
+      "num_input_tokens_seen": 14225145,
+      "step": 671,
+      "time_per_iteration": 2.639697551727295
+    },
+    {
+      "auxiliary_loss_clip": 0.01285448,
+      "auxiliary_loss_mlp": 0.01035833,
+      "balance_loss_clip": 1.07061338,
+      "balance_loss_mlp": 1.02359617,
+      "epoch": 0.08080322250946913,
+      "flos": 23148736830720.0,
+      "grad_norm": 2.780753336789474,
+      "language_loss": 0.80751562,
+      "learning_rate": 3.973045562136638e-06,
+      "loss": 0.83072841,
+      "num_input_tokens_seen": 14241960,
+      "step": 672,
+      "time_per_iteration": 2.7323427200317383
+    },
+    {
+      "auxiliary_loss_clip": 0.01273348,
+      "auxiliary_loss_mlp": 0.01047265,
+      "balance_loss_clip": 1.07246602,
+      "balance_loss_mlp": 1.03593469,
+      "epoch": 0.08092346540010822,
+      "flos": 21763626526080.0,
+      "grad_norm": 2.078910010720214,
+      "language_loss": 0.9146874,
+      "learning_rate": 3.972917954054368e-06,
+      "loss": 0.93789351,
+      "num_input_tokens_seen": 14260515,
+      "step": 673,
+      "time_per_iteration": 2.700065851211548
+    },
+    {
+      "auxiliary_loss_clip": 0.01272922,
+      "auxiliary_loss_mlp": 0.01046013,
+      "balance_loss_clip": 1.07067919,
+      "balance_loss_mlp": 1.03307879,
+      "epoch": 0.08104370829074731,
+      "flos": 21032485188480.0,
+      "grad_norm": 2.230827526231449,
+      "language_loss": 0.82277095,
+      "learning_rate": 3.972790046682013e-06,
+      "loss": 0.84596032,
+      "num_input_tokens_seen": 14279190,
+      "step": 674,
+      "time_per_iteration": 2.706210136413574
+    },
+    {
+      "auxiliary_loss_clip": 0.01284733,
+      "auxiliary_loss_mlp": 0.01047524,
+      "balance_loss_clip": 1.06494367,
+      "balance_loss_mlp": 1.03603244,
+      "epoch": 0.0811639511813864,
+      "flos": 20083186598400.0,
+      "grad_norm": 1.8609015890595453,
+      "language_loss": 0.7907095,
+      "learning_rate": 3.972661840038977e-06,
+      "loss": 0.81403202,
+      "num_input_tokens_seen": 14299480,
+      "step": 675,
+      "time_per_iteration": 2.798875570297241
+    },
+    {
+      "auxiliary_loss_clip": 0.01269389,
+      "auxiliary_loss_mlp": 0.01050048,
+      "balance_loss_clip": 1.072047,
+      "balance_loss_mlp": 1.03849113,
+      "epoch": 0.08128419407202549,
+      "flos": 16836718538880.0,
+      "grad_norm": 2.3760694349585103,
+      "language_loss": 0.83353877,
+      "learning_rate": 3.972533334144707e-06,
+      "loss": 0.8567332,
+      "num_input_tokens_seen": 14316405,
+      "step": 676,
+      "time_per_iteration": 2.674659252166748
+    },
+    {
+      "auxiliary_loss_clip": 0.01274306,
+      "auxiliary_loss_mlp": 0.01046825,
+      "balance_loss_clip": 1.07278705,
+      "balance_loss_mlp": 1.03436184,
+      "epoch": 0.08140443696266458,
+      "flos": 23769273214080.0,
+      "grad_norm": 2.360297430850892,
+      "language_loss": 0.78461313,
+      "learning_rate": 3.972404529018699e-06,
+      "loss": 0.80782437,
+      "num_input_tokens_seen": 14336265,
+      "step": 677,
+      "time_per_iteration": 2.668602228164673
+    },
+    {
+      "auxiliary_loss_clip": 0.01265833,
+      "auxiliary_loss_mlp": 0.01035871,
+      "balance_loss_clip": 1.06339884,
+      "balance_loss_mlp": 1.02414072,
+      "epoch": 0.08152467985330367,
+      "flos": 24390132819840.0,
+      "grad_norm": 1.8958690655334336,
+      "language_loss": 0.85543221,
+      "learning_rate": 3.972275424680493e-06,
+      "loss": 0.8784492,
+      "num_input_tokens_seen": 14356375,
+      "step": 678,
+      "time_per_iteration": 2.7974932193756104
+    },
+    {
+      "auxiliary_loss_clip": 0.01262771,
+      "auxiliary_loss_mlp": 0.01056162,
+      "balance_loss_clip": 1.0737977,
+      "balance_loss_mlp": 1.04419923,
+      "epoch": 0.08164492274394276,
+      "flos": 19317750750720.0,
+      "grad_norm": 2.169911853006817,
+      "language_loss": 0.91842365,
+      "learning_rate": 3.972146021149673e-06,
+      "loss": 0.9416129,
+      "num_input_tokens_seen": 14374650,
+      "step": 679,
+      "time_per_iteration": 2.7444217205047607
+    },
+    {
+      "auxiliary_loss_clip": 0.01286193,
+      "auxiliary_loss_mlp": 0.01037814,
+      "balance_loss_clip": 1.06927752,
+      "balance_loss_mlp": 1.02768707,
+      "epoch": 0.08176516563458186,
+      "flos": 14830461319680.0,
+      "grad_norm": 2.469536542318767,
+      "language_loss": 0.7881611,
+      "learning_rate": 3.972016318445868e-06,
+      "loss": 0.81140113,
+      "num_input_tokens_seen": 14392650,
+      "step": 680,
+      "time_per_iteration": 2.737028121948242
+    },
+    {
+      "auxiliary_loss_clip": 0.01271031,
+      "auxiliary_loss_mlp": 0.01038694,
+      "balance_loss_clip": 1.07152784,
+      "balance_loss_mlp": 1.02598023,
+      "epoch": 0.08188540852522094,
+      "flos": 22602320161920.0,
+      "grad_norm": 2.0621542650945246,
+      "language_loss": 0.92255431,
+      "learning_rate": 3.971886316588757e-06,
+      "loss": 0.94565159,
+      "num_input_tokens_seen": 14413155,
+      "step": 681,
+      "time_per_iteration": 2.694951295852661
+    },
+    {
+      "auxiliary_loss_clip": 0.01269038,
+      "auxiliary_loss_mlp": 0.01045186,
+      "balance_loss_clip": 1.06590116,
+      "balance_loss_mlp": 1.03265095,
+      "epoch": 0.08200565141586004,
+      "flos": 19463727623040.0,
+      "grad_norm": 2.642470248418341,
+      "language_loss": 0.73183358,
+      "learning_rate": 3.9717560155980595e-06,
+      "loss": 0.7549758,
+      "num_input_tokens_seen": 14428805,
+      "step": 682,
+      "time_per_iteration": 2.744990110397339
+    },
+    {
+      "auxiliary_loss_clip": 0.01271738,
+      "auxiliary_loss_mlp": 0.01045025,
+      "balance_loss_clip": 1.07228065,
+      "balance_loss_mlp": 1.03380704,
+      "epoch": 0.08212589430649912,
+      "flos": 20594662312320.0,
+      "grad_norm": 1.9812601279277637,
+      "language_loss": 0.91904688,
+      "learning_rate": 3.971625415493542e-06,
+      "loss": 0.94221449,
+      "num_input_tokens_seen": 14447125,
+      "step": 683,
+      "time_per_iteration": 2.657259941101074
+    },
+    {
+      "auxiliary_loss_clip": 0.01277102,
+      "auxiliary_loss_mlp": 0.01036726,
+      "balance_loss_clip": 1.06496882,
+      "balance_loss_mlp": 1.02475762,
+      "epoch": 0.08224613719713822,
+      "flos": 25953611086080.0,
+      "grad_norm": 1.9445553102139537,
+      "language_loss": 0.87356293,
+      "learning_rate": 3.971494516295017e-06,
+      "loss": 0.89670122,
+      "num_input_tokens_seen": 14466575,
+      "step": 684,
+      "time_per_iteration": 2.8839123249053955
+    },
+    {
+      "auxiliary_loss_clip": 0.01280023,
+      "auxiliary_loss_mlp": 0.01036248,
+      "balance_loss_clip": 1.06309414,
+      "balance_loss_mlp": 1.02558517,
+      "epoch": 0.08236638008777732,
+      "flos": 23768734510080.0,
+      "grad_norm": 2.39856261405829,
+      "language_loss": 0.85277569,
+      "learning_rate": 3.971363318022341e-06,
+      "loss": 0.87593842,
+      "num_input_tokens_seen": 14487915,
+      "step": 685,
+      "time_per_iteration": 2.8047127723693848
+    },
+    {
+      "auxiliary_loss_clip": 0.01270633,
+      "auxiliary_loss_mlp": 0.01039235,
+      "balance_loss_clip": 1.06387568,
+      "balance_loss_mlp": 1.02688539,
+      "epoch": 0.0824866229784164,
+      "flos": 38799144887040.0,
+      "grad_norm": 1.9739780085266254,
+      "language_loss": 0.68377233,
+      "learning_rate": 3.971231820695417e-06,
+      "loss": 0.70687103,
+      "num_input_tokens_seen": 14511530,
+      "step": 686,
+      "time_per_iteration": 2.8298768997192383
+    },
+    {
+      "auxiliary_loss_clip": 0.01280317,
+      "auxiliary_loss_mlp": 0.01042568,
+      "balance_loss_clip": 1.0680095,
+      "balance_loss_mlp": 1.03095675,
+      "epoch": 0.0826068658690555,
+      "flos": 23107762391040.0,
+      "grad_norm": 2.0968193990652524,
+      "language_loss": 0.81368232,
+      "learning_rate": 3.971100024334193e-06,
+      "loss": 0.8369112,
+      "num_input_tokens_seen": 14529050,
+      "step": 687,
+      "time_per_iteration": 2.7144596576690674
+    },
+    {
+      "auxiliary_loss_clip": 0.01260042,
+      "auxiliary_loss_mlp": 0.01042009,
+      "balance_loss_clip": 1.06111908,
+      "balance_loss_mlp": 1.03139889,
+      "epoch": 0.08272710875969458,
+      "flos": 21136374299520.0,
+      "grad_norm": 2.2379233923932,
+      "language_loss": 0.86703622,
+      "learning_rate": 3.970967928958663e-06,
+      "loss": 0.89005673,
+      "num_input_tokens_seen": 14546165,
+      "step": 688,
+      "time_per_iteration": 2.691943407058716
+    },
+    {
+      "auxiliary_loss_clip": 0.01296415,
+      "auxiliary_loss_mlp": 0.01051916,
+      "balance_loss_clip": 1.06598544,
+      "balance_loss_mlp": 1.04092479,
+      "epoch": 0.08284735165033368,
+      "flos": 19063000517760.0,
+      "grad_norm": 1.7401850000713621,
+      "language_loss": 0.83520114,
+      "learning_rate": 3.970835534588865e-06,
+      "loss": 0.85868448,
+      "num_input_tokens_seen": 14563660,
+      "step": 689,
+      "time_per_iteration": 2.7841594219207764
+    },
+    {
+      "auxiliary_loss_clip": 0.01279151,
+      "auxiliary_loss_mlp": 0.01049734,
+      "balance_loss_clip": 1.07242656,
+      "balance_loss_mlp": 1.03888619,
+      "epoch": 0.08296759454097276,
+      "flos": 16727442387840.0,
+      "grad_norm": 1.8997775743882546,
+      "language_loss": 0.85461092,
+      "learning_rate": 3.970702841244883e-06,
+      "loss": 0.87789977,
+      "num_input_tokens_seen": 14581980,
+      "step": 690,
+      "time_per_iteration": 2.6888315677642822
+    },
+    {
+      "auxiliary_loss_clip": 0.01275557,
+      "auxiliary_loss_mlp": 0.0104476,
+      "balance_loss_clip": 1.07432795,
+      "balance_loss_mlp": 1.03365016,
+      "epoch": 0.08308783743161186,
+      "flos": 18004928567040.0,
+      "grad_norm": 2.620103198856793,
+      "language_loss": 0.82357746,
+      "learning_rate": 3.970569848946847e-06,
+      "loss": 0.84678066,
+      "num_input_tokens_seen": 14601795,
+      "step": 691,
+      "time_per_iteration": 2.8064794540405273
+    },
+    {
+      "auxiliary_loss_clip": 0.01250605,
+      "auxiliary_loss_mlp": 0.01037514,
+      "balance_loss_clip": 1.06920397,
+      "balance_loss_mlp": 1.02617681,
+      "epoch": 0.08320808032225095,
+      "flos": 15079788599040.0,
+      "grad_norm": 2.3699317210206936,
+      "language_loss": 0.83176291,
+      "learning_rate": 3.970436557714932e-06,
+      "loss": 0.85464418,
+      "num_input_tokens_seen": 14618315,
+      "step": 692,
+      "time_per_iteration": 3.6236202716827393
+    },
+    {
+      "auxiliary_loss_clip": 0.0126942,
+      "auxiliary_loss_mlp": 0.01043378,
+      "balance_loss_clip": 1.06712139,
+      "balance_loss_mlp": 1.03164816,
+      "epoch": 0.08332832321289003,
+      "flos": 22383085501440.0,
+      "grad_norm": 2.1165391970134317,
+      "language_loss": 0.86578035,
+      "learning_rate": 3.970302967569358e-06,
+      "loss": 0.88890833,
+      "num_input_tokens_seen": 14636905,
+      "step": 693,
+      "time_per_iteration": 2.7853269577026367
+    },
+    {
+      "auxiliary_loss_clip": 0.01266178,
+      "auxiliary_loss_mlp": 0.01043368,
+      "balance_loss_clip": 1.07146716,
+      "balance_loss_mlp": 1.03066623,
+      "epoch": 0.08344856610352913,
+      "flos": 24717386655360.0,
+      "grad_norm": 2.230519119300184,
+      "language_loss": 0.68572843,
+      "learning_rate": 3.9701690785303896e-06,
+      "loss": 0.70882392,
+      "num_input_tokens_seen": 14656100,
+      "step": 694,
+      "time_per_iteration": 2.769578218460083
+    },
+    {
+      "auxiliary_loss_clip": 0.0126966,
+      "auxiliary_loss_mlp": 0.01047659,
+      "balance_loss_clip": 1.07102346,
+      "balance_loss_mlp": 1.03628027,
+      "epoch": 0.08356880899416821,
+      "flos": 25370206387200.0,
+      "grad_norm": 2.104985192932198,
+      "language_loss": 0.88428319,
+      "learning_rate": 3.970034890618339e-06,
+      "loss": 0.90745634,
+      "num_input_tokens_seen": 14675790,
+      "step": 695,
+      "time_per_iteration": 3.652106761932373
+    },
+    {
+      "auxiliary_loss_clip": 0.012504,
+      "auxiliary_loss_mlp": 0.01037098,
+      "balance_loss_clip": 1.06791508,
+      "balance_loss_mlp": 1.02613664,
+      "epoch": 0.08368905188480731,
+      "flos": 24353072962560.0,
+      "grad_norm": 2.3914441425167676,
+      "language_loss": 0.87903595,
+      "learning_rate": 3.969900403853562e-06,
+      "loss": 0.9019109,
+      "num_input_tokens_seen": 14694830,
+      "step": 696,
+      "time_per_iteration": 3.5851995944976807
+    },
+    {
+      "auxiliary_loss_clip": 0.01264308,
+      "auxiliary_loss_mlp": 0.01046609,
+      "balance_loss_clip": 1.07523632,
+      "balance_loss_mlp": 1.0349679,
+      "epoch": 0.08380929477544641,
+      "flos": 18037319656320.0,
+      "grad_norm": 2.2157301660324786,
+      "language_loss": 0.78024232,
+      "learning_rate": 3.96976561825646e-06,
+      "loss": 0.80335152,
+      "num_input_tokens_seen": 14711920,
+      "step": 697,
+      "time_per_iteration": 2.656012773513794
+    },
+    {
+      "auxiliary_loss_clip": 0.01295493,
+      "auxiliary_loss_mlp": 0.01037109,
+      "balance_loss_clip": 1.0646975,
+      "balance_loss_mlp": 1.02633274,
+      "epoch": 0.08392953766608549,
+      "flos": 26286287875200.0,
+      "grad_norm": 2.1292528875468246,
+      "language_loss": 0.86866933,
+      "learning_rate": 3.969630533847479e-06,
+      "loss": 0.89199531,
+      "num_input_tokens_seen": 14730880,
+      "step": 698,
+      "time_per_iteration": 2.7805798053741455
+    },
+    {
+      "auxiliary_loss_clip": 0.01264033,
+      "auxiliary_loss_mlp": 0.01040255,
+      "balance_loss_clip": 1.06711411,
+      "balance_loss_mlp": 1.02986002,
+      "epoch": 0.08404978055672459,
+      "flos": 22492146170880.0,
+      "grad_norm": 2.0520992642807028,
+      "language_loss": 0.84349108,
+      "learning_rate": 3.969495150647113e-06,
+      "loss": 0.86653399,
+      "num_input_tokens_seen": 14749050,
+      "step": 699,
+      "time_per_iteration": 2.7080554962158203
+    },
+    {
+      "auxiliary_loss_clip": 0.01276893,
+      "auxiliary_loss_mlp": 0.01039196,
+      "balance_loss_clip": 1.06814146,
+      "balance_loss_mlp": 1.02754354,
+      "epoch": 0.08417002344736367,
+      "flos": 24826878288000.0,
+      "grad_norm": 2.1344532850607294,
+      "language_loss": 0.76652801,
+      "learning_rate": 3.969359468675899e-06,
+      "loss": 0.78968894,
+      "num_input_tokens_seen": 14769180,
+      "step": 700,
+      "time_per_iteration": 2.745610237121582
+    },
+    {
+      "auxiliary_loss_clip": 0.01264552,
+      "auxiliary_loss_mlp": 0.01034555,
+      "balance_loss_clip": 1.06965137,
+      "balance_loss_mlp": 1.0232774,
+      "epoch": 0.08429026633800277,
+      "flos": 16945922862720.0,
+      "grad_norm": 1.9943356315074372,
+      "language_loss": 0.89326978,
+      "learning_rate": 3.969223487954418e-06,
+      "loss": 0.9162609,
+      "num_input_tokens_seen": 14786640,
+      "step": 701,
+      "time_per_iteration": 2.716325283050537
+    },
+    {
+      "auxiliary_loss_clip": 0.01283488,
+      "auxiliary_loss_mlp": 0.01035411,
+      "balance_loss_clip": 1.06539035,
+      "balance_loss_mlp": 1.02437234,
+      "epoch": 0.08441050922864185,
+      "flos": 23841920471040.0,
+      "grad_norm": 2.255801562126828,
+      "language_loss": 0.82876706,
+      "learning_rate": 3.969087208503301e-06,
+      "loss": 0.85195601,
+      "num_input_tokens_seen": 14806720,
+      "step": 702,
+      "time_per_iteration": 2.7695693969726562
+    },
+    {
+      "auxiliary_loss_clip": 0.01261013,
+      "auxiliary_loss_mlp": 0.01035042,
+      "balance_loss_clip": 1.06422901,
+      "balance_loss_mlp": 1.02398551,
+      "epoch": 0.08453075211928095,
+      "flos": 25520205582720.0,
+      "grad_norm": 2.410499823760644,
+      "language_loss": 0.84657896,
+      "learning_rate": 3.968950630343219e-06,
+      "loss": 0.8695395,
+      "num_input_tokens_seen": 14823705,
+      "step": 703,
+      "time_per_iteration": 2.8227579593658447
+    },
+    {
+      "auxiliary_loss_clip": 0.0126724,
+      "auxiliary_loss_mlp": 0.0103914,
+      "balance_loss_clip": 1.0640986,
+      "balance_loss_mlp": 1.02805924,
+      "epoch": 0.08465099500992004,
+      "flos": 19532496211200.0,
+      "grad_norm": 2.6336303231949576,
+      "language_loss": 0.93545187,
+      "learning_rate": 3.968813753494892e-06,
+      "loss": 0.95851564,
+      "num_input_tokens_seen": 14841865,
+      "step": 704,
+      "time_per_iteration": 2.714332342147827
+    },
+    {
+      "auxiliary_loss_clip": 0.01267977,
+      "auxiliary_loss_mlp": 0.0138185,
+      "balance_loss_clip": 1.06259143,
+      "balance_loss_mlp": 0.99986565,
+      "epoch": 0.08477123790055913,
+      "flos": 29351299403520.0,
+      "grad_norm": 2.603910812474726,
+      "language_loss": 0.75467634,
+      "learning_rate": 3.968676577979084e-06,
+      "loss": 0.78117454,
+      "num_input_tokens_seen": 14861415,
+      "step": 705,
+      "time_per_iteration": 2.8089559078216553
+    },
+    {
+      "auxiliary_loss_clip": 0.01286335,
+      "auxiliary_loss_mlp": 0.01041374,
+      "balance_loss_clip": 1.06318104,
+      "balance_loss_mlp": 1.03019834,
+      "epoch": 0.08489148079119822,
+      "flos": 18624495283200.0,
+      "grad_norm": 3.118956852289312,
+      "language_loss": 0.78372312,
+      "learning_rate": 3.968539103816605e-06,
+      "loss": 0.80700022,
+      "num_input_tokens_seen": 14879215,
+      "step": 706,
+      "time_per_iteration": 2.802781105041504
+    },
+    {
+      "auxiliary_loss_clip": 0.01269206,
+      "auxiliary_loss_mlp": 0.01381929,
+      "balance_loss_clip": 1.06715941,
+      "balance_loss_mlp": 0.99989891,
+      "epoch": 0.0850117236818373,
+      "flos": 23471393725440.0,
+      "grad_norm": 1.7793106288858949,
+      "language_loss": 0.89347541,
+      "learning_rate": 3.9684013310283085e-06,
+      "loss": 0.91998684,
+      "num_input_tokens_seen": 14897900,
+      "step": 707,
+      "time_per_iteration": 2.798614501953125
+    },
+    {
+      "auxiliary_loss_clip": 0.01276837,
+      "auxiliary_loss_mlp": 0.01038097,
+      "balance_loss_clip": 1.07244873,
+      "balance_loss_mlp": 1.027619,
+      "epoch": 0.0851319665724764,
+      "flos": 40625058896640.0,
+      "grad_norm": 1.7997804492592993,
+      "language_loss": 0.64214265,
+      "learning_rate": 3.9682632596350956e-06,
+      "loss": 0.66529197,
+      "num_input_tokens_seen": 14919065,
+      "step": 708,
+      "time_per_iteration": 2.879823923110962
+    },
+    {
+      "auxiliary_loss_clip": 0.01267812,
+      "auxiliary_loss_mlp": 0.01045444,
+      "balance_loss_clip": 1.07387543,
+      "balance_loss_mlp": 1.03343964,
+      "epoch": 0.0852522094631155,
+      "flos": 15879554870400.0,
+      "grad_norm": 2.6962920620675983,
+      "language_loss": 0.78477991,
+      "learning_rate": 3.968124889657911e-06,
+      "loss": 0.80791247,
+      "num_input_tokens_seen": 14934165,
+      "step": 709,
+      "time_per_iteration": 2.6690831184387207
+    },
+    {
+      "auxiliary_loss_clip": 0.01284026,
+      "auxiliary_loss_mlp": 0.0103581,
+      "balance_loss_clip": 1.06205833,
+      "balance_loss_mlp": 1.02451491,
+      "epoch": 0.08537245235375458,
+      "flos": 14567091822720.0,
+      "grad_norm": 2.3374455939859056,
+      "language_loss": 0.90644598,
+      "learning_rate": 3.967986221117746e-06,
+      "loss": 0.92964435,
+      "num_input_tokens_seen": 14950105,
+      "step": 710,
+      "time_per_iteration": 2.827065944671631
+    },
+    {
+      "auxiliary_loss_clip": 0.01309395,
+      "auxiliary_loss_mlp": 0.01043156,
+      "balance_loss_clip": 1.06063461,
+      "balance_loss_mlp": 1.03186643,
+      "epoch": 0.08549269524439368,
+      "flos": 26468929555200.0,
+      "grad_norm": 2.265096794473243,
+      "language_loss": 0.86422026,
+      "learning_rate": 3.967847254035635e-06,
+      "loss": 0.88774574,
+      "num_input_tokens_seen": 14969490,
+      "step": 711,
+      "time_per_iteration": 2.9359776973724365
+    },
+    {
+      "auxiliary_loss_clip": 0.01285727,
+      "auxiliary_loss_mlp": 0.01043122,
+      "balance_loss_clip": 1.06773126,
+      "balance_loss_mlp": 1.03145695,
+      "epoch": 0.08561293813503276,
+      "flos": 13590214565760.0,
+      "grad_norm": 2.4390496329747013,
+      "language_loss": 0.8643899,
+      "learning_rate": 3.967707988432661e-06,
+      "loss": 0.88767838,
+      "num_input_tokens_seen": 14987195,
+      "step": 712,
+      "time_per_iteration": 3.068124532699585
+    },
+    {
+      "auxiliary_loss_clip": 0.01256238,
+      "auxiliary_loss_mlp": 0.01037822,
+      "balance_loss_clip": 1.06875944,
+      "balance_loss_mlp": 1.02674186,
+      "epoch": 0.08573318102567186,
+      "flos": 26943524979840.0,
+      "grad_norm": 2.220193677911842,
+      "language_loss": 0.88068485,
+      "learning_rate": 3.967568424329949e-06,
+      "loss": 0.90362549,
+      "num_input_tokens_seen": 15007620,
+      "step": 713,
+      "time_per_iteration": 2.7133076190948486
+    },
+    {
+      "auxiliary_loss_clip": 0.01175933,
+      "auxiliary_loss_mlp": 0.01010499,
+      "balance_loss_clip": 1.0356791,
+      "balance_loss_mlp": 1.00642228,
+      "epoch": 0.08585342391631094,
+      "flos": 67302739319040.0,
+      "grad_norm": 0.8160431369450866,
+      "language_loss": 0.55500722,
+      "learning_rate": 3.967428561748671e-06,
+      "loss": 0.57687151,
+      "num_input_tokens_seen": 15075590,
+      "step": 714,
+      "time_per_iteration": 3.615741729736328
+    },
+    {
+      "auxiliary_loss_clip": 0.01275775,
+      "auxiliary_loss_mlp": 0.0104677,
+      "balance_loss_clip": 1.0591799,
+      "balance_loss_mlp": 1.03475332,
+      "epoch": 0.08597366680695004,
+      "flos": 22456594684800.0,
+      "grad_norm": 1.9352488376087817,
+      "language_loss": 0.87541884,
+      "learning_rate": 3.967288400710045e-06,
+      "loss": 0.89864433,
+      "num_input_tokens_seen": 15095055,
+      "step": 715,
+      "time_per_iteration": 2.796123504638672
+    },
+    {
+      "auxiliary_loss_clip": 0.01279189,
+      "auxiliary_loss_mlp": 0.01038685,
+      "balance_loss_clip": 1.06950736,
+      "balance_loss_mlp": 1.02678823,
+      "epoch": 0.08609390969758914,
+      "flos": 23550505430400.0,
+      "grad_norm": 1.9047100419202667,
+      "language_loss": 0.8878988,
+      "learning_rate": 3.9671479412353335e-06,
+      "loss": 0.9110775,
+      "num_input_tokens_seen": 15113520,
+      "step": 716,
+      "time_per_iteration": 2.677969217300415
+    },
+    {
+      "auxiliary_loss_clip": 0.01261907,
+      "auxiliary_loss_mlp": 0.01040286,
+      "balance_loss_clip": 1.06932282,
+      "balance_loss_mlp": 1.02908635,
+      "epoch": 0.08621415258822822,
+      "flos": 25885848078720.0,
+      "grad_norm": 7.135059210190599,
+      "language_loss": 0.74174553,
+      "learning_rate": 3.967007183345843e-06,
+      "loss": 0.76476747,
+      "num_input_tokens_seen": 15133375,
+      "step": 717,
+      "time_per_iteration": 2.7075417041778564
+    },
+    {
+      "auxiliary_loss_clip": 0.01260199,
+      "auxiliary_loss_mlp": 0.0105257,
+      "balance_loss_clip": 1.06957638,
+      "balance_loss_mlp": 1.04117393,
+      "epoch": 0.08633439547886732,
+      "flos": 13589568120960.0,
+      "grad_norm": 2.191623165788272,
+      "language_loss": 0.89553452,
+      "learning_rate": 3.966866127062927e-06,
+      "loss": 0.91866219,
+      "num_input_tokens_seen": 15150500,
+      "step": 718,
+      "time_per_iteration": 3.632659673690796
+    },
+    {
+      "auxiliary_loss_clip": 0.01160235,
+      "auxiliary_loss_mlp": 0.01008381,
+      "balance_loss_clip": 1.0369339,
+      "balance_loss_mlp": 1.00456619,
+      "epoch": 0.0864546383695064,
+      "flos": 57767342434560.0,
+      "grad_norm": 0.8951114350203411,
+      "language_loss": 0.62677312,
+      "learning_rate": 3.966724772407982e-06,
+      "loss": 0.64845926,
+      "num_input_tokens_seen": 15208015,
+      "step": 719,
+      "time_per_iteration": 3.075124979019165
+    },
+    {
+      "auxiliary_loss_clip": 0.01269684,
+      "auxiliary_loss_mlp": 0.01052852,
+      "balance_loss_clip": 1.06510758,
+      "balance_loss_mlp": 1.04190814,
+      "epoch": 0.0865748812601455,
+      "flos": 20046952753920.0,
+      "grad_norm": 2.281491993459996,
+      "language_loss": 0.88805699,
+      "learning_rate": 3.966583119402454e-06,
+      "loss": 0.91128236,
+      "num_input_tokens_seen": 15224780,
+      "step": 720,
+      "time_per_iteration": 2.77402663230896
+    },
+    {
+      "auxiliary_loss_clip": 0.01265099,
+      "auxiliary_loss_mlp": 0.01381455,
+      "balance_loss_clip": 1.07068264,
+      "balance_loss_mlp": 1.00004792,
+      "epoch": 0.08669512415078459,
+      "flos": 35262446935680.0,
+      "grad_norm": 1.724716739510157,
+      "language_loss": 0.82196236,
+      "learning_rate": 3.9664411680678305e-06,
+      "loss": 0.84842789,
+      "num_input_tokens_seen": 15246535,
+      "step": 721,
+      "time_per_iteration": 4.683412313461304
+    },
+    {
+      "auxiliary_loss_clip": 0.0117656,
+      "auxiliary_loss_mlp": 0.01004909,
+      "balance_loss_clip": 1.03128195,
+      "balance_loss_mlp": 1.00114155,
+      "epoch": 0.08681536704142367,
+      "flos": 65654870048640.0,
+      "grad_norm": 0.8537643108306767,
+      "language_loss": 0.61459577,
+      "learning_rate": 3.966298918425644e-06,
+      "loss": 0.63641047,
+      "num_input_tokens_seen": 15304025,
+      "step": 722,
+      "time_per_iteration": 4.101659059524536
+    },
+    {
+      "auxiliary_loss_clip": 0.01266641,
+      "auxiliary_loss_mlp": 0.010456,
+      "balance_loss_clip": 1.06878698,
+      "balance_loss_mlp": 1.03466272,
+      "epoch": 0.08693560993206277,
+      "flos": 34529940881280.0,
+      "grad_norm": 1.9410216839189087,
+      "language_loss": 0.82605433,
+      "learning_rate": 3.966156370497476e-06,
+      "loss": 0.84917682,
+      "num_input_tokens_seen": 15327635,
+      "step": 723,
+      "time_per_iteration": 2.8239455223083496
+    },
+    {
+      "auxiliary_loss_clip": 0.01270815,
+      "auxiliary_loss_mlp": 0.01043087,
+      "balance_loss_clip": 1.07031155,
+      "balance_loss_mlp": 1.03162503,
+      "epoch": 0.08705585282270185,
+      "flos": 23149419189120.0,
+      "grad_norm": 1.855781499620921,
+      "language_loss": 0.88574094,
+      "learning_rate": 3.96601352430495e-06,
+      "loss": 0.90888,
+      "num_input_tokens_seen": 15347405,
+      "step": 724,
+      "time_per_iteration": 2.762645721435547
+    },
+    {
+      "auxiliary_loss_clip": 0.01274944,
+      "auxiliary_loss_mlp": 0.01039295,
+      "balance_loss_clip": 1.07208908,
+      "balance_loss_mlp": 1.02844703,
+      "epoch": 0.08717609571334095,
+      "flos": 29497599498240.0,
+      "grad_norm": 1.5461595969414001,
+      "language_loss": 0.83094269,
+      "learning_rate": 3.965870379869735e-06,
+      "loss": 0.85408509,
+      "num_input_tokens_seen": 15369450,
+      "step": 725,
+      "time_per_iteration": 2.782634973526001
+    },
+    {
+      "auxiliary_loss_clip": 0.01262282,
+      "auxiliary_loss_mlp": 0.01039575,
+      "balance_loss_clip": 1.06638992,
+      "balance_loss_mlp": 1.02934074,
+      "epoch": 0.08729633860398003,
+      "flos": 20667489137280.0,
+      "grad_norm": 2.576366736117941,
+      "language_loss": 0.86846536,
+      "learning_rate": 3.965726937213547e-06,
+      "loss": 0.8914839,
+      "num_input_tokens_seen": 15388085,
+      "step": 726,
+      "time_per_iteration": 2.728752851486206
+    },
+    {
+      "auxiliary_loss_clip": 0.01257106,
+      "auxiliary_loss_mlp": 0.01044637,
+      "balance_loss_clip": 1.06538367,
+      "balance_loss_mlp": 1.03268039,
+      "epoch": 0.08741658149461913,
+      "flos": 18369493655040.0,
+      "grad_norm": 1.9303211847952977,
+      "language_loss": 0.807338,
+      "learning_rate": 3.965583196358144e-06,
+      "loss": 0.83035541,
+      "num_input_tokens_seen": 15407120,
+      "step": 727,
+      "time_per_iteration": 2.6966090202331543
+    },
+    {
+      "auxiliary_loss_clip": 0.01259636,
+      "auxiliary_loss_mlp": 0.01038236,
+      "balance_loss_clip": 1.07153034,
+      "balance_loss_mlp": 1.02616024,
+      "epoch": 0.08753682438525823,
+      "flos": 18729677283840.0,
+      "grad_norm": 2.226438900539452,
+      "language_loss": 0.74534041,
+      "learning_rate": 3.965439157325335e-06,
+      "loss": 0.76831913,
+      "num_input_tokens_seen": 15424485,
+      "step": 728,
+      "time_per_iteration": 2.654573917388916
+    },
+    {
+      "auxiliary_loss_clip": 0.01265559,
+      "auxiliary_loss_mlp": 0.01038831,
+      "balance_loss_clip": 1.06431293,
+      "balance_loss_mlp": 1.02736866,
+      "epoch": 0.08765706727589731,
+      "flos": 27776113303680.0,
+      "grad_norm": 1.8917402841273738,
+      "language_loss": 0.76051378,
+      "learning_rate": 3.965294820136968e-06,
+      "loss": 0.78355765,
+      "num_input_tokens_seen": 15446285,
+      "step": 729,
+      "time_per_iteration": 2.8330564498901367
+    },
+    {
+      "auxiliary_loss_clip": 0.0127169,
+      "auxiliary_loss_mlp": 0.01037704,
+      "balance_loss_clip": 1.06967735,
+      "balance_loss_mlp": 1.02611709,
+      "epoch": 0.08777731016653641,
+      "flos": 24389127239040.0,
+      "grad_norm": 1.9752903540895295,
+      "language_loss": 0.86960196,
+      "learning_rate": 3.965150184814938e-06,
+      "loss": 0.8926959,
+      "num_input_tokens_seen": 15465770,
+      "step": 730,
+      "time_per_iteration": 2.7928316593170166
+    },
+    {
+      "auxiliary_loss_clip": 0.01256628,
+      "auxiliary_loss_mlp": 0.01052302,
+      "balance_loss_clip": 1.06676316,
+      "balance_loss_mlp": 1.04067278,
+      "epoch": 0.08789755305717549,
+      "flos": 21981855605760.0,
+      "grad_norm": 2.417456889968886,
+      "language_loss": 0.76688504,
+      "learning_rate": 3.965005251381189e-06,
+      "loss": 0.78997433,
+      "num_input_tokens_seen": 15483705,
+      "step": 731,
+      "time_per_iteration": 2.7541511058807373
+    },
+    {
+      "auxiliary_loss_clip": 0.01160658,
+      "auxiliary_loss_mlp": 0.01006778,
+      "balance_loss_clip": 1.03358281,
+      "balance_loss_mlp": 1.00293922,
+      "epoch": 0.08801779594781459,
+      "flos": 58360120583040.0,
+      "grad_norm": 1.5241364354924107,
+      "language_loss": 0.64597857,
+      "learning_rate": 3.964860019857705e-06,
+      "loss": 0.66765285,
+      "num_input_tokens_seen": 15548620,
+      "step": 732,
+      "time_per_iteration": 3.403531789779663
+    },
+    {
+      "auxiliary_loss_clip": 0.01256092,
+      "auxiliary_loss_mlp": 0.01042744,
+      "balance_loss_clip": 1.07219005,
+      "balance_loss_mlp": 1.03215814,
+      "epoch": 0.08813803883845367,
+      "flos": 23294785530240.0,
+      "grad_norm": 1.801586961814516,
+      "language_loss": 0.84180391,
+      "learning_rate": 3.964714490266518e-06,
+      "loss": 0.86479223,
+      "num_input_tokens_seen": 15569265,
+      "step": 733,
+      "time_per_iteration": 2.770189046859741
+    },
+    {
+      "auxiliary_loss_clip": 0.01155875,
+      "auxiliary_loss_mlp": 0.01004218,
+      "balance_loss_clip": 1.03253937,
+      "balance_loss_mlp": 1.00002158,
+      "epoch": 0.08825828172909277,
+      "flos": 63424924882560.0,
+      "grad_norm": 0.9120504094050682,
+      "language_loss": 0.64619482,
+      "learning_rate": 3.964568662629706e-06,
+      "loss": 0.66779578,
+      "num_input_tokens_seen": 15630570,
+      "step": 734,
+      "time_per_iteration": 3.1728675365448
+    },
+    {
+      "auxiliary_loss_clip": 0.01261309,
+      "auxiliary_loss_mlp": 0.01038263,
+      "balance_loss_clip": 1.06713879,
+      "balance_loss_mlp": 1.02711141,
+      "epoch": 0.08837852461973186,
+      "flos": 26720986268160.0,
+      "grad_norm": 2.0484066748223437,
+      "language_loss": 0.84283525,
+      "learning_rate": 3.9644225369693895e-06,
+      "loss": 0.86583096,
+      "num_input_tokens_seen": 15650870,
+      "step": 735,
+      "time_per_iteration": 2.84027099609375
+    },
+    {
+      "auxiliary_loss_clip": 0.01259853,
+      "auxiliary_loss_mlp": 0.01048614,
+      "balance_loss_clip": 1.07485306,
+      "balance_loss_mlp": 1.03765893,
+      "epoch": 0.08849876751037095,
+      "flos": 27265427688960.0,
+      "grad_norm": 2.0901339421264833,
+      "language_loss": 0.86616933,
+      "learning_rate": 3.964276113307735e-06,
+      "loss": 0.88925397,
+      "num_input_tokens_seen": 15670835,
+      "step": 736,
+      "time_per_iteration": 2.7695462703704834
+    },
+    {
+      "auxiliary_loss_clip": 0.01271733,
+      "auxiliary_loss_mlp": 0.01043015,
+      "balance_loss_clip": 1.06575489,
+      "balance_loss_mlp": 1.03104639,
+      "epoch": 0.08861901040101004,
+      "flos": 19828759587840.0,
+      "grad_norm": 1.922566675184825,
+      "language_loss": 0.80565059,
+      "learning_rate": 3.9641293916669574e-06,
+      "loss": 0.82879806,
+      "num_input_tokens_seen": 15689795,
+      "step": 737,
+      "time_per_iteration": 2.76375675201416
+    },
+    {
+      "auxiliary_loss_clip": 0.01272197,
+      "auxiliary_loss_mlp": 0.01045883,
+      "balance_loss_clip": 1.06370783,
+      "balance_loss_mlp": 1.03453374,
+      "epoch": 0.08873925329164913,
+      "flos": 23658704173440.0,
+      "grad_norm": 1.8542865099505592,
+      "language_loss": 0.82539856,
+      "learning_rate": 3.9639823720693115e-06,
+      "loss": 0.84857935,
+      "num_input_tokens_seen": 15711650,
+      "step": 738,
+      "time_per_iteration": 2.9284534454345703
+    },
+    {
+      "auxiliary_loss_clip": 0.01167386,
+      "auxiliary_loss_mlp": 0.01009965,
+      "balance_loss_clip": 1.03081989,
+      "balance_loss_mlp": 1.00686514,
+      "epoch": 0.08885949618228822,
+      "flos": 71831541893760.0,
+      "grad_norm": 0.842912975043884,
+      "language_loss": 0.6002537,
+      "learning_rate": 3.963835054537102e-06,
+      "loss": 0.62202722,
+      "num_input_tokens_seen": 15780615,
+      "step": 739,
+      "time_per_iteration": 3.352262496948242
+    },
+    {
+      "auxiliary_loss_clip": 0.01263545,
+      "auxiliary_loss_mlp": 0.01047477,
+      "balance_loss_clip": 1.06313384,
+      "balance_loss_mlp": 1.03562796,
+      "epoch": 0.08897973907292732,
+      "flos": 22346169298560.0,
+      "grad_norm": 2.0591751559225258,
+      "language_loss": 0.60467505,
+      "learning_rate": 3.963687439092676e-06,
+      "loss": 0.62778527,
+      "num_input_tokens_seen": 15801300,
+      "step": 740,
+      "time_per_iteration": 2.805924415588379
+    },
+    {
+      "auxiliary_loss_clip": 0.0126325,
+      "auxiliary_loss_mlp": 0.01050098,
+      "balance_loss_clip": 1.07086754,
+      "balance_loss_mlp": 1.03874326,
+      "epoch": 0.0890999819635664,
+      "flos": 21251827589760.0,
+      "grad_norm": 1.9823052666184389,
+      "language_loss": 0.80295432,
+      "learning_rate": 3.963539525758427e-06,
+      "loss": 0.82608777,
+      "num_input_tokens_seen": 15820860,
+      "step": 741,
+      "time_per_iteration": 2.720853328704834
+    },
+    {
+      "auxiliary_loss_clip": 0.01274448,
+      "auxiliary_loss_mlp": 0.01053147,
+      "balance_loss_clip": 1.06880116,
+      "balance_loss_mlp": 1.04262114,
+      "epoch": 0.0892202248542055,
+      "flos": 25370888745600.0,
+      "grad_norm": 1.9912118721698813,
+      "language_loss": 0.67479885,
+      "learning_rate": 3.9633913145567925e-06,
+      "loss": 0.69807482,
+      "num_input_tokens_seen": 15841350,
+      "step": 742,
+      "time_per_iteration": 2.813215494155884
+    },
+    {
+      "auxiliary_loss_clip": 0.01274477,
+      "auxiliary_loss_mlp": 0.01035286,
+      "balance_loss_clip": 1.07055652,
+      "balance_loss_mlp": 1.02428865,
+      "epoch": 0.08934046774484458,
+      "flos": 24457895827200.0,
+      "grad_norm": 1.9015985291418658,
+      "language_loss": 0.81498134,
+      "learning_rate": 3.9632428055102575e-06,
+      "loss": 0.83807898,
+      "num_input_tokens_seen": 15861360,
+      "step": 743,
+      "time_per_iteration": 2.7939062118530273
+    },
+    {
+      "auxiliary_loss_clip": 0.0126768,
+      "auxiliary_loss_mlp": 0.01050094,
+      "balance_loss_clip": 1.07215095,
+      "balance_loss_mlp": 1.03800654,
+      "epoch": 0.08946071063548368,
+      "flos": 35772773414400.0,
+      "grad_norm": 2.011036687257273,
+      "language_loss": 0.67218512,
+      "learning_rate": 3.9630939986413495e-06,
+      "loss": 0.69536293,
+      "num_input_tokens_seen": 15883160,
+      "step": 744,
+      "time_per_iteration": 3.908590316772461
+    },
+    {
+      "auxiliary_loss_clip": 0.0126282,
+      "auxiliary_loss_mlp": 0.01041536,
+      "balance_loss_clip": 1.06437588,
+      "balance_loss_mlp": 1.03010952,
+      "epoch": 0.08958095352612276,
+      "flos": 14356584167040.0,
+      "grad_norm": 1.6305874160816438,
+      "language_loss": 0.78175014,
+      "learning_rate": 3.962944893972643e-06,
+      "loss": 0.80479372,
+      "num_input_tokens_seen": 15901610,
+      "step": 745,
+      "time_per_iteration": 2.8494229316711426
+    },
+    {
+      "auxiliary_loss_clip": 0.0126788,
+      "auxiliary_loss_mlp": 0.01042172,
+      "balance_loss_clip": 1.06862497,
+      "balance_loss_mlp": 1.03061485,
+      "epoch": 0.08970119641676186,
+      "flos": 17853277345920.0,
+      "grad_norm": 2.6924519194913397,
+      "language_loss": 0.90840077,
+      "learning_rate": 3.962795491526756e-06,
+      "loss": 0.93150127,
+      "num_input_tokens_seen": 15918770,
+      "step": 746,
+      "time_per_iteration": 2.7203738689422607
+    },
+    {
+      "auxiliary_loss_clip": 0.01260557,
+      "auxiliary_loss_mlp": 0.01041912,
+      "balance_loss_clip": 1.07280886,
+      "balance_loss_mlp": 1.03132594,
+      "epoch": 0.08982143930740095,
+      "flos": 20811670329600.0,
+      "grad_norm": 3.1165436725186706,
+      "language_loss": 0.89367074,
+      "learning_rate": 3.962645791326354e-06,
+      "loss": 0.91669542,
+      "num_input_tokens_seen": 15938025,
+      "step": 747,
+      "time_per_iteration": 5.576411485671997
+    },
+    {
+      "auxiliary_loss_clip": 0.01259216,
+      "auxiliary_loss_mlp": 0.01056857,
+      "balance_loss_clip": 1.07098293,
+      "balance_loss_mlp": 1.04594922,
+      "epoch": 0.08994168219804004,
+      "flos": 24097712198400.0,
+      "grad_norm": 1.9894411289364142,
+      "language_loss": 0.83311146,
+      "learning_rate": 3.962495793394146e-06,
+      "loss": 0.85627222,
+      "num_input_tokens_seen": 15957215,
+      "step": 748,
+      "time_per_iteration": 2.7613413333892822
+    },
+    {
+      "auxiliary_loss_clip": 0.01139934,
+      "auxiliary_loss_mlp": 0.01024042,
+      "balance_loss_clip": 1.02968693,
+      "balance_loss_mlp": 1.02022743,
+      "epoch": 0.09006192508867913,
+      "flos": 57188893812480.0,
+      "grad_norm": 0.7452622635389927,
+      "language_loss": 0.61207968,
+      "learning_rate": 3.9623454977528864e-06,
+      "loss": 0.63371944,
+      "num_input_tokens_seen": 16015870,
+      "step": 749,
+      "time_per_iteration": 3.0577685832977295
+    },
+    {
+      "auxiliary_loss_clip": 0.01278989,
+      "auxiliary_loss_mlp": 0.01044275,
+      "balance_loss_clip": 1.06569684,
+      "balance_loss_mlp": 1.03288436,
+      "epoch": 0.09018216797931822,
+      "flos": 20487505063680.0,
+      "grad_norm": 1.7896664719526496,
+      "language_loss": 0.84943932,
+      "learning_rate": 3.962194904425375e-06,
+      "loss": 0.87267196,
+      "num_input_tokens_seen": 16036500,
+      "step": 750,
+      "time_per_iteration": 2.7837793827056885
+    },
+    {
+      "auxiliary_loss_clip": 0.01259831,
+      "auxiliary_loss_mlp": 0.01048463,
+      "balance_loss_clip": 1.07120657,
+      "balance_loss_mlp": 1.03663111,
+      "epoch": 0.09030241086995731,
+      "flos": 22638123043200.0,
+      "grad_norm": 2.179217080758297,
+      "language_loss": 0.6825732,
+      "learning_rate": 3.9620440134344566e-06,
+      "loss": 0.70565611,
+      "num_input_tokens_seen": 16054655,
+      "step": 751,
+      "time_per_iteration": 2.6919398307800293
+    },
+    {
+      "auxiliary_loss_clip": 0.01278865,
+      "auxiliary_loss_mlp": 0.01051869,
+      "balance_loss_clip": 1.06829596,
+      "balance_loss_mlp": 1.04016256,
+      "epoch": 0.09042265376059641,
+      "flos": 21871502046720.0,
+      "grad_norm": 2.204011992623906,
+      "language_loss": 0.82538617,
+      "learning_rate": 3.9618928248030215e-06,
+      "loss": 0.84869355,
+      "num_input_tokens_seen": 16074165,
+      "step": 752,
+      "time_per_iteration": 2.7260115146636963
+    },
+    {
+      "auxiliary_loss_clip": 0.01262362,
+      "auxiliary_loss_mlp": 0.01039282,
+      "balance_loss_clip": 1.07173622,
+      "balance_loss_mlp": 1.02815986,
+      "epoch": 0.0905428966512355,
+      "flos": 24316192673280.0,
+      "grad_norm": 2.287916311557811,
+      "language_loss": 0.82852101,
+      "learning_rate": 3.961741338554005e-06,
+      "loss": 0.85153747,
+      "num_input_tokens_seen": 16092505,
+      "step": 753,
+      "time_per_iteration": 2.700364589691162
+    },
+    {
+      "auxiliary_loss_clip": 0.01281735,
+      "auxiliary_loss_mlp": 0.01044215,
+      "balance_loss_clip": 1.07253575,
+      "balance_loss_mlp": 1.03302729,
+      "epoch": 0.09066313954187459,
+      "flos": 35845061535360.0,
+      "grad_norm": 1.9947425515088129,
+      "language_loss": 0.75978816,
+      "learning_rate": 3.9615895547103865e-06,
+      "loss": 0.78304762,
+      "num_input_tokens_seen": 16116150,
+      "step": 754,
+      "time_per_iteration": 2.8557252883911133
+    },
+    {
+      "auxiliary_loss_clip": 0.01270613,
+      "auxiliary_loss_mlp": 0.01046361,
+      "balance_loss_clip": 1.06897593,
+      "balance_loss_mlp": 1.03530407,
+      "epoch": 0.09078338243251367,
+      "flos": 29168729550720.0,
+      "grad_norm": 2.093857033897267,
+      "language_loss": 0.77832305,
+      "learning_rate": 3.961437473295193e-06,
+      "loss": 0.80149281,
+      "num_input_tokens_seen": 16136295,
+      "step": 755,
+      "time_per_iteration": 2.837494373321533
+    },
+    {
+      "auxiliary_loss_clip": 0.01264895,
+      "auxiliary_loss_mlp": 0.0104567,
+      "balance_loss_clip": 1.05630243,
+      "balance_loss_mlp": 1.03528059,
+      "epoch": 0.09090362532315277,
+      "flos": 21907699977600.0,
+      "grad_norm": 2.4748658736237332,
+      "language_loss": 0.72293317,
+      "learning_rate": 3.961285094331495e-06,
+      "loss": 0.74603891,
+      "num_input_tokens_seen": 16154210,
+      "step": 756,
+      "time_per_iteration": 2.837938070297241
+    },
+    {
+      "auxiliary_loss_clip": 0.01254674,
+      "auxiliary_loss_mlp": 0.01048295,
+      "balance_loss_clip": 1.07282388,
+      "balance_loss_mlp": 1.03785825,
+      "epoch": 0.09102386821379185,
+      "flos": 27344503480320.0,
+      "grad_norm": 1.8735069018192851,
+      "language_loss": 0.85765231,
+      "learning_rate": 3.961132417842406e-06,
+      "loss": 0.88068199,
+      "num_input_tokens_seen": 16173995,
+      "step": 757,
+      "time_per_iteration": 2.6934545040130615
+    },
+    {
+      "auxiliary_loss_clip": 0.0124883,
+      "auxiliary_loss_mlp": 0.01046177,
+      "balance_loss_clip": 1.06665182,
+      "balance_loss_mlp": 1.03536499,
+      "epoch": 0.09114411110443095,
+      "flos": 20813501923200.0,
+      "grad_norm": 2.9294079850195693,
+      "language_loss": 0.75575346,
+      "learning_rate": 3.960979443851089e-06,
+      "loss": 0.77870357,
+      "num_input_tokens_seen": 16191020,
+      "step": 758,
+      "time_per_iteration": 2.9018630981445312
+    },
+    {
+      "auxiliary_loss_clip": 0.01265764,
+      "auxiliary_loss_mlp": 0.01039698,
+      "balance_loss_clip": 1.0670712,
+      "balance_loss_mlp": 1.02773535,
+      "epoch": 0.09126435399507005,
+      "flos": 26145949438080.0,
+      "grad_norm": 1.7822647524343878,
+      "language_loss": 0.78881729,
+      "learning_rate": 3.96082617238075e-06,
+      "loss": 0.81187189,
+      "num_input_tokens_seen": 16213645,
+      "step": 759,
+      "time_per_iteration": 2.7252869606018066
+    },
+    {
+      "auxiliary_loss_clip": 0.01266811,
+      "auxiliary_loss_mlp": 0.01039112,
+      "balance_loss_clip": 1.06626225,
+      "balance_loss_mlp": 1.02860343,
+      "epoch": 0.09138459688570913,
+      "flos": 24388911757440.0,
+      "grad_norm": 2.4931174541983623,
+      "language_loss": 0.79778177,
+      "learning_rate": 3.960672603454639e-06,
+      "loss": 0.82084095,
+      "num_input_tokens_seen": 16233625,
+      "step": 760,
+      "time_per_iteration": 2.7707905769348145
+    },
+    {
+      "auxiliary_loss_clip": 0.01253591,
+      "auxiliary_loss_mlp": 0.01041398,
+      "balance_loss_clip": 1.06932616,
+      "balance_loss_mlp": 1.02982271,
+      "epoch": 0.09150483977634823,
+      "flos": 21032664756480.0,
+      "grad_norm": 5.754478248775613,
+      "language_loss": 0.76830858,
+      "learning_rate": 3.960518737096054e-06,
+      "loss": 0.79125845,
+      "num_input_tokens_seen": 16253255,
+      "step": 761,
+      "time_per_iteration": 2.6809611320495605
+    },
+    {
+      "auxiliary_loss_clip": 0.01266514,
+      "auxiliary_loss_mlp": 0.01035109,
+      "balance_loss_clip": 1.07183671,
+      "balance_loss_mlp": 1.024225,
+      "epoch": 0.09162508266698731,
+      "flos": 22856998567680.0,
+      "grad_norm": 4.80272123237637,
+      "language_loss": 0.7299155,
+      "learning_rate": 3.960364573328334e-06,
+      "loss": 0.75293171,
+      "num_input_tokens_seen": 16272580,
+      "step": 762,
+      "time_per_iteration": 2.68796968460083
+    },
+    {
+      "auxiliary_loss_clip": 0.01280115,
+      "auxiliary_loss_mlp": 0.01041161,
+      "balance_loss_clip": 1.06723416,
+      "balance_loss_mlp": 1.02983069,
+      "epoch": 0.0917453255576264,
+      "flos": 21724411852800.0,
+      "grad_norm": 2.2270249362789025,
+      "language_loss": 0.88972986,
+      "learning_rate": 3.9602101121748675e-06,
+      "loss": 0.91294265,
+      "num_input_tokens_seen": 16293075,
+      "step": 763,
+      "time_per_iteration": 2.7321557998657227
+    },
+    {
+      "auxiliary_loss_clip": 0.01270911,
+      "auxiliary_loss_mlp": 0.01034866,
+      "balance_loss_clip": 1.07013893,
+      "balance_loss_mlp": 1.02425051,
+      "epoch": 0.0918655684482655,
+      "flos": 14609215497600.0,
+      "grad_norm": 2.4710393350844493,
+      "language_loss": 0.72761905,
+      "learning_rate": 3.960055353659085e-06,
+      "loss": 0.75067687,
+      "num_input_tokens_seen": 16310185,
+      "step": 764,
+      "time_per_iteration": 2.6455953121185303
+    },
+    {
+      "auxiliary_loss_clip": 0.01283822,
+      "auxiliary_loss_mlp": 0.01047353,
+      "balance_loss_clip": 1.06924522,
+      "balance_loss_mlp": 1.0369575,
+      "epoch": 0.09198581133890459,
+      "flos": 23435016226560.0,
+      "grad_norm": 1.9104621607954244,
+      "language_loss": 0.83568609,
+      "learning_rate": 3.959900297804465e-06,
+      "loss": 0.85899782,
+      "num_input_tokens_seen": 16330355,
+      "step": 765,
+      "time_per_iteration": 2.7818002700805664
+    },
+    {
+      "auxiliary_loss_clip": 0.01255562,
+      "auxiliary_loss_mlp": 0.01038201,
+      "balance_loss_clip": 1.06458402,
+      "balance_loss_mlp": 1.02825236,
+      "epoch": 0.09210605422954368,
+      "flos": 16795887753600.0,
+      "grad_norm": 1.8942769042644925,
+      "language_loss": 0.77359319,
+      "learning_rate": 3.9597449446345276e-06,
+      "loss": 0.79653078,
+      "num_input_tokens_seen": 16347600,
+      "step": 766,
+      "time_per_iteration": 2.678084373474121
+    },
+    {
+      "auxiliary_loss_clip": 0.01250734,
+      "auxiliary_loss_mlp": 0.01042888,
+      "balance_loss_clip": 1.06198418,
+      "balance_loss_mlp": 1.0322423,
+      "epoch": 0.09222629712018277,
+      "flos": 22674249146880.0,
+      "grad_norm": 3.152982070663724,
+      "language_loss": 0.83635515,
+      "learning_rate": 3.95958929417284e-06,
+      "loss": 0.85929132,
+      "num_input_tokens_seen": 16365755,
+      "step": 767,
+      "time_per_iteration": 2.7077183723449707
+    },
+    {
+      "auxiliary_loss_clip": 0.0114824,
+      "auxiliary_loss_mlp": 0.01005431,
+      "balance_loss_clip": 1.02682376,
+      "balance_loss_mlp": 1.00202203,
+      "epoch": 0.09234654001082186,
+      "flos": 69976756327680.0,
+      "grad_norm": 0.7300373791954388,
+      "language_loss": 0.58772397,
+      "learning_rate": 3.9594333464430145e-06,
+      "loss": 0.60926068,
+      "num_input_tokens_seen": 16435245,
+      "step": 768,
+      "time_per_iteration": 3.326063394546509
+    },
+    {
+      "auxiliary_loss_clip": 0.01283691,
+      "auxiliary_loss_mlp": 0.01053049,
+      "balance_loss_clip": 1.05544293,
+      "balance_loss_mlp": 1.04311299,
+      "epoch": 0.09246678290146094,
+      "flos": 20011437181440.0,
+      "grad_norm": 1.9510166729323604,
+      "language_loss": 0.87805688,
+      "learning_rate": 3.959277101468709e-06,
+      "loss": 0.90142435,
+      "num_input_tokens_seen": 16454795,
+      "step": 769,
+      "time_per_iteration": 2.8686656951904297
+    },
+    {
+      "auxiliary_loss_clip": 0.01252318,
+      "auxiliary_loss_mlp": 0.01041997,
+      "balance_loss_clip": 1.06592536,
+      "balance_loss_mlp": 1.03088045,
+      "epoch": 0.09258702579210004,
+      "flos": 17747448900480.0,
+      "grad_norm": 2.5534863088158595,
+      "language_loss": 0.78486443,
+      "learning_rate": 3.959120559273624e-06,
+      "loss": 0.80780756,
+      "num_input_tokens_seen": 16472580,
+      "step": 770,
+      "time_per_iteration": 3.813966751098633
+    },
+    {
+      "auxiliary_loss_clip": 0.01253488,
+      "auxiliary_loss_mlp": 0.01040915,
+      "balance_loss_clip": 1.06959248,
+      "balance_loss_mlp": 1.03015637,
+      "epoch": 0.09270726868273914,
+      "flos": 20886544229760.0,
+      "grad_norm": 1.7724361047558501,
+      "language_loss": 0.83632404,
+      "learning_rate": 3.958963719881509e-06,
+      "loss": 0.85926807,
+      "num_input_tokens_seen": 16490670,
+      "step": 771,
+      "time_per_iteration": 2.7063748836517334
+    },
+    {
+      "auxiliary_loss_clip": 0.01263082,
+      "auxiliary_loss_mlp": 0.01042018,
+      "balance_loss_clip": 1.07280409,
+      "balance_loss_mlp": 1.03176033,
+      "epoch": 0.09282751157337822,
+      "flos": 17015697031680.0,
+      "grad_norm": 2.8212718130139214,
+      "language_loss": 0.93606913,
+      "learning_rate": 3.958806583316154e-06,
+      "loss": 0.95912015,
+      "num_input_tokens_seen": 16508640,
+      "step": 772,
+      "time_per_iteration": 3.5889346599578857
+    },
+    {
+      "auxiliary_loss_clip": 0.01261135,
+      "auxiliary_loss_mlp": 0.01039568,
+      "balance_loss_clip": 1.07584846,
+      "balance_loss_mlp": 1.02904165,
+      "epoch": 0.09294775446401732,
+      "flos": 32523647748480.0,
+      "grad_norm": 2.1016901064211395,
+      "language_loss": 0.78806889,
+      "learning_rate": 3.9586491496013985e-06,
+      "loss": 0.81107593,
+      "num_input_tokens_seen": 16531035,
+      "step": 773,
+      "time_per_iteration": 3.6480188369750977
+    },
+    {
+      "auxiliary_loss_clip": 0.01267639,
+      "auxiliary_loss_mlp": 0.01044624,
+      "balance_loss_clip": 1.07346332,
+      "balance_loss_mlp": 1.03404438,
+      "epoch": 0.0930679973546564,
+      "flos": 18259750627200.0,
+      "grad_norm": 3.2660310914056474,
+      "language_loss": 0.83281255,
+      "learning_rate": 3.958491418761124e-06,
+      "loss": 0.8559351,
+      "num_input_tokens_seen": 16548605,
+      "step": 774,
+      "time_per_iteration": 3.5431034564971924
+    },
+    {
+      "auxiliary_loss_clip": 0.01267173,
+      "auxiliary_loss_mlp": 0.01038775,
+      "balance_loss_clip": 1.06451726,
+      "balance_loss_mlp": 1.02798676,
+      "epoch": 0.0931882402452955,
+      "flos": 21099745405440.0,
+      "grad_norm": 2.1971544682600808,
+      "language_loss": 0.72998339,
+      "learning_rate": 3.958333390819258e-06,
+      "loss": 0.75304294,
+      "num_input_tokens_seen": 16565535,
+      "step": 775,
+      "time_per_iteration": 2.723348379135132
+    },
+    {
+      "auxiliary_loss_clip": 0.01257913,
+      "auxiliary_loss_mlp": 0.01039473,
+      "balance_loss_clip": 1.07508349,
+      "balance_loss_mlp": 1.02906024,
+      "epoch": 0.0933084831359346,
+      "flos": 24207275658240.0,
+      "grad_norm": 2.3516586107329345,
+      "language_loss": 0.80048758,
+      "learning_rate": 3.9581750657997754e-06,
+      "loss": 0.82346141,
+      "num_input_tokens_seen": 16584900,
+      "step": 776,
+      "time_per_iteration": 2.6633756160736084
+    },
+    {
+      "auxiliary_loss_clip": 0.01266569,
+      "auxiliary_loss_mlp": 0.01038033,
+      "balance_loss_clip": 1.0661025,
+      "balance_loss_mlp": 1.02804947,
+      "epoch": 0.09342872602657368,
+      "flos": 25480272637440.0,
+      "grad_norm": 1.7806333860526908,
+      "language_loss": 0.89555895,
+      "learning_rate": 3.95801644372669e-06,
+      "loss": 0.91860497,
+      "num_input_tokens_seen": 16604805,
+      "step": 777,
+      "time_per_iteration": 2.7262537479400635
+    },
+    {
+      "auxiliary_loss_clip": 0.01275745,
+      "auxiliary_loss_mlp": 0.01041309,
+      "balance_loss_clip": 1.06723213,
+      "balance_loss_mlp": 1.03079486,
+      "epoch": 0.09354896891721277,
+      "flos": 23149060053120.0,
+      "grad_norm": 2.32871421193343,
+      "language_loss": 0.84488702,
+      "learning_rate": 3.957857524624068e-06,
+      "loss": 0.86805749,
+      "num_input_tokens_seen": 16623685,
+      "step": 778,
+      "time_per_iteration": 2.7338666915893555
+    },
+    {
+      "auxiliary_loss_clip": 0.01270938,
+      "auxiliary_loss_mlp": 0.01036298,
+      "balance_loss_clip": 1.06773186,
+      "balance_loss_mlp": 1.02573657,
+      "epoch": 0.09366921180785186,
+      "flos": 24279563779200.0,
+      "grad_norm": 1.6146294054535553,
+      "language_loss": 0.89612746,
+      "learning_rate": 3.957698308516016e-06,
+      "loss": 0.91919982,
+      "num_input_tokens_seen": 16644985,
+      "step": 779,
+      "time_per_iteration": 2.7112298011779785
+    },
+    {
+      "auxiliary_loss_clip": 0.01265374,
+      "auxiliary_loss_mlp": 0.01381418,
+      "balance_loss_clip": 1.07661748,
+      "balance_loss_mlp": 0.99998569,
+      "epoch": 0.09378945469849095,
+      "flos": 18730036419840.0,
+      "grad_norm": 2.5455834550432774,
+      "language_loss": 0.82241309,
+      "learning_rate": 3.957538795426688e-06,
+      "loss": 0.84888101,
+      "num_input_tokens_seen": 16662410,
+      "step": 780,
+      "time_per_iteration": 2.7465457916259766
+    },
+    {
+      "auxiliary_loss_clip": 0.01270306,
+      "auxiliary_loss_mlp": 0.01034212,
+      "balance_loss_clip": 1.06852007,
+      "balance_loss_mlp": 1.02385247,
+      "epoch": 0.09390969758913004,
+      "flos": 23218834222080.0,
+      "grad_norm": 2.5104112645236256,
+      "language_loss": 0.77104819,
+      "learning_rate": 3.9573789853802804e-06,
+      "loss": 0.79409337,
+      "num_input_tokens_seen": 16680885,
+      "step": 781,
+      "time_per_iteration": 2.7014825344085693
+    },
+    {
+      "auxiliary_loss_clip": 0.01276197,
+      "auxiliary_loss_mlp": 0.0138123,
+      "balance_loss_clip": 1.07405221,
+      "balance_loss_mlp": 0.99992472,
+      "epoch": 0.09402994047976913,
+      "flos": 19646728439040.0,
+      "grad_norm": 3.4028495446811653,
+      "language_loss": 0.73983634,
+      "learning_rate": 3.957218878401037e-06,
+      "loss": 0.76641059,
+      "num_input_tokens_seen": 16699375,
+      "step": 782,
+      "time_per_iteration": 2.717731237411499
+    },
+    {
+      "auxiliary_loss_clip": 0.01262506,
+      "auxiliary_loss_mlp": 0.01043887,
+      "balance_loss_clip": 1.07716775,
+      "balance_loss_mlp": 1.03298569,
+      "epoch": 0.09415018337040823,
+      "flos": 29420463041280.0,
+      "grad_norm": 2.1349004725449254,
+      "language_loss": 0.89365971,
+      "learning_rate": 3.957058474513246e-06,
+      "loss": 0.91672367,
+      "num_input_tokens_seen": 16719230,
+      "step": 783,
+      "time_per_iteration": 2.6692938804626465
+    },
+    {
+      "auxiliary_loss_clip": 0.01265248,
+      "auxiliary_loss_mlp": 0.0104435,
+      "balance_loss_clip": 1.07534909,
+      "balance_loss_mlp": 1.0337944,
+      "epoch": 0.09427042626104731,
+      "flos": 24572092141440.0,
+      "grad_norm": 1.730344394715699,
+      "language_loss": 0.7841872,
+      "learning_rate": 3.956897773741241e-06,
+      "loss": 0.80728316,
+      "num_input_tokens_seen": 16738220,
+      "step": 784,
+      "time_per_iteration": 2.7035555839538574
+    },
+    {
+      "auxiliary_loss_clip": 0.0125549,
+      "auxiliary_loss_mlp": 0.01038916,
+      "balance_loss_clip": 1.06576812,
+      "balance_loss_mlp": 1.02811575,
+      "epoch": 0.09439066915168641,
+      "flos": 26359581576960.0,
+      "grad_norm": 1.7939136404546892,
+      "language_loss": 0.71738434,
+      "learning_rate": 3.956736776109398e-06,
+      "loss": 0.74032843,
+      "num_input_tokens_seen": 16759395,
+      "step": 785,
+      "time_per_iteration": 2.7430055141448975
+    },
+    {
+      "auxiliary_loss_clip": 0.01253218,
+      "auxiliary_loss_mlp": 0.01381638,
+      "balance_loss_clip": 1.06964946,
+      "balance_loss_mlp": 0.9999789,
+      "epoch": 0.09451091204232549,
+      "flos": 19427278296960.0,
+      "grad_norm": 2.3083564139319797,
+      "language_loss": 0.83760035,
+      "learning_rate": 3.956575481642143e-06,
+      "loss": 0.863949,
+      "num_input_tokens_seen": 16778285,
+      "step": 786,
+      "time_per_iteration": 2.6888253688812256
+    },
+    {
+      "auxiliary_loss_clip": 0.01278073,
+      "auxiliary_loss_mlp": 0.01039414,
+      "balance_loss_clip": 1.06076503,
+      "balance_loss_mlp": 1.02777863,
+      "epoch": 0.09463115493296459,
+      "flos": 25368051571200.0,
+      "grad_norm": 2.357753606674932,
+      "language_loss": 0.75043637,
+      "learning_rate": 3.956413890363943e-06,
+      "loss": 0.77361119,
+      "num_input_tokens_seen": 16795265,
+      "step": 787,
+      "time_per_iteration": 2.757305860519409
+    },
+    {
+      "auxiliary_loss_clip": 0.01263622,
+      "auxiliary_loss_mlp": 0.01041955,
+      "balance_loss_clip": 1.07346487,
+      "balance_loss_mlp": 1.03116691,
+      "epoch": 0.09475139782360369,
+      "flos": 10123254869760.0,
+      "grad_norm": 1.9380533613520943,
+      "language_loss": 0.81779003,
+      "learning_rate": 3.956252002299312e-06,
+      "loss": 0.84084582,
+      "num_input_tokens_seen": 16811165,
+      "step": 788,
+      "time_per_iteration": 2.770026445388794
+    },
+    {
+      "auxiliary_loss_clip": 0.01256621,
+      "auxiliary_loss_mlp": 0.01033792,
+      "balance_loss_clip": 1.07343292,
+      "balance_loss_mlp": 1.02274168,
+      "epoch": 0.09487164071424277,
+      "flos": 17231088936960.0,
+      "grad_norm": 2.185269063691456,
+      "language_loss": 0.90956634,
+      "learning_rate": 3.956089817472807e-06,
+      "loss": 0.9324705,
+      "num_input_tokens_seen": 16828470,
+      "step": 789,
+      "time_per_iteration": 2.65024995803833
+    },
+    {
+      "auxiliary_loss_clip": 0.01268251,
+      "auxiliary_loss_mlp": 0.01050836,
+      "balance_loss_clip": 1.06974638,
+      "balance_loss_mlp": 1.04061413,
+      "epoch": 0.09499188360488187,
+      "flos": 30849564528000.0,
+      "grad_norm": 3.210964836664397,
+      "language_loss": 0.85723239,
+      "learning_rate": 3.955927335909032e-06,
+      "loss": 0.88042331,
+      "num_input_tokens_seen": 16851680,
+      "step": 790,
+      "time_per_iteration": 2.804936408996582
+    },
+    {
+      "auxiliary_loss_clip": 0.01283542,
+      "auxiliary_loss_mlp": 0.01045333,
+      "balance_loss_clip": 1.06831908,
+      "balance_loss_mlp": 1.03494978,
+      "epoch": 0.09511212649552095,
+      "flos": 29351694453120.0,
+      "grad_norm": 2.61491219719387,
+      "language_loss": 0.76353335,
+      "learning_rate": 3.955764557632634e-06,
+      "loss": 0.78682208,
+      "num_input_tokens_seen": 16871490,
+      "step": 791,
+      "time_per_iteration": 2.842067241668701
+    },
+    {
+      "auxiliary_loss_clip": 0.01260937,
+      "auxiliary_loss_mlp": 0.01041306,
+      "balance_loss_clip": 1.06525385,
+      "balance_loss_mlp": 1.03116691,
+      "epoch": 0.09523236938616005,
+      "flos": 10378687461120.0,
+      "grad_norm": 2.1241428108031464,
+      "language_loss": 0.94689429,
+      "learning_rate": 3.955601482668309e-06,
+      "loss": 0.9699167,
+      "num_input_tokens_seen": 16889350,
+      "step": 792,
+      "time_per_iteration": 2.6997151374816895
+    },
+    {
+      "auxiliary_loss_clip": 0.01275008,
+      "auxiliary_loss_mlp": 0.01046278,
+      "balance_loss_clip": 1.05723047,
+      "balance_loss_mlp": 1.03513801,
+      "epoch": 0.09535261227679913,
+      "flos": 19061815368960.0,
+      "grad_norm": 1.7583655161731613,
+      "language_loss": 0.88450521,
+      "learning_rate": 3.955438111040794e-06,
+      "loss": 0.90771806,
+      "num_input_tokens_seen": 16907625,
+      "step": 793,
+      "time_per_iteration": 2.728954792022705
+    },
+    {
+      "auxiliary_loss_clip": 0.01279634,
+      "auxiliary_loss_mlp": 0.01032438,
+      "balance_loss_clip": 1.06375718,
+      "balance_loss_mlp": 1.0216732,
+      "epoch": 0.09547285516743823,
+      "flos": 20922993555840.0,
+      "grad_norm": 2.5642383974443623,
+      "language_loss": 0.80543554,
+      "learning_rate": 3.955274442774873e-06,
+      "loss": 0.8285563,
+      "num_input_tokens_seen": 16926205,
+      "step": 794,
+      "time_per_iteration": 2.7385149002075195
+    },
+    {
+      "auxiliary_loss_clip": 0.01258034,
+      "auxiliary_loss_mlp": 0.01034395,
+      "balance_loss_clip": 1.06654847,
+      "balance_loss_mlp": 1.02335048,
+      "epoch": 0.09559309805807732,
+      "flos": 30154405639680.0,
+      "grad_norm": 2.1929202072539127,
+      "language_loss": 0.70586193,
+      "learning_rate": 3.9551104778953725e-06,
+      "loss": 0.72878617,
+      "num_input_tokens_seen": 16946500,
+      "step": 795,
+      "time_per_iteration": 2.7559826374053955
+    },
+    {
+      "auxiliary_loss_clip": 0.01278674,
+      "auxiliary_loss_mlp": 0.01035131,
+      "balance_loss_clip": 1.06593871,
+      "balance_loss_mlp": 1.02482486,
+      "epoch": 0.0957133409487164,
+      "flos": 21066743784960.0,
+      "grad_norm": 1.7770198486217244,
+      "language_loss": 0.85128534,
+      "learning_rate": 3.954946216427167e-06,
+      "loss": 0.87442338,
+      "num_input_tokens_seen": 16966960,
+      "step": 796,
+      "time_per_iteration": 2.721555709838867
+    },
+    {
+      "auxiliary_loss_clip": 0.01163566,
+      "auxiliary_loss_mlp": 0.01004121,
+      "balance_loss_clip": 1.02578259,
+      "balance_loss_mlp": 1.00129592,
+      "epoch": 0.0958335838393555,
+      "flos": 71297979315840.0,
+      "grad_norm": 0.8732482582769587,
+      "language_loss": 0.6155678,
+      "learning_rate": 3.954781658395176e-06,
+      "loss": 0.6372447,
+      "num_input_tokens_seen": 17023215,
+      "step": 797,
+      "time_per_iteration": 4.079889535903931
+    },
+    {
+      "auxiliary_loss_clip": 0.01276108,
+      "auxiliary_loss_mlp": 0.01048837,
+      "balance_loss_clip": 1.06729627,
+      "balance_loss_mlp": 1.03754771,
+      "epoch": 0.09595382672999458,
+      "flos": 21872974504320.0,
+      "grad_norm": 2.8973921432746628,
+      "language_loss": 0.92156482,
+      "learning_rate": 3.95461680382436e-06,
+      "loss": 0.94481426,
+      "num_input_tokens_seen": 17042140,
+      "step": 798,
+      "time_per_iteration": 3.5963377952575684
+    },
+    {
+      "auxiliary_loss_clip": 0.01266205,
+      "auxiliary_loss_mlp": 0.01040869,
+      "balance_loss_clip": 1.07486987,
+      "balance_loss_mlp": 1.02892435,
+      "epoch": 0.09607406962063368,
+      "flos": 18695562341760.0,
+      "grad_norm": 3.1968095640109064,
+      "language_loss": 0.85892618,
+      "learning_rate": 3.9544516527397295e-06,
+      "loss": 0.88199687,
+      "num_input_tokens_seen": 17058490,
+      "step": 799,
+      "time_per_iteration": 4.515854358673096
+    },
+    {
+      "auxiliary_loss_clip": 0.01251434,
+      "auxiliary_loss_mlp": 0.01042992,
+      "balance_loss_clip": 1.06586313,
+      "balance_loss_mlp": 1.03191149,
+      "epoch": 0.09619431251127276,
+      "flos": 22568456615040.0,
+      "grad_norm": 2.829198144703049,
+      "language_loss": 0.8037715,
+      "learning_rate": 3.954286205166338e-06,
+      "loss": 0.82671571,
+      "num_input_tokens_seen": 17079655,
+      "step": 800,
+      "time_per_iteration": 2.7049880027770996
+    },
+    {
+      "auxiliary_loss_clip": 0.01268563,
+      "auxiliary_loss_mlp": 0.01043868,
+      "balance_loss_clip": 1.07613218,
+      "balance_loss_mlp": 1.03275716,
+      "epoch": 0.09631455540191186,
+      "flos": 14246230608000.0,
+      "grad_norm": 2.5689744080616994,
+      "language_loss": 0.83861047,
+      "learning_rate": 3.954120461129282e-06,
+      "loss": 0.86173481,
+      "num_input_tokens_seen": 17097065,
+      "step": 801,
+      "time_per_iteration": 2.6491847038269043
+    },
+    {
+      "auxiliary_loss_clip": 0.01261474,
+      "auxiliary_loss_mlp": 0.01041973,
+      "balance_loss_clip": 1.07828903,
+      "balance_loss_mlp": 1.03147697,
+      "epoch": 0.09643479829255096,
+      "flos": 20740387789440.0,
+      "grad_norm": 2.1288479024187357,
+      "language_loss": 0.83700323,
+      "learning_rate": 3.953954420653706e-06,
+      "loss": 0.86003768,
+      "num_input_tokens_seen": 17114090,
+      "step": 802,
+      "time_per_iteration": 2.6190898418426514
+    },
+    {
+      "auxiliary_loss_clip": 0.01267768,
+      "auxiliary_loss_mlp": 0.01045517,
+      "balance_loss_clip": 1.0749346,
+      "balance_loss_mlp": 1.03448415,
+      "epoch": 0.09655504118319004,
+      "flos": 24420476833920.0,
+      "grad_norm": 1.9221167582716103,
+      "language_loss": 0.88304329,
+      "learning_rate": 3.953788083764798e-06,
+      "loss": 0.90617615,
+      "num_input_tokens_seen": 17133325,
+      "step": 803,
+      "time_per_iteration": 2.7077274322509766
+    },
+    {
+      "auxiliary_loss_clip": 0.0128615,
+      "auxiliary_loss_mlp": 0.01034973,
+      "balance_loss_clip": 1.06713772,
+      "balance_loss_mlp": 1.02454185,
+      "epoch": 0.09667528407382914,
+      "flos": 18441961344000.0,
+      "grad_norm": 1.8282159013775727,
+      "language_loss": 0.92110342,
+      "learning_rate": 3.953621450487792e-06,
+      "loss": 0.94431466,
+      "num_input_tokens_seen": 17151945,
+      "step": 804,
+      "time_per_iteration": 2.6619558334350586
+    },
+    {
+      "auxiliary_loss_clip": 0.01135352,
+      "auxiliary_loss_mlp": 0.010014,
+      "balance_loss_clip": 1.02874923,
+      "balance_loss_mlp": 0.99839556,
+      "epoch": 0.09679552696446822,
+      "flos": 70816455544320.0,
+      "grad_norm": 0.8751751168082863,
+      "language_loss": 0.61215997,
+      "learning_rate": 3.953454520847964e-06,
+      "loss": 0.63352752,
+      "num_input_tokens_seen": 17216790,
+      "step": 805,
+      "time_per_iteration": 3.3609158992767334
+    },
+    {
+      "auxiliary_loss_clip": 0.01262373,
+      "auxiliary_loss_mlp": 0.01046954,
+      "balance_loss_clip": 1.06641662,
+      "balance_loss_mlp": 1.03386497,
+      "epoch": 0.09691576985510732,
+      "flos": 21945514020480.0,
+      "grad_norm": 2.1510389327530404,
+      "language_loss": 0.73803437,
+      "learning_rate": 3.9532872948706395e-06,
+      "loss": 0.76112765,
+      "num_input_tokens_seen": 17236285,
+      "step": 806,
+      "time_per_iteration": 2.7237436771392822
+    },
+    {
+      "auxiliary_loss_clip": 0.01271882,
+      "auxiliary_loss_mlp": 0.01041129,
+      "balance_loss_clip": 1.06857944,
+      "balance_loss_mlp": 1.02982783,
+      "epoch": 0.09703601274574641,
+      "flos": 17965211103360.0,
+      "grad_norm": 6.957718637586831,
+      "language_loss": 0.8282088,
+      "learning_rate": 3.9531197725811845e-06,
+      "loss": 0.85133886,
+      "num_input_tokens_seen": 17251670,
+      "step": 807,
+      "time_per_iteration": 2.6541943550109863
+    },
+    {
+      "auxiliary_loss_clip": 0.01256613,
+      "auxiliary_loss_mlp": 0.01042989,
+      "balance_loss_clip": 1.07651031,
+      "balance_loss_mlp": 1.03270769,
+      "epoch": 0.0971562556363855,
+      "flos": 22162162901760.0,
+      "grad_norm": 2.8295576407147336,
+      "language_loss": 0.87737793,
+      "learning_rate": 3.952951954005013e-06,
+      "loss": 0.90037394,
+      "num_input_tokens_seen": 17271355,
+      "step": 808,
+      "time_per_iteration": 2.6537680625915527
+    },
+    {
+      "auxiliary_loss_clip": 0.01265838,
+      "auxiliary_loss_mlp": 0.01048768,
+      "balance_loss_clip": 1.06437588,
+      "balance_loss_mlp": 1.03797317,
+      "epoch": 0.0972764985270246,
+      "flos": 25848716394240.0,
+      "grad_norm": 1.686042288218959,
+      "language_loss": 0.84891129,
+      "learning_rate": 3.952783839167584e-06,
+      "loss": 0.87205738,
+      "num_input_tokens_seen": 17291400,
+      "step": 809,
+      "time_per_iteration": 2.746051549911499
+    },
+    {
+      "auxiliary_loss_clip": 0.01260836,
+      "auxiliary_loss_mlp": 0.01043475,
+      "balance_loss_clip": 1.07037258,
+      "balance_loss_mlp": 1.03241849,
+      "epoch": 0.09739674141766368,
+      "flos": 20339373375360.0,
+      "grad_norm": 4.429252567250951,
+      "language_loss": 0.74280572,
+      "learning_rate": 3.952615428094398e-06,
+      "loss": 0.76584882,
+      "num_input_tokens_seen": 17310920,
+      "step": 810,
+      "time_per_iteration": 2.715937614440918
+    },
+    {
+      "auxiliary_loss_clip": 0.01269444,
+      "auxiliary_loss_mlp": 0.0104653,
+      "balance_loss_clip": 1.06056929,
+      "balance_loss_mlp": 1.0354495,
+      "epoch": 0.09751698430830277,
+      "flos": 15743059188480.0,
+      "grad_norm": 2.2795011088167434,
+      "language_loss": 0.7362777,
+      "learning_rate": 3.952446720811004e-06,
+      "loss": 0.7594375,
+      "num_input_tokens_seen": 17329245,
+      "step": 811,
+      "time_per_iteration": 2.687995195388794
+    },
+    {
+      "auxiliary_loss_clip": 0.01157801,
+      "auxiliary_loss_mlp": 0.01001591,
+      "balance_loss_clip": 1.02446008,
+      "balance_loss_mlp": 0.99856341,
+      "epoch": 0.09763722719894186,
+      "flos": 63716806800000.0,
+      "grad_norm": 0.8371833132609219,
+      "language_loss": 0.63621366,
+      "learning_rate": 3.952277717342995e-06,
+      "loss": 0.65780759,
+      "num_input_tokens_seen": 17395680,
+      "step": 812,
+      "time_per_iteration": 3.3632519245147705
+    },
+    {
+      "auxiliary_loss_clip": 0.01273646,
+      "auxiliary_loss_mlp": 0.01040538,
+      "balance_loss_clip": 1.06792736,
+      "balance_loss_mlp": 1.02943349,
+      "epoch": 0.09775747008958095,
+      "flos": 22090916275200.0,
+      "grad_norm": 1.9223033806859926,
+      "language_loss": 0.85391176,
+      "learning_rate": 3.952108417716009e-06,
+      "loss": 0.87705362,
+      "num_input_tokens_seen": 17415135,
+      "step": 813,
+      "time_per_iteration": 2.714770793914795
+    },
+    {
+      "auxiliary_loss_clip": 0.01260065,
+      "auxiliary_loss_mlp": 0.01039475,
+      "balance_loss_clip": 1.07266688,
+      "balance_loss_mlp": 1.0279479,
+      "epoch": 0.09787771298022005,
+      "flos": 21286050272640.0,
+      "grad_norm": 2.1242013133456266,
+      "language_loss": 0.84707773,
+      "learning_rate": 3.951938821955727e-06,
+      "loss": 0.87007314,
+      "num_input_tokens_seen": 17434535,
+      "step": 814,
+      "time_per_iteration": 2.640007972717285
+    },
+    {
+      "auxiliary_loss_clip": 0.01263621,
+      "auxiliary_loss_mlp": 0.01035073,
+      "balance_loss_clip": 1.06779623,
+      "balance_loss_mlp": 1.02384365,
+      "epoch": 0.09799795587085913,
+      "flos": 22054574689920.0,
+      "grad_norm": 1.6099935551515854,
+      "language_loss": 0.7646513,
+      "learning_rate": 3.9517689300878786e-06,
+      "loss": 0.78763831,
+      "num_input_tokens_seen": 17454270,
+      "step": 815,
+      "time_per_iteration": 2.757657051086426
+    },
+    {
+      "auxiliary_loss_clip": 0.01253997,
+      "auxiliary_loss_mlp": 0.01047022,
+      "balance_loss_clip": 1.07209718,
+      "balance_loss_mlp": 1.03615582,
+      "epoch": 0.09811819876149823,
+      "flos": 22163743100160.0,
+      "grad_norm": 1.7919273383562389,
+      "language_loss": 0.78586268,
+      "learning_rate": 3.951598742138236e-06,
+      "loss": 0.80887288,
+      "num_input_tokens_seen": 17472995,
+      "step": 816,
+      "time_per_iteration": 2.6263532638549805
+    },
+    {
+      "auxiliary_loss_clip": 0.01269019,
+      "auxiliary_loss_mlp": 0.01035567,
+      "balance_loss_clip": 1.06389797,
+      "balance_loss_mlp": 1.02483785,
+      "epoch": 0.09823844165213731,
+      "flos": 22231111057920.0,
+      "grad_norm": 2.1801973253635922,
+      "language_loss": 0.79556644,
+      "learning_rate": 3.951428258132615e-06,
+      "loss": 0.81861228,
+      "num_input_tokens_seen": 17491115,
+      "step": 817,
+      "time_per_iteration": 2.7390787601470947
+    },
+    {
+      "auxiliary_loss_clip": 0.01273045,
+      "auxiliary_loss_mlp": 0.01040082,
+      "balance_loss_clip": 1.06994796,
+      "balance_loss_mlp": 1.02877498,
+      "epoch": 0.09835868454277641,
+      "flos": 22487728798080.0,
+      "grad_norm": 1.776477416037337,
+      "language_loss": 0.84253293,
+      "learning_rate": 3.951257478096879e-06,
+      "loss": 0.86566412,
+      "num_input_tokens_seen": 17509480,
+      "step": 818,
+      "time_per_iteration": 2.706880807876587
+    },
+    {
+      "auxiliary_loss_clip": 0.01272568,
+      "auxiliary_loss_mlp": 0.01382081,
+      "balance_loss_clip": 1.06921041,
+      "balance_loss_mlp": 1.0001204,
+      "epoch": 0.0984789274334155,
+      "flos": 16362554077440.0,
+      "grad_norm": 2.8762324977174516,
+      "language_loss": 0.68911278,
+      "learning_rate": 3.951086402056936e-06,
+      "loss": 0.71565932,
+      "num_input_tokens_seen": 17524080,
+      "step": 819,
+      "time_per_iteration": 2.718003034591675
+    },
+    {
+      "auxiliary_loss_clip": 0.01290994,
+      "auxiliary_loss_mlp": 0.01381842,
+      "balance_loss_clip": 1.06191313,
+      "balance_loss_mlp": 1.00009346,
+      "epoch": 0.09859917032405459,
+      "flos": 24243545416320.0,
+      "grad_norm": 2.149533985725929,
+      "language_loss": 0.83631968,
+      "learning_rate": 3.950915030038735e-06,
+      "loss": 0.86304808,
+      "num_input_tokens_seen": 17543875,
+      "step": 820,
+      "time_per_iteration": 2.893578052520752
+    },
+    {
+      "auxiliary_loss_clip": 0.01259869,
+      "auxiliary_loss_mlp": 0.01045854,
+      "balance_loss_clip": 1.07076788,
+      "balance_loss_mlp": 1.03500032,
+      "epoch": 0.09871941321469369,
+      "flos": 17420195064960.0,
+      "grad_norm": 2.2767423395215824,
+      "language_loss": 0.83619344,
+      "learning_rate": 3.9507433620682765e-06,
+      "loss": 0.85925066,
+      "num_input_tokens_seen": 17560810,
+      "step": 821,
+      "time_per_iteration": 2.8442482948303223
+    },
+    {
+      "auxiliary_loss_clip": 0.01273508,
+      "auxiliary_loss_mlp": 0.01045431,
+      "balance_loss_clip": 1.06415713,
+      "balance_loss_mlp": 1.03399861,
+      "epoch": 0.09883965610533277,
+      "flos": 28477341590400.0,
+      "grad_norm": 2.0182639344351903,
+      "language_loss": 0.88345504,
+      "learning_rate": 3.9505713981716e-06,
+      "loss": 0.90664446,
+      "num_input_tokens_seen": 17583640,
+      "step": 822,
+      "time_per_iteration": 3.7563037872314453
+    },
+    {
+      "auxiliary_loss_clip": 0.01269132,
+      "auxiliary_loss_mlp": 0.01038656,
+      "balance_loss_clip": 1.0717659,
+      "balance_loss_mlp": 1.02776599,
+      "epoch": 0.09895989899597187,
+      "flos": 23693932437120.0,
+      "grad_norm": 3.4748297216865724,
+      "language_loss": 0.81292576,
+      "learning_rate": 3.950399138374795e-06,
+      "loss": 0.8360036,
+      "num_input_tokens_seen": 17602720,
+      "step": 823,
+      "time_per_iteration": 2.6902894973754883
+    },
+    {
+      "auxiliary_loss_clip": 0.01259359,
+      "auxiliary_loss_mlp": 0.01043401,
+      "balance_loss_clip": 1.06915379,
+      "balance_loss_mlp": 1.03282106,
+      "epoch": 0.09908014188661095,
+      "flos": 24679608526080.0,
+      "grad_norm": 1.7405262255222995,
+      "language_loss": 0.74390352,
+      "learning_rate": 3.95022658270399e-06,
+      "loss": 0.76693112,
+      "num_input_tokens_seen": 17623085,
+      "step": 824,
+      "time_per_iteration": 3.6179234981536865
+    },
+    {
+      "auxiliary_loss_clip": 0.01261567,
+      "auxiliary_loss_mlp": 0.01043394,
+      "balance_loss_clip": 1.06702232,
+      "balance_loss_mlp": 1.03184831,
+      "epoch": 0.09920038477725004,
+      "flos": 14064307200000.0,
+      "grad_norm": 1.836535596919007,
+      "language_loss": 0.78320646,
+      "learning_rate": 3.9500537311853635e-06,
+      "loss": 0.80625606,
+      "num_input_tokens_seen": 17641040,
+      "step": 825,
+      "time_per_iteration": 3.658647060394287
+    },
+    {
+      "auxiliary_loss_clip": 0.01258175,
+      "auxiliary_loss_mlp": 0.01046281,
+      "balance_loss_clip": 1.06711459,
+      "balance_loss_mlp": 1.03518307,
+      "epoch": 0.09932062766788914,
+      "flos": 13407070095360.0,
+      "grad_norm": 6.204833895853051,
+      "language_loss": 0.83622974,
+      "learning_rate": 3.949880583845136e-06,
+      "loss": 0.85927427,
+      "num_input_tokens_seen": 17659115,
+      "step": 826,
+      "time_per_iteration": 2.626492977142334
+    },
+    {
+      "auxiliary_loss_clip": 0.01266906,
+      "auxiliary_loss_mlp": 0.01031161,
+      "balance_loss_clip": 1.06944168,
+      "balance_loss_mlp": 1.01996756,
+      "epoch": 0.09944087055852822,
+      "flos": 19500751566720.0,
+      "grad_norm": 1.856257042347427,
+      "language_loss": 0.81288731,
+      "learning_rate": 3.949707140709575e-06,
+      "loss": 0.835868,
+      "num_input_tokens_seen": 17678845,
+      "step": 827,
+      "time_per_iteration": 2.6937332153320312
+    },
+    {
+      "auxiliary_loss_clip": 0.01260806,
+      "auxiliary_loss_mlp": 0.01052682,
+      "balance_loss_clip": 1.06809485,
+      "balance_loss_mlp": 1.04046869,
+      "epoch": 0.09956111344916732,
+      "flos": 17749100926080.0,
+      "grad_norm": 4.798361168953554,
+      "language_loss": 0.83570206,
+      "learning_rate": 3.949533401804991e-06,
+      "loss": 0.85883695,
+      "num_input_tokens_seen": 17695750,
+      "step": 828,
+      "time_per_iteration": 2.6031384468078613
+    },
+    {
+      "auxiliary_loss_clip": 0.01260318,
+      "auxiliary_loss_mlp": 0.01381784,
+      "balance_loss_clip": 1.07032692,
+      "balance_loss_mlp": 1.00008214,
+      "epoch": 0.0996813563398064,
+      "flos": 17967581400960.0,
+      "grad_norm": 1.9155407551141033,
+      "language_loss": 0.90691471,
+      "learning_rate": 3.949359367157739e-06,
+      "loss": 0.93333578,
+      "num_input_tokens_seen": 17714445,
+      "step": 829,
+      "time_per_iteration": 2.6590731143951416
+    },
+    {
+      "auxiliary_loss_clip": 0.01268514,
+      "auxiliary_loss_mlp": 0.01044666,
+      "balance_loss_clip": 1.07104897,
+      "balance_loss_mlp": 1.03300738,
+      "epoch": 0.0998015992304455,
+      "flos": 17457039440640.0,
+      "grad_norm": 2.9700342022937543,
+      "language_loss": 0.7538172,
+      "learning_rate": 3.949185036794222e-06,
+      "loss": 0.77694905,
+      "num_input_tokens_seen": 17732455,
+      "step": 830,
+      "time_per_iteration": 2.6086459159851074
+    },
+    {
+      "auxiliary_loss_clip": 0.01249574,
+      "auxiliary_loss_mlp": 0.01044004,
+      "balance_loss_clip": 1.07008517,
+      "balance_loss_mlp": 1.03250647,
+      "epoch": 0.0999218421210846,
+      "flos": 25888757080320.0,
+      "grad_norm": 1.559974405846854,
+      "language_loss": 0.78980774,
+      "learning_rate": 3.949010410740884e-06,
+      "loss": 0.81274354,
+      "num_input_tokens_seen": 17755280,
+      "step": 831,
+      "time_per_iteration": 2.72861647605896
+    },
+    {
+      "auxiliary_loss_clip": 0.01252524,
+      "auxiliary_loss_mlp": 0.01381927,
+      "balance_loss_clip": 1.06290185,
+      "balance_loss_mlp": 1.00005341,
+      "epoch": 0.10004208501172368,
+      "flos": 21215916967680.0,
+      "grad_norm": 1.6966446869041927,
+      "language_loss": 0.86192918,
+      "learning_rate": 3.948835489024216e-06,
+      "loss": 0.88827366,
+      "num_input_tokens_seen": 17775015,
+      "step": 832,
+      "time_per_iteration": 2.674177885055542
+    },
+    {
+      "auxiliary_loss_clip": 0.01259499,
+      "auxiliary_loss_mlp": 0.01035332,
+      "balance_loss_clip": 1.06742716,
+      "balance_loss_mlp": 1.0247401,
+      "epoch": 0.10016232790236278,
+      "flos": 17348409734400.0,
+      "grad_norm": 2.36440150990516,
+      "language_loss": 0.90472925,
+      "learning_rate": 3.948660271670755e-06,
+      "loss": 0.92767751,
+      "num_input_tokens_seen": 17792165,
+      "step": 833,
+      "time_per_iteration": 2.666325330734253
+    },
+    {
+      "auxiliary_loss_clip": 0.01261901,
+      "auxiliary_loss_mlp": 0.01043088,
+      "balance_loss_clip": 1.06690061,
+      "balance_loss_mlp": 1.03161454,
+      "epoch": 0.10028257079300186,
+      "flos": 25666541591040.0,
+      "grad_norm": 2.542371289097284,
+      "language_loss": 0.84309924,
+      "learning_rate": 3.948484758707079e-06,
+      "loss": 0.86614907,
+      "num_input_tokens_seen": 17811765,
+      "step": 834,
+      "time_per_iteration": 2.7097980976104736
+    },
+    {
+      "auxiliary_loss_clip": 0.01262331,
+      "auxiliary_loss_mlp": 0.01044889,
+      "balance_loss_clip": 1.06081676,
+      "balance_loss_mlp": 1.03348625,
+      "epoch": 0.10040281368364096,
+      "flos": 25156035544320.0,
+      "grad_norm": 2.1045040790614453,
+      "language_loss": 0.83565807,
+      "learning_rate": 3.948308950159815e-06,
+      "loss": 0.85873032,
+      "num_input_tokens_seen": 17830445,
+      "step": 835,
+      "time_per_iteration": 2.700568199157715
+    },
+    {
+      "auxiliary_loss_clip": 0.01265548,
+      "auxiliary_loss_mlp": 0.01042235,
+      "balance_loss_clip": 1.06084323,
+      "balance_loss_mlp": 1.02951598,
+      "epoch": 0.10052305657428004,
+      "flos": 17603303621760.0,
+      "grad_norm": 2.5213307957377458,
+      "language_loss": 0.75880218,
+      "learning_rate": 3.9481328460556326e-06,
+      "loss": 0.78188008,
+      "num_input_tokens_seen": 17847665,
+      "step": 836,
+      "time_per_iteration": 2.7336771488189697
+    },
+    {
+      "auxiliary_loss_clip": 0.01256537,
+      "auxiliary_loss_mlp": 0.01047063,
+      "balance_loss_clip": 1.0636363,
+      "balance_loss_mlp": 1.035393,
+      "epoch": 0.10064329946491914,
+      "flos": 18660154510080.0,
+      "grad_norm": 2.3997821760626685,
+      "language_loss": 0.89358771,
+      "learning_rate": 3.9479564464212455e-06,
+      "loss": 0.91662371,
+      "num_input_tokens_seen": 17866825,
+      "step": 837,
+      "time_per_iteration": 2.6653454303741455
+    },
+    {
+      "auxiliary_loss_clip": 0.01256748,
+      "auxiliary_loss_mlp": 0.01043638,
+      "balance_loss_clip": 1.07066655,
+      "balance_loss_mlp": 1.03233743,
+      "epoch": 0.10076354235555823,
+      "flos": 17199056983680.0,
+      "grad_norm": 2.479100710546662,
+      "language_loss": 0.76479101,
+      "learning_rate": 3.947779751283414e-06,
+      "loss": 0.78779483,
+      "num_input_tokens_seen": 17883995,
+      "step": 838,
+      "time_per_iteration": 2.660522937774658
+    },
+    {
+      "auxiliary_loss_clip": 0.0126152,
+      "auxiliary_loss_mlp": 0.01382152,
+      "balance_loss_clip": 1.07413936,
+      "balance_loss_mlp": 1.00007176,
+      "epoch": 0.10088378524619732,
+      "flos": 22962252395520.0,
+      "grad_norm": 1.8272565519858386,
+      "language_loss": 0.75924706,
+      "learning_rate": 3.947602760668944e-06,
+      "loss": 0.78568387,
+      "num_input_tokens_seen": 17903785,
+      "step": 839,
+      "time_per_iteration": 2.6775152683258057
+    },
+    {
+      "auxiliary_loss_clip": 0.01260579,
+      "auxiliary_loss_mlp": 0.01046013,
+      "balance_loss_clip": 1.07313669,
+      "balance_loss_mlp": 1.03535581,
+      "epoch": 0.10100402813683641,
+      "flos": 37885828746240.0,
+      "grad_norm": 1.8394781476876665,
+      "language_loss": 0.71493125,
+      "learning_rate": 3.947425474604684e-06,
+      "loss": 0.73799711,
+      "num_input_tokens_seen": 17927720,
+      "step": 840,
+      "time_per_iteration": 2.8059773445129395
+    },
+    {
+      "auxiliary_loss_clip": 0.01265822,
+      "auxiliary_loss_mlp": 0.01045617,
+      "balance_loss_clip": 1.06611538,
+      "balance_loss_mlp": 1.03446507,
+      "epoch": 0.1011242710274755,
+      "flos": 21543458112000.0,
+      "grad_norm": 2.805282851197344,
+      "language_loss": 0.92293715,
+      "learning_rate": 3.947247893117528e-06,
+      "loss": 0.94605154,
+      "num_input_tokens_seen": 17946225,
+      "step": 841,
+      "time_per_iteration": 2.660198211669922
+    },
+    {
+      "auxiliary_loss_clip": 0.01250261,
+      "auxiliary_loss_mlp": 0.01045229,
+      "balance_loss_clip": 1.06554389,
+      "balance_loss_mlp": 1.03330171,
+      "epoch": 0.10124451391811459,
+      "flos": 13621456419840.0,
+      "grad_norm": 3.495060560517996,
+      "language_loss": 0.69298029,
+      "learning_rate": 3.947070016234413e-06,
+      "loss": 0.71593511,
+      "num_input_tokens_seen": 17962015,
+      "step": 842,
+      "time_per_iteration": 2.659862518310547
+    },
+    {
+      "auxiliary_loss_clip": 0.0127696,
+      "auxiliary_loss_mlp": 0.01046639,
+      "balance_loss_clip": 1.06928921,
+      "balance_loss_mlp": 1.03533792,
+      "epoch": 0.10136475680875369,
+      "flos": 16649228522880.0,
+      "grad_norm": 2.2885297790208425,
+      "language_loss": 0.7480973,
+      "learning_rate": 3.946891843982326e-06,
+      "loss": 0.77133334,
+      "num_input_tokens_seen": 17979680,
+      "step": 843,
+      "time_per_iteration": 2.6850411891937256
+    },
+    {
+      "auxiliary_loss_clip": 0.01258342,
+      "auxiliary_loss_mlp": 0.01046414,
+      "balance_loss_clip": 1.06913555,
+      "balance_loss_mlp": 1.0340755,
+      "epoch": 0.10148499969939277,
+      "flos": 19461034103040.0,
+      "grad_norm": 1.964106711209104,
+      "language_loss": 0.74405771,
+      "learning_rate": 3.9467133763882935e-06,
+      "loss": 0.76710528,
+      "num_input_tokens_seen": 17998145,
+      "step": 844,
+      "time_per_iteration": 2.6363353729248047
+    },
+    {
+      "auxiliary_loss_clip": 0.01244059,
+      "auxiliary_loss_mlp": 0.01044794,
+      "balance_loss_clip": 1.06625843,
+      "balance_loss_mlp": 1.03295052,
+      "epoch": 0.10160524259003187,
+      "flos": 21104988791040.0,
+      "grad_norm": 2.9522221130623714,
+      "language_loss": 0.86132932,
+      "learning_rate": 3.9465346134793905e-06,
+      "loss": 0.88421786,
+      "num_input_tokens_seen": 18017955,
+      "step": 845,
+      "time_per_iteration": 2.6545145511627197
+    },
+    {
+      "auxiliary_loss_clip": 0.01276987,
+      "auxiliary_loss_mlp": 0.01048115,
+      "balance_loss_clip": 1.06849754,
+      "balance_loss_mlp": 1.03735042,
+      "epoch": 0.10172548548067095,
+      "flos": 17712687513600.0,
+      "grad_norm": 2.0932352823446925,
+      "language_loss": 0.79480708,
+      "learning_rate": 3.9463555552827335e-06,
+      "loss": 0.81805813,
+      "num_input_tokens_seen": 18035125,
+      "step": 846,
+      "time_per_iteration": 2.8514316082000732
+    },
+    {
+      "auxiliary_loss_clip": 0.01245859,
+      "auxiliary_loss_mlp": 0.01043467,
+      "balance_loss_clip": 1.06764674,
+      "balance_loss_mlp": 1.03317928,
+      "epoch": 0.10184572837131005,
+      "flos": 21104845136640.0,
+      "grad_norm": 3.098912815080973,
+      "language_loss": 0.86222124,
+      "learning_rate": 3.946176201825487e-06,
+      "loss": 0.88511455,
+      "num_input_tokens_seen": 18053160,
+      "step": 847,
+      "time_per_iteration": 2.6724343299865723
+    },
+    {
+      "auxiliary_loss_clip": 0.01268965,
+      "auxiliary_loss_mlp": 0.01040261,
+      "balance_loss_clip": 1.06960464,
+      "balance_loss_mlp": 1.02870953,
+      "epoch": 0.10196597126194913,
+      "flos": 26067591918720.0,
+      "grad_norm": 1.8513949015506337,
+      "language_loss": 0.83607209,
+      "learning_rate": 3.9459965531348575e-06,
+      "loss": 0.8591643,
+      "num_input_tokens_seen": 18072815,
+      "step": 848,
+      "time_per_iteration": 2.716082811355591
+    },
+    {
+      "auxiliary_loss_clip": 0.01271563,
+      "auxiliary_loss_mlp": 0.01381918,
+      "balance_loss_clip": 1.06843591,
+      "balance_loss_mlp": 1.0001955,
+      "epoch": 0.10208621415258823,
+      "flos": 29314634595840.0,
+      "grad_norm": 2.1345290351789252,
+      "language_loss": 0.85291898,
+      "learning_rate": 3.945816609238098e-06,
+      "loss": 0.87945378,
+      "num_input_tokens_seen": 18092225,
+      "step": 849,
+      "time_per_iteration": 3.68448543548584
+    },
+    {
+      "auxiliary_loss_clip": 0.01270229,
+      "auxiliary_loss_mlp": 0.01048822,
+      "balance_loss_clip": 1.06310606,
+      "balance_loss_mlp": 1.03644216,
+      "epoch": 0.10220645704322733,
+      "flos": 23805794367360.0,
+      "grad_norm": 2.3858700822845758,
+      "language_loss": 0.85309047,
+      "learning_rate": 3.945636370162507e-06,
+      "loss": 0.87628102,
+      "num_input_tokens_seen": 18112335,
+      "step": 850,
+      "time_per_iteration": 3.7249515056610107
+    },
+    {
+      "auxiliary_loss_clip": 0.01255389,
+      "auxiliary_loss_mlp": 0.01035725,
+      "balance_loss_clip": 1.06751108,
+      "balance_loss_mlp": 1.02477562,
+      "epoch": 0.10232669993386641,
+      "flos": 23218546913280.0,
+      "grad_norm": 1.722928240621308,
+      "language_loss": 0.79065198,
+      "learning_rate": 3.945455835935425e-06,
+      "loss": 0.81356311,
+      "num_input_tokens_seen": 18131520,
+      "step": 851,
+      "time_per_iteration": 3.6169731616973877
+    },
+    {
+      "auxiliary_loss_clip": 0.01264791,
+      "auxiliary_loss_mlp": 0.01039102,
+      "balance_loss_clip": 1.06474185,
+      "balance_loss_mlp": 1.0275563,
+      "epoch": 0.1024469428245055,
+      "flos": 22922929981440.0,
+      "grad_norm": 2.490852296560856,
+      "language_loss": 0.75026762,
+      "learning_rate": 3.94527500658424e-06,
+      "loss": 0.77330661,
+      "num_input_tokens_seen": 18149185,
+      "step": 852,
+      "time_per_iteration": 2.7478106021881104
+    },
+    {
+      "auxiliary_loss_clip": 0.01280517,
+      "auxiliary_loss_mlp": 0.01039768,
+      "balance_loss_clip": 1.06256223,
+      "balance_loss_mlp": 1.02896214,
+      "epoch": 0.10256718571514459,
+      "flos": 31359495957120.0,
+      "grad_norm": 2.731478306272976,
+      "language_loss": 0.81097466,
+      "learning_rate": 3.945093882136382e-06,
+      "loss": 0.83417749,
+      "num_input_tokens_seen": 18172960,
+      "step": 853,
+      "time_per_iteration": 2.8127009868621826
+    },
+    {
+      "auxiliary_loss_clip": 0.01264696,
+      "auxiliary_loss_mlp": 0.01381682,
+      "balance_loss_clip": 1.06744969,
+      "balance_loss_mlp": 1.00021458,
+      "epoch": 0.10268742860578368,
+      "flos": 23474877344640.0,
+      "grad_norm": 1.9303570663127871,
+      "language_loss": 0.8468017,
+      "learning_rate": 3.944912462619329e-06,
+      "loss": 0.87326545,
+      "num_input_tokens_seen": 18191925,
+      "step": 854,
+      "time_per_iteration": 2.7793755531311035
+    },
+    {
+      "auxiliary_loss_clip": 0.01266423,
+      "auxiliary_loss_mlp": 0.01044391,
+      "balance_loss_clip": 1.06545341,
+      "balance_loss_mlp": 1.03329253,
+      "epoch": 0.10280767149642277,
+      "flos": 25520313323520.0,
+      "grad_norm": 1.9030385883114762,
+      "language_loss": 0.80513036,
+      "learning_rate": 3.9447307480606025e-06,
+      "loss": 0.82823849,
+      "num_input_tokens_seen": 18212010,
+      "step": 855,
+      "time_per_iteration": 2.7391369342803955
+    },
+    {
+      "auxiliary_loss_clip": 0.01255727,
+      "auxiliary_loss_mlp": 0.0104189,
+      "balance_loss_clip": 1.06555831,
+      "balance_loss_mlp": 1.0300405,
+      "epoch": 0.10292791438706186,
+      "flos": 17347691462400.0,
+      "grad_norm": 1.940753126979139,
+      "language_loss": 0.90023172,
+      "learning_rate": 3.944548738487767e-06,
+      "loss": 0.92320788,
+      "num_input_tokens_seen": 18229525,
+      "step": 856,
+      "time_per_iteration": 2.7022886276245117
+    },
+    {
+      "auxiliary_loss_clip": 0.01255503,
+      "auxiliary_loss_mlp": 0.01045918,
+      "balance_loss_clip": 1.07266712,
+      "balance_loss_mlp": 1.03522539,
+      "epoch": 0.10304815727770096,
+      "flos": 27052693390080.0,
+      "grad_norm": 1.9653499699995784,
+      "language_loss": 0.90910232,
+      "learning_rate": 3.944366433928434e-06,
+      "loss": 0.93211651,
+      "num_input_tokens_seen": 18249505,
+      "step": 857,
+      "time_per_iteration": 2.68328857421875
+    },
+    {
+      "auxiliary_loss_clip": 0.01257104,
+      "auxiliary_loss_mlp": 0.01046756,
+      "balance_loss_clip": 1.06396198,
+      "balance_loss_mlp": 1.03649223,
+      "epoch": 0.10316840016834004,
+      "flos": 22782591544320.0,
+      "grad_norm": 1.475390875823502,
+      "language_loss": 0.8367635,
+      "learning_rate": 3.9441838344102594e-06,
+      "loss": 0.85980207,
+      "num_input_tokens_seen": 18269230,
+      "step": 858,
+      "time_per_iteration": 2.699615478515625
+    },
+    {
+      "auxiliary_loss_clip": 0.0126862,
+      "auxiliary_loss_mlp": 0.01043831,
+      "balance_loss_clip": 1.06742454,
+      "balance_loss_mlp": 1.03297114,
+      "epoch": 0.10328864305897914,
+      "flos": 20704584908160.0,
+      "grad_norm": 2.3069720942225396,
+      "language_loss": 0.67142051,
+      "learning_rate": 3.944000939960943e-06,
+      "loss": 0.69454503,
+      "num_input_tokens_seen": 18287955,
+      "step": 859,
+      "time_per_iteration": 2.7029082775115967
+    },
+    {
+      "auxiliary_loss_clip": 0.01258006,
+      "auxiliary_loss_mlp": 0.01038151,
+      "balance_loss_clip": 1.06629217,
+      "balance_loss_mlp": 1.02774954,
+      "epoch": 0.10340888594961822,
+      "flos": 28478814048000.0,
+      "grad_norm": 1.791838040555011,
+      "language_loss": 0.79669595,
+      "learning_rate": 3.943817750608229e-06,
+      "loss": 0.81965756,
+      "num_input_tokens_seen": 18310505,
+      "step": 860,
+      "time_per_iteration": 2.7225420475006104
+    },
+    {
+      "auxiliary_loss_clip": 0.01264519,
+      "auxiliary_loss_mlp": 0.010383,
+      "balance_loss_clip": 1.07047236,
+      "balance_loss_mlp": 1.02745795,
+      "epoch": 0.10352912884025732,
+      "flos": 13370333460480.0,
+      "grad_norm": 2.599571455022866,
+      "language_loss": 0.82258701,
+      "learning_rate": 3.943634266379908e-06,
+      "loss": 0.84561527,
+      "num_input_tokens_seen": 18327400,
+      "step": 861,
+      "time_per_iteration": 2.666307210922241
+    },
+    {
+      "auxiliary_loss_clip": 0.01257965,
+      "auxiliary_loss_mlp": 0.01045831,
+      "balance_loss_clip": 1.06655717,
+      "balance_loss_mlp": 1.03443491,
+      "epoch": 0.10364937173089642,
+      "flos": 25558558329600.0,
+      "grad_norm": 2.108935773463216,
+      "language_loss": 0.84808969,
+      "learning_rate": 3.943450487303815e-06,
+      "loss": 0.87112761,
+      "num_input_tokens_seen": 18347895,
+      "step": 862,
+      "time_per_iteration": 2.6944217681884766
+    },
+    {
+      "auxiliary_loss_clip": 0.01253132,
+      "auxiliary_loss_mlp": 0.01035798,
+      "balance_loss_clip": 1.0664103,
+      "balance_loss_mlp": 1.02490246,
+      "epoch": 0.1037696146215355,
+      "flos": 21215486004480.0,
+      "grad_norm": 2.0357794123360926,
+      "language_loss": 0.85396701,
+      "learning_rate": 3.943266413407827e-06,
+      "loss": 0.87685633,
+      "num_input_tokens_seen": 18367170,
+      "step": 863,
+      "time_per_iteration": 2.70969820022583
+    },
+    {
+      "auxiliary_loss_clip": 0.01260747,
+      "auxiliary_loss_mlp": 0.01045225,
+      "balance_loss_clip": 1.07013011,
+      "balance_loss_mlp": 1.03407288,
+      "epoch": 0.1038898575121746,
+      "flos": 25807382818560.0,
+      "grad_norm": 2.111924961033968,
+      "language_loss": 0.84791493,
+      "learning_rate": 3.94308204471987e-06,
+      "loss": 0.87097454,
+      "num_input_tokens_seen": 18386185,
+      "step": 864,
+      "time_per_iteration": 2.6796107292175293
+    },
+    {
+      "auxiliary_loss_clip": 0.01269975,
+      "auxiliary_loss_mlp": 0.01031289,
+      "balance_loss_clip": 1.06406879,
+      "balance_loss_mlp": 1.02120972,
+      "epoch": 0.10401010040281368,
+      "flos": 19062425900160.0,
+      "grad_norm": 2.4466474752070346,
+      "language_loss": 0.74872047,
+      "learning_rate": 3.942897381267912e-06,
+      "loss": 0.77173311,
+      "num_input_tokens_seen": 18402550,
+      "step": 865,
+      "time_per_iteration": 2.70306658744812
+    },
+    {
+      "auxiliary_loss_clip": 0.0125903,
+      "auxiliary_loss_mlp": 0.01041101,
+      "balance_loss_clip": 1.06780374,
+      "balance_loss_mlp": 1.03013968,
+      "epoch": 0.10413034329345278,
+      "flos": 16355119962240.0,
+      "grad_norm": 3.107924121936569,
+      "language_loss": 0.66178596,
+      "learning_rate": 3.942712423079965e-06,
+      "loss": 0.68478727,
+      "num_input_tokens_seen": 18418940,
+      "step": 866,
+      "time_per_iteration": 2.682680606842041
+    },
+    {
+      "auxiliary_loss_clip": 0.01252387,
+      "auxiliary_loss_mlp": 0.01037561,
+      "balance_loss_clip": 1.05810463,
+      "balance_loss_mlp": 1.02705836,
+      "epoch": 0.10425058618409186,
+      "flos": 17236511890560.0,
+      "grad_norm": 2.671738392383511,
+      "language_loss": 0.8997426,
+      "learning_rate": 3.942527170184088e-06,
+      "loss": 0.92264205,
+      "num_input_tokens_seen": 18435560,
+      "step": 867,
+      "time_per_iteration": 2.69118595123291
+    },
+    {
+      "auxiliary_loss_clip": 0.01250888,
+      "auxiliary_loss_mlp": 0.01035108,
+      "balance_loss_clip": 1.07078004,
+      "balance_loss_mlp": 1.02430153,
+      "epoch": 0.10437082907473096,
+      "flos": 17967365919360.0,
+      "grad_norm": 2.6317408435989527,
+      "language_loss": 0.77306128,
+      "learning_rate": 3.942341622608385e-06,
+      "loss": 0.79592121,
+      "num_input_tokens_seen": 18452590,
+      "step": 868,
+      "time_per_iteration": 2.569462537765503
+    },
+    {
+      "auxiliary_loss_clip": 0.01268129,
+      "auxiliary_loss_mlp": 0.0103986,
+      "balance_loss_clip": 1.0700047,
+      "balance_loss_mlp": 1.02912557,
+      "epoch": 0.10449107196537005,
+      "flos": 36283315374720.0,
+      "grad_norm": 2.379888273193229,
+      "language_loss": 0.77901298,
+      "learning_rate": 3.942155780381001e-06,
+      "loss": 0.80209291,
+      "num_input_tokens_seen": 18476325,
+      "step": 869,
+      "time_per_iteration": 2.87731671333313
+    },
+    {
+      "auxiliary_loss_clip": 0.01266105,
+      "auxiliary_loss_mlp": 0.01042071,
+      "balance_loss_clip": 1.06598639,
+      "balance_loss_mlp": 1.03066838,
+      "epoch": 0.10461131485600914,
+      "flos": 23802095266560.0,
+      "grad_norm": 1.9129734527461169,
+      "language_loss": 0.75481039,
+      "learning_rate": 3.94196964353013e-06,
+      "loss": 0.77789211,
+      "num_input_tokens_seen": 18495775,
+      "step": 870,
+      "time_per_iteration": 2.75899076461792
+    },
+    {
+      "auxiliary_loss_clip": 0.0126211,
+      "auxiliary_loss_mlp": 0.01381705,
+      "balance_loss_clip": 1.06525838,
+      "balance_loss_mlp": 1.00019145,
+      "epoch": 0.10473155774664823,
+      "flos": 18405476104320.0,
+      "grad_norm": 1.9511657565657032,
+      "language_loss": 0.8066026,
+      "learning_rate": 3.941783212084008e-06,
+      "loss": 0.83304071,
+      "num_input_tokens_seen": 18513530,
+      "step": 871,
+      "time_per_iteration": 2.7645883560180664
+    },
+    {
+      "auxiliary_loss_clip": 0.01244718,
+      "auxiliary_loss_mlp": 0.01043774,
+      "balance_loss_clip": 1.06445193,
+      "balance_loss_mlp": 1.03278327,
+      "epoch": 0.10485180063728732,
+      "flos": 25592637358080.0,
+      "grad_norm": 2.9207471880796603,
+      "language_loss": 0.79496908,
+      "learning_rate": 3.941596486070916e-06,
+      "loss": 0.81785393,
+      "num_input_tokens_seen": 18531575,
+      "step": 872,
+      "time_per_iteration": 2.855783462524414
+    },
+    {
+      "auxiliary_loss_clip": 0.01276164,
+      "auxiliary_loss_mlp": 0.01045037,
+      "balance_loss_clip": 1.06617725,
+      "balance_loss_mlp": 1.03364694,
+      "epoch": 0.10497204352792641,
+      "flos": 27088747666560.0,
+      "grad_norm": 2.575069332289133,
+      "language_loss": 0.58593208,
+      "learning_rate": 3.941409465519182e-06,
+      "loss": 0.60914409,
+      "num_input_tokens_seen": 18552100,
+      "step": 873,
+      "time_per_iteration": 2.8510470390319824
+    },
+    {
+      "auxiliary_loss_clip": 0.01248008,
+      "auxiliary_loss_mlp": 0.01037064,
+      "balance_loss_clip": 1.06544554,
+      "balance_loss_mlp": 1.02522671,
+      "epoch": 0.10509228641856551,
+      "flos": 32858479353600.0,
+      "grad_norm": 1.6436924120612624,
+      "language_loss": 0.85346377,
+      "learning_rate": 3.941222150457176e-06,
+      "loss": 0.87631452,
+      "num_input_tokens_seen": 18575355,
+      "step": 874,
+      "time_per_iteration": 3.78497052192688
+    },
+    {
+      "auxiliary_loss_clip": 0.01263022,
+      "auxiliary_loss_mlp": 0.01045155,
+      "balance_loss_clip": 1.06840658,
+      "balance_loss_mlp": 1.03394318,
+      "epoch": 0.10521252930920459,
+      "flos": 14319165173760.0,
+      "grad_norm": 2.8902071140314773,
+      "language_loss": 0.71593601,
+      "learning_rate": 3.941034540913311e-06,
+      "loss": 0.73901778,
+      "num_input_tokens_seen": 18592885,
+      "step": 875,
+      "time_per_iteration": 2.789520740509033
+    },
+    {
+      "auxiliary_loss_clip": 0.01260907,
+      "auxiliary_loss_mlp": 0.013821,
+      "balance_loss_clip": 1.0695014,
+      "balance_loss_mlp": 1.00016618,
+      "epoch": 0.10533277219984369,
+      "flos": 21687028773120.0,
+      "grad_norm": 1.6434241962178044,
+      "language_loss": 0.82445335,
+      "learning_rate": 3.940846636916051e-06,
+      "loss": 0.85088336,
+      "num_input_tokens_seen": 18612920,
+      "step": 876,
+      "time_per_iteration": 3.5382983684539795
+    },
+    {
+      "auxiliary_loss_clip": 0.01268219,
+      "auxiliary_loss_mlp": 0.01046157,
+      "balance_loss_clip": 1.07170248,
+      "balance_loss_mlp": 1.03533864,
+      "epoch": 0.10545301509048277,
+      "flos": 22269787027200.0,
+      "grad_norm": 2.007526584642881,
+      "language_loss": 0.86416364,
+      "learning_rate": 3.940658438493899e-06,
+      "loss": 0.88730741,
+      "num_input_tokens_seen": 18630765,
+      "step": 877,
+      "time_per_iteration": 3.7470953464508057
+    },
+    {
+      "auxiliary_loss_clip": 0.01249824,
+      "auxiliary_loss_mlp": 0.01036353,
+      "balance_loss_clip": 1.06700838,
+      "balance_loss_mlp": 1.02397346,
+      "epoch": 0.10557325798112187,
+      "flos": 22199725549440.0,
+      "grad_norm": 2.2280650977427174,
+      "language_loss": 0.76226217,
+      "learning_rate": 3.940469945675405e-06,
+      "loss": 0.78512394,
+      "num_input_tokens_seen": 18649150,
+      "step": 878,
+      "time_per_iteration": 2.6858861446380615
+    },
+    {
+      "auxiliary_loss_clip": 0.01250619,
+      "auxiliary_loss_mlp": 0.01034963,
+      "balance_loss_clip": 1.05748737,
+      "balance_loss_mlp": 1.02480626,
+      "epoch": 0.10569350087176095,
+      "flos": 25775889569280.0,
+      "grad_norm": 2.0110930555062376,
+      "language_loss": 0.91437984,
+      "learning_rate": 3.940281158489163e-06,
+      "loss": 0.93723565,
+      "num_input_tokens_seen": 18668380,
+      "step": 879,
+      "time_per_iteration": 2.823310136795044
+    },
+    {
+      "auxiliary_loss_clip": 0.01281527,
+      "auxiliary_loss_mlp": 0.01048103,
+      "balance_loss_clip": 1.05724597,
+      "balance_loss_mlp": 1.03743327,
+      "epoch": 0.10581374376240005,
+      "flos": 17311385790720.0,
+      "grad_norm": 1.8358511144809808,
+      "language_loss": 0.83063149,
+      "learning_rate": 3.940092076963812e-06,
+      "loss": 0.85392785,
+      "num_input_tokens_seen": 18685875,
+      "step": 880,
+      "time_per_iteration": 2.8135986328125
+    },
+    {
+      "auxiliary_loss_clip": 0.01257153,
+      "auxiliary_loss_mlp": 0.01035533,
+      "balance_loss_clip": 1.06206191,
+      "balance_loss_mlp": 1.02379119,
+      "epoch": 0.10593398665303914,
+      "flos": 34349454017280.0,
+      "grad_norm": 3.182283861497178,
+      "language_loss": 0.78996629,
+      "learning_rate": 3.9399027011280355e-06,
+      "loss": 0.81289321,
+      "num_input_tokens_seen": 18707970,
+      "step": 881,
+      "time_per_iteration": 2.8193700313568115
+    },
+    {
+      "auxiliary_loss_clip": 0.01265751,
+      "auxiliary_loss_mlp": 0.01040288,
+      "balance_loss_clip": 1.07007766,
+      "balance_loss_mlp": 1.0281291,
+      "epoch": 0.10605422954367823,
+      "flos": 23257977068160.0,
+      "grad_norm": 2.1958751395867493,
+      "language_loss": 0.77490067,
+      "learning_rate": 3.939713031010561e-06,
+      "loss": 0.79796106,
+      "num_input_tokens_seen": 18726335,
+      "step": 882,
+      "time_per_iteration": 2.677690267562866
+    },
+    {
+      "auxiliary_loss_clip": 0.01274378,
+      "auxiliary_loss_mlp": 0.01041783,
+      "balance_loss_clip": 1.0667882,
+      "balance_loss_mlp": 1.03064895,
+      "epoch": 0.10617447243431732,
+      "flos": 22820118278400.0,
+      "grad_norm": 2.2194052786499956,
+      "language_loss": 0.77644861,
+      "learning_rate": 3.939523066640163e-06,
+      "loss": 0.79961014,
+      "num_input_tokens_seen": 18745230,
+      "step": 883,
+      "time_per_iteration": 2.719846248626709
+    },
+    {
+      "auxiliary_loss_clip": 0.01260941,
+      "auxiliary_loss_mlp": 0.01047763,
+      "balance_loss_clip": 1.07066214,
+      "balance_loss_mlp": 1.03630662,
+      "epoch": 0.10629471532495641,
+      "flos": 24386577373440.0,
+      "grad_norm": 1.8055486725496042,
+      "language_loss": 0.81131744,
+      "learning_rate": 3.939332808045657e-06,
+      "loss": 0.83440447,
+      "num_input_tokens_seen": 18764880,
+      "step": 884,
+      "time_per_iteration": 2.709035873413086
+    },
+    {
+      "auxiliary_loss_clip": 0.01273729,
+      "auxiliary_loss_mlp": 0.01041915,
+      "balance_loss_clip": 1.06384766,
+      "balance_loss_mlp": 1.03094149,
+      "epoch": 0.1064149582155955,
+      "flos": 21105491581440.0,
+      "grad_norm": 1.6743351220918528,
+      "language_loss": 0.84684628,
+      "learning_rate": 3.939142255255906e-06,
+      "loss": 0.87000275,
+      "num_input_tokens_seen": 18785765,
+      "step": 885,
+      "time_per_iteration": 2.703964948654175
+    },
+    {
+      "auxiliary_loss_clip": 0.01258735,
+      "auxiliary_loss_mlp": 0.01039349,
+      "balance_loss_clip": 1.07068038,
+      "balance_loss_mlp": 1.02823317,
+      "epoch": 0.1065352011062346,
+      "flos": 20702035042560.0,
+      "grad_norm": 2.3756822110946536,
+      "language_loss": 0.86630481,
+      "learning_rate": 3.938951408299817e-06,
+      "loss": 0.88928562,
+      "num_input_tokens_seen": 18804605,
+      "step": 886,
+      "time_per_iteration": 2.678270101547241
+    },
+    {
+      "auxiliary_loss_clip": 0.01177298,
+      "auxiliary_loss_mlp": 0.01010453,
+      "balance_loss_clip": 1.03695369,
+      "balance_loss_mlp": 1.00779462,
+      "epoch": 0.10665544399687368,
+      "flos": 62659632689280.0,
+      "grad_norm": 0.7963270058250194,
+      "language_loss": 0.54453242,
+      "learning_rate": 3.938760267206342e-06,
+      "loss": 0.56640995,
+      "num_input_tokens_seen": 18866425,
+      "step": 887,
+      "time_per_iteration": 3.212491512298584
+    },
+    {
+      "auxiliary_loss_clip": 0.01250819,
+      "auxiliary_loss_mlp": 0.0104072,
+      "balance_loss_clip": 1.07135606,
+      "balance_loss_mlp": 1.03043234,
+      "epoch": 0.10677568688751278,
+      "flos": 26140382830080.0,
+      "grad_norm": 2.233841178099758,
+      "language_loss": 0.7839132,
+      "learning_rate": 3.938568832004475e-06,
+      "loss": 0.80682856,
+      "num_input_tokens_seen": 18885130,
+      "step": 888,
+      "time_per_iteration": 2.6243391036987305
+    },
+    {
+      "auxiliary_loss_clip": 0.01250627,
+      "auxiliary_loss_mlp": 0.01040212,
+      "balance_loss_clip": 1.0621469,
+      "balance_loss_mlp": 1.02872562,
+      "epoch": 0.10689592977815186,
+      "flos": 12786533712000.0,
+      "grad_norm": 1.855418871181123,
+      "language_loss": 0.75663328,
+      "learning_rate": 3.938377102723257e-06,
+      "loss": 0.77954167,
+      "num_input_tokens_seen": 18902265,
+      "step": 889,
+      "time_per_iteration": 2.70369553565979
+    },
+    {
+      "auxiliary_loss_clip": 0.01258106,
+      "auxiliary_loss_mlp": 0.01042178,
+      "balance_loss_clip": 1.06050479,
+      "balance_loss_mlp": 1.03016138,
+      "epoch": 0.10701617266879096,
+      "flos": 22126683242880.0,
+      "grad_norm": 2.2612576415277363,
+      "language_loss": 0.83662558,
+      "learning_rate": 3.938185079391774e-06,
+      "loss": 0.85962844,
+      "num_input_tokens_seen": 18919310,
+      "step": 890,
+      "time_per_iteration": 2.7525975704193115
+    },
+    {
+      "auxiliary_loss_clip": 0.01249807,
+      "auxiliary_loss_mlp": 0.0105018,
+      "balance_loss_clip": 1.07018018,
+      "balance_loss_mlp": 1.0381639,
+      "epoch": 0.10713641555943004,
+      "flos": 19745625559680.0,
+      "grad_norm": 2.356995775294376,
+      "language_loss": 1.05718982,
+      "learning_rate": 3.937992762039157e-06,
+      "loss": 1.0801897,
+      "num_input_tokens_seen": 18932635,
+      "step": 891,
+      "time_per_iteration": 2.621098279953003
+    },
+    {
+      "auxiliary_loss_clip": 0.01256118,
+      "auxiliary_loss_mlp": 0.01045239,
+      "balance_loss_clip": 1.07088995,
+      "balance_loss_mlp": 1.03415227,
+      "epoch": 0.10725665845006914,
+      "flos": 23952992302080.0,
+      "grad_norm": 1.7935162776726818,
+      "language_loss": 0.80686468,
+      "learning_rate": 3.937800150694577e-06,
+      "loss": 0.82987827,
+      "num_input_tokens_seen": 18953810,
+      "step": 892,
+      "time_per_iteration": 2.687190055847168
+    },
+    {
+      "auxiliary_loss_clip": 0.01285414,
+      "auxiliary_loss_mlp": 0.01042285,
+      "balance_loss_clip": 1.06699622,
+      "balance_loss_mlp": 1.03049529,
+      "epoch": 0.10737690134070824,
+      "flos": 18551704371840.0,
+      "grad_norm": 2.493448143779079,
+      "language_loss": 0.75993669,
+      "learning_rate": 3.937607245387255e-06,
+      "loss": 0.78321373,
+      "num_input_tokens_seen": 18973175,
+      "step": 893,
+      "time_per_iteration": 2.734126329421997
+    },
+    {
+      "auxiliary_loss_clip": 0.01268466,
+      "auxiliary_loss_mlp": 0.01034965,
+      "balance_loss_clip": 1.06447673,
+      "balance_loss_mlp": 1.02504623,
+      "epoch": 0.10749714423134732,
+      "flos": 22707609903360.0,
+      "grad_norm": 2.0522613188088212,
+      "language_loss": 0.72133893,
+      "learning_rate": 3.937414046146455e-06,
+      "loss": 0.7443732,
+      "num_input_tokens_seen": 18991130,
+      "step": 894,
+      "time_per_iteration": 2.686249017715454
+    },
+    {
+      "auxiliary_loss_clip": 0.01252497,
+      "auxiliary_loss_mlp": 0.01041053,
+      "balance_loss_clip": 1.07249689,
+      "balance_loss_mlp": 1.02993059,
+      "epoch": 0.10761738712198642,
+      "flos": 21106066199040.0,
+      "grad_norm": 2.47412290145592,
+      "language_loss": 0.75590986,
+      "learning_rate": 3.9372205530014845e-06,
+      "loss": 0.77884531,
+      "num_input_tokens_seen": 19009610,
+      "step": 895,
+      "time_per_iteration": 2.6026995182037354
+    },
+    {
+      "auxiliary_loss_clip": 0.01250245,
+      "auxiliary_loss_mlp": 0.01043559,
+      "balance_loss_clip": 1.06969285,
+      "balance_loss_mlp": 1.03201938,
+      "epoch": 0.1077376300126255,
+      "flos": 23766723348480.0,
+      "grad_norm": 2.3353313991398545,
+      "language_loss": 0.7125814,
+      "learning_rate": 3.937026765981696e-06,
+      "loss": 0.73551941,
+      "num_input_tokens_seen": 19029680,
+      "step": 896,
+      "time_per_iteration": 2.7144899368286133
+    },
+    {
+      "auxiliary_loss_clip": 0.0127871,
+      "auxiliary_loss_mlp": 0.01049938,
+      "balance_loss_clip": 1.06953394,
+      "balance_loss_mlp": 1.03885722,
+      "epoch": 0.1078578729032646,
+      "flos": 20919581763840.0,
+      "grad_norm": 1.8725535135756692,
+      "language_loss": 0.79285502,
+      "learning_rate": 3.936832685116488e-06,
+      "loss": 0.81614149,
+      "num_input_tokens_seen": 19047775,
+      "step": 897,
+      "time_per_iteration": 2.744060754776001
+    },
+    {
+      "auxiliary_loss_clip": 0.01252711,
+      "auxiliary_loss_mlp": 0.01045292,
+      "balance_loss_clip": 1.07283175,
+      "balance_loss_mlp": 1.03365183,
+      "epoch": 0.10797811579390369,
+      "flos": 14829886702080.0,
+      "grad_norm": 2.0441680924431527,
+      "language_loss": 0.90109956,
+      "learning_rate": 3.936638310435301e-06,
+      "loss": 0.92407954,
+      "num_input_tokens_seen": 19065640,
+      "step": 898,
+      "time_per_iteration": 2.7598519325256348
+    },
+    {
+      "auxiliary_loss_clip": 0.01264839,
+      "auxiliary_loss_mlp": 0.01041072,
+      "balance_loss_clip": 1.07256269,
+      "balance_loss_mlp": 1.03050447,
+      "epoch": 0.10809835868454278,
+      "flos": 19536985411200.0,
+      "grad_norm": 1.8713397544002135,
+      "language_loss": 0.81756335,
+      "learning_rate": 3.936443641967623e-06,
+      "loss": 0.84062243,
+      "num_input_tokens_seen": 19084470,
+      "step": 899,
+      "time_per_iteration": 2.691602945327759
+    },
+    {
+      "auxiliary_loss_clip": 0.01275284,
+      "auxiliary_loss_mlp": 0.0105049,
+      "balance_loss_clip": 1.07169783,
+      "balance_loss_mlp": 1.03970742,
+      "epoch": 0.10821860157518187,
+      "flos": 18442320480000.0,
+      "grad_norm": 1.9207239134550436,
+      "language_loss": 0.82889408,
+      "learning_rate": 3.936248679742983e-06,
+      "loss": 0.85215181,
+      "num_input_tokens_seen": 19102965,
+      "step": 900,
+      "time_per_iteration": 2.758188247680664
+    },
+    {
+      "auxiliary_loss_clip": 0.01160344,
+      "auxiliary_loss_mlp": 0.01012599,
+      "balance_loss_clip": 1.02963257,
+      "balance_loss_mlp": 1.00955892,
+      "epoch": 0.10833884446582095,
+      "flos": 49359468447360.0,
+      "grad_norm": 1.0470680812671083,
+      "language_loss": 0.70233166,
+      "learning_rate": 3.936053423790959e-06,
+      "loss": 0.72406107,
+      "num_input_tokens_seen": 19151285,
+      "step": 901,
+      "time_per_iteration": 3.9609711170196533
+    },
+    {
+      "auxiliary_loss_clip": 0.01258092,
+      "auxiliary_loss_mlp": 0.0103613,
+      "balance_loss_clip": 1.07854223,
+      "balance_loss_mlp": 1.02526999,
+      "epoch": 0.10845908735646005,
+      "flos": 20411912891520.0,
+      "grad_norm": 1.761246016668262,
+      "language_loss": 0.77316707,
+      "learning_rate": 3.935857874141168e-06,
+      "loss": 0.79610932,
+      "num_input_tokens_seen": 19170120,
+      "step": 902,
+      "time_per_iteration": 2.665623188018799
+    },
+    {
+      "auxiliary_loss_clip": 0.01261344,
+      "auxiliary_loss_mlp": 0.01043404,
+      "balance_loss_clip": 1.06833744,
+      "balance_loss_mlp": 1.03191781,
+      "epoch": 0.10857933024709913,
+      "flos": 14027750133120.0,
+      "grad_norm": 2.1767026287817277,
+      "language_loss": 0.83297706,
+      "learning_rate": 3.935662030823279e-06,
+      "loss": 0.8560245,
+      "num_input_tokens_seen": 19186305,
+      "step": 903,
+      "time_per_iteration": 4.605750560760498
+    },
+    {
+      "auxiliary_loss_clip": 0.01262569,
+      "auxiliary_loss_mlp": 0.01045662,
+      "balance_loss_clip": 1.07055402,
+      "balance_loss_mlp": 1.03393161,
+      "epoch": 0.10869957313773823,
+      "flos": 13369004657280.0,
+      "grad_norm": 2.103525651812255,
+      "language_loss": 0.72393703,
+      "learning_rate": 3.935465893866998e-06,
+      "loss": 0.74701941,
+      "num_input_tokens_seen": 19204530,
+      "step": 904,
+      "time_per_iteration": 2.7376036643981934
+    },
+    {
+      "auxiliary_loss_clip": 0.01267927,
+      "auxiliary_loss_mlp": 0.01039494,
+      "balance_loss_clip": 1.07157874,
+      "balance_loss_mlp": 1.02838933,
+      "epoch": 0.10881981602837733,
+      "flos": 25807095509760.0,
+      "grad_norm": 1.9626365414844038,
+      "language_loss": 0.80021077,
+      "learning_rate": 3.935269463302079e-06,
+      "loss": 0.82328498,
+      "num_input_tokens_seen": 19222735,
+      "step": 905,
+      "time_per_iteration": 2.7859182357788086
+    },
+    {
+      "auxiliary_loss_clip": 0.01268816,
+      "auxiliary_loss_mlp": 0.01051267,
+      "balance_loss_clip": 1.07488263,
+      "balance_loss_mlp": 1.040133,
+      "epoch": 0.10894005891901641,
+      "flos": 20777555387520.0,
+      "grad_norm": 1.8941542401529212,
+      "language_loss": 0.76913893,
+      "learning_rate": 3.935072739158322e-06,
+      "loss": 0.7923398,
+      "num_input_tokens_seen": 19242445,
+      "step": 906,
+      "time_per_iteration": 2.688711404800415
+    },
+    {
+      "auxiliary_loss_clip": 0.01266289,
+      "auxiliary_loss_mlp": 0.01042746,
+      "balance_loss_clip": 1.06824613,
+      "balance_loss_mlp": 1.03141499,
+      "epoch": 0.10906030180965551,
+      "flos": 26649883296000.0,
+      "grad_norm": 1.6746426477236334,
+      "language_loss": 0.80102372,
+      "learning_rate": 3.934875721465569e-06,
+      "loss": 0.82411408,
+      "num_input_tokens_seen": 19262865,
+      "step": 907,
+      "time_per_iteration": 2.802865505218506
+    },
+    {
+      "auxiliary_loss_clip": 0.01265617,
+      "auxiliary_loss_mlp": 0.01043178,
+      "balance_loss_clip": 1.06842554,
+      "balance_loss_mlp": 1.03142357,
+      "epoch": 0.10918054470029459,
+      "flos": 36534402420480.0,
+      "grad_norm": 2.3734972772823344,
+      "language_loss": 0.71725315,
+      "learning_rate": 3.9346784102537076e-06,
+      "loss": 0.74034107,
+      "num_input_tokens_seen": 19285000,
+      "step": 908,
+      "time_per_iteration": 3.189213991165161
+    },
+    {
+      "auxiliary_loss_clip": 0.01252843,
+      "auxiliary_loss_mlp": 0.01042426,
+      "balance_loss_clip": 1.07223034,
+      "balance_loss_mlp": 1.03101778,
+      "epoch": 0.10930078759093369,
+      "flos": 21762549118080.0,
+      "grad_norm": 2.009888035260768,
+      "language_loss": 0.78078622,
+      "learning_rate": 3.934480805552669e-06,
+      "loss": 0.80373889,
+      "num_input_tokens_seen": 19306010,
+      "step": 909,
+      "time_per_iteration": 2.7977118492126465
+    },
+    {
+      "auxiliary_loss_clip": 0.0125204,
+      "auxiliary_loss_mlp": 0.01382634,
+      "balance_loss_clip": 1.07244384,
+      "balance_loss_mlp": 1.00045538,
+      "epoch": 0.10942103048157277,
+      "flos": 22601781457920.0,
+      "grad_norm": 2.286795119223008,
+      "language_loss": 0.87977993,
+      "learning_rate": 3.93428290739243e-06,
+      "loss": 0.90612674,
+      "num_input_tokens_seen": 19325380,
+      "step": 910,
+      "time_per_iteration": 2.7387771606445312
+    },
+    {
+      "auxiliary_loss_clip": 0.01273777,
+      "auxiliary_loss_mlp": 0.01042652,
+      "balance_loss_clip": 1.07268357,
+      "balance_loss_mlp": 1.03099942,
+      "epoch": 0.10954127337221187,
+      "flos": 15045781397760.0,
+      "grad_norm": 2.299600388352568,
+      "language_loss": 0.80370098,
+      "learning_rate": 3.9340847158030125e-06,
+      "loss": 0.82686532,
+      "num_input_tokens_seen": 19338960,
+      "step": 911,
+      "time_per_iteration": 2.6804039478302
+    },
+    {
+      "auxiliary_loss_clip": 0.01266316,
+      "auxiliary_loss_mlp": 0.01048264,
+      "balance_loss_clip": 1.07204175,
+      "balance_loss_mlp": 1.03636074,
+      "epoch": 0.10966151626285096,
+      "flos": 21650974496640.0,
+      "grad_norm": 2.226493293747816,
+      "language_loss": 0.75695527,
+      "learning_rate": 3.9338862308144814e-06,
+      "loss": 0.78010112,
+      "num_input_tokens_seen": 19357780,
+      "step": 912,
+      "time_per_iteration": 2.738926649093628
+    },
+    {
+      "auxiliary_loss_clip": 0.01255168,
+      "auxiliary_loss_mlp": 0.01041675,
+      "balance_loss_clip": 1.07564974,
+      "balance_loss_mlp": 1.03070164,
+      "epoch": 0.10978175915349005,
+      "flos": 20121359777280.0,
+      "grad_norm": 1.7093659640786059,
+      "language_loss": 0.84579712,
+      "learning_rate": 3.933687452456946e-06,
+      "loss": 0.86876559,
+      "num_input_tokens_seen": 19377680,
+      "step": 913,
+      "time_per_iteration": 2.607318878173828
+    },
+    {
+      "auxiliary_loss_clip": 0.0127002,
+      "auxiliary_loss_mlp": 0.01040031,
+      "balance_loss_clip": 1.06219518,
+      "balance_loss_mlp": 1.02746594,
+      "epoch": 0.10990200204412914,
+      "flos": 20412667077120.0,
+      "grad_norm": 2.0525239093133565,
+      "language_loss": 0.86321342,
+      "learning_rate": 3.933488380760562e-06,
+      "loss": 0.88631392,
+      "num_input_tokens_seen": 19397040,
+      "step": 914,
+      "time_per_iteration": 2.721909284591675
+    },
+    {
+      "auxiliary_loss_clip": 0.01254,
+      "auxiliary_loss_mlp": 0.01382422,
+      "balance_loss_clip": 1.07299256,
+      "balance_loss_mlp": 1.00046194,
+      "epoch": 0.11002224493476823,
+      "flos": 17530117660800.0,
+      "grad_norm": 2.8669807118367747,
+      "language_loss": 0.87220287,
+      "learning_rate": 3.9332890157555286e-06,
+      "loss": 0.89856708,
+      "num_input_tokens_seen": 19413975,
+      "step": 915,
+      "time_per_iteration": 2.621328830718994
+    },
+    {
+      "auxiliary_loss_clip": 0.01272241,
+      "auxiliary_loss_mlp": 0.01047759,
+      "balance_loss_clip": 1.06972957,
+      "balance_loss_mlp": 1.0352838,
+      "epoch": 0.11014248782540732,
+      "flos": 12203093099520.0,
+      "grad_norm": 2.7266219794786,
+      "language_loss": 0.76774287,
+      "learning_rate": 3.933089357472088e-06,
+      "loss": 0.79094291,
+      "num_input_tokens_seen": 19432005,
+      "step": 916,
+      "time_per_iteration": 2.676187515258789
+    },
+    {
+      "auxiliary_loss_clip": 0.01255482,
+      "auxiliary_loss_mlp": 0.01051457,
+      "balance_loss_clip": 1.07690895,
+      "balance_loss_mlp": 1.04030466,
+      "epoch": 0.11026273071604642,
+      "flos": 22382977760640.0,
+      "grad_norm": 1.9191469596592963,
+      "language_loss": 0.85736167,
+      "learning_rate": 3.932889405940529e-06,
+      "loss": 0.88043112,
+      "num_input_tokens_seen": 19450100,
+      "step": 917,
+      "time_per_iteration": 2.707909107208252
+    },
+    {
+      "auxiliary_loss_clip": 0.01271471,
+      "auxiliary_loss_mlp": 0.01046947,
+      "balance_loss_clip": 1.07191455,
+      "balance_loss_mlp": 1.03536558,
+      "epoch": 0.1103829736066855,
+      "flos": 19829046896640.0,
+      "grad_norm": 2.5202272047860723,
+      "language_loss": 0.79716563,
+      "learning_rate": 3.932689161191184e-06,
+      "loss": 0.82034981,
+      "num_input_tokens_seen": 19467805,
+      "step": 918,
+      "time_per_iteration": 2.7675201892852783
+    },
+    {
+      "auxiliary_loss_clip": 0.01260767,
+      "auxiliary_loss_mlp": 0.01042481,
+      "balance_loss_clip": 1.07063842,
+      "balance_loss_mlp": 1.03100753,
+      "epoch": 0.1105032164973246,
+      "flos": 22669616292480.0,
+      "grad_norm": 2.0203036703392443,
+      "language_loss": 0.8797676,
+      "learning_rate": 3.93248862325443e-06,
+      "loss": 0.90280008,
+      "num_input_tokens_seen": 19486710,
+      "step": 919,
+      "time_per_iteration": 2.6753127574920654
+    },
+    {
+      "auxiliary_loss_clip": 0.01140647,
+      "auxiliary_loss_mlp": 0.01005667,
+      "balance_loss_clip": 1.02790403,
+      "balance_loss_mlp": 1.00230491,
+      "epoch": 0.11062345938796368,
+      "flos": 66483507876480.0,
+      "grad_norm": 0.9281503827801143,
+      "language_loss": 0.64535522,
+      "learning_rate": 3.932287792160688e-06,
+      "loss": 0.66681838,
+      "num_input_tokens_seen": 19545170,
+      "step": 920,
+      "time_per_iteration": 3.107619285583496
+    },
+    {
+      "auxiliary_loss_clip": 0.01263309,
+      "auxiliary_loss_mlp": 0.01048294,
+      "balance_loss_clip": 1.07134461,
+      "balance_loss_mlp": 1.03629518,
+      "epoch": 0.11074370227860278,
+      "flos": 21907771804800.0,
+      "grad_norm": 3.0250638212926115,
+      "language_loss": 0.8031292,
+      "learning_rate": 3.932086667940424e-06,
+      "loss": 0.82624525,
+      "num_input_tokens_seen": 19561875,
+      "step": 921,
+      "time_per_iteration": 2.7069458961486816
+    },
+    {
+      "auxiliary_loss_clip": 0.01258075,
+      "auxiliary_loss_mlp": 0.01382149,
+      "balance_loss_clip": 1.07221222,
+      "balance_loss_mlp": 1.00046182,
+      "epoch": 0.11086394516924186,
+      "flos": 28658115763200.0,
+      "grad_norm": 1.7925961636668861,
+      "language_loss": 0.8161695,
+      "learning_rate": 3.93188525062415e-06,
+      "loss": 0.84257174,
+      "num_input_tokens_seen": 19582340,
+      "step": 922,
+      "time_per_iteration": 2.7770235538482666
+    },
+    {
+      "auxiliary_loss_clip": 0.01264077,
+      "auxiliary_loss_mlp": 0.01045478,
+      "balance_loss_clip": 1.0723387,
+      "balance_loss_mlp": 1.03340769,
+      "epoch": 0.11098418805988096,
+      "flos": 24535247765760.0,
+      "grad_norm": 1.8206342164088907,
+      "language_loss": 0.86270773,
+      "learning_rate": 3.931683540242418e-06,
+      "loss": 0.88580334,
+      "num_input_tokens_seen": 19603405,
+      "step": 923,
+      "time_per_iteration": 2.7651541233062744
+    },
+    {
+      "auxiliary_loss_clip": 0.01250278,
+      "auxiliary_loss_mlp": 0.0104184,
+      "balance_loss_clip": 1.06780112,
+      "balance_loss_mlp": 1.03066397,
+      "epoch": 0.11110443095052006,
+      "flos": 22960384888320.0,
+      "grad_norm": 2.7149736680861496,
+      "language_loss": 0.90689552,
+      "learning_rate": 3.9314815368258295e-06,
+      "loss": 0.9298166,
+      "num_input_tokens_seen": 19619885,
+      "step": 924,
+      "time_per_iteration": 2.651249647140503
+    },
+    {
+      "auxiliary_loss_clip": 0.01264194,
+      "auxiliary_loss_mlp": 0.01037088,
+      "balance_loss_clip": 1.07548141,
+      "balance_loss_mlp": 1.02669334,
+      "epoch": 0.11122467384115914,
+      "flos": 18950025265920.0,
+      "grad_norm": 3.0595571261208145,
+      "language_loss": 0.78736335,
+      "learning_rate": 3.9312792404050275e-06,
+      "loss": 0.81037617,
+      "num_input_tokens_seen": 19637940,
+      "step": 925,
+      "time_per_iteration": 2.6792051792144775
+    },
+    {
+      "auxiliary_loss_clip": 0.01250168,
+      "auxiliary_loss_mlp": 0.01042501,
+      "balance_loss_clip": 1.07440996,
+      "balance_loss_mlp": 1.03148651,
+      "epoch": 0.11134491673179824,
+      "flos": 25082957324160.0,
+      "grad_norm": 1.8151253695741367,
+      "language_loss": 0.77313733,
+      "learning_rate": 3.9310766510107e-06,
+      "loss": 0.79606402,
+      "num_input_tokens_seen": 19657115,
+      "step": 926,
+      "time_per_iteration": 2.686643362045288
+    },
+    {
+      "auxiliary_loss_clip": 0.01274763,
+      "auxiliary_loss_mlp": 0.01046855,
+      "balance_loss_clip": 1.06539142,
+      "balance_loss_mlp": 1.03488076,
+      "epoch": 0.11146515962243732,
+      "flos": 24499121662080.0,
+      "grad_norm": 1.8944811588644515,
+      "language_loss": 0.92147005,
+      "learning_rate": 3.9308737686735806e-06,
+      "loss": 0.94468617,
+      "num_input_tokens_seen": 19677075,
+      "step": 927,
+      "time_per_iteration": 3.6707701683044434
+    },
+    {
+      "auxiliary_loss_clip": 0.01252187,
+      "auxiliary_loss_mlp": 0.01049272,
+      "balance_loss_clip": 1.0726161,
+      "balance_loss_mlp": 1.03727913,
+      "epoch": 0.11158540251307641,
+      "flos": 22343763087360.0,
+      "grad_norm": 1.913613472900898,
+      "language_loss": 0.82941681,
+      "learning_rate": 3.9306705934244455e-06,
+      "loss": 0.85243142,
+      "num_input_tokens_seen": 19697155,
+      "step": 928,
+      "time_per_iteration": 2.761420726776123
+    },
+    {
+      "auxiliary_loss_clip": 0.0125232,
+      "auxiliary_loss_mlp": 0.01040163,
+      "balance_loss_clip": 1.06595325,
+      "balance_loss_mlp": 1.02948189,
+      "epoch": 0.11170564540371551,
+      "flos": 19902304684800.0,
+      "grad_norm": 1.6596004129665347,
+      "language_loss": 0.88196868,
+      "learning_rate": 3.930467125294116e-06,
+      "loss": 0.90489352,
+      "num_input_tokens_seen": 19716705,
+      "step": 929,
+      "time_per_iteration": 4.618546962738037
+    },
+    {
+      "auxiliary_loss_clip": 0.01173924,
+      "auxiliary_loss_mlp": 0.0100441,
+      "balance_loss_clip": 1.02249527,
+      "balance_loss_mlp": 1.00109577,
+      "epoch": 0.1118258882943546,
+      "flos": 64586239499520.0,
+      "grad_norm": 0.9248569360289243,
+      "language_loss": 0.60427558,
+      "learning_rate": 3.930263364313458e-06,
+      "loss": 0.62605894,
+      "num_input_tokens_seen": 19767275,
+      "step": 930,
+      "time_per_iteration": 3.107739210128784
+    },
+    {
+      "auxiliary_loss_clip": 0.01270502,
+      "auxiliary_loss_mlp": 0.01042068,
+      "balance_loss_clip": 1.06551003,
+      "balance_loss_mlp": 1.03063583,
+      "epoch": 0.11194613118499369,
+      "flos": 17201965985280.0,
+      "grad_norm": 1.9416618922383388,
+      "language_loss": 0.82761413,
+      "learning_rate": 3.930059310513384e-06,
+      "loss": 0.85073984,
+      "num_input_tokens_seen": 19786315,
+      "step": 931,
+      "time_per_iteration": 2.8286333084106445
+    },
+    {
+      "auxiliary_loss_clip": 0.01256924,
+      "auxiliary_loss_mlp": 0.01382297,
+      "balance_loss_clip": 1.0648402,
+      "balance_loss_mlp": 1.00043344,
+      "epoch": 0.11206637407563277,
+      "flos": 31863465728640.0,
+      "grad_norm": 1.765135944332004,
+      "language_loss": 0.84034216,
+      "learning_rate": 3.929854963924846e-06,
+      "loss": 0.86673439,
+      "num_input_tokens_seen": 19806580,
+      "step": 932,
+      "time_per_iteration": 2.8296828269958496
+    },
+    {
+      "auxiliary_loss_clip": 0.01267411,
+      "auxiliary_loss_mlp": 0.01040831,
+      "balance_loss_clip": 1.06237602,
+      "balance_loss_mlp": 1.02927351,
+      "epoch": 0.11218661696627187,
+      "flos": 21945621761280.0,
+      "grad_norm": 1.7780314376460093,
+      "language_loss": 0.77072966,
+      "learning_rate": 3.929650324578845e-06,
+      "loss": 0.79381204,
+      "num_input_tokens_seen": 19826045,
+      "step": 933,
+      "time_per_iteration": 2.7179458141326904
+    },
+    {
+      "auxiliary_loss_clip": 0.01267488,
+      "auxiliary_loss_mlp": 0.01033048,
+      "balance_loss_clip": 1.06625795,
+      "balance_loss_mlp": 1.02160406,
+      "epoch": 0.11230685985691095,
+      "flos": 25878198481920.0,
+      "grad_norm": 2.254191802776774,
+      "language_loss": 0.82149041,
+      "learning_rate": 3.929445392506423e-06,
+      "loss": 0.84449577,
+      "num_input_tokens_seen": 19843985,
+      "step": 934,
+      "time_per_iteration": 2.825714588165283
+    },
+    {
+      "auxiliary_loss_clip": 0.01258068,
+      "auxiliary_loss_mlp": 0.01043747,
+      "balance_loss_clip": 1.07408094,
+      "balance_loss_mlp": 1.03263056,
+      "epoch": 0.11242710274755005,
+      "flos": 22231506107520.0,
+      "grad_norm": 2.0109679194584738,
+      "language_loss": 0.75787854,
+      "learning_rate": 3.92924016773867e-06,
+      "loss": 0.78089666,
+      "num_input_tokens_seen": 19860480,
+      "step": 935,
+      "time_per_iteration": 2.7335453033447266
+    },
+    {
+      "auxiliary_loss_clip": 0.01261748,
+      "auxiliary_loss_mlp": 0.01382018,
+      "balance_loss_clip": 1.06488883,
+      "balance_loss_mlp": 1.00040269,
+      "epoch": 0.11254734563818915,
+      "flos": 17712184723200.0,
+      "grad_norm": 3.0252738868208686,
+      "language_loss": 0.73666382,
+      "learning_rate": 3.9290346503067175e-06,
+      "loss": 0.76310146,
+      "num_input_tokens_seen": 19877145,
+      "step": 936,
+      "time_per_iteration": 2.7060370445251465
+    },
+    {
+      "auxiliary_loss_clip": 0.01256876,
+      "auxiliary_loss_mlp": 0.01051713,
+      "balance_loss_clip": 1.0682627,
+      "balance_loss_mlp": 1.04068005,
+      "epoch": 0.11266758852882823,
+      "flos": 54930397334400.0,
+      "grad_norm": 1.745836548462731,
+      "language_loss": 0.789186,
+      "learning_rate": 3.9288288402417415e-06,
+      "loss": 0.81227195,
+      "num_input_tokens_seen": 19903405,
+      "step": 937,
+      "time_per_iteration": 2.9909377098083496
+    },
+    {
+      "auxiliary_loss_clip": 0.01257128,
+      "auxiliary_loss_mlp": 0.01049483,
+      "balance_loss_clip": 1.07142127,
+      "balance_loss_mlp": 1.03774703,
+      "epoch": 0.11278783141946733,
+      "flos": 18878132194560.0,
+      "grad_norm": 2.311455126671567,
+      "language_loss": 0.7055366,
+      "learning_rate": 3.928622737574964e-06,
+      "loss": 0.72860277,
+      "num_input_tokens_seen": 19918740,
+      "step": 938,
+      "time_per_iteration": 2.68542218208313
+    },
+    {
+      "auxiliary_loss_clip": 0.01260406,
+      "auxiliary_loss_mlp": 0.01040799,
+      "balance_loss_clip": 1.06521714,
+      "balance_loss_mlp": 1.02912235,
+      "epoch": 0.11290807431010641,
+      "flos": 26469252777600.0,
+      "grad_norm": 1.8129446821851505,
+      "language_loss": 0.90834045,
+      "learning_rate": 3.928416342337652e-06,
+      "loss": 0.9313525,
+      "num_input_tokens_seen": 19938475,
+      "step": 939,
+      "time_per_iteration": 2.749116897583008
+    },
+    {
+      "auxiliary_loss_clip": 0.01264932,
+      "auxiliary_loss_mlp": 0.01035746,
+      "balance_loss_clip": 1.06895161,
+      "balance_loss_mlp": 1.02484465,
+      "epoch": 0.1130283172007455,
+      "flos": 22710590732160.0,
+      "grad_norm": 1.7531050213465509,
+      "language_loss": 0.82701194,
+      "learning_rate": 3.928209654561113e-06,
+      "loss": 0.85001862,
+      "num_input_tokens_seen": 19959310,
+      "step": 940,
+      "time_per_iteration": 3.2237794399261475
+    },
+    {
+      "auxiliary_loss_clip": 0.01259021,
+      "auxiliary_loss_mlp": 0.010414,
+      "balance_loss_clip": 1.06874204,
+      "balance_loss_mlp": 1.03083158,
+      "epoch": 0.1131485600913846,
+      "flos": 23219911630080.0,
+      "grad_norm": 2.1338433555313787,
+      "language_loss": 0.81525755,
+      "learning_rate": 3.928002674276703e-06,
+      "loss": 0.83826172,
+      "num_input_tokens_seen": 19978700,
+      "step": 941,
+      "time_per_iteration": 2.738011121749878
+    },
+    {
+      "auxiliary_loss_clip": 0.01248098,
+      "auxiliary_loss_mlp": 0.0104075,
+      "balance_loss_clip": 1.05377173,
+      "balance_loss_mlp": 1.0291748,
+      "epoch": 0.11326880298202369,
+      "flos": 14064271286400.0,
+      "grad_norm": 2.1289118507247684,
+      "language_loss": 0.75117046,
+      "learning_rate": 3.92779540151582e-06,
+      "loss": 0.77405894,
+      "num_input_tokens_seen": 19995785,
+      "step": 942,
+      "time_per_iteration": 2.745229721069336
+    },
+    {
+      "auxiliary_loss_clip": 0.01265053,
+      "auxiliary_loss_mlp": 0.01043537,
+      "balance_loss_clip": 1.06938291,
+      "balance_loss_mlp": 1.0327301,
+      "epoch": 0.11338904587266278,
+      "flos": 16325386479360.0,
+      "grad_norm": 2.171388102717847,
+      "language_loss": 0.85725194,
+      "learning_rate": 3.927587836309907e-06,
+      "loss": 0.88033783,
+      "num_input_tokens_seen": 20013615,
+      "step": 943,
+      "time_per_iteration": 2.7218596935272217
+    },
+    {
+      "auxiliary_loss_clip": 0.012526,
+      "auxiliary_loss_mlp": 0.01034377,
+      "balance_loss_clip": 1.06275797,
+      "balance_loss_mlp": 1.02312374,
+      "epoch": 0.11350928876330187,
+      "flos": 24426258923520.0,
+      "grad_norm": 1.769158218487718,
+      "language_loss": 0.78347206,
+      "learning_rate": 3.927379978690452e-06,
+      "loss": 0.80634189,
+      "num_input_tokens_seen": 20032880,
+      "step": 944,
+      "time_per_iteration": 2.7028706073760986
+    },
+    {
+      "auxiliary_loss_clip": 0.01248054,
+      "auxiliary_loss_mlp": 0.0103867,
+      "balance_loss_clip": 1.05494761,
+      "balance_loss_mlp": 1.02796531,
+      "epoch": 0.11362953165394096,
+      "flos": 24497074586880.0,
+      "grad_norm": 2.1444722320512892,
+      "language_loss": 0.87252355,
+      "learning_rate": 3.927171828688987e-06,
+      "loss": 0.89539075,
+      "num_input_tokens_seen": 20052405,
+      "step": 945,
+      "time_per_iteration": 2.7429747581481934
+    },
+    {
+      "auxiliary_loss_clip": 0.01246732,
+      "auxiliary_loss_mlp": 0.01036058,
+      "balance_loss_clip": 1.070158,
+      "balance_loss_mlp": 1.02453637,
+      "epoch": 0.11374977454458005,
+      "flos": 24060831909120.0,
+      "grad_norm": 3.740580085403855,
+      "language_loss": 0.82191432,
+      "learning_rate": 3.926963386337088e-06,
+      "loss": 0.84474218,
+      "num_input_tokens_seen": 20070635,
+      "step": 946,
+      "time_per_iteration": 2.629817247390747
+    },
+    {
+      "auxiliary_loss_clip": 0.01249058,
+      "auxiliary_loss_mlp": 0.01032021,
+      "balance_loss_clip": 1.0706718,
+      "balance_loss_mlp": 1.02042818,
+      "epoch": 0.11387001743521914,
+      "flos": 39457638967680.0,
+      "grad_norm": 8.573573138917114,
+      "language_loss": 0.70317316,
+      "learning_rate": 3.926754651666375e-06,
+      "loss": 0.72598398,
+      "num_input_tokens_seen": 20091195,
+      "step": 947,
+      "time_per_iteration": 2.775566577911377
+    },
+    {
+      "auxiliary_loss_clip": 0.01269882,
+      "auxiliary_loss_mlp": 0.01041676,
+      "balance_loss_clip": 1.065534,
+      "balance_loss_mlp": 1.03098309,
+      "epoch": 0.11399026032585824,
+      "flos": 25082454533760.0,
+      "grad_norm": 3.376713169298172,
+      "language_loss": 0.78208661,
+      "learning_rate": 3.926545624708513e-06,
+      "loss": 0.80520213,
+      "num_input_tokens_seen": 20110435,
+      "step": 948,
+      "time_per_iteration": 2.7008090019226074
+    },
+    {
+      "auxiliary_loss_clip": 0.01267179,
+      "auxiliary_loss_mlp": 0.01037699,
+      "balance_loss_clip": 1.06331241,
+      "balance_loss_mlp": 1.02761972,
+      "epoch": 0.11411050321649732,
+      "flos": 17961835224960.0,
+      "grad_norm": 1.8025637367904075,
+      "language_loss": 0.85417438,
+      "learning_rate": 3.926336305495213e-06,
+      "loss": 0.87722313,
+      "num_input_tokens_seen": 20128995,
+      "step": 949,
+      "time_per_iteration": 2.6891064643859863
+    },
+    {
+      "auxiliary_loss_clip": 0.01252384,
+      "auxiliary_loss_mlp": 0.01035125,
+      "balance_loss_clip": 1.06090379,
+      "balance_loss_mlp": 1.02345419,
+      "epoch": 0.11423074610713642,
+      "flos": 22455409536000.0,
+      "grad_norm": 2.3704380582937947,
+      "language_loss": 0.88638484,
+      "learning_rate": 3.926126694058226e-06,
+      "loss": 0.90925997,
+      "num_input_tokens_seen": 20148145,
+      "step": 950,
+      "time_per_iteration": 2.699345350265503
+    },
+    {
+      "auxiliary_loss_clip": 0.01274477,
+      "auxiliary_loss_mlp": 0.01041021,
+      "balance_loss_clip": 1.06666279,
+      "balance_loss_mlp": 1.03090024,
+      "epoch": 0.1143509889977755,
+      "flos": 19717687756800.0,
+      "grad_norm": 1.3972898666147555,
+      "language_loss": 0.82153946,
+      "learning_rate": 3.92591679042935e-06,
+      "loss": 0.84469444,
+      "num_input_tokens_seen": 20168035,
+      "step": 951,
+      "time_per_iteration": 2.761415719985962
+    },
+    {
+      "auxiliary_loss_clip": 0.01255027,
+      "auxiliary_loss_mlp": 0.01043906,
+      "balance_loss_clip": 1.07083154,
+      "balance_loss_mlp": 1.03279567,
+      "epoch": 0.1144712318884146,
+      "flos": 19822869757440.0,
+      "grad_norm": 2.1815735577556725,
+      "language_loss": 0.82202899,
+      "learning_rate": 3.92570659464043e-06,
+      "loss": 0.84501839,
+      "num_input_tokens_seen": 20186095,
+      "step": 952,
+      "time_per_iteration": 2.6541032791137695
+    },
+    {
+      "auxiliary_loss_clip": 0.01253428,
+      "auxiliary_loss_mlp": 0.01381817,
+      "balance_loss_clip": 1.07241273,
+      "balance_loss_mlp": 1.00032902,
+      "epoch": 0.1145914747790537,
+      "flos": 14939198766720.0,
+      "grad_norm": 1.9348452401183467,
+      "language_loss": 0.79639405,
+      "learning_rate": 3.925496106723349e-06,
+      "loss": 0.82274652,
+      "num_input_tokens_seen": 20203535,
+      "step": 953,
+      "time_per_iteration": 3.606539726257324
+    },
+    {
+      "auxiliary_loss_clip": 0.01257596,
+      "auxiliary_loss_mlp": 0.01034593,
+      "balance_loss_clip": 1.06996846,
+      "balance_loss_mlp": 1.02364957,
+      "epoch": 0.11471171766969278,
+      "flos": 19865029345920.0,
+      "grad_norm": 1.9044487029695087,
+      "language_loss": 0.83626378,
+      "learning_rate": 3.9252853267100405e-06,
+      "loss": 0.85918564,
+      "num_input_tokens_seen": 20222780,
+      "step": 954,
+      "time_per_iteration": 2.7937750816345215
+    },
+    {
+      "auxiliary_loss_clip": 0.01260725,
+      "auxiliary_loss_mlp": 0.0104598,
+      "balance_loss_clip": 1.06646287,
+      "balance_loss_mlp": 1.0345602,
+      "epoch": 0.11483196056033187,
+      "flos": 22526476594560.0,
+      "grad_norm": 2.931115142913785,
+      "language_loss": 0.83696008,
+      "learning_rate": 3.9250742546324786e-06,
+      "loss": 0.86002707,
+      "num_input_tokens_seen": 20243015,
+      "step": 955,
+      "time_per_iteration": 4.5071635246276855
+    },
+    {
+      "auxiliary_loss_clip": 0.01258612,
+      "auxiliary_loss_mlp": 0.0103476,
+      "balance_loss_clip": 1.06466079,
+      "balance_loss_mlp": 1.02407289,
+      "epoch": 0.11495220345097096,
+      "flos": 28220292887040.0,
+      "grad_norm": 1.797071800973235,
+      "language_loss": 0.86991513,
+      "learning_rate": 3.924862890522683e-06,
+      "loss": 0.89284885,
+      "num_input_tokens_seen": 20263025,
+      "step": 956,
+      "time_per_iteration": 2.7354049682617188
+    },
+    {
+      "auxiliary_loss_clip": 0.01253214,
+      "auxiliary_loss_mlp": 0.01042597,
+      "balance_loss_clip": 1.06668806,
+      "balance_loss_mlp": 1.03103399,
+      "epoch": 0.11507244634161005,
+      "flos": 17492267704320.0,
+      "grad_norm": 2.0549642835110276,
+      "language_loss": 0.86311513,
+      "learning_rate": 3.9246512344127174e-06,
+      "loss": 0.88607323,
+      "num_input_tokens_seen": 20280685,
+      "step": 957,
+      "time_per_iteration": 2.6974925994873047
+    },
+    {
+      "auxiliary_loss_clip": 0.01261028,
+      "auxiliary_loss_mlp": 0.01038952,
+      "balance_loss_clip": 1.05706692,
+      "balance_loss_mlp": 1.02762759,
+      "epoch": 0.11519268923224914,
+      "flos": 22564937082240.0,
+      "grad_norm": 1.8728837764638229,
+      "language_loss": 0.81946671,
+      "learning_rate": 3.9244392863346895e-06,
+      "loss": 0.84246647,
+      "num_input_tokens_seen": 20300090,
+      "step": 958,
+      "time_per_iteration": 2.84867787361145
+    },
+    {
+      "auxiliary_loss_clip": 0.01267284,
+      "auxiliary_loss_mlp": 0.0104766,
+      "balance_loss_clip": 1.07245135,
+      "balance_loss_mlp": 1.03619194,
+      "epoch": 0.11531293212288823,
+      "flos": 16982839065600.0,
+      "grad_norm": 1.735677910081735,
+      "language_loss": 0.92428637,
+      "learning_rate": 3.9242270463207524e-06,
+      "loss": 0.9474358,
+      "num_input_tokens_seen": 20318480,
+      "step": 959,
+      "time_per_iteration": 2.7102365493774414
+    },
+    {
+      "auxiliary_loss_clip": 0.01257619,
+      "auxiliary_loss_mlp": 0.01037881,
+      "balance_loss_clip": 1.05864167,
+      "balance_loss_mlp": 1.02748585,
+      "epoch": 0.11543317501352733,
+      "flos": 12422004537600.0,
+      "grad_norm": 2.8552104257980737,
+      "language_loss": 0.85733342,
+      "learning_rate": 3.924014514403102e-06,
+      "loss": 0.88028842,
+      "num_input_tokens_seen": 20334635,
+      "step": 960,
+      "time_per_iteration": 2.7144618034362793
+    },
+    {
+      "auxiliary_loss_clip": 0.01260968,
+      "auxiliary_loss_mlp": 0.0104395,
+      "balance_loss_clip": 1.0581336,
+      "balance_loss_mlp": 1.03202939,
+      "epoch": 0.11555341790416641,
+      "flos": 19821648695040.0,
+      "grad_norm": 2.281597683960962,
+      "language_loss": 0.91095233,
+      "learning_rate": 3.92380169061398e-06,
+      "loss": 0.93400151,
+      "num_input_tokens_seen": 20352415,
+      "step": 961,
+      "time_per_iteration": 2.7422850131988525
+    },
+    {
+      "auxiliary_loss_clip": 0.01254499,
+      "auxiliary_loss_mlp": 0.01381675,
+      "balance_loss_clip": 1.05830324,
+      "balance_loss_mlp": 1.00030684,
+      "epoch": 0.11567366079480551,
+      "flos": 25738865625600.0,
+      "grad_norm": 2.081211076131072,
+      "language_loss": 0.84037817,
+      "learning_rate": 3.9235885749856705e-06,
+      "loss": 0.86673993,
+      "num_input_tokens_seen": 20371095,
+      "step": 962,
+      "time_per_iteration": 2.8004918098449707
+    },
+    {
+      "auxiliary_loss_clip": 0.01259679,
+      "auxiliary_loss_mlp": 0.01039574,
+      "balance_loss_clip": 1.0704,
+      "balance_loss_mlp": 1.02936423,
+      "epoch": 0.1157939036854446,
+      "flos": 18223301301120.0,
+      "grad_norm": 1.843101850625895,
+      "language_loss": 0.82616925,
+      "learning_rate": 3.9233751675505035e-06,
+      "loss": 0.84916174,
+      "num_input_tokens_seen": 20389805,
+      "step": 963,
+      "time_per_iteration": 2.8320541381835938
+    },
+    {
+      "auxiliary_loss_clip": 0.01256691,
+      "auxiliary_loss_mlp": 0.01044049,
+      "balance_loss_clip": 1.06817508,
+      "balance_loss_mlp": 1.03326607,
+      "epoch": 0.11591414657608369,
+      "flos": 23073755189760.0,
+      "grad_norm": 2.393935770865973,
+      "language_loss": 0.84810448,
+      "learning_rate": 3.923161468340853e-06,
+      "loss": 0.87111181,
+      "num_input_tokens_seen": 20409640,
+      "step": 964,
+      "time_per_iteration": 2.819632053375244
+    },
+    {
+      "auxiliary_loss_clip": 0.01251958,
+      "auxiliary_loss_mlp": 0.01039365,
+      "balance_loss_clip": 1.05537438,
+      "balance_loss_mlp": 1.0283618,
+      "epoch": 0.11603438946672277,
+      "flos": 19461716461440.0,
+      "grad_norm": 1.7430931493527728,
+      "language_loss": 0.81685883,
+      "learning_rate": 3.9229474773891374e-06,
+      "loss": 0.83977205,
+      "num_input_tokens_seen": 20428180,
+      "step": 965,
+      "time_per_iteration": 2.771916151046753
+    },
+    {
+      "auxiliary_loss_clip": 0.01272938,
+      "auxiliary_loss_mlp": 0.01029757,
+      "balance_loss_clip": 1.06064105,
+      "balance_loss_mlp": 1.0184921,
+      "epoch": 0.11615463235736187,
+      "flos": 26831986272000.0,
+      "grad_norm": 2.9073417411628104,
+      "language_loss": 0.83824188,
+      "learning_rate": 3.922733194727818e-06,
+      "loss": 0.86126876,
+      "num_input_tokens_seen": 20447975,
+      "step": 966,
+      "time_per_iteration": 2.7792046070098877
+    },
+    {
+      "auxiliary_loss_clip": 0.01259977,
+      "auxiliary_loss_mlp": 0.01043884,
+      "balance_loss_clip": 1.07080352,
+      "balance_loss_mlp": 1.03329253,
+      "epoch": 0.11627487524800097,
+      "flos": 18580324533120.0,
+      "grad_norm": 2.1157535898229543,
+      "language_loss": 0.87652731,
+      "learning_rate": 3.922518620389402e-06,
+      "loss": 0.89956594,
+      "num_input_tokens_seen": 20464840,
+      "step": 967,
+      "time_per_iteration": 2.628938674926758
+    },
+    {
+      "auxiliary_loss_clip": 0.01257453,
+      "auxiliary_loss_mlp": 0.0104989,
+      "balance_loss_clip": 1.05469728,
+      "balance_loss_mlp": 1.03908968,
+      "epoch": 0.11639511813864005,
+      "flos": 18150474476160.0,
+      "grad_norm": 1.717019913592421,
+      "language_loss": 0.89475131,
+      "learning_rate": 3.922303754406439e-06,
+      "loss": 0.91782475,
+      "num_input_tokens_seen": 20482680,
+      "step": 968,
+      "time_per_iteration": 2.8222908973693848
+    },
+    {
+      "auxiliary_loss_clip": 0.01241193,
+      "auxiliary_loss_mlp": 0.01038685,
+      "balance_loss_clip": 1.05790567,
+      "balance_loss_mlp": 1.02749145,
+      "epoch": 0.11651536102927915,
+      "flos": 20922023888640.0,
+      "grad_norm": 1.6803239743493972,
+      "language_loss": 0.78908831,
+      "learning_rate": 3.922088596811526e-06,
+      "loss": 0.81188703,
+      "num_input_tokens_seen": 20501810,
+      "step": 969,
+      "time_per_iteration": 2.659844160079956
+    },
+    {
+      "auxiliary_loss_clip": 0.01236284,
+      "auxiliary_loss_mlp": 0.01050075,
+      "balance_loss_clip": 1.06523776,
+      "balance_loss_mlp": 1.03753424,
+      "epoch": 0.11663560391991823,
+      "flos": 16508602776960.0,
+      "grad_norm": 2.4347891397588266,
+      "language_loss": 0.87103999,
+      "learning_rate": 3.9218731476373e-06,
+      "loss": 0.89390355,
+      "num_input_tokens_seen": 20517995,
+      "step": 970,
+      "time_per_iteration": 2.5871691703796387
+    },
+    {
+      "auxiliary_loss_clip": 0.01257276,
+      "auxiliary_loss_mlp": 0.01039936,
+      "balance_loss_clip": 1.07282782,
+      "balance_loss_mlp": 1.02706707,
+      "epoch": 0.11675584681055733,
+      "flos": 19865029345920.0,
+      "grad_norm": 1.9327789543336868,
+      "language_loss": 0.84411049,
+      "learning_rate": 3.9216574069164455e-06,
+      "loss": 0.86708254,
+      "num_input_tokens_seen": 20536970,
+      "step": 971,
+      "time_per_iteration": 2.5867161750793457
+    },
+    {
+      "auxiliary_loss_clip": 0.01241298,
+      "auxiliary_loss_mlp": 0.01038061,
+      "balance_loss_clip": 1.06931615,
+      "balance_loss_mlp": 1.02810669,
+      "epoch": 0.11687608970119642,
+      "flos": 21944364785280.0,
+      "grad_norm": 1.594112193821458,
+      "language_loss": 0.79998446,
+      "learning_rate": 3.921441374681691e-06,
+      "loss": 0.82277799,
+      "num_input_tokens_seen": 20557030,
+      "step": 972,
+      "time_per_iteration": 2.6475210189819336
+    },
+    {
+      "auxiliary_loss_clip": 0.0125355,
+      "auxiliary_loss_mlp": 0.010391,
+      "balance_loss_clip": 1.06523752,
+      "balance_loss_mlp": 1.02857375,
+      "epoch": 0.1169963325918355,
+      "flos": 24061155131520.0,
+      "grad_norm": 2.1750214543724233,
+      "language_loss": 0.64969939,
+      "learning_rate": 3.921225050965808e-06,
+      "loss": 0.6726259,
+      "num_input_tokens_seen": 20576915,
+      "step": 973,
+      "time_per_iteration": 2.6946330070495605
+    },
+    {
+      "auxiliary_loss_clip": 0.01266665,
+      "auxiliary_loss_mlp": 0.01036477,
+      "balance_loss_clip": 1.06396818,
+      "balance_loss_mlp": 1.02552152,
+      "epoch": 0.1171165754824746,
+      "flos": 23368151059200.0,
+      "grad_norm": 2.144333443838165,
+      "language_loss": 0.75103784,
+      "learning_rate": 3.921008435801612e-06,
+      "loss": 0.77406931,
+      "num_input_tokens_seen": 20596000,
+      "step": 974,
+      "time_per_iteration": 2.6955461502075195
+    },
+    {
+      "auxiliary_loss_clip": 0.01236199,
+      "auxiliary_loss_mlp": 0.01043149,
+      "balance_loss_clip": 1.06436801,
+      "balance_loss_mlp": 1.03234255,
+      "epoch": 0.11723681837311369,
+      "flos": 18552243075840.0,
+      "grad_norm": 4.970465985806789,
+      "language_loss": 0.75138056,
+      "learning_rate": 3.920791529221963e-06,
+      "loss": 0.77417409,
+      "num_input_tokens_seen": 20614675,
+      "step": 975,
+      "time_per_iteration": 2.6369242668151855
+    },
+    {
+      "auxiliary_loss_clip": 0.01260089,
+      "auxiliary_loss_mlp": 0.01381912,
+      "balance_loss_clip": 1.06619883,
+      "balance_loss_mlp": 1.00040138,
+      "epoch": 0.11735706126375278,
+      "flos": 23550541344000.0,
+      "grad_norm": 1.9340134384690897,
+      "language_loss": 0.76736104,
+      "learning_rate": 3.920574331259768e-06,
+      "loss": 0.79378104,
+      "num_input_tokens_seen": 20635875,
+      "step": 976,
+      "time_per_iteration": 2.881483316421509
+    },
+    {
+      "auxiliary_loss_clip": 0.01247947,
+      "auxiliary_loss_mlp": 0.01034587,
+      "balance_loss_clip": 1.06514072,
+      "balance_loss_mlp": 1.0237329,
+      "epoch": 0.11747730415439187,
+      "flos": 22381541216640.0,
+      "grad_norm": 4.578445800976889,
+      "language_loss": 0.79467684,
+      "learning_rate": 3.9203568419479716e-06,
+      "loss": 0.81750214,
+      "num_input_tokens_seen": 20656430,
+      "step": 977,
+      "time_per_iteration": 2.7102839946746826
+    },
+    {
+      "auxiliary_loss_clip": 0.01261179,
+      "auxiliary_loss_mlp": 0.0103338,
+      "balance_loss_clip": 1.06928086,
+      "balance_loss_mlp": 1.02306795,
+      "epoch": 0.11759754704503096,
+      "flos": 22200731130240.0,
+      "grad_norm": 1.8326622480535348,
+      "language_loss": 0.75265723,
+      "learning_rate": 3.92013906131957e-06,
+      "loss": 0.77560282,
+      "num_input_tokens_seen": 20675360,
+      "step": 978,
+      "time_per_iteration": 3.5355618000030518
+    },
+    {
+      "auxiliary_loss_clip": 0.01266877,
+      "auxiliary_loss_mlp": 0.01038796,
+      "balance_loss_clip": 1.06545997,
+      "balance_loss_mlp": 1.02821612,
+      "epoch": 0.11771778993567006,
+      "flos": 22309755886080.0,
+      "grad_norm": 1.5875094015343088,
+      "language_loss": 0.82741523,
+      "learning_rate": 3.9199209894076e-06,
+      "loss": 0.85047197,
+      "num_input_tokens_seen": 20695675,
+      "step": 979,
+      "time_per_iteration": 2.7133824825286865
+    },
+    {
+      "auxiliary_loss_clip": 0.01244653,
+      "auxiliary_loss_mlp": 0.01042942,
+      "balance_loss_clip": 1.06790829,
+      "balance_loss_mlp": 1.03080618,
+      "epoch": 0.11783803282630914,
+      "flos": 21288169175040.0,
+      "grad_norm": 1.867795951890497,
+      "language_loss": 0.90433061,
+      "learning_rate": 3.919702626245142e-06,
+      "loss": 0.92720658,
+      "num_input_tokens_seen": 20715330,
+      "step": 980,
+      "time_per_iteration": 2.65293025970459
+    },
+    {
+      "auxiliary_loss_clip": 0.01239776,
+      "auxiliary_loss_mlp": 0.01041059,
+      "balance_loss_clip": 1.0605942,
+      "balance_loss_mlp": 1.02884626,
+      "epoch": 0.11795827571694824,
+      "flos": 25371535190400.0,
+      "grad_norm": 2.24387416000974,
+      "language_loss": 0.66119772,
+      "learning_rate": 3.919483971865322e-06,
+      "loss": 0.68400609,
+      "num_input_tokens_seen": 20735325,
+      "step": 981,
+      "time_per_iteration": 4.570155620574951
+    },
+    {
+      "auxiliary_loss_clip": 0.01257752,
+      "auxiliary_loss_mlp": 0.01033325,
+      "balance_loss_clip": 1.06822157,
+      "balance_loss_mlp": 1.02334738,
+      "epoch": 0.11807851860758732,
+      "flos": 23622218933760.0,
+      "grad_norm": 3.5622269108884566,
+      "language_loss": 0.87871659,
+      "learning_rate": 3.91926502630131e-06,
+      "loss": 0.90162736,
+      "num_input_tokens_seen": 20755940,
+      "step": 982,
+      "time_per_iteration": 2.732025384902954
+    },
+    {
+      "auxiliary_loss_clip": 0.01259311,
+      "auxiliary_loss_mlp": 0.01046822,
+      "balance_loss_clip": 1.07288849,
+      "balance_loss_mlp": 1.03683233,
+      "epoch": 0.11819876149822642,
+      "flos": 24972496024320.0,
+      "grad_norm": 2.4345907902529715,
+      "language_loss": 0.72278106,
+      "learning_rate": 3.91904578958632e-06,
+      "loss": 0.7458424,
+      "num_input_tokens_seen": 20775355,
+      "step": 983,
+      "time_per_iteration": 2.6983113288879395
+    },
+    {
+      "auxiliary_loss_clip": 0.01242887,
+      "auxiliary_loss_mlp": 0.01040735,
+      "balance_loss_clip": 1.06850111,
+      "balance_loss_mlp": 1.03005433,
+      "epoch": 0.11831900438886551,
+      "flos": 23003226835200.0,
+      "grad_norm": 2.384813293158484,
+      "language_loss": 0.84374386,
+      "learning_rate": 3.918826261753608e-06,
+      "loss": 0.86658007,
+      "num_input_tokens_seen": 20794935,
+      "step": 984,
+      "time_per_iteration": 2.626990556716919
+    },
+    {
+      "auxiliary_loss_clip": 0.01260963,
+      "auxiliary_loss_mlp": 0.01043858,
+      "balance_loss_clip": 1.06688404,
+      "balance_loss_mlp": 1.03400517,
+      "epoch": 0.1184392472795046,
+      "flos": 27965147604480.0,
+      "grad_norm": 2.5295290632724328,
+      "language_loss": 0.71088582,
+      "learning_rate": 3.918606442836478e-06,
+      "loss": 0.73393404,
+      "num_input_tokens_seen": 20817155,
+      "step": 985,
+      "time_per_iteration": 2.732293128967285
+    },
+    {
+      "auxiliary_loss_clip": 0.01252481,
+      "auxiliary_loss_mlp": 0.01040885,
+      "balance_loss_clip": 1.07299614,
+      "balance_loss_mlp": 1.03036463,
+      "epoch": 0.1185594901701437,
+      "flos": 19898497843200.0,
+      "grad_norm": 1.8085706341585597,
+      "language_loss": 0.77590984,
+      "learning_rate": 3.918386332868277e-06,
+      "loss": 0.79884344,
+      "num_input_tokens_seen": 20835125,
+      "step": 986,
+      "time_per_iteration": 2.6542441844940186
+    },
+    {
+      "auxiliary_loss_clip": 0.01240091,
+      "auxiliary_loss_mlp": 0.01040305,
+      "balance_loss_clip": 1.06842208,
+      "balance_loss_mlp": 1.02912331,
+      "epoch": 0.11867973306078278,
+      "flos": 18912354877440.0,
+      "grad_norm": 1.7180215189488153,
+      "language_loss": 0.94582039,
+      "learning_rate": 3.918165931882394e-06,
+      "loss": 0.96862435,
+      "num_input_tokens_seen": 20853525,
+      "step": 987,
+      "time_per_iteration": 2.710793972015381
+    },
+    {
+      "auxiliary_loss_clip": 0.01268969,
+      "auxiliary_loss_mlp": 0.01043943,
+      "balance_loss_clip": 1.05759549,
+      "balance_loss_mlp": 1.03278458,
+      "epoch": 0.11879997595142187,
+      "flos": 16982803152000.0,
+      "grad_norm": 2.490451901620442,
+      "language_loss": 0.75365424,
+      "learning_rate": 3.917945239912264e-06,
+      "loss": 0.77678347,
+      "num_input_tokens_seen": 20871000,
+      "step": 988,
+      "time_per_iteration": 2.753286123275757
+    },
+    {
+      "auxiliary_loss_clip": 0.01275718,
+      "auxiliary_loss_mlp": 0.01041207,
+      "balance_loss_clip": 1.0635829,
+      "balance_loss_mlp": 1.03016794,
+      "epoch": 0.11892021884206096,
+      "flos": 17530369056000.0,
+      "grad_norm": 2.135268782138956,
+      "language_loss": 0.75993025,
+      "learning_rate": 3.917724256991367e-06,
+      "loss": 0.78309953,
+      "num_input_tokens_seen": 20889745,
+      "step": 989,
+      "time_per_iteration": 2.8192312717437744
+    },
+    {
+      "auxiliary_loss_clip": 0.01247019,
+      "auxiliary_loss_mlp": 0.01046741,
+      "balance_loss_clip": 1.06658506,
+      "balance_loss_mlp": 1.0350287,
+      "epoch": 0.11904046173270005,
+      "flos": 30955895763840.0,
+      "grad_norm": 2.0251057558465595,
+      "language_loss": 0.81475025,
+      "learning_rate": 3.9175029831532245e-06,
+      "loss": 0.83768785,
+      "num_input_tokens_seen": 20909260,
+      "step": 990,
+      "time_per_iteration": 2.787214994430542
+    },
+    {
+      "auxiliary_loss_clip": 0.01270343,
+      "auxiliary_loss_mlp": 0.01041123,
+      "balance_loss_clip": 1.06592345,
+      "balance_loss_mlp": 1.03037,
+      "epoch": 0.11916070462333915,
+      "flos": 20157234485760.0,
+      "grad_norm": 3.805562579542918,
+      "language_loss": 0.88623649,
+      "learning_rate": 3.917281418431404e-06,
+      "loss": 0.90935111,
+      "num_input_tokens_seen": 20928305,
+      "step": 991,
+      "time_per_iteration": 2.7224411964416504
+    },
+    {
+      "auxiliary_loss_clip": 0.01263134,
+      "auxiliary_loss_mlp": 0.01044144,
+      "balance_loss_clip": 1.0707314,
+      "balance_loss_mlp": 1.03253269,
+      "epoch": 0.11928094751397823,
+      "flos": 23551115961600.0,
+      "grad_norm": 1.8400563238226604,
+      "language_loss": 0.77099454,
+      "learning_rate": 3.917059562859516e-06,
+      "loss": 0.79406732,
+      "num_input_tokens_seen": 20947630,
+      "step": 992,
+      "time_per_iteration": 2.731330394744873
+    },
+    {
+      "auxiliary_loss_clip": 0.01251092,
+      "auxiliary_loss_mlp": 0.01040301,
+      "balance_loss_clip": 1.06800961,
+      "balance_loss_mlp": 1.0299592,
+      "epoch": 0.11940119040461733,
+      "flos": 23908426502400.0,
+      "grad_norm": 2.1215113933064043,
+      "language_loss": 0.88819939,
+      "learning_rate": 3.916837416471218e-06,
+      "loss": 0.91111332,
+      "num_input_tokens_seen": 20964250,
+      "step": 993,
+      "time_per_iteration": 2.7523977756500244
+    },
+    {
+      "auxiliary_loss_clip": 0.01239789,
+      "auxiliary_loss_mlp": 0.01048915,
+      "balance_loss_clip": 1.06191039,
+      "balance_loss_mlp": 1.03871632,
+      "epoch": 0.11952143329525641,
+      "flos": 13844533835520.0,
+      "grad_norm": 2.6334712357328884,
+      "language_loss": 0.72580922,
+      "learning_rate": 3.916614979300207e-06,
+      "loss": 0.74869627,
+      "num_input_tokens_seen": 20979095,
+      "step": 994,
+      "time_per_iteration": 2.6339502334594727
+    },
+    {
+      "auxiliary_loss_clip": 0.0126468,
+      "auxiliary_loss_mlp": 0.01032568,
+      "balance_loss_clip": 1.06449127,
+      "balance_loss_mlp": 1.02195215,
+      "epoch": 0.11964167618589551,
+      "flos": 27015525792000.0,
+      "grad_norm": 1.7049495509753887,
+      "language_loss": 0.78464818,
+      "learning_rate": 3.9163922513802274e-06,
+      "loss": 0.80762064,
+      "num_input_tokens_seen": 21001430,
+      "step": 995,
+      "time_per_iteration": 2.8908121585845947
+    },
+    {
+      "auxiliary_loss_clip": 0.01246607,
+      "auxiliary_loss_mlp": 0.01042832,
+      "balance_loss_clip": 1.06929731,
+      "balance_loss_mlp": 1.03122103,
+      "epoch": 0.1197619190765346,
+      "flos": 12567622273920.0,
+      "grad_norm": 2.836324253737529,
+      "language_loss": 0.82410961,
+      "learning_rate": 3.916169232745067e-06,
+      "loss": 0.84700406,
+      "num_input_tokens_seen": 21019105,
+      "step": 996,
+      "time_per_iteration": 2.6525423526763916
+    },
+    {
+      "auxiliary_loss_clip": 0.01244376,
+      "auxiliary_loss_mlp": 0.01043065,
+      "balance_loss_clip": 1.06308722,
+      "balance_loss_mlp": 1.03047013,
+      "epoch": 0.11988216196717369,
+      "flos": 16909437623040.0,
+      "grad_norm": 2.983121021670007,
+      "language_loss": 0.91840494,
+      "learning_rate": 3.915945923428559e-06,
+      "loss": 0.94127929,
+      "num_input_tokens_seen": 21035630,
+      "step": 997,
+      "time_per_iteration": 2.7078707218170166
+    },
+    {
+      "auxiliary_loss_clip": 0.01245555,
+      "auxiliary_loss_mlp": 0.01042971,
+      "balance_loss_clip": 1.0660069,
+      "balance_loss_mlp": 1.03212321,
+      "epoch": 0.12000240485781279,
+      "flos": 16216577205120.0,
+      "grad_norm": 2.10789243083597,
+      "language_loss": 0.83265424,
+      "learning_rate": 3.915722323464577e-06,
+      "loss": 0.85553956,
+      "num_input_tokens_seen": 21054235,
+      "step": 998,
+      "time_per_iteration": 2.770740032196045
+    },
+    {
+      "auxiliary_loss_clip": 0.01250939,
+      "auxiliary_loss_mlp": 0.01044544,
+      "balance_loss_clip": 1.06891418,
+      "balance_loss_mlp": 1.03314805,
+      "epoch": 0.12012264774845187,
+      "flos": 49344887525760.0,
+      "grad_norm": 2.25269204928778,
+      "language_loss": 0.7077893,
+      "learning_rate": 3.91549843288704e-06,
+      "loss": 0.73074412,
+      "num_input_tokens_seen": 21077915,
+      "step": 999,
+      "time_per_iteration": 2.9267094135284424
+    },
+    {
+      "auxiliary_loss_clip": 0.01264758,
+      "auxiliary_loss_mlp": 0.01382027,
+      "balance_loss_clip": 1.0614363,
+      "balance_loss_mlp": 1.0004375,
+      "epoch": 0.12024289063909097,
+      "flos": 26979435601920.0,
+      "grad_norm": 3.012533816121702,
+      "language_loss": 0.79268068,
+      "learning_rate": 3.915274251729916e-06,
+      "loss": 0.81914854,
+      "num_input_tokens_seen": 21099205,
+      "step": 1000,
+      "time_per_iteration": 2.802319049835205
+    },
+    {
+      "auxiliary_loss_clip": 0.01271503,
+      "auxiliary_loss_mlp": 0.01040894,
+      "balance_loss_clip": 1.06661308,
+      "balance_loss_mlp": 1.02909803,
+      "epoch": 0.12036313352973005,
+      "flos": 19537308633600.0,
+      "grad_norm": 2.1954062198830466,
+      "language_loss": 0.90018594,
+      "learning_rate": 3.91504978002721e-06,
+      "loss": 0.92330992,
+      "num_input_tokens_seen": 21118260,
+      "step": 1001,
+      "time_per_iteration": 2.7023653984069824
+    },
+    {
+      "auxiliary_loss_clip": 0.01259576,
+      "auxiliary_loss_mlp": 0.01381544,
+      "balance_loss_clip": 1.06380343,
+      "balance_loss_mlp": 1.00034833,
+      "epoch": 0.12048337642036915,
+      "flos": 17268256535040.0,
+      "grad_norm": 2.4856589624211183,
+      "language_loss": 0.76057434,
+      "learning_rate": 3.914825017812974e-06,
+      "loss": 0.78698552,
+      "num_input_tokens_seen": 21134910,
+      "step": 1002,
+      "time_per_iteration": 2.674286127090454
+    },
+    {
+      "auxiliary_loss_clip": 0.01259776,
+      "auxiliary_loss_mlp": 0.010359,
+      "balance_loss_clip": 1.06846738,
+      "balance_loss_mlp": 1.02495706,
+      "epoch": 0.12060361931100824,
+      "flos": 22856962654080.0,
+      "grad_norm": 2.8520398835387883,
+      "language_loss": 0.72675395,
+      "learning_rate": 3.9145999651213065e-06,
+      "loss": 0.74971074,
+      "num_input_tokens_seen": 21154150,
+      "step": 1003,
+      "time_per_iteration": 2.7072904109954834
+    },
+    {
+      "auxiliary_loss_clip": 0.01254949,
+      "auxiliary_loss_mlp": 0.01035464,
+      "balance_loss_clip": 1.0702312,
+      "balance_loss_mlp": 1.02387071,
+      "epoch": 0.12072386220164733,
+      "flos": 16726795943040.0,
+      "grad_norm": 2.141847365585141,
+      "language_loss": 0.88607681,
+      "learning_rate": 3.9143746219863465e-06,
+      "loss": 0.90898097,
+      "num_input_tokens_seen": 21171255,
+      "step": 1004,
+      "time_per_iteration": 3.7659332752227783
+    },
+    {
+      "auxiliary_loss_clip": 0.01162193,
+      "auxiliary_loss_mlp": 0.01003719,
+      "balance_loss_clip": 1.03444195,
+      "balance_loss_mlp": 1.00021386,
+      "epoch": 0.12084410509228642,
+      "flos": 55144176105600.0,
+      "grad_norm": 0.9496470467698884,
+      "language_loss": 0.64798599,
+      "learning_rate": 3.914148988442278e-06,
+      "loss": 0.66964513,
+      "num_input_tokens_seen": 21227045,
+      "step": 1005,
+      "time_per_iteration": 3.2765560150146484
+    },
+    {
+      "auxiliary_loss_clip": 0.01241507,
+      "auxiliary_loss_mlp": 0.01038024,
+      "balance_loss_clip": 1.06304789,
+      "balance_loss_mlp": 1.02713418,
+      "epoch": 0.1209643479829255,
+      "flos": 26760236855040.0,
+      "grad_norm": 2.9835520420396513,
+      "language_loss": 0.95065486,
+      "learning_rate": 3.91392306452333e-06,
+      "loss": 0.97345018,
+      "num_input_tokens_seen": 21244120,
+      "step": 1006,
+      "time_per_iteration": 2.7051568031311035
+    },
+    {
+      "auxiliary_loss_clip": 0.0124806,
+      "auxiliary_loss_mlp": 0.01043527,
+      "balance_loss_clip": 1.07036996,
+      "balance_loss_mlp": 1.03068209,
+      "epoch": 0.1210845908735646,
+      "flos": 11035026725760.0,
+      "grad_norm": 2.8632976578768066,
+      "language_loss": 0.65888321,
+      "learning_rate": 3.913696850263774e-06,
+      "loss": 0.68179905,
+      "num_input_tokens_seen": 21258485,
+      "step": 1007,
+      "time_per_iteration": 5.303524732589722
+    },
+    {
+      "auxiliary_loss_clip": 0.01247224,
+      "auxiliary_loss_mlp": 0.01039838,
+      "balance_loss_clip": 1.06603444,
+      "balance_loss_mlp": 1.02924013,
+      "epoch": 0.1212048337642037,
+      "flos": 20484631975680.0,
+      "grad_norm": 2.153808700575404,
+      "language_loss": 0.79259628,
+      "learning_rate": 3.913470345697929e-06,
+      "loss": 0.81546688,
+      "num_input_tokens_seen": 21277115,
+      "step": 1008,
+      "time_per_iteration": 2.9463326930999756
+    },
+    {
+      "auxiliary_loss_clip": 0.0127482,
+      "auxiliary_loss_mlp": 0.01038574,
+      "balance_loss_clip": 1.06279361,
+      "balance_loss_mlp": 1.02756548,
+      "epoch": 0.12132507665484278,
+      "flos": 22346061557760.0,
+      "grad_norm": 2.1067377526806177,
+      "language_loss": 0.85601974,
+      "learning_rate": 3.913243550860153e-06,
+      "loss": 0.87915373,
+      "num_input_tokens_seen": 21294880,
+      "step": 1009,
+      "time_per_iteration": 2.885068893432617
+    },
+    {
+      "auxiliary_loss_clip": 0.01256986,
+      "auxiliary_loss_mlp": 0.01041516,
+      "balance_loss_clip": 1.07544994,
+      "balance_loss_mlp": 1.028916,
+      "epoch": 0.12144531954548188,
+      "flos": 29314957818240.0,
+      "grad_norm": 2.2151750651582405,
+      "language_loss": 0.75669014,
+      "learning_rate": 3.913016465784852e-06,
+      "loss": 0.77967519,
+      "num_input_tokens_seen": 21315555,
+      "step": 1010,
+      "time_per_iteration": 2.72279953956604
+    },
+    {
+      "auxiliary_loss_clip": 0.01270923,
+      "auxiliary_loss_mlp": 0.01051552,
+      "balance_loss_clip": 1.06071758,
+      "balance_loss_mlp": 1.04031634,
+      "epoch": 0.12156556243612096,
+      "flos": 20485242506880.0,
+      "grad_norm": 3.232138503726439,
+      "language_loss": 0.72298682,
+      "learning_rate": 3.912789090506474e-06,
+      "loss": 0.74621165,
+      "num_input_tokens_seen": 21334815,
+      "step": 1011,
+      "time_per_iteration": 2.7878201007843018
+    },
+    {
+      "auxiliary_loss_clip": 0.01269317,
+      "auxiliary_loss_mlp": 0.01037918,
+      "balance_loss_clip": 1.06159258,
+      "balance_loss_mlp": 1.02671218,
+      "epoch": 0.12168580532676006,
+      "flos": 16472009796480.0,
+      "grad_norm": 2.6445816984953336,
+      "language_loss": 0.71555525,
+      "learning_rate": 3.9125614250595114e-06,
+      "loss": 0.73862761,
+      "num_input_tokens_seen": 21351025,
+      "step": 1012,
+      "time_per_iteration": 2.6739535331726074
+    },
+    {
+      "auxiliary_loss_clip": 0.01253992,
+      "auxiliary_loss_mlp": 0.01041618,
+      "balance_loss_clip": 1.06745315,
+      "balance_loss_mlp": 1.03041792,
+      "epoch": 0.12180604821739914,
+      "flos": 15341290588800.0,
+      "grad_norm": 2.8786634052987146,
+      "language_loss": 0.89356101,
+      "learning_rate": 3.912333469478502e-06,
+      "loss": 0.91651714,
+      "num_input_tokens_seen": 21368990,
+      "step": 1013,
+      "time_per_iteration": 2.6147091388702393
+    },
+    {
+      "auxiliary_loss_clip": 0.01253842,
+      "auxiliary_loss_mlp": 0.01035646,
+      "balance_loss_clip": 1.06389809,
+      "balance_loss_mlp": 1.02406502,
+      "epoch": 0.12192629110803824,
+      "flos": 19318038059520.0,
+      "grad_norm": 2.1061501560117035,
+      "language_loss": 0.7815547,
+      "learning_rate": 3.912105223798025e-06,
+      "loss": 0.80444956,
+      "num_input_tokens_seen": 21388410,
+      "step": 1014,
+      "time_per_iteration": 2.6781227588653564
+    },
+    {
+      "auxiliary_loss_clip": 0.01165564,
+      "auxiliary_loss_mlp": 0.01004448,
+      "balance_loss_clip": 1.02805483,
+      "balance_loss_mlp": 1.00111032,
+      "epoch": 0.12204653399867733,
+      "flos": 47725354085760.0,
+      "grad_norm": 0.9926705067009104,
+      "language_loss": 0.6768719,
+      "learning_rate": 3.9118766880527065e-06,
+      "loss": 0.69857204,
+      "num_input_tokens_seen": 21442845,
+      "step": 1015,
+      "time_per_iteration": 3.1683809757232666
+    },
+    {
+      "auxiliary_loss_clip": 0.01263416,
+      "auxiliary_loss_mlp": 0.01037143,
+      "balance_loss_clip": 1.05915976,
+      "balance_loss_mlp": 1.02659285,
+      "epoch": 0.12216677688931642,
+      "flos": 18221936584320.0,
+      "grad_norm": 1.7162499545496328,
+      "language_loss": 0.73562384,
+      "learning_rate": 3.9116478622772145e-06,
+      "loss": 0.75862944,
+      "num_input_tokens_seen": 21461420,
+      "step": 1016,
+      "time_per_iteration": 2.7718567848205566
+    },
+    {
+      "auxiliary_loss_clip": 0.01248918,
+      "auxiliary_loss_mlp": 0.01046654,
+      "balance_loss_clip": 1.06813049,
+      "balance_loss_mlp": 1.03574657,
+      "epoch": 0.12228701977995551,
+      "flos": 27525636789120.0,
+      "grad_norm": 1.9289746967869454,
+      "language_loss": 0.87995374,
+      "learning_rate": 3.911418746506261e-06,
+      "loss": 0.90290952,
+      "num_input_tokens_seen": 21481550,
+      "step": 1017,
+      "time_per_iteration": 2.7258951663970947
+    },
+    {
+      "auxiliary_loss_clip": 0.01256981,
+      "auxiliary_loss_mlp": 0.01042482,
+      "balance_loss_clip": 1.07536113,
+      "balance_loss_mlp": 1.03167593,
+      "epoch": 0.1224072626705946,
+      "flos": 21798136517760.0,
+      "grad_norm": 1.6740252426071747,
+      "language_loss": 0.78597128,
+      "learning_rate": 3.911189340774604e-06,
+      "loss": 0.80896592,
+      "num_input_tokens_seen": 21501680,
+      "step": 1018,
+      "time_per_iteration": 2.652629852294922
+    },
+    {
+      "auxiliary_loss_clip": 0.0126352,
+      "auxiliary_loss_mlp": 0.01039265,
+      "balance_loss_clip": 1.06376123,
+      "balance_loss_mlp": 1.02913201,
+      "epoch": 0.1225275055612337,
+      "flos": 20703758895360.0,
+      "grad_norm": 1.8777934882732357,
+      "language_loss": 0.79624879,
+      "learning_rate": 3.910959645117043e-06,
+      "loss": 0.81927669,
+      "num_input_tokens_seen": 21521015,
+      "step": 1019,
+      "time_per_iteration": 2.6377971172332764
+    },
+    {
+      "auxiliary_loss_clip": 0.01151869,
+      "auxiliary_loss_mlp": 0.01377487,
+      "balance_loss_clip": 1.031533,
+      "balance_loss_mlp": 1.00029373,
+      "epoch": 0.12264774845187278,
+      "flos": 57745294462080.0,
+      "grad_norm": 0.812240383496602,
+      "language_loss": 0.56725287,
+      "learning_rate": 3.910729659568423e-06,
+      "loss": 0.59254646,
+      "num_input_tokens_seen": 21578200,
+      "step": 1020,
+      "time_per_iteration": 3.2371087074279785
+    },
+    {
+      "auxiliary_loss_clip": 0.01262535,
+      "auxiliary_loss_mlp": 0.01034531,
+      "balance_loss_clip": 1.07040429,
+      "balance_loss_mlp": 1.0247736,
+      "epoch": 0.12276799134251187,
+      "flos": 26396282298240.0,
+      "grad_norm": 1.732924290925205,
+      "language_loss": 0.82176316,
+      "learning_rate": 3.9104993841636344e-06,
+      "loss": 0.84473383,
+      "num_input_tokens_seen": 21598770,
+      "step": 1021,
+      "time_per_iteration": 2.6943492889404297
+    },
+    {
+      "auxiliary_loss_clip": 0.01258043,
+      "auxiliary_loss_mlp": 0.01381449,
+      "balance_loss_clip": 1.07192135,
+      "balance_loss_mlp": 1.00020707,
+      "epoch": 0.12288823423315097,
+      "flos": 21064193919360.0,
+      "grad_norm": 1.8607977311080213,
+      "language_loss": 0.80802071,
+      "learning_rate": 3.910268818937608e-06,
+      "loss": 0.83441567,
+      "num_input_tokens_seen": 21616925,
+      "step": 1022,
+      "time_per_iteration": 2.734934091567993
+    },
+    {
+      "auxiliary_loss_clip": 0.01274935,
+      "auxiliary_loss_mlp": 0.010359,
+      "balance_loss_clip": 1.06590366,
+      "balance_loss_mlp": 1.02599335,
+      "epoch": 0.12300847712379005,
+      "flos": 12312441077760.0,
+      "grad_norm": 2.920337283467533,
+      "language_loss": 0.87456298,
+      "learning_rate": 3.9100379639253196e-06,
+      "loss": 0.89767122,
+      "num_input_tokens_seen": 21633645,
+      "step": 1023,
+      "time_per_iteration": 2.7210261821746826
+    },
+    {
+      "auxiliary_loss_clip": 0.01252746,
+      "auxiliary_loss_mlp": 0.01037505,
+      "balance_loss_clip": 1.06107235,
+      "balance_loss_mlp": 1.02569127,
+      "epoch": 0.12312872001442915,
+      "flos": 16762239688320.0,
+      "grad_norm": 2.690924365038752,
+      "language_loss": 0.86348379,
+      "learning_rate": 3.909806819161791e-06,
+      "loss": 0.88638628,
+      "num_input_tokens_seen": 21649120,
+      "step": 1024,
+      "time_per_iteration": 2.65145206451416
+    },
+    {
+      "auxiliary_loss_clip": 0.0126772,
+      "auxiliary_loss_mlp": 0.01037432,
+      "balance_loss_clip": 1.06205869,
+      "balance_loss_mlp": 1.02584469,
+      "epoch": 0.12324896290506823,
+      "flos": 18404937400320.0,
+      "grad_norm": 2.3437524409132053,
+      "language_loss": 0.86368853,
+      "learning_rate": 3.909575384682086e-06,
+      "loss": 0.88674003,
+      "num_input_tokens_seen": 21668000,
+      "step": 1025,
+      "time_per_iteration": 2.6937172412872314
+    },
+    {
+      "auxiliary_loss_clip": 0.01252159,
+      "auxiliary_loss_mlp": 0.01035594,
+      "balance_loss_clip": 1.06659126,
+      "balance_loss_mlp": 1.02586031,
+      "epoch": 0.12336920579570733,
+      "flos": 18915407533440.0,
+      "grad_norm": 1.7325301820826076,
+      "language_loss": 0.69307119,
+      "learning_rate": 3.9093436605213144e-06,
+      "loss": 0.7159487,
+      "num_input_tokens_seen": 21688500,
+      "step": 1026,
+      "time_per_iteration": 2.6763064861297607
+    },
+    {
+      "auxiliary_loss_clip": 0.01258492,
+      "auxiliary_loss_mlp": 0.01036079,
+      "balance_loss_clip": 1.0657835,
+      "balance_loss_mlp": 1.02613139,
+      "epoch": 0.12348944868634643,
+      "flos": 23878369797120.0,
+      "grad_norm": 1.777024992846186,
+      "language_loss": 0.79524541,
+      "learning_rate": 3.909111646714627e-06,
+      "loss": 0.81819111,
+      "num_input_tokens_seen": 21709345,
+      "step": 1027,
+      "time_per_iteration": 2.7150442600250244
+    },
+    {
+      "auxiliary_loss_clip": 0.01238508,
+      "auxiliary_loss_mlp": 0.01034519,
+      "balance_loss_clip": 1.06655765,
+      "balance_loss_mlp": 1.02445173,
+      "epoch": 0.12360969157698551,
+      "flos": 19026084314880.0,
+      "grad_norm": 2.16416444486176,
+      "language_loss": 0.72452223,
+      "learning_rate": 3.9088793432972206e-06,
+      "loss": 0.74725252,
+      "num_input_tokens_seen": 21728165,
+      "step": 1028,
+      "time_per_iteration": 2.7618846893310547
+    },
+    {
+      "auxiliary_loss_clip": 0.01275959,
+      "auxiliary_loss_mlp": 0.0104271,
+      "balance_loss_clip": 1.06614566,
+      "balance_loss_mlp": 1.03282762,
+      "epoch": 0.1237299344676246,
+      "flos": 13224607983360.0,
+      "grad_norm": 2.1612981027493845,
+      "language_loss": 0.82351637,
+      "learning_rate": 3.908646750304336e-06,
+      "loss": 0.84670311,
+      "num_input_tokens_seen": 21745850,
+      "step": 1029,
+      "time_per_iteration": 2.7115659713745117
+    },
+    {
+      "auxiliary_loss_clip": 0.01264065,
+      "auxiliary_loss_mlp": 0.01046144,
+      "balance_loss_clip": 1.07017326,
+      "balance_loss_mlp": 1.03542697,
+      "epoch": 0.12385017735826369,
+      "flos": 20485673470080.0,
+      "grad_norm": 1.5849648489286297,
+      "language_loss": 0.87282151,
+      "learning_rate": 3.908413867771257e-06,
+      "loss": 0.89592355,
+      "num_input_tokens_seen": 21764760,
+      "step": 1030,
+      "time_per_iteration": 3.7637252807617188
+    },
+    {
+      "auxiliary_loss_clip": 0.01250986,
+      "auxiliary_loss_mlp": 0.01044307,
+      "balance_loss_clip": 1.06937814,
+      "balance_loss_mlp": 1.03302968,
+      "epoch": 0.12397042024890279,
+      "flos": 17347835116800.0,
+      "grad_norm": 1.850193369082683,
+      "language_loss": 0.80396831,
+      "learning_rate": 3.908180695733311e-06,
+      "loss": 0.82692122,
+      "num_input_tokens_seen": 21784250,
+      "step": 1031,
+      "time_per_iteration": 2.683992385864258
+    },
+    {
+      "auxiliary_loss_clip": 0.01241191,
+      "auxiliary_loss_mlp": 0.01044247,
+      "balance_loss_clip": 1.05303001,
+      "balance_loss_mlp": 1.03341031,
+      "epoch": 0.12409066313954187,
+      "flos": 20412343854720.0,
+      "grad_norm": 1.958307600408251,
+      "language_loss": 0.83217406,
+      "learning_rate": 3.907947234225871e-06,
+      "loss": 0.85502839,
+      "num_input_tokens_seen": 21803260,
+      "step": 1032,
+      "time_per_iteration": 3.652454137802124
+    },
+    {
+      "auxiliary_loss_clip": 0.01272213,
+      "auxiliary_loss_mlp": 0.01038491,
+      "balance_loss_clip": 1.05878532,
+      "balance_loss_mlp": 1.02820897,
+      "epoch": 0.12421090603018096,
+      "flos": 20736688688640.0,
+      "grad_norm": 1.9206510442628126,
+      "language_loss": 0.87118924,
+      "learning_rate": 3.907713483284352e-06,
+      "loss": 0.89429629,
+      "num_input_tokens_seen": 21822735,
+      "step": 1033,
+      "time_per_iteration": 2.7427637577056885
+    },
+    {
+      "auxiliary_loss_clip": 0.01270709,
+      "auxiliary_loss_mlp": 0.01042238,
+      "balance_loss_clip": 1.05246687,
+      "balance_loss_mlp": 1.03068662,
+      "epoch": 0.12433114892082006,
+      "flos": 24498834353280.0,
+      "grad_norm": 2.4295507159543237,
+      "language_loss": 0.97064245,
+      "learning_rate": 3.907479442944216e-06,
+      "loss": 0.99377191,
+      "num_input_tokens_seen": 21841140,
+      "step": 1034,
+      "time_per_iteration": 3.7658567428588867
+    },
+    {
+      "auxiliary_loss_clip": 0.0125071,
+      "auxiliary_loss_mlp": 0.01035193,
+      "balance_loss_clip": 1.06999516,
+      "balance_loss_mlp": 1.02501261,
+      "epoch": 0.12445139181145914,
+      "flos": 19682315838720.0,
+      "grad_norm": 3.1657211380225596,
+      "language_loss": 0.92698133,
+      "learning_rate": 3.907245113240963e-06,
+      "loss": 0.94984043,
+      "num_input_tokens_seen": 21859260,
+      "step": 1035,
+      "time_per_iteration": 2.601335287094116
+    },
+    {
+      "auxiliary_loss_clip": 0.01260762,
+      "auxiliary_loss_mlp": 0.01042702,
+      "balance_loss_clip": 1.05936241,
+      "balance_loss_mlp": 1.03115082,
+      "epoch": 0.12457163470209824,
+      "flos": 46423087522560.0,
+      "grad_norm": 2.025905843778734,
+      "language_loss": 0.73677337,
+      "learning_rate": 3.907010494210144e-06,
+      "loss": 0.759808,
+      "num_input_tokens_seen": 21881920,
+      "step": 1036,
+      "time_per_iteration": 2.97920298576355
+    },
+    {
+      "auxiliary_loss_clip": 0.01254218,
+      "auxiliary_loss_mlp": 0.01039099,
+      "balance_loss_clip": 1.06884098,
+      "balance_loss_mlp": 1.02805996,
+      "epoch": 0.12469187759273732,
+      "flos": 20376289578240.0,
+      "grad_norm": 1.9485910768637458,
+      "language_loss": 0.91991949,
+      "learning_rate": 3.9067755858873495e-06,
+      "loss": 0.94285268,
+      "num_input_tokens_seen": 21898720,
+      "step": 1037,
+      "time_per_iteration": 2.6125948429107666
+    },
+    {
+      "auxiliary_loss_clip": 0.01159944,
+      "auxiliary_loss_mlp": 0.01010437,
+      "balance_loss_clip": 1.02844787,
+      "balance_loss_mlp": 1.0076592,
+      "epoch": 0.12481212048337642,
+      "flos": 69224641447680.0,
+      "grad_norm": 0.9087933320732766,
+      "language_loss": 0.62866735,
+      "learning_rate": 3.906540388308214e-06,
+      "loss": 0.65037119,
+      "num_input_tokens_seen": 21958305,
+      "step": 1038,
+      "time_per_iteration": 3.265657663345337
+    },
+    {
+      "auxiliary_loss_clip": 0.01255997,
+      "auxiliary_loss_mlp": 0.010402,
+      "balance_loss_clip": 1.06081891,
+      "balance_loss_mlp": 1.02951908,
+      "epoch": 0.12493236337401552,
+      "flos": 18223696350720.0,
+      "grad_norm": 1.7825836925517353,
+      "language_loss": 0.81465566,
+      "learning_rate": 3.906304901508417e-06,
+      "loss": 0.83761764,
+      "num_input_tokens_seen": 21977205,
+      "step": 1039,
+      "time_per_iteration": 2.7658417224884033
+    },
+    {
+      "auxiliary_loss_clip": 0.01257753,
+      "auxiliary_loss_mlp": 0.01038096,
+      "balance_loss_clip": 1.07357621,
+      "balance_loss_mlp": 1.02707529,
+      "epoch": 0.12505260626465461,
+      "flos": 30044375303040.0,
+      "grad_norm": 2.7792747318257867,
+      "language_loss": 0.75514758,
+      "learning_rate": 3.9060691255236835e-06,
+      "loss": 0.77810603,
+      "num_input_tokens_seen": 21997770,
+      "step": 1040,
+      "time_per_iteration": 2.6775660514831543
+    },
+    {
+      "auxiliary_loss_clip": 0.01243744,
+      "auxiliary_loss_mlp": 0.01040653,
+      "balance_loss_clip": 1.06305289,
+      "balance_loss_mlp": 1.02951336,
+      "epoch": 0.1251728491552937,
+      "flos": 24433980347520.0,
+      "grad_norm": 2.018545497336916,
+      "language_loss": 0.80885226,
+      "learning_rate": 3.905833060389778e-06,
+      "loss": 0.83169627,
+      "num_input_tokens_seen": 22021890,
+      "step": 1041,
+      "time_per_iteration": 2.744475841522217
+    },
+    {
+      "auxiliary_loss_clip": 0.01245069,
+      "auxiliary_loss_mlp": 0.01381352,
+      "balance_loss_clip": 1.07101142,
+      "balance_loss_mlp": 1.0000391,
+      "epoch": 0.12529309204593278,
+      "flos": 27119809952640.0,
+      "grad_norm": 3.2814283488167746,
+      "language_loss": 0.78110188,
+      "learning_rate": 3.905596706142513e-06,
+      "loss": 0.80736613,
+      "num_input_tokens_seen": 22043300,
+      "step": 1042,
+      "time_per_iteration": 2.7112302780151367
+    },
+    {
+      "auxiliary_loss_clip": 0.01254136,
+      "auxiliary_loss_mlp": 0.01038074,
+      "balance_loss_clip": 1.059286,
+      "balance_loss_mlp": 1.0268445,
+      "epoch": 0.12541333493657186,
+      "flos": 30774151923840.0,
+      "grad_norm": 1.9863843583257372,
+      "language_loss": 0.86271465,
+      "learning_rate": 3.9053600628177435e-06,
+      "loss": 0.88563681,
+      "num_input_tokens_seen": 22062910,
+      "step": 1043,
+      "time_per_iteration": 2.7979841232299805
+    },
+    {
+      "auxiliary_loss_clip": 0.01240889,
+      "auxiliary_loss_mlp": 0.01038531,
+      "balance_loss_clip": 1.06789422,
+      "balance_loss_mlp": 1.02732527,
+      "epoch": 0.12553357782721097,
+      "flos": 23659566099840.0,
+      "grad_norm": 3.5603822986855977,
+      "language_loss": 0.84371603,
+      "learning_rate": 3.905123130451367e-06,
+      "loss": 0.86651027,
+      "num_input_tokens_seen": 22084010,
+      "step": 1044,
+      "time_per_iteration": 2.650315284729004
+    },
+    {
+      "auxiliary_loss_clip": 0.012418,
+      "auxiliary_loss_mlp": 0.01038117,
+      "balance_loss_clip": 1.06865954,
+      "balance_loss_mlp": 1.02698255,
+      "epoch": 0.12565382071785006,
+      "flos": 24863758577280.0,
+      "grad_norm": 1.6978993206145099,
+      "language_loss": 0.79006171,
+      "learning_rate": 3.904885909079326e-06,
+      "loss": 0.81286091,
+      "num_input_tokens_seen": 22102795,
+      "step": 1045,
+      "time_per_iteration": 2.652986764907837
+    },
+    {
+      "auxiliary_loss_clip": 0.01250575,
+      "auxiliary_loss_mlp": 0.01040085,
+      "balance_loss_clip": 1.06681728,
+      "balance_loss_mlp": 1.02868271,
+      "epoch": 0.12577406360848914,
+      "flos": 21360780518400.0,
+      "grad_norm": 3.095605380104854,
+      "language_loss": 0.77936149,
+      "learning_rate": 3.904648398737607e-06,
+      "loss": 0.80226815,
+      "num_input_tokens_seen": 22121360,
+      "step": 1046,
+      "time_per_iteration": 2.674622058868408
+    },
+    {
+      "auxiliary_loss_clip": 0.01239146,
+      "auxiliary_loss_mlp": 0.01042022,
+      "balance_loss_clip": 1.06644082,
+      "balance_loss_mlp": 1.03135312,
+      "epoch": 0.12589430649912825,
+      "flos": 36138056774400.0,
+      "grad_norm": 2.7280755598456725,
+      "language_loss": 0.78088975,
+      "learning_rate": 3.9044105994622406e-06,
+      "loss": 0.8037014,
+      "num_input_tokens_seen": 22142505,
+      "step": 1047,
+      "time_per_iteration": 2.704763174057007
+    },
+    {
+      "auxiliary_loss_clip": 0.01260045,
+      "auxiliary_loss_mlp": 0.01381559,
+      "balance_loss_clip": 1.06532764,
+      "balance_loss_mlp": 1.00003219,
+      "epoch": 0.12601454938976733,
+      "flos": 25337671643520.0,
+      "grad_norm": 2.010626230615255,
+      "language_loss": 0.81658304,
+      "learning_rate": 3.9041725112893005e-06,
+      "loss": 0.8429991,
+      "num_input_tokens_seen": 22163730,
+      "step": 1048,
+      "time_per_iteration": 2.744621515274048
+    },
+    {
+      "auxiliary_loss_clip": 0.01261352,
+      "auxiliary_loss_mlp": 0.01037598,
+      "balance_loss_clip": 1.06546056,
+      "balance_loss_mlp": 1.02615976,
+      "epoch": 0.12613479228040642,
+      "flos": 15560094286080.0,
+      "grad_norm": 1.774632066869547,
+      "language_loss": 0.75092864,
+      "learning_rate": 3.903934134254904e-06,
+      "loss": 0.77391815,
+      "num_input_tokens_seen": 22181520,
+      "step": 1049,
+      "time_per_iteration": 2.693035364151001
+    },
+    {
+      "auxiliary_loss_clip": 0.01254155,
+      "auxiliary_loss_mlp": 0.01040964,
+      "balance_loss_clip": 1.06632757,
+      "balance_loss_mlp": 1.02944875,
+      "epoch": 0.1262550351710455,
+      "flos": 21470595373440.0,
+      "grad_norm": 2.13218498194485,
+      "language_loss": 0.84849739,
+      "learning_rate": 3.903695468395213e-06,
+      "loss": 0.87144858,
+      "num_input_tokens_seen": 22199390,
+      "step": 1050,
+      "time_per_iteration": 2.670666217803955
+    },
+    {
+      "auxiliary_loss_clip": 0.01260057,
+      "auxiliary_loss_mlp": 0.01033103,
+      "balance_loss_clip": 1.06296563,
+      "balance_loss_mlp": 1.02232063,
+      "epoch": 0.1263752780616846,
+      "flos": 31576719456000.0,
+      "grad_norm": 5.523616560033191,
+      "language_loss": 0.55776829,
+      "learning_rate": 3.903456513746434e-06,
+      "loss": 0.58069986,
+      "num_input_tokens_seen": 22220365,
+      "step": 1051,
+      "time_per_iteration": 2.7382044792175293
+    },
+    {
+      "auxiliary_loss_clip": 0.01242198,
+      "auxiliary_loss_mlp": 0.01042438,
+      "balance_loss_clip": 1.07002139,
+      "balance_loss_mlp": 1.03157842,
+      "epoch": 0.1264955209523237,
+      "flos": 28768217927040.0,
+      "grad_norm": 1.7918155237931457,
+      "language_loss": 0.87484384,
+      "learning_rate": 3.903217270344815e-06,
+      "loss": 0.89769018,
+      "num_input_tokens_seen": 22240615,
+      "step": 1052,
+      "time_per_iteration": 2.6897079944610596
+    },
+    {
+      "auxiliary_loss_clip": 0.01258259,
+      "auxiliary_loss_mlp": 0.01034987,
+      "balance_loss_clip": 1.06150258,
+      "balance_loss_mlp": 1.02493739,
+      "epoch": 0.12661576384296278,
+      "flos": 29241125412480.0,
+      "grad_norm": 1.9490286296726687,
+      "language_loss": 0.82389462,
+      "learning_rate": 3.902977738226648e-06,
+      "loss": 0.84682703,
+      "num_input_tokens_seen": 22261350,
+      "step": 1053,
+      "time_per_iteration": 2.7486908435821533
+    },
+    {
+      "auxiliary_loss_clip": 0.01249996,
+      "auxiliary_loss_mlp": 0.01040592,
+      "balance_loss_clip": 1.06818271,
+      "balance_loss_mlp": 1.02937412,
+      "epoch": 0.12673600673360189,
+      "flos": 20850346298880.0,
+      "grad_norm": 1.8418939454405658,
+      "language_loss": 0.91140544,
+      "learning_rate": 3.902737917428273e-06,
+      "loss": 0.93431133,
+      "num_input_tokens_seen": 22279515,
+      "step": 1054,
+      "time_per_iteration": 2.6559078693389893
+    },
+    {
+      "auxiliary_loss_clip": 0.01242106,
+      "auxiliary_loss_mlp": 0.01045412,
+      "balance_loss_clip": 1.06711364,
+      "balance_loss_mlp": 1.03504062,
+      "epoch": 0.12685624962424097,
+      "flos": 25263695583360.0,
+      "grad_norm": 2.179261487584238,
+      "language_loss": 0.83831549,
+      "learning_rate": 3.902497807986068e-06,
+      "loss": 0.86119062,
+      "num_input_tokens_seen": 22299535,
+      "step": 1055,
+      "time_per_iteration": 2.6946637630462646
+    },
+    {
+      "auxiliary_loss_clip": 0.01262883,
+      "auxiliary_loss_mlp": 0.01040081,
+      "balance_loss_clip": 1.05860209,
+      "balance_loss_mlp": 1.02876806,
+      "epoch": 0.12697649251488005,
+      "flos": 27527109246720.0,
+      "grad_norm": 1.8566360175185332,
+      "language_loss": 0.84015524,
+      "learning_rate": 3.902257409936458e-06,
+      "loss": 0.86318493,
+      "num_input_tokens_seen": 22320300,
+      "step": 1056,
+      "time_per_iteration": 3.824070453643799
+    },
+    {
+      "auxiliary_loss_clip": 0.01261634,
+      "auxiliary_loss_mlp": 0.01043122,
+      "balance_loss_clip": 1.0696919,
+      "balance_loss_mlp": 1.03263116,
+      "epoch": 0.12709673540551916,
+      "flos": 21251863503360.0,
+      "grad_norm": 2.0718601261908267,
+      "language_loss": 0.83934903,
+      "learning_rate": 3.902016723315912e-06,
+      "loss": 0.8623966,
+      "num_input_tokens_seen": 22338240,
+      "step": 1057,
+      "time_per_iteration": 2.7346866130828857
+    },
+    {
+      "auxiliary_loss_clip": 0.01245651,
+      "auxiliary_loss_mlp": 0.01040834,
+      "balance_loss_clip": 1.06501889,
+      "balance_loss_mlp": 1.03042746,
+      "epoch": 0.12721697829615825,
+      "flos": 25337707557120.0,
+      "grad_norm": 2.689678430953966,
+      "language_loss": 0.69425046,
+      "learning_rate": 3.901775748160941e-06,
+      "loss": 0.71711528,
+      "num_input_tokens_seen": 22357420,
+      "step": 1058,
+      "time_per_iteration": 4.5397703647613525
+    },
+    {
+      "auxiliary_loss_clip": 0.01145942,
+      "auxiliary_loss_mlp": 0.01002972,
+      "balance_loss_clip": 1.03092599,
+      "balance_loss_mlp": 0.99993175,
+      "epoch": 0.12733722118679733,
+      "flos": 61943287754880.0,
+      "grad_norm": 0.8010948692554506,
+      "language_loss": 0.60861385,
+      "learning_rate": 3.901534484508101e-06,
+      "loss": 0.63010299,
+      "num_input_tokens_seen": 22420095,
+      "step": 1059,
+      "time_per_iteration": 4.070290565490723
+    },
+    {
+      "auxiliary_loss_clip": 0.01240635,
+      "auxiliary_loss_mlp": 0.01038085,
+      "balance_loss_clip": 1.0596354,
+      "balance_loss_mlp": 1.0274514,
+      "epoch": 0.1274574640774364,
+      "flos": 26976742081920.0,
+      "grad_norm": 1.9668266086030801,
+      "language_loss": 0.74714172,
+      "learning_rate": 3.901292932393991e-06,
+      "loss": 0.76992893,
+      "num_input_tokens_seen": 22438975,
+      "step": 1060,
+      "time_per_iteration": 2.721855878829956
+    },
+    {
+      "auxiliary_loss_clip": 0.01245789,
+      "auxiliary_loss_mlp": 0.01044303,
+      "balance_loss_clip": 1.07160342,
+      "balance_loss_mlp": 1.03356791,
+      "epoch": 0.12757770696807552,
+      "flos": 22236318529920.0,
+      "grad_norm": 2.6782606515239524,
+      "language_loss": 0.85384679,
+      "learning_rate": 3.9010510918552555e-06,
+      "loss": 0.87674773,
+      "num_input_tokens_seen": 22458050,
+      "step": 1061,
+      "time_per_iteration": 2.656593084335327
+    },
+    {
+      "auxiliary_loss_clip": 0.01249138,
+      "auxiliary_loss_mlp": 0.01041863,
+      "balance_loss_clip": 1.05943263,
+      "balance_loss_mlp": 1.02972722,
+      "epoch": 0.1276979498587146,
+      "flos": 28547905858560.0,
+      "grad_norm": 2.2296618315343864,
+      "language_loss": 0.74711204,
+      "learning_rate": 3.900808962928581e-06,
+      "loss": 0.77002203,
+      "num_input_tokens_seen": 22475665,
+      "step": 1062,
+      "time_per_iteration": 2.684951066970825
+    },
+    {
+      "auxiliary_loss_clip": 0.01241749,
+      "auxiliary_loss_mlp": 0.0105139,
+      "balance_loss_clip": 1.07077706,
+      "balance_loss_mlp": 1.0402323,
+      "epoch": 0.1278181927493537,
+      "flos": 17420338719360.0,
+      "grad_norm": 2.3623308535827565,
+      "language_loss": 0.89312118,
+      "learning_rate": 3.900566545650698e-06,
+      "loss": 0.91605258,
+      "num_input_tokens_seen": 22493335,
+      "step": 1063,
+      "time_per_iteration": 2.6266915798187256
+    },
+    {
+      "auxiliary_loss_clip": 0.01249052,
+      "auxiliary_loss_mlp": 0.01036881,
+      "balance_loss_clip": 1.06740189,
+      "balance_loss_mlp": 1.02640271,
+      "epoch": 0.1279384356399928,
+      "flos": 21138636856320.0,
+      "grad_norm": 2.4307782931190425,
+      "language_loss": 0.81856406,
+      "learning_rate": 3.900323840058381e-06,
+      "loss": 0.84142339,
+      "num_input_tokens_seen": 22511045,
+      "step": 1064,
+      "time_per_iteration": 2.628563404083252
+    },
+    {
+      "auxiliary_loss_clip": 0.0124727,
+      "auxiliary_loss_mlp": 0.01039501,
+      "balance_loss_clip": 1.06396294,
+      "balance_loss_mlp": 1.02952373,
+      "epoch": 0.12805867853063188,
+      "flos": 26576733248640.0,
+      "grad_norm": 2.048143087430973,
+      "language_loss": 0.81672794,
+      "learning_rate": 3.900080846188449e-06,
+      "loss": 0.83959568,
+      "num_input_tokens_seen": 22529635,
+      "step": 1065,
+      "time_per_iteration": 2.7164511680603027
+    },
+    {
+      "auxiliary_loss_clip": 0.01239712,
+      "auxiliary_loss_mlp": 0.01035038,
+      "balance_loss_clip": 1.06742859,
+      "balance_loss_mlp": 1.02440429,
+      "epoch": 0.12817892142127096,
+      "flos": 16436206915200.0,
+      "grad_norm": 1.8873979676283914,
+      "language_loss": 0.81495082,
+      "learning_rate": 3.8998375640777625e-06,
+      "loss": 0.83769834,
+      "num_input_tokens_seen": 22547505,
+      "step": 1066,
+      "time_per_iteration": 2.5683505535125732
+    },
+    {
+      "auxiliary_loss_clip": 0.01148217,
+      "auxiliary_loss_mlp": 0.01005099,
+      "balance_loss_clip": 1.03253245,
+      "balance_loss_mlp": 1.00233293,
+      "epoch": 0.12829916431191005,
+      "flos": 60757049099520.0,
+      "grad_norm": 0.7050025579724136,
+      "language_loss": 0.52638388,
+      "learning_rate": 3.899593993763229e-06,
+      "loss": 0.54791701,
+      "num_input_tokens_seen": 22608465,
+      "step": 1067,
+      "time_per_iteration": 3.222365140914917
+    },
+    {
+      "auxiliary_loss_clip": 0.01255608,
+      "auxiliary_loss_mlp": 0.01041477,
+      "balance_loss_clip": 1.06049645,
+      "balance_loss_mlp": 1.02903116,
+      "epoch": 0.12841940720254916,
+      "flos": 29786895636480.0,
+      "grad_norm": 2.3339432669671716,
+      "language_loss": 0.81232351,
+      "learning_rate": 3.899350135281796e-06,
+      "loss": 0.83529437,
+      "num_input_tokens_seen": 22629465,
+      "step": 1068,
+      "time_per_iteration": 2.7279200553894043
+    },
+    {
+      "auxiliary_loss_clip": 0.01261618,
+      "auxiliary_loss_mlp": 0.01044518,
+      "balance_loss_clip": 1.06163454,
+      "balance_loss_mlp": 1.03408146,
+      "epoch": 0.12853965009318824,
+      "flos": 25951851319680.0,
+      "grad_norm": 1.8778820140856642,
+      "language_loss": 0.79729533,
+      "learning_rate": 3.8991059886704585e-06,
+      "loss": 0.82035673,
+      "num_input_tokens_seen": 22648970,
+      "step": 1069,
+      "time_per_iteration": 2.780513048171997
+    },
+    {
+      "auxiliary_loss_clip": 0.01250504,
+      "auxiliary_loss_mlp": 0.01034159,
+      "balance_loss_clip": 1.05958104,
+      "balance_loss_mlp": 1.02357888,
+      "epoch": 0.12865989298382732,
+      "flos": 30846871008000.0,
+      "grad_norm": 2.3163369582284754,
+      "language_loss": 0.829759,
+      "learning_rate": 3.898861553966252e-06,
+      "loss": 0.85260558,
+      "num_input_tokens_seen": 22668620,
+      "step": 1070,
+      "time_per_iteration": 2.816542863845825
+    },
+    {
+      "auxiliary_loss_clip": 0.01278987,
+      "auxiliary_loss_mlp": 0.0104639,
+      "balance_loss_clip": 1.05264211,
+      "balance_loss_mlp": 1.03595972,
+      "epoch": 0.12878013587446643,
+      "flos": 25885776251520.0,
+      "grad_norm": 1.6644501570069516,
+      "language_loss": 0.88047826,
+      "learning_rate": 3.898616831206257e-06,
+      "loss": 0.90373206,
+      "num_input_tokens_seen": 22689045,
+      "step": 1071,
+      "time_per_iteration": 2.9690768718719482
+    },
+    {
+      "auxiliary_loss_clip": 0.0125506,
+      "auxiliary_loss_mlp": 0.01040749,
+      "balance_loss_clip": 1.05784154,
+      "balance_loss_mlp": 1.02928114,
+      "epoch": 0.12890037876510552,
+      "flos": 23333138277120.0,
+      "grad_norm": 3.3534735508869717,
+      "language_loss": 0.76991552,
+      "learning_rate": 3.8983718204276e-06,
+      "loss": 0.79287356,
+      "num_input_tokens_seen": 22711265,
+      "step": 1072,
+      "time_per_iteration": 3.1078381538391113
+    },
+    {
+      "auxiliary_loss_clip": 0.01255186,
+      "auxiliary_loss_mlp": 0.01040573,
+      "balance_loss_clip": 1.06367111,
+      "balance_loss_mlp": 1.0294683,
+      "epoch": 0.1290206216557446,
+      "flos": 23587242065280.0,
+      "grad_norm": 1.7174246749256088,
+      "language_loss": 0.82468009,
+      "learning_rate": 3.898126521667446e-06,
+      "loss": 0.84763765,
+      "num_input_tokens_seen": 22731420,
+      "step": 1073,
+      "time_per_iteration": 2.7290594577789307
+    },
+    {
+      "auxiliary_loss_clip": 0.01248401,
+      "auxiliary_loss_mlp": 0.01046857,
+      "balance_loss_clip": 1.06496537,
+      "balance_loss_mlp": 1.03642058,
+      "epoch": 0.12914086454638368,
+      "flos": 24170610850560.0,
+      "grad_norm": 1.5917538427708398,
+      "language_loss": 0.83291155,
+      "learning_rate": 3.897880934963007e-06,
+      "loss": 0.85586411,
+      "num_input_tokens_seen": 22750970,
+      "step": 1074,
+      "time_per_iteration": 2.7226545810699463
+    },
+    {
+      "auxiliary_loss_clip": 0.01250016,
+      "auxiliary_loss_mlp": 0.01036538,
+      "balance_loss_clip": 1.06068933,
+      "balance_loss_mlp": 1.0257498,
+      "epoch": 0.1292611074370228,
+      "flos": 20267157081600.0,
+      "grad_norm": 2.1305253708321352,
+      "language_loss": 0.7827825,
+      "learning_rate": 3.89763506035154e-06,
+      "loss": 0.80564803,
+      "num_input_tokens_seen": 22768820,
+      "step": 1075,
+      "time_per_iteration": 2.6786720752716064
+    },
+    {
+      "auxiliary_loss_clip": 0.01228287,
+      "auxiliary_loss_mlp": 0.01045443,
+      "balance_loss_clip": 1.06050944,
+      "balance_loss_mlp": 1.03493476,
+      "epoch": 0.12938135032766188,
+      "flos": 27377684668800.0,
+      "grad_norm": 1.6394456209943942,
+      "language_loss": 0.81073701,
+      "learning_rate": 3.897388897870343e-06,
+      "loss": 0.8334744,
+      "num_input_tokens_seen": 22789460,
+      "step": 1076,
+      "time_per_iteration": 2.7081656455993652
+    },
+    {
+      "auxiliary_loss_clip": 0.01262369,
+      "auxiliary_loss_mlp": 0.01039651,
+      "balance_loss_clip": 1.06082869,
+      "balance_loss_mlp": 1.02848148,
+      "epoch": 0.12950159321830096,
+      "flos": 29277107861760.0,
+      "grad_norm": 1.9642118031912503,
+      "language_loss": 0.74926645,
+      "learning_rate": 3.89714244755676e-06,
+      "loss": 0.77228665,
+      "num_input_tokens_seen": 22810820,
+      "step": 1077,
+      "time_per_iteration": 2.7223269939422607
+    },
+    {
+      "auxiliary_loss_clip": 0.01247325,
+      "auxiliary_loss_mlp": 0.01045068,
+      "balance_loss_clip": 1.05378914,
+      "balance_loss_mlp": 1.0332303,
+      "epoch": 0.12962183610894007,
+      "flos": 24534888629760.0,
+      "grad_norm": 2.4717221474661413,
+      "language_loss": 0.86306584,
+      "learning_rate": 3.896895709448175e-06,
+      "loss": 0.88598979,
+      "num_input_tokens_seen": 22830570,
+      "step": 1078,
+      "time_per_iteration": 2.771890640258789
+    },
+    {
+      "auxiliary_loss_clip": 0.01267007,
+      "auxiliary_loss_mlp": 0.01036227,
+      "balance_loss_clip": 1.0530473,
+      "balance_loss_mlp": 1.02503943,
+      "epoch": 0.12974207899957915,
+      "flos": 11215944552960.0,
+      "grad_norm": 2.6811793327145397,
+      "language_loss": 0.77058983,
+      "learning_rate": 3.896648683582019e-06,
+      "loss": 0.7936222,
+      "num_input_tokens_seen": 22845905,
+      "step": 1079,
+      "time_per_iteration": 2.740468978881836
+    },
+    {
+      "auxiliary_loss_clip": 0.01269991,
+      "auxiliary_loss_mlp": 0.01041583,
+      "balance_loss_clip": 1.06266546,
+      "balance_loss_mlp": 1.02965665,
+      "epoch": 0.12986232189021824,
+      "flos": 24717889445760.0,
+      "grad_norm": 2.0638117839628585,
+      "language_loss": 0.8099314,
+      "learning_rate": 3.896401369995766e-06,
+      "loss": 0.83304715,
+      "num_input_tokens_seen": 22865710,
+      "step": 1080,
+      "time_per_iteration": 2.7397656440734863
+    },
+    {
+      "auxiliary_loss_clip": 0.01241311,
+      "auxiliary_loss_mlp": 0.01043282,
+      "balance_loss_clip": 1.06835079,
+      "balance_loss_mlp": 1.03227901,
+      "epoch": 0.12998256478085732,
+      "flos": 23915357827200.0,
+      "grad_norm": 1.893460610616845,
+      "language_loss": 0.79606134,
+      "learning_rate": 3.896153768726932e-06,
+      "loss": 0.81890726,
+      "num_input_tokens_seen": 22886020,
+      "step": 1081,
+      "time_per_iteration": 2.6289498805999756
+    },
+    {
+      "auxiliary_loss_clip": 0.01247617,
+      "auxiliary_loss_mlp": 0.01039358,
+      "balance_loss_clip": 1.06780672,
+      "balance_loss_mlp": 1.02870679,
+      "epoch": 0.13010280767149643,
+      "flos": 18624207974400.0,
+      "grad_norm": 2.81498924249191,
+      "language_loss": 0.87831336,
+      "learning_rate": 3.8959058798130806e-06,
+      "loss": 0.90118313,
+      "num_input_tokens_seen": 22903995,
+      "step": 1082,
+      "time_per_iteration": 3.645328998565674
+    },
+    {
+      "auxiliary_loss_clip": 0.01251117,
+      "auxiliary_loss_mlp": 0.01381969,
+      "balance_loss_clip": 1.06268358,
+      "balance_loss_mlp": 1.00014639,
+      "epoch": 0.1302230505621355,
+      "flos": 22783992174720.0,
+      "grad_norm": 1.9608919410821124,
+      "language_loss": 0.75224304,
+      "learning_rate": 3.895657703291814e-06,
+      "loss": 0.77857393,
+      "num_input_tokens_seen": 22924100,
+      "step": 1083,
+      "time_per_iteration": 2.737985849380493
+    },
+    {
+      "auxiliary_loss_clip": 0.01257795,
+      "auxiliary_loss_mlp": 0.01035035,
+      "balance_loss_clip": 1.05915892,
+      "balance_loss_mlp": 1.02337027,
+      "epoch": 0.1303432934527746,
+      "flos": 21323612920320.0,
+      "grad_norm": 3.4726093021106164,
+      "language_loss": 0.79669976,
+      "learning_rate": 3.895409239200781e-06,
+      "loss": 0.81962806,
+      "num_input_tokens_seen": 22939985,
+      "step": 1084,
+      "time_per_iteration": 4.49918532371521
+    },
+    {
+      "auxiliary_loss_clip": 0.01235146,
+      "auxiliary_loss_mlp": 0.01046076,
+      "balance_loss_clip": 1.06048179,
+      "balance_loss_mlp": 1.03513861,
+      "epoch": 0.1304635363434137,
+      "flos": 20922490765440.0,
+      "grad_norm": 2.1899528908016204,
+      "language_loss": 0.91288996,
+      "learning_rate": 3.895160487577673e-06,
+      "loss": 0.93570215,
+      "num_input_tokens_seen": 22957555,
+      "step": 1085,
+      "time_per_iteration": 2.676694869995117
+    },
+    {
+      "auxiliary_loss_clip": 0.01136283,
+      "auxiliary_loss_mlp": 0.01004687,
+      "balance_loss_clip": 1.03089929,
+      "balance_loss_mlp": 1.0017904,
+      "epoch": 0.1305837792340528,
+      "flos": 63245659080960.0,
+      "grad_norm": 0.7871941823105998,
+      "language_loss": 0.60937297,
+      "learning_rate": 3.894911448460226e-06,
+      "loss": 0.63078272,
+      "num_input_tokens_seen": 23016870,
+      "step": 1086,
+      "time_per_iteration": 3.981031894683838
+    },
+    {
+      "auxiliary_loss_clip": 0.01259443,
+      "auxiliary_loss_mlp": 0.01039255,
+      "balance_loss_clip": 1.05343103,
+      "balance_loss_mlp": 1.02834153,
+      "epoch": 0.13070402212469187,
+      "flos": 26428852955520.0,
+      "grad_norm": 1.9064175363755604,
+      "language_loss": 0.72583717,
+      "learning_rate": 3.8946621218862195e-06,
+      "loss": 0.74882418,
+      "num_input_tokens_seen": 23037870,
+      "step": 1087,
+      "time_per_iteration": 2.919982433319092
+    },
+    {
+      "auxiliary_loss_clip": 0.01255411,
+      "auxiliary_loss_mlp": 0.01036712,
+      "balance_loss_clip": 1.06069458,
+      "balance_loss_mlp": 1.0257504,
+      "epoch": 0.13082426501533098,
+      "flos": 27673409341440.0,
+      "grad_norm": 1.8624358075143652,
+      "language_loss": 0.88764668,
+      "learning_rate": 3.894412507893475e-06,
+      "loss": 0.91056788,
+      "num_input_tokens_seen": 23058150,
+      "step": 1088,
+      "time_per_iteration": 2.744326114654541
+    },
+    {
+      "auxiliary_loss_clip": 0.01273178,
+      "auxiliary_loss_mlp": 0.01042026,
+      "balance_loss_clip": 1.05783105,
+      "balance_loss_mlp": 1.03124964,
+      "epoch": 0.13094450790597006,
+      "flos": 24826770547200.0,
+      "grad_norm": 2.1417756569305415,
+      "language_loss": 0.71681637,
+      "learning_rate": 3.894162606519859e-06,
+      "loss": 0.73996842,
+      "num_input_tokens_seen": 23077100,
+      "step": 1089,
+      "time_per_iteration": 2.7628602981567383
+    },
+    {
+      "auxiliary_loss_clip": 0.01263476,
+      "auxiliary_loss_mlp": 0.01035043,
+      "balance_loss_clip": 1.05912006,
+      "balance_loss_mlp": 1.02392125,
+      "epoch": 0.13106475079660915,
+      "flos": 19062605468160.0,
+      "grad_norm": 1.9258305916925866,
+      "language_loss": 0.77011156,
+      "learning_rate": 3.893912417803282e-06,
+      "loss": 0.79309672,
+      "num_input_tokens_seen": 23096815,
+      "step": 1090,
+      "time_per_iteration": 2.7168166637420654
+    },
+    {
+      "auxiliary_loss_clip": 0.0126439,
+      "auxiliary_loss_mlp": 0.01040789,
+      "balance_loss_clip": 1.05354548,
+      "balance_loss_mlp": 1.02956581,
+      "epoch": 0.13118499368724823,
+      "flos": 28913189218560.0,
+      "grad_norm": 4.019995928169794,
+      "language_loss": 0.76830465,
+      "learning_rate": 3.8936619417816975e-06,
+      "loss": 0.79135644,
+      "num_input_tokens_seen": 23117145,
+      "step": 1091,
+      "time_per_iteration": 2.779592514038086
+    },
+    {
+      "auxiliary_loss_clip": 0.0125828,
+      "auxiliary_loss_mlp": 0.01035632,
+      "balance_loss_clip": 1.06237078,
+      "balance_loss_mlp": 1.02476645,
+      "epoch": 0.13130523657788734,
+      "flos": 14283398206080.0,
+      "grad_norm": 1.7612985771616265,
+      "language_loss": 0.71502578,
+      "learning_rate": 3.8934111784931015e-06,
+      "loss": 0.73796493,
+      "num_input_tokens_seen": 23134595,
+      "step": 1092,
+      "time_per_iteration": 2.65523624420166
+    },
+    {
+      "auxiliary_loss_clip": 0.01145505,
+      "auxiliary_loss_mlp": 0.01005744,
+      "balance_loss_clip": 1.02846193,
+      "balance_loss_mlp": 1.00278807,
+      "epoch": 0.13142547946852642,
+      "flos": 70174155519360.0,
+      "grad_norm": 1.1142708663885825,
+      "language_loss": 0.59060597,
+      "learning_rate": 3.893160127975535e-06,
+      "loss": 0.61211848,
+      "num_input_tokens_seen": 23195285,
+      "step": 1093,
+      "time_per_iteration": 3.368644952774048
+    },
+    {
+      "auxiliary_loss_clip": 0.01274919,
+      "auxiliary_loss_mlp": 0.01037243,
+      "balance_loss_clip": 1.06046057,
+      "balance_loss_mlp": 1.02667475,
+      "epoch": 0.1315457223591655,
+      "flos": 45805998844800.0,
+      "grad_norm": 2.3593599270035073,
+      "language_loss": 0.80971265,
+      "learning_rate": 3.8929087902670826e-06,
+      "loss": 0.8328343,
+      "num_input_tokens_seen": 23216915,
+      "step": 1094,
+      "time_per_iteration": 3.033609628677368
+    },
+    {
+      "auxiliary_loss_clip": 0.01137105,
+      "auxiliary_loss_mlp": 0.01001514,
+      "balance_loss_clip": 1.02934384,
+      "balance_loss_mlp": 0.99854565,
+      "epoch": 0.13166596524980462,
+      "flos": 62881165820160.0,
+      "grad_norm": 0.9347662658066808,
+      "language_loss": 0.60724854,
+      "learning_rate": 3.8926571654058715e-06,
+      "loss": 0.62863481,
+      "num_input_tokens_seen": 23273560,
+      "step": 1095,
+      "time_per_iteration": 3.1847429275512695
+    },
+    {
+      "auxiliary_loss_clip": 0.01261103,
+      "auxiliary_loss_mlp": 0.01041654,
+      "balance_loss_clip": 1.06361938,
+      "balance_loss_mlp": 1.03081167,
+      "epoch": 0.1317862081404437,
+      "flos": 23586523793280.0,
+      "grad_norm": 2.419041875540747,
+      "language_loss": 0.77010465,
+      "learning_rate": 3.892405253430074e-06,
+      "loss": 0.79313219,
+      "num_input_tokens_seen": 23291080,
+      "step": 1096,
+      "time_per_iteration": 2.8020615577697754
+    },
+    {
+      "auxiliary_loss_clip": 0.01256181,
+      "auxiliary_loss_mlp": 0.01381669,
+      "balance_loss_clip": 1.06482935,
+      "balance_loss_mlp": 1.00016665,
+      "epoch": 0.13190645103108278,
+      "flos": 20260764460800.0,
+      "grad_norm": 1.7796868757476008,
+      "language_loss": 0.82406062,
+      "learning_rate": 3.892153054377904e-06,
+      "loss": 0.85043907,
+      "num_input_tokens_seen": 23308485,
+      "step": 1097,
+      "time_per_iteration": 2.7669522762298584
+    },
+    {
+      "auxiliary_loss_clip": 0.01164022,
+      "auxiliary_loss_mlp": 0.0099886,
+      "balance_loss_clip": 1.02267933,
+      "balance_loss_mlp": 0.99634439,
+      "epoch": 0.13202669392172187,
+      "flos": 53455440136320.0,
+      "grad_norm": 0.933424558655253,
+      "language_loss": 0.59362936,
+      "learning_rate": 3.891900568287619e-06,
+      "loss": 0.61525822,
+      "num_input_tokens_seen": 23360870,
+      "step": 1098,
+      "time_per_iteration": 3.1476972103118896
+    },
+    {
+      "auxiliary_loss_clip": 0.01265467,
+      "auxiliary_loss_mlp": 0.01044009,
+      "balance_loss_clip": 1.06117916,
+      "balance_loss_mlp": 1.0323745,
+      "epoch": 0.13214693681236098,
+      "flos": 15851293845120.0,
+      "grad_norm": 2.4239313489567444,
+      "language_loss": 0.72460866,
+      "learning_rate": 3.891647795197523e-06,
+      "loss": 0.74770343,
+      "num_input_tokens_seen": 23376910,
+      "step": 1099,
+      "time_per_iteration": 2.8111376762390137
+    },
+    {
+      "auxiliary_loss_clip": 0.01257861,
+      "auxiliary_loss_mlp": 0.01047423,
+      "balance_loss_clip": 1.05530357,
+      "balance_loss_mlp": 1.03547847,
+      "epoch": 0.13226717970300006,
+      "flos": 19353840940800.0,
+      "grad_norm": 2.0183394941981696,
+      "language_loss": 0.68616855,
+      "learning_rate": 3.8913947351459605e-06,
+      "loss": 0.70922136,
+      "num_input_tokens_seen": 23394450,
+      "step": 1100,
+      "time_per_iteration": 2.7816271781921387
+    },
+    {
+      "auxiliary_loss_clip": 0.01233398,
+      "auxiliary_loss_mlp": 0.01035476,
+      "balance_loss_clip": 1.06487894,
+      "balance_loss_mlp": 1.02523017,
+      "epoch": 0.13238742259363914,
+      "flos": 20698084546560.0,
+      "grad_norm": 1.821357391615246,
+      "language_loss": 0.67730755,
+      "learning_rate": 3.89114138817132e-06,
+      "loss": 0.69999623,
+      "num_input_tokens_seen": 23411115,
+      "step": 1101,
+      "time_per_iteration": 2.682507276535034
+    },
+    {
+      "auxiliary_loss_clip": 0.0124581,
+      "auxiliary_loss_mlp": 0.01035129,
+      "balance_loss_clip": 1.06900692,
+      "balance_loss_mlp": 1.02462697,
+      "epoch": 0.13250766548427825,
+      "flos": 21032449274880.0,
+      "grad_norm": 1.8526322263652122,
+      "language_loss": 0.84254199,
+      "learning_rate": 3.890887754312035e-06,
+      "loss": 0.86535138,
+      "num_input_tokens_seen": 23429360,
+      "step": 1102,
+      "time_per_iteration": 2.714142322540283
+    },
+    {
+      "auxiliary_loss_clip": 0.01245953,
+      "auxiliary_loss_mlp": 0.01035373,
+      "balance_loss_clip": 1.05984902,
+      "balance_loss_mlp": 1.02451944,
+      "epoch": 0.13262790837491734,
+      "flos": 22637871648000.0,
+      "grad_norm": 2.2553750858774486,
+      "language_loss": 0.87641829,
+      "learning_rate": 3.890633833606581e-06,
+      "loss": 0.89923155,
+      "num_input_tokens_seen": 23449050,
+      "step": 1103,
+      "time_per_iteration": 2.7205939292907715
+    },
+    {
+      "auxiliary_loss_clip": 0.01245014,
+      "auxiliary_loss_mlp": 0.0104014,
+      "balance_loss_clip": 1.06963491,
+      "balance_loss_mlp": 1.02883887,
+      "epoch": 0.13274815126555642,
+      "flos": 19683141851520.0,
+      "grad_norm": 1.9333748361002765,
+      "language_loss": 0.69777846,
+      "learning_rate": 3.890379626093477e-06,
+      "loss": 0.72062999,
+      "num_input_tokens_seen": 23468800,
+      "step": 1104,
+      "time_per_iteration": 2.626530885696411
+    },
+    {
+      "auxiliary_loss_clip": 0.0125053,
+      "auxiliary_loss_mlp": 0.01034085,
+      "balance_loss_clip": 1.05533338,
+      "balance_loss_mlp": 1.0230577,
+      "epoch": 0.1328683941561955,
+      "flos": 21317687176320.0,
+      "grad_norm": 1.991745292323274,
+      "language_loss": 0.92321271,
+      "learning_rate": 3.890125131811287e-06,
+      "loss": 0.94605887,
+      "num_input_tokens_seen": 23486850,
+      "step": 1105,
+      "time_per_iteration": 2.7432610988616943
+    },
+    {
+      "auxiliary_loss_clip": 0.01234541,
+      "auxiliary_loss_mlp": 0.01032924,
+      "balance_loss_clip": 1.05821776,
+      "balance_loss_mlp": 1.02296972,
+      "epoch": 0.1329886370468346,
+      "flos": 13699131580800.0,
+      "grad_norm": 2.2104675200752335,
+      "language_loss": 0.75170434,
+      "learning_rate": 3.889870350798618e-06,
+      "loss": 0.77437901,
+      "num_input_tokens_seen": 23504195,
+      "step": 1106,
+      "time_per_iteration": 2.6422767639160156
+    },
+    {
+      "auxiliary_loss_clip": 0.01235443,
+      "auxiliary_loss_mlp": 0.01036303,
+      "balance_loss_clip": 1.06669462,
+      "balance_loss_mlp": 1.02589607,
+      "epoch": 0.1331088799374737,
+      "flos": 21032413361280.0,
+      "grad_norm": 1.5764191034341466,
+      "language_loss": 0.78372175,
+      "learning_rate": 3.889615283094119e-06,
+      "loss": 0.80643922,
+      "num_input_tokens_seen": 23523385,
+      "step": 1107,
+      "time_per_iteration": 3.847628116607666
+    },
+    {
+      "auxiliary_loss_clip": 0.01240121,
+      "auxiliary_loss_mlp": 0.01041363,
+      "balance_loss_clip": 1.0657562,
+      "balance_loss_mlp": 1.02991891,
+      "epoch": 0.13322912282811278,
+      "flos": 18260432985600.0,
+      "grad_norm": 2.1377448464080637,
+      "language_loss": 0.84403342,
+      "learning_rate": 3.889359928736485e-06,
+      "loss": 0.86684823,
+      "num_input_tokens_seen": 23541330,
+      "step": 1108,
+      "time_per_iteration": 2.59261155128479
+    },
+    {
+      "auxiliary_loss_clip": 0.01245487,
+      "auxiliary_loss_mlp": 0.01381217,
+      "balance_loss_clip": 1.06284976,
+      "balance_loss_mlp": 1.00006163,
+      "epoch": 0.1333493657187519,
+      "flos": 24460876656000.0,
+      "grad_norm": 2.4568162478298228,
+      "language_loss": 0.91367543,
+      "learning_rate": 3.889104287764451e-06,
+      "loss": 0.93994248,
+      "num_input_tokens_seen": 23561705,
+      "step": 1109,
+      "time_per_iteration": 2.6910083293914795
+    },
+    {
+      "auxiliary_loss_clip": 0.01251198,
+      "auxiliary_loss_mlp": 0.0103739,
+      "balance_loss_clip": 1.06450558,
+      "balance_loss_mlp": 1.02736485,
+      "epoch": 0.13346960860939097,
+      "flos": 22158930677760.0,
+      "grad_norm": 2.1492498341454747,
+      "language_loss": 0.90885854,
+      "learning_rate": 3.888848360216798e-06,
+      "loss": 0.93174446,
+      "num_input_tokens_seen": 23579350,
+      "step": 1110,
+      "time_per_iteration": 4.472954750061035
+    },
+    {
+      "auxiliary_loss_clip": 0.01146967,
+      "auxiliary_loss_mlp": 0.01008738,
+      "balance_loss_clip": 1.02613473,
+      "balance_loss_mlp": 1.0059607,
+      "epoch": 0.13358985150003005,
+      "flos": 67931212608000.0,
+      "grad_norm": 0.8133789536125996,
+      "language_loss": 0.56671178,
+      "learning_rate": 3.888592146132351e-06,
+      "loss": 0.58826876,
+      "num_input_tokens_seen": 23640620,
+      "step": 1111,
+      "time_per_iteration": 3.410916328430176
+    },
+    {
+      "auxiliary_loss_clip": 0.01241689,
+      "auxiliary_loss_mlp": 0.01039773,
+      "balance_loss_clip": 1.06669331,
+      "balance_loss_mlp": 1.02894235,
+      "epoch": 0.13371009439066917,
+      "flos": 26834284742400.0,
+      "grad_norm": 1.7538707297695526,
+      "language_loss": 0.78321052,
+      "learning_rate": 3.888335645549978e-06,
+      "loss": 0.80602503,
+      "num_input_tokens_seen": 23661040,
+      "step": 1112,
+      "time_per_iteration": 3.664803981781006
+    },
+    {
+      "auxiliary_loss_clip": 0.01237717,
+      "auxiliary_loss_mlp": 0.01039611,
+      "balance_loss_clip": 1.06883669,
+      "balance_loss_mlp": 1.0285964,
+      "epoch": 0.13383033728130825,
+      "flos": 26322844942080.0,
+      "grad_norm": 2.5272753553366316,
+      "language_loss": 0.81386316,
+      "learning_rate": 3.888078858508588e-06,
+      "loss": 0.83663642,
+      "num_input_tokens_seen": 23680900,
+      "step": 1113,
+      "time_per_iteration": 2.658066749572754
+    },
+    {
+      "auxiliary_loss_clip": 0.01251753,
+      "auxiliary_loss_mlp": 0.01040631,
+      "balance_loss_clip": 1.06577182,
+      "balance_loss_mlp": 1.02960992,
+      "epoch": 0.13395058017194733,
+      "flos": 22563931501440.0,
+      "grad_norm": 2.442551236686218,
+      "language_loss": 0.84660196,
+      "learning_rate": 3.8878217850471365e-06,
+      "loss": 0.86952579,
+      "num_input_tokens_seen": 23700815,
+      "step": 1114,
+      "time_per_iteration": 2.8023741245269775
+    },
+    {
+      "auxiliary_loss_clip": 0.01241511,
+      "auxiliary_loss_mlp": 0.01035577,
+      "balance_loss_clip": 1.06950533,
+      "balance_loss_mlp": 1.02392435,
+      "epoch": 0.13407082306258641,
+      "flos": 25810938264960.0,
+      "grad_norm": 1.793958688940105,
+      "language_loss": 0.74115753,
+      "learning_rate": 3.887564425204621e-06,
+      "loss": 0.76392847,
+      "num_input_tokens_seen": 23722500,
+      "step": 1115,
+      "time_per_iteration": 2.627763509750366
+    },
+    {
+      "auxiliary_loss_clip": 0.01148976,
+      "auxiliary_loss_mlp": 0.01005702,
+      "balance_loss_clip": 1.02430749,
+      "balance_loss_mlp": 1.0031147,
+      "epoch": 0.13419106595322552,
+      "flos": 68338365269760.0,
+      "grad_norm": 0.8455399319102755,
+      "language_loss": 0.54641002,
+      "learning_rate": 3.887306779020083e-06,
+      "loss": 0.56795681,
+      "num_input_tokens_seen": 23777155,
+      "step": 1116,
+      "time_per_iteration": 3.26275634765625
+    },
+    {
+      "auxiliary_loss_clip": 0.01249493,
+      "auxiliary_loss_mlp": 0.01040517,
+      "balance_loss_clip": 1.0664556,
+      "balance_loss_mlp": 1.02989519,
+      "epoch": 0.1343113088438646,
+      "flos": 20449080489600.0,
+      "grad_norm": 2.350645530317215,
+      "language_loss": 0.70134759,
+      "learning_rate": 3.887048846532608e-06,
+      "loss": 0.72424769,
+      "num_input_tokens_seen": 23794130,
+      "step": 1117,
+      "time_per_iteration": 2.8127267360687256
+    },
+    {
+      "auxiliary_loss_clip": 0.0114777,
+      "auxiliary_loss_mlp": 0.01000915,
+      "balance_loss_clip": 1.02113652,
+      "balance_loss_mlp": 0.99812585,
+      "epoch": 0.1344315517345037,
+      "flos": 67389784951680.0,
+      "grad_norm": 0.7606460041274214,
+      "language_loss": 0.58135498,
+      "learning_rate": 3.8867906277813224e-06,
+      "loss": 0.60284185,
+      "num_input_tokens_seen": 23852285,
+      "step": 1118,
+      "time_per_iteration": 3.236849308013916
+    },
+    {
+      "auxiliary_loss_clip": 0.01249297,
+      "auxiliary_loss_mlp": 0.01381768,
+      "balance_loss_clip": 1.06627965,
+      "balance_loss_mlp": 1.00009513,
+      "epoch": 0.1345517946251428,
+      "flos": 40734442788480.0,
+      "grad_norm": 2.0720958774988163,
+      "language_loss": 0.73667115,
+      "learning_rate": 3.886532122805399e-06,
+      "loss": 0.76298177,
+      "num_input_tokens_seen": 23874765,
+      "step": 1119,
+      "time_per_iteration": 2.822547674179077
+    },
+    {
+      "auxiliary_loss_clip": 0.01256187,
+      "auxiliary_loss_mlp": 0.0104279,
+      "balance_loss_clip": 1.05290246,
+      "balance_loss_mlp": 1.03111994,
+      "epoch": 0.13467203751578188,
+      "flos": 22816850140800.0,
+      "grad_norm": 2.2382248828771787,
+      "language_loss": 0.89607102,
+      "learning_rate": 3.886273331644053e-06,
+      "loss": 0.91906077,
+      "num_input_tokens_seen": 23893635,
+      "step": 1120,
+      "time_per_iteration": 2.7933554649353027
+    },
+    {
+      "auxiliary_loss_clip": 0.01265784,
+      "auxiliary_loss_mlp": 0.01042933,
+      "balance_loss_clip": 1.06119728,
+      "balance_loss_mlp": 1.03272903,
+      "epoch": 0.13479228040642097,
+      "flos": 17091576512640.0,
+      "grad_norm": 2.1216772049811707,
+      "language_loss": 0.82272887,
+      "learning_rate": 3.886014254336542e-06,
+      "loss": 0.84581602,
+      "num_input_tokens_seen": 23910110,
+      "step": 1121,
+      "time_per_iteration": 2.7681357860565186
+    },
+    {
+      "auxiliary_loss_clip": 0.01245265,
+      "auxiliary_loss_mlp": 0.01035621,
+      "balance_loss_clip": 1.0655818,
+      "balance_loss_mlp": 1.0254581,
+      "epoch": 0.13491252329706005,
+      "flos": 23730525417600.0,
+      "grad_norm": 1.6304536026181926,
+      "language_loss": 0.92510879,
+      "learning_rate": 3.885754890922168e-06,
+      "loss": 0.94791764,
+      "num_input_tokens_seen": 23930440,
+      "step": 1122,
+      "time_per_iteration": 2.917173147201538
+    },
+    {
+      "auxiliary_loss_clip": 0.01266428,
+      "auxiliary_loss_mlp": 0.01038958,
+      "balance_loss_clip": 1.05487037,
+      "balance_loss_mlp": 1.02768636,
+      "epoch": 0.13503276618769916,
+      "flos": 34127058960000.0,
+      "grad_norm": 1.9045253237553887,
+      "language_loss": 0.78466642,
+      "learning_rate": 3.885495241440277e-06,
+      "loss": 0.80772024,
+      "num_input_tokens_seen": 23954535,
+      "step": 1123,
+      "time_per_iteration": 3.067135810852051
+    },
+    {
+      "auxiliary_loss_clip": 0.01236762,
+      "auxiliary_loss_mlp": 0.01038222,
+      "balance_loss_clip": 1.06541586,
+      "balance_loss_mlp": 1.02695704,
+      "epoch": 0.13515300907833824,
+      "flos": 17712328377600.0,
+      "grad_norm": 1.9774309423539393,
+      "language_loss": 0.74212289,
+      "learning_rate": 3.885235305930257e-06,
+      "loss": 0.76487273,
+      "num_input_tokens_seen": 23972735,
+      "step": 1124,
+      "time_per_iteration": 2.786196231842041
+    },
+    {
+      "auxiliary_loss_clip": 0.01252668,
+      "auxiliary_loss_mlp": 0.01040782,
+      "balance_loss_clip": 1.06369698,
+      "balance_loss_mlp": 1.02964187,
+      "epoch": 0.13527325196897733,
+      "flos": 20260872201600.0,
+      "grad_norm": 2.225961556457172,
+      "language_loss": 0.85654283,
+      "learning_rate": 3.884975084431539e-06,
+      "loss": 0.87947738,
+      "num_input_tokens_seen": 23987685,
+      "step": 1125,
+      "time_per_iteration": 2.7411487102508545
+    },
+    {
+      "auxiliary_loss_clip": 0.01231753,
+      "auxiliary_loss_mlp": 0.01381637,
+      "balance_loss_clip": 1.06266117,
+      "balance_loss_mlp": 1.00003219,
+      "epoch": 0.13539349485961644,
+      "flos": 18186492839040.0,
+      "grad_norm": 2.651354359364227,
+      "language_loss": 0.91971964,
+      "learning_rate": 3.8847145769836e-06,
+      "loss": 0.94585347,
+      "num_input_tokens_seen": 24004105,
+      "step": 1126,
+      "time_per_iteration": 2.668009042739868
+    },
+    {
+      "auxiliary_loss_clip": 0.01240883,
+      "auxiliary_loss_mlp": 0.01042016,
+      "balance_loss_clip": 1.06841874,
+      "balance_loss_mlp": 1.0306139,
+      "epoch": 0.13551373775025552,
+      "flos": 19317463441920.0,
+      "grad_norm": 2.6164795017983367,
+      "language_loss": 0.66418213,
+      "learning_rate": 3.884453783625959e-06,
+      "loss": 0.68701112,
+      "num_input_tokens_seen": 24021715,
+      "step": 1127,
+      "time_per_iteration": 2.5960521697998047
+    },
+    {
+      "auxiliary_loss_clip": 0.01248648,
+      "auxiliary_loss_mlp": 0.01041261,
+      "balance_loss_clip": 1.06488729,
+      "balance_loss_mlp": 1.03048408,
+      "epoch": 0.1356339806408946,
+      "flos": 20850813175680.0,
+      "grad_norm": 2.2253618365555683,
+      "language_loss": 0.85041124,
+      "learning_rate": 3.884192704398176e-06,
+      "loss": 0.87331033,
+      "num_input_tokens_seen": 24038915,
+      "step": 1128,
+      "time_per_iteration": 2.696666717529297
+    },
+    {
+      "auxiliary_loss_clip": 0.01244924,
+      "auxiliary_loss_mlp": 0.01044201,
+      "balance_loss_clip": 1.06413567,
+      "balance_loss_mlp": 1.03328753,
+      "epoch": 0.13575422353153369,
+      "flos": 50476037696640.0,
+      "grad_norm": 1.9310591863514102,
+      "language_loss": 0.74846041,
+      "learning_rate": 3.883931339339858e-06,
+      "loss": 0.7713517,
+      "num_input_tokens_seen": 24063300,
+      "step": 1129,
+      "time_per_iteration": 2.8970718383789062
+    },
+    {
+      "auxiliary_loss_clip": 0.01253116,
+      "auxiliary_loss_mlp": 0.0103904,
+      "balance_loss_clip": 1.06789982,
+      "balance_loss_mlp": 1.02590895,
+      "epoch": 0.1358744664221728,
+      "flos": 18150797698560.0,
+      "grad_norm": 1.8680392869850495,
+      "language_loss": 0.78759307,
+      "learning_rate": 3.883669688490654e-06,
+      "loss": 0.81051463,
+      "num_input_tokens_seen": 24081070,
+      "step": 1130,
+      "time_per_iteration": 2.630103588104248
+    },
+    {
+      "auxiliary_loss_clip": 0.01238045,
+      "auxiliary_loss_mlp": 0.01381715,
+      "balance_loss_clip": 1.05999827,
+      "balance_loss_mlp": 1.00002897,
+      "epoch": 0.13599470931281188,
+      "flos": 18442966924800.0,
+      "grad_norm": 2.0038060044686774,
+      "language_loss": 0.85442907,
+      "learning_rate": 3.883407751890256e-06,
+      "loss": 0.88062668,
+      "num_input_tokens_seen": 24099675,
+      "step": 1131,
+      "time_per_iteration": 2.639732837677002
+    },
+    {
+      "auxiliary_loss_clip": 0.01251327,
+      "auxiliary_loss_mlp": 0.01049802,
+      "balance_loss_clip": 1.05733263,
+      "balance_loss_mlp": 1.03901994,
+      "epoch": 0.13611495220345096,
+      "flos": 26680766014080.0,
+      "grad_norm": 2.1937209023372732,
+      "language_loss": 0.85786229,
+      "learning_rate": 3.8831455295783994e-06,
+      "loss": 0.88087362,
+      "num_input_tokens_seen": 24118925,
+      "step": 1132,
+      "time_per_iteration": 2.759542226791382
+    },
+    {
+      "auxiliary_loss_clip": 0.01244995,
+      "auxiliary_loss_mlp": 0.01040339,
+      "balance_loss_clip": 1.06055689,
+      "balance_loss_mlp": 1.0291872,
+      "epoch": 0.13623519509409007,
+      "flos": 21686238673920.0,
+      "grad_norm": 1.8401809446839417,
+      "language_loss": 0.74415708,
+      "learning_rate": 3.882883021594864e-06,
+      "loss": 0.76701045,
+      "num_input_tokens_seen": 24137065,
+      "step": 1133,
+      "time_per_iteration": 3.6458778381347656
+    },
+    {
+      "auxiliary_loss_clip": 0.0124675,
+      "auxiliary_loss_mlp": 0.01041887,
+      "balance_loss_clip": 1.05972612,
+      "balance_loss_mlp": 1.03094316,
+      "epoch": 0.13635543798472916,
+      "flos": 14830389492480.0,
+      "grad_norm": 3.2645191518685333,
+      "language_loss": 0.8700012,
+      "learning_rate": 3.8826202279794705e-06,
+      "loss": 0.89288759,
+      "num_input_tokens_seen": 24154125,
+      "step": 1134,
+      "time_per_iteration": 2.648160696029663
+    },
+    {
+      "auxiliary_loss_clip": 0.01237037,
+      "auxiliary_loss_mlp": 0.01048441,
+      "balance_loss_clip": 1.06695139,
+      "balance_loss_mlp": 1.0373069,
+      "epoch": 0.13647568087536824,
+      "flos": 22890323410560.0,
+      "grad_norm": 2.0885228267704212,
+      "language_loss": 0.70530081,
+      "learning_rate": 3.882357148772085e-06,
+      "loss": 0.72815561,
+      "num_input_tokens_seen": 24171550,
+      "step": 1135,
+      "time_per_iteration": 2.605268955230713
+    },
+    {
+      "auxiliary_loss_clip": 0.01237018,
+      "auxiliary_loss_mlp": 0.01046173,
+      "balance_loss_clip": 1.05732489,
+      "balance_loss_mlp": 1.03506327,
+      "epoch": 0.13659592376600732,
+      "flos": 19937927998080.0,
+      "grad_norm": 2.3745979808784305,
+      "language_loss": 0.84207469,
+      "learning_rate": 3.882093784012617e-06,
+      "loss": 0.86490655,
+      "num_input_tokens_seen": 24190190,
+      "step": 1136,
+      "time_per_iteration": 4.490791082382202
+    },
+    {
+      "auxiliary_loss_clip": 0.01244918,
+      "auxiliary_loss_mlp": 0.01041504,
+      "balance_loss_clip": 1.05950212,
+      "balance_loss_mlp": 1.03066182,
+      "epoch": 0.13671616665664643,
+      "flos": 21428579439360.0,
+      "grad_norm": 1.7335633498102818,
+      "language_loss": 0.8408348,
+      "learning_rate": 3.881830133741019e-06,
+      "loss": 0.86369896,
+      "num_input_tokens_seen": 24209055,
+      "step": 1137,
+      "time_per_iteration": 2.6946747303009033
+    },
+    {
+      "auxiliary_loss_clip": 0.01262498,
+      "auxiliary_loss_mlp": 0.01050707,
+      "balance_loss_clip": 1.06483245,
+      "balance_loss_mlp": 1.0399667,
+      "epoch": 0.13683640954728551,
+      "flos": 22778138257920.0,
+      "grad_norm": 2.532272598379333,
+      "language_loss": 0.7646898,
+      "learning_rate": 3.881566197997285e-06,
+      "loss": 0.78782183,
+      "num_input_tokens_seen": 24225490,
+      "step": 1138,
+      "time_per_iteration": 3.654323101043701
+    },
+    {
+      "auxiliary_loss_clip": 0.01248538,
+      "auxiliary_loss_mlp": 0.01034385,
+      "balance_loss_clip": 1.06420779,
+      "balance_loss_mlp": 1.02410924,
+      "epoch": 0.1369566524379246,
+      "flos": 21725884310400.0,
+      "grad_norm": 1.543576744862593,
+      "language_loss": 0.74864459,
+      "learning_rate": 3.881301976821456e-06,
+      "loss": 0.77147377,
+      "num_input_tokens_seen": 24245520,
+      "step": 1139,
+      "time_per_iteration": 2.6455841064453125
+    },
+    {
+      "auxiliary_loss_clip": 0.01240733,
+      "auxiliary_loss_mlp": 0.01038151,
+      "balance_loss_clip": 1.06487632,
+      "balance_loss_mlp": 1.027035,
+      "epoch": 0.1370768953285637,
+      "flos": 18624459369600.0,
+      "grad_norm": 2.3323851333430907,
+      "language_loss": 0.90665925,
+      "learning_rate": 3.881037470253612e-06,
+      "loss": 0.92944813,
+      "num_input_tokens_seen": 24265035,
+      "step": 1140,
+      "time_per_iteration": 2.6525275707244873
+    },
+    {
+      "auxiliary_loss_clip": 0.0126776,
+      "auxiliary_loss_mlp": 0.01041388,
+      "balance_loss_clip": 1.06186569,
+      "balance_loss_mlp": 1.03006876,
+      "epoch": 0.1371971382192028,
+      "flos": 14939521989120.0,
+      "grad_norm": 2.582801587799827,
+      "language_loss": 0.79263103,
+      "learning_rate": 3.88077267833388e-06,
+      "loss": 0.81572253,
+      "num_input_tokens_seen": 24281550,
+      "step": 1141,
+      "time_per_iteration": 2.680349826812744
+    },
+    {
+      "auxiliary_loss_clip": 0.01256065,
+      "auxiliary_loss_mlp": 0.01047945,
+      "balance_loss_clip": 1.05671525,
+      "balance_loss_mlp": 1.03747821,
+      "epoch": 0.13731738110984187,
+      "flos": 19023785844480.0,
+      "grad_norm": 1.9706837188563806,
+      "language_loss": 0.83969796,
+      "learning_rate": 3.880507601102427e-06,
+      "loss": 0.86273801,
+      "num_input_tokens_seen": 24299485,
+      "step": 1142,
+      "time_per_iteration": 2.740426778793335
+    },
+    {
+      "auxiliary_loss_clip": 0.01235215,
+      "auxiliary_loss_mlp": 0.01041695,
+      "balance_loss_clip": 1.06884933,
+      "balance_loss_mlp": 1.03120494,
+      "epoch": 0.13743762400048098,
+      "flos": 18187462506240.0,
+      "grad_norm": 1.8664744586441224,
+      "language_loss": 0.81767881,
+      "learning_rate": 3.880242238599467e-06,
+      "loss": 0.8404479,
+      "num_input_tokens_seen": 24316010,
+      "step": 1143,
+      "time_per_iteration": 2.5448668003082275
+    },
+    {
+      "auxiliary_loss_clip": 0.012326,
+      "auxiliary_loss_mlp": 0.01037351,
+      "balance_loss_clip": 1.06493163,
+      "balance_loss_mlp": 1.02645564,
+      "epoch": 0.13755786689112007,
+      "flos": 21031982398080.0,
+      "grad_norm": 1.6133503478999944,
+      "language_loss": 0.83113223,
+      "learning_rate": 3.879976590865254e-06,
+      "loss": 0.85383177,
+      "num_input_tokens_seen": 24335465,
+      "step": 1144,
+      "time_per_iteration": 2.6233975887298584
+    },
+    {
+      "auxiliary_loss_clip": 0.01252597,
+      "auxiliary_loss_mlp": 0.01034665,
+      "balance_loss_clip": 1.06584167,
+      "balance_loss_mlp": 1.02341795,
+      "epoch": 0.13767810978175915,
+      "flos": 21360636864000.0,
+      "grad_norm": 2.8971929545129678,
+      "language_loss": 0.87270659,
+      "learning_rate": 3.879710657940087e-06,
+      "loss": 0.89557922,
+      "num_input_tokens_seen": 24354415,
+      "step": 1145,
+      "time_per_iteration": 2.625638961791992
+    },
+    {
+      "auxiliary_loss_clip": 0.01245099,
+      "auxiliary_loss_mlp": 0.01036196,
+      "balance_loss_clip": 1.06591892,
+      "balance_loss_mlp": 1.02504349,
+      "epoch": 0.13779835267239823,
+      "flos": 30592084861440.0,
+      "grad_norm": 2.0191319038196105,
+      "language_loss": 0.70202237,
+      "learning_rate": 3.879444439864308e-06,
+      "loss": 0.72483528,
+      "num_input_tokens_seen": 24373990,
+      "step": 1146,
+      "time_per_iteration": 2.692530393600464
+    },
+    {
+      "auxiliary_loss_clip": 0.01242627,
+      "auxiliary_loss_mlp": 0.01381647,
+      "balance_loss_clip": 1.06439686,
+      "balance_loss_mlp": 1.00018311,
+      "epoch": 0.13791859556303734,
+      "flos": 22669867687680.0,
+      "grad_norm": 1.7871345275997832,
+      "language_loss": 0.85687315,
+      "learning_rate": 3.879177936678301e-06,
+      "loss": 0.88311589,
+      "num_input_tokens_seen": 24392995,
+      "step": 1147,
+      "time_per_iteration": 2.6792194843292236
+    },
+    {
+      "auxiliary_loss_clip": 0.01253997,
+      "auxiliary_loss_mlp": 0.01038391,
+      "balance_loss_clip": 1.06303501,
+      "balance_loss_mlp": 1.02765584,
+      "epoch": 0.13803883845367643,
+      "flos": 35224166016000.0,
+      "grad_norm": 1.8034825452914847,
+      "language_loss": 0.77119982,
+      "learning_rate": 3.878911148422496e-06,
+      "loss": 0.79412365,
+      "num_input_tokens_seen": 24414470,
+      "step": 1148,
+      "time_per_iteration": 2.7553648948669434
+    },
+    {
+      "auxiliary_loss_clip": 0.01244153,
+      "auxiliary_loss_mlp": 0.01037724,
+      "balance_loss_clip": 1.06361246,
+      "balance_loss_mlp": 1.02708435,
+      "epoch": 0.1381590813443155,
+      "flos": 32014542332160.0,
+      "grad_norm": 2.7334976078361795,
+      "language_loss": 0.70006508,
+      "learning_rate": 3.878644075137364e-06,
+      "loss": 0.72288382,
+      "num_input_tokens_seen": 24435120,
+      "step": 1149,
+      "time_per_iteration": 2.747785806655884
+    },
+    {
+      "auxiliary_loss_clip": 0.01227878,
+      "auxiliary_loss_mlp": 0.01046535,
+      "balance_loss_clip": 1.05479097,
+      "balance_loss_mlp": 1.03487003,
+      "epoch": 0.13827932423495462,
+      "flos": 17821855923840.0,
+      "grad_norm": 2.215449123021004,
+      "language_loss": 0.79569197,
+      "learning_rate": 3.878376716863418e-06,
+      "loss": 0.81843609,
+      "num_input_tokens_seen": 24451420,
+      "step": 1150,
+      "time_per_iteration": 2.702580213546753
+    },
+    {
+      "auxiliary_loss_clip": 0.01246523,
+      "auxiliary_loss_mlp": 0.01033447,
+      "balance_loss_clip": 1.06018257,
+      "balance_loss_mlp": 1.02202713,
+      "epoch": 0.1383995671255937,
+      "flos": 19427098728960.0,
+      "grad_norm": 2.282265237897816,
+      "language_loss": 0.71599144,
+      "learning_rate": 3.878109073641219e-06,
+      "loss": 0.73879117,
+      "num_input_tokens_seen": 24470450,
+      "step": 1151,
+      "time_per_iteration": 2.7038118839263916
+    },
+    {
+      "auxiliary_loss_clip": 0.01259361,
+      "auxiliary_loss_mlp": 0.01040405,
+      "balance_loss_clip": 1.05940175,
+      "balance_loss_mlp": 1.02892542,
+      "epoch": 0.13851981001623279,
+      "flos": 28296603331200.0,
+      "grad_norm": 1.5668789658673037,
+      "language_loss": 0.81246996,
+      "learning_rate": 3.877841145511366e-06,
+      "loss": 0.8354677,
+      "num_input_tokens_seen": 24493190,
+      "step": 1152,
+      "time_per_iteration": 2.798632860183716
+    },
+    {
+      "auxiliary_loss_clip": 0.01245261,
+      "auxiliary_loss_mlp": 0.01037268,
+      "balance_loss_clip": 1.06472659,
+      "balance_loss_mlp": 1.02659297,
+      "epoch": 0.13864005290687187,
+      "flos": 21213079793280.0,
+      "grad_norm": 1.6853619548374117,
+      "language_loss": 0.82762337,
+      "learning_rate": 3.8775729325145035e-06,
+      "loss": 0.85044861,
+      "num_input_tokens_seen": 24512425,
+      "step": 1153,
+      "time_per_iteration": 2.7476348876953125
+    },
+    {
+      "auxiliary_loss_clip": 0.01144516,
+      "auxiliary_loss_mlp": 0.0101063,
+      "balance_loss_clip": 1.02755165,
+      "balance_loss_mlp": 1.0081147,
+      "epoch": 0.13876029579751098,
+      "flos": 71653389413760.0,
+      "grad_norm": 0.8180683161535102,
+      "language_loss": 0.64722604,
+      "learning_rate": 3.877304434691321e-06,
+      "loss": 0.66877753,
+      "num_input_tokens_seen": 24579275,
+      "step": 1154,
+      "time_per_iteration": 3.414740562438965
+    },
+    {
+      "auxiliary_loss_clip": 0.0126577,
+      "auxiliary_loss_mlp": 0.01040164,
+      "balance_loss_clip": 1.06649494,
+      "balance_loss_mlp": 1.03003693,
+      "epoch": 0.13888053868815006,
+      "flos": 21941348042880.0,
+      "grad_norm": 1.883443095673576,
+      "language_loss": 0.79420537,
+      "learning_rate": 3.877035652082548e-06,
+      "loss": 0.81726468,
+      "num_input_tokens_seen": 24598720,
+      "step": 1155,
+      "time_per_iteration": 2.7434654235839844
+    },
+    {
+      "auxiliary_loss_clip": 0.0123954,
+      "auxiliary_loss_mlp": 0.01038824,
+      "balance_loss_clip": 1.06262302,
+      "balance_loss_mlp": 1.0270226,
+      "epoch": 0.13900078157878915,
+      "flos": 19608627087360.0,
+      "grad_norm": 1.7638197814134098,
+      "language_loss": 0.85513711,
+      "learning_rate": 3.87676658472896e-06,
+      "loss": 0.87792075,
+      "num_input_tokens_seen": 24617530,
+      "step": 1156,
+      "time_per_iteration": 2.7040135860443115
+    },
+    {
+      "auxiliary_loss_clip": 0.01240891,
+      "auxiliary_loss_mlp": 0.01041367,
+      "balance_loss_clip": 1.06098771,
+      "balance_loss_mlp": 1.02920771,
+      "epoch": 0.13912102446942826,
+      "flos": 22638051216000.0,
+      "grad_norm": 1.7862942963544235,
+      "language_loss": 0.85295594,
+      "learning_rate": 3.876497232671372e-06,
+      "loss": 0.87577856,
+      "num_input_tokens_seen": 24637485,
+      "step": 1157,
+      "time_per_iteration": 2.6666178703308105
+    },
+    {
+      "auxiliary_loss_clip": 0.01269853,
+      "auxiliary_loss_mlp": 0.0104029,
+      "balance_loss_clip": 1.05874705,
+      "balance_loss_mlp": 1.02830923,
+      "epoch": 0.13924126736006734,
+      "flos": 29643324975360.0,
+      "grad_norm": 3.472746456360893,
+      "language_loss": 0.83965409,
+      "learning_rate": 3.876227595950647e-06,
+      "loss": 0.86275554,
+      "num_input_tokens_seen": 24656915,
+      "step": 1158,
+      "time_per_iteration": 2.852586507797241
+    },
+    {
+      "auxiliary_loss_clip": 0.01235915,
+      "auxiliary_loss_mlp": 0.01033942,
+      "balance_loss_clip": 1.06720257,
+      "balance_loss_mlp": 1.02340376,
+      "epoch": 0.13936151025070642,
+      "flos": 27417653527680.0,
+      "grad_norm": 1.5659739974406361,
+      "language_loss": 0.78951836,
+      "learning_rate": 3.875957674607686e-06,
+      "loss": 0.812217,
+      "num_input_tokens_seen": 24679190,
+      "step": 1159,
+      "time_per_iteration": 3.5679187774658203
+    },
+    {
+      "auxiliary_loss_clip": 0.0123308,
+      "auxiliary_loss_mlp": 0.01382046,
+      "balance_loss_clip": 1.06041527,
+      "balance_loss_mlp": 1.00009346,
+      "epoch": 0.1394817531413455,
+      "flos": 16399326625920.0,
+      "grad_norm": 1.9842331847319352,
+      "language_loss": 0.88130808,
+      "learning_rate": 3.8756874686834386e-06,
+      "loss": 0.90745926,
+      "num_input_tokens_seen": 24697405,
+      "step": 1160,
+      "time_per_iteration": 2.714012861251831
+    },
+    {
+      "auxiliary_loss_clip": 0.01247077,
+      "auxiliary_loss_mlp": 0.01382075,
+      "balance_loss_clip": 1.06416726,
+      "balance_loss_mlp": 1.00018847,
+      "epoch": 0.13960199603198462,
+      "flos": 30922319525760.0,
+      "grad_norm": 1.7540965966904876,
+      "language_loss": 0.80111229,
+      "learning_rate": 3.875416978218893e-06,
+      "loss": 0.82740378,
+      "num_input_tokens_seen": 24720600,
+      "step": 1161,
+      "time_per_iteration": 2.779686450958252
+    },
+    {
+      "auxiliary_loss_clip": 0.01264938,
+      "auxiliary_loss_mlp": 0.01051927,
+      "balance_loss_clip": 1.05874884,
+      "balance_loss_mlp": 1.04046488,
+      "epoch": 0.1397222389226237,
+      "flos": 18113773754880.0,
+      "grad_norm": 2.3809063930785657,
+      "language_loss": 0.82800883,
+      "learning_rate": 3.8751462032550835e-06,
+      "loss": 0.85117745,
+      "num_input_tokens_seen": 24737605,
+      "step": 1162,
+      "time_per_iteration": 4.586500406265259
+    },
+    {
+      "auxiliary_loss_clip": 0.01250065,
+      "auxiliary_loss_mlp": 0.01036425,
+      "balance_loss_clip": 1.06856358,
+      "balance_loss_mlp": 1.02636981,
+      "epoch": 0.13984248181326278,
+      "flos": 16872772815360.0,
+      "grad_norm": 2.5363865335183085,
+      "language_loss": 0.82789409,
+      "learning_rate": 3.874875143833085e-06,
+      "loss": 0.85075891,
+      "num_input_tokens_seen": 24755845,
+      "step": 1163,
+      "time_per_iteration": 2.601254940032959
+    },
+    {
+      "auxiliary_loss_clip": 0.01246551,
+      "auxiliary_loss_mlp": 0.01043849,
+      "balance_loss_clip": 1.06595945,
+      "balance_loss_mlp": 1.03227401,
+      "epoch": 0.1399627247039019,
+      "flos": 54121401267840.0,
+      "grad_norm": 1.7973332386213867,
+      "language_loss": 0.68944901,
+      "learning_rate": 3.874603799994019e-06,
+      "loss": 0.71235299,
+      "num_input_tokens_seen": 24779380,
+      "step": 1164,
+      "time_per_iteration": 3.877577304840088
+    },
+    {
+      "auxiliary_loss_clip": 0.01245601,
+      "auxiliary_loss_mlp": 0.01045166,
+      "balance_loss_clip": 1.05814505,
+      "balance_loss_mlp": 1.03444362,
+      "epoch": 0.14008296759454097,
+      "flos": 11765521618560.0,
+      "grad_norm": 2.0718569628752856,
+      "language_loss": 0.86658013,
+      "learning_rate": 3.874332171779046e-06,
+      "loss": 0.8894878,
+      "num_input_tokens_seen": 24794260,
+      "step": 1165,
+      "time_per_iteration": 2.66451358795166
+    },
+    {
+      "auxiliary_loss_clip": 0.01253084,
+      "auxiliary_loss_mlp": 0.01039035,
+      "balance_loss_clip": 1.05805635,
+      "balance_loss_mlp": 1.02859187,
+      "epoch": 0.14020321048518006,
+      "flos": 22017514832640.0,
+      "grad_norm": 1.715576439813319,
+      "language_loss": 0.75665593,
+      "learning_rate": 3.874060259229373e-06,
+      "loss": 0.77957714,
+      "num_input_tokens_seen": 24815835,
+      "step": 1166,
+      "time_per_iteration": 2.7020602226257324
+    },
+    {
+      "auxiliary_loss_clip": 0.01251203,
+      "auxiliary_loss_mlp": 0.01049059,
+      "balance_loss_clip": 1.06983113,
+      "balance_loss_mlp": 1.03778207,
+      "epoch": 0.14032345337581917,
+      "flos": 23404313076480.0,
+      "grad_norm": 2.3445325269984534,
+      "language_loss": 0.93725777,
+      "learning_rate": 3.873788062386249e-06,
+      "loss": 0.96026039,
+      "num_input_tokens_seen": 24834095,
+      "step": 1167,
+      "time_per_iteration": 2.621399164199829
+    },
+    {
+      "auxiliary_loss_clip": 0.01266043,
+      "auxiliary_loss_mlp": 0.01047175,
+      "balance_loss_clip": 1.06463373,
+      "balance_loss_mlp": 1.03653002,
+      "epoch": 0.14044369626645825,
+      "flos": 29645767100160.0,
+      "grad_norm": 1.7611602567957068,
+      "language_loss": 0.81971192,
+      "learning_rate": 3.873515581290965e-06,
+      "loss": 0.84284413,
+      "num_input_tokens_seen": 24858900,
+      "step": 1168,
+      "time_per_iteration": 2.8820221424102783
+    },
+    {
+      "auxiliary_loss_clip": 0.01259873,
+      "auxiliary_loss_mlp": 0.01037463,
+      "balance_loss_clip": 1.06353652,
+      "balance_loss_mlp": 1.02647805,
+      "epoch": 0.14056393915709733,
+      "flos": 18332972501760.0,
+      "grad_norm": 2.0191449385210496,
+      "language_loss": 0.75564218,
+      "learning_rate": 3.8732428159848575e-06,
+      "loss": 0.77861553,
+      "num_input_tokens_seen": 24877875,
+      "step": 1169,
+      "time_per_iteration": 2.7015297412872314
+    },
+    {
+      "auxiliary_loss_clip": 0.01245825,
+      "auxiliary_loss_mlp": 0.01043792,
+      "balance_loss_clip": 1.06972909,
+      "balance_loss_mlp": 1.03252113,
+      "epoch": 0.14068418204773642,
+      "flos": 26687517770880.0,
+      "grad_norm": 1.961337551652606,
+      "language_loss": 0.7844587,
+      "learning_rate": 3.872969766509304e-06,
+      "loss": 0.80735493,
+      "num_input_tokens_seen": 24898430,
+      "step": 1170,
+      "time_per_iteration": 2.7204904556274414
+    },
+    {
+      "auxiliary_loss_clip": 0.01140841,
+      "auxiliary_loss_mlp": 0.01002312,
+      "balance_loss_clip": 1.021384,
+      "balance_loss_mlp": 0.99972552,
+      "epoch": 0.14080442493837553,
+      "flos": 65259314501760.0,
+      "grad_norm": 0.760222348036148,
+      "language_loss": 0.55644792,
+      "learning_rate": 3.872696432905726e-06,
+      "loss": 0.57787943,
+      "num_input_tokens_seen": 24959250,
+      "step": 1171,
+      "time_per_iteration": 3.2732512950897217
+    },
+    {
+      "auxiliary_loss_clip": 0.01246977,
+      "auxiliary_loss_mlp": 0.01035909,
+      "balance_loss_clip": 1.06211567,
+      "balance_loss_mlp": 1.0249182,
+      "epoch": 0.1409246678290146,
+      "flos": 25776715582080.0,
+      "grad_norm": 2.1937404930947406,
+      "language_loss": 0.71349508,
+      "learning_rate": 3.872422815215589e-06,
+      "loss": 0.73632395,
+      "num_input_tokens_seen": 24978330,
+      "step": 1172,
+      "time_per_iteration": 2.6810762882232666
+    },
+    {
+      "auxiliary_loss_clip": 0.0123374,
+      "auxiliary_loss_mlp": 0.01043955,
+      "balance_loss_clip": 1.06013727,
+      "balance_loss_mlp": 1.03183115,
+      "epoch": 0.1410449107196537,
+      "flos": 21868521217920.0,
+      "grad_norm": 2.133964888787409,
+      "language_loss": 0.74704349,
+      "learning_rate": 3.8721489134803994e-06,
+      "loss": 0.76982039,
+      "num_input_tokens_seen": 24997120,
+      "step": 1173,
+      "time_per_iteration": 2.6842119693756104
+    },
+    {
+      "auxiliary_loss_clip": 0.01242916,
+      "auxiliary_loss_mlp": 0.01037765,
+      "balance_loss_clip": 1.06459451,
+      "balance_loss_mlp": 1.02651715,
+      "epoch": 0.1411651536102928,
+      "flos": 16684133564160.0,
+      "grad_norm": 2.2718156398620177,
+      "language_loss": 0.72605681,
+      "learning_rate": 3.871874727741707e-06,
+      "loss": 0.74886364,
+      "num_input_tokens_seen": 25014350,
+      "step": 1174,
+      "time_per_iteration": 2.599893093109131
+    },
+    {
+      "auxiliary_loss_clip": 0.01239667,
+      "auxiliary_loss_mlp": 0.01041853,
+      "balance_loss_clip": 1.06642115,
+      "balance_loss_mlp": 1.03185689,
+      "epoch": 0.1412853965009319,
+      "flos": 20992264934400.0,
+      "grad_norm": 1.784091406530716,
+      "language_loss": 0.96777046,
+      "learning_rate": 3.871600258041108e-06,
+      "loss": 0.99058568,
+      "num_input_tokens_seen": 25033875,
+      "step": 1175,
+      "time_per_iteration": 2.7669386863708496
+    },
+    {
+      "auxiliary_loss_clip": 0.01246412,
+      "auxiliary_loss_mlp": 0.01034511,
+      "balance_loss_clip": 1.06126249,
+      "balance_loss_mlp": 1.02365088,
+      "epoch": 0.14140563939157097,
+      "flos": 20335279224960.0,
+      "grad_norm": 2.20163017425374,
+      "language_loss": 0.85699081,
+      "learning_rate": 3.871325504420238e-06,
+      "loss": 0.87980008,
+      "num_input_tokens_seen": 25052865,
+      "step": 1176,
+      "time_per_iteration": 2.734261989593506
+    },
+    {
+      "auxiliary_loss_clip": 0.01235559,
+      "auxiliary_loss_mlp": 0.01037242,
+      "balance_loss_clip": 1.06640708,
+      "balance_loss_mlp": 1.02710342,
+      "epoch": 0.14152588228221005,
+      "flos": 21068826773760.0,
+      "grad_norm": 1.921485800982764,
+      "language_loss": 0.81732064,
+      "learning_rate": 3.871050466920776e-06,
+      "loss": 0.84004867,
+      "num_input_tokens_seen": 25072770,
+      "step": 1177,
+      "time_per_iteration": 2.6459884643554688
+    },
+    {
+      "auxiliary_loss_clip": 0.01246117,
+      "auxiliary_loss_mlp": 0.01040571,
+      "balance_loss_clip": 1.05870199,
+      "balance_loss_mlp": 1.03023541,
+      "epoch": 0.14164612517284916,
+      "flos": 18223157646720.0,
+      "grad_norm": 2.0487181788432918,
+      "language_loss": 0.79925174,
+      "learning_rate": 3.870775145584447e-06,
+      "loss": 0.82211858,
+      "num_input_tokens_seen": 25090550,
+      "step": 1178,
+      "time_per_iteration": 2.6496522426605225
+    },
+    {
+      "auxiliary_loss_clip": 0.01255086,
+      "auxiliary_loss_mlp": 0.01043607,
+      "balance_loss_clip": 1.06261969,
+      "balance_loss_mlp": 1.03134632,
+      "epoch": 0.14176636806348825,
+      "flos": 22744454279040.0,
+      "grad_norm": 2.8188704415982926,
+      "language_loss": 0.65152514,
+      "learning_rate": 3.8704995404530145e-06,
+      "loss": 0.67451215,
+      "num_input_tokens_seen": 25106175,
+      "step": 1179,
+      "time_per_iteration": 2.668302297592163
+    },
+    {
+      "auxiliary_loss_clip": 0.0123501,
+      "auxiliary_loss_mlp": 0.01038988,
+      "balance_loss_clip": 1.06863773,
+      "balance_loss_mlp": 1.02869439,
+      "epoch": 0.14188661095412733,
+      "flos": 22091095843200.0,
+      "grad_norm": 1.683283482151086,
+      "language_loss": 0.85205686,
+      "learning_rate": 3.87022365156829e-06,
+      "loss": 0.87479687,
+      "num_input_tokens_seen": 25126890,
+      "step": 1180,
+      "time_per_iteration": 2.6537461280822754
+    },
+    {
+      "auxiliary_loss_clip": 0.01279813,
+      "auxiliary_loss_mlp": 0.01034399,
+      "balance_loss_clip": 1.05429387,
+      "balance_loss_mlp": 1.02321744,
+      "epoch": 0.14200685384476644,
+      "flos": 24352390604160.0,
+      "grad_norm": 1.8194176155664359,
+      "language_loss": 0.81139374,
+      "learning_rate": 3.869947478972123e-06,
+      "loss": 0.83453584,
+      "num_input_tokens_seen": 25147915,
+      "step": 1181,
+      "time_per_iteration": 2.874037742614746
+    },
+    {
+      "auxiliary_loss_clip": 0.01233647,
+      "auxiliary_loss_mlp": 0.01047042,
+      "balance_loss_clip": 1.06157649,
+      "balance_loss_mlp": 1.03622389,
+      "epoch": 0.14212709673540552,
+      "flos": 24022048199040.0,
+      "grad_norm": 1.8369731871490134,
+      "language_loss": 0.82088506,
+      "learning_rate": 3.869671022706412e-06,
+      "loss": 0.843692,
+      "num_input_tokens_seen": 25166645,
+      "step": 1182,
+      "time_per_iteration": 2.674643039703369
+    },
+    {
+      "auxiliary_loss_clip": 0.01241565,
+      "auxiliary_loss_mlp": 0.01046299,
+      "balance_loss_clip": 1.05333972,
+      "balance_loss_mlp": 1.03489053,
+      "epoch": 0.1422473396260446,
+      "flos": 26431797870720.0,
+      "grad_norm": 1.8261144349811818,
+      "language_loss": 0.64964598,
+      "learning_rate": 3.869394282813092e-06,
+      "loss": 0.67252469,
+      "num_input_tokens_seen": 25185845,
+      "step": 1183,
+      "time_per_iteration": 2.848761558532715
+    },
+    {
+      "auxiliary_loss_clip": 0.0126059,
+      "auxiliary_loss_mlp": 0.01036465,
+      "balance_loss_clip": 1.05668521,
+      "balance_loss_mlp": 1.02544451,
+      "epoch": 0.1423675825166837,
+      "flos": 17055306754560.0,
+      "grad_norm": 3.0619742726389227,
+      "language_loss": 0.89026368,
+      "learning_rate": 3.869117259334147e-06,
+      "loss": 0.91323417,
+      "num_input_tokens_seen": 25203770,
+      "step": 1184,
+      "time_per_iteration": 2.730396270751953
+    },
+    {
+      "auxiliary_loss_clip": 0.01236702,
+      "auxiliary_loss_mlp": 0.01043653,
+      "balance_loss_clip": 1.0633955,
+      "balance_loss_mlp": 1.03296626,
+      "epoch": 0.1424878254073228,
+      "flos": 17929480049280.0,
+      "grad_norm": 1.9103920406833326,
+      "language_loss": 0.81914812,
+      "learning_rate": 3.868839952311599e-06,
+      "loss": 0.84195173,
+      "num_input_tokens_seen": 25221725,
+      "step": 1185,
+      "time_per_iteration": 3.5649020671844482
+    },
+    {
+      "auxiliary_loss_clip": 0.0124493,
+      "auxiliary_loss_mlp": 0.0104047,
+      "balance_loss_clip": 1.06201446,
+      "balance_loss_mlp": 1.02925825,
+      "epoch": 0.14260806829796188,
+      "flos": 20303606407680.0,
+      "grad_norm": 2.556325440317037,
+      "language_loss": 0.80755043,
+      "learning_rate": 3.868562361787516e-06,
+      "loss": 0.8304044,
+      "num_input_tokens_seen": 25240855,
+      "step": 1186,
+      "time_per_iteration": 2.761486530303955
+    },
+    {
+      "auxiliary_loss_clip": 0.0127009,
+      "auxiliary_loss_mlp": 0.01042499,
+      "balance_loss_clip": 1.0503397,
+      "balance_loss_mlp": 1.03156757,
+      "epoch": 0.14272831118860096,
+      "flos": 23185724860800.0,
+      "grad_norm": 1.9673244193050154,
+      "language_loss": 0.68826175,
+      "learning_rate": 3.868284487804009e-06,
+      "loss": 0.71138763,
+      "num_input_tokens_seen": 25260085,
+      "step": 1187,
+      "time_per_iteration": 3.0546798706054688
+    },
+    {
+      "auxiliary_loss_clip": 0.01253852,
+      "auxiliary_loss_mlp": 0.01046607,
+      "balance_loss_clip": 1.06188285,
+      "balance_loss_mlp": 1.03584194,
+      "epoch": 0.14284855407924008,
+      "flos": 27232210586880.0,
+      "grad_norm": 1.5762973472822934,
+      "language_loss": 0.77924216,
+      "learning_rate": 3.86800633040323e-06,
+      "loss": 0.80224675,
+      "num_input_tokens_seen": 25280675,
+      "step": 1188,
+      "time_per_iteration": 3.668750286102295
+    },
+    {
+      "auxiliary_loss_clip": 0.01251927,
+      "auxiliary_loss_mlp": 0.01381888,
+      "balance_loss_clip": 1.0674659,
+      "balance_loss_mlp": 1.00020337,
+      "epoch": 0.14296879696987916,
+      "flos": 28184202696960.0,
+      "grad_norm": 2.0814673651181588,
+      "language_loss": 0.78144401,
+      "learning_rate": 3.867727889627376e-06,
+      "loss": 0.80778217,
+      "num_input_tokens_seen": 25300290,
+      "step": 1189,
+      "time_per_iteration": 3.6818480491638184
+    },
+    {
+      "auxiliary_loss_clip": 0.01245832,
+      "auxiliary_loss_mlp": 0.01043477,
+      "balance_loss_clip": 1.06126142,
+      "balance_loss_mlp": 1.03198481,
+      "epoch": 0.14308903986051824,
+      "flos": 19390290266880.0,
+      "grad_norm": 2.418611834791541,
+      "language_loss": 0.7831167,
+      "learning_rate": 3.867449165518687e-06,
+      "loss": 0.80600977,
+      "num_input_tokens_seen": 25316760,
+      "step": 1190,
+      "time_per_iteration": 3.6051743030548096
+    },
+    {
+      "auxiliary_loss_clip": 0.01239258,
+      "auxiliary_loss_mlp": 0.01381796,
+      "balance_loss_clip": 1.06611848,
+      "balance_loss_mlp": 1.00003529,
+      "epoch": 0.14320928275115732,
+      "flos": 17457506317440.0,
+      "grad_norm": 1.7539871350980603,
+      "language_loss": 0.71254206,
+      "learning_rate": 3.867170158119444e-06,
+      "loss": 0.7387526,
+      "num_input_tokens_seen": 25335760,
+      "step": 1191,
+      "time_per_iteration": 2.6002626419067383
+    },
+    {
+      "auxiliary_loss_clip": 0.01237681,
+      "auxiliary_loss_mlp": 0.01041547,
+      "balance_loss_clip": 1.06635904,
+      "balance_loss_mlp": 1.03024578,
+      "epoch": 0.14332952564179643,
+      "flos": 21466070259840.0,
+      "grad_norm": 2.072035459530546,
+      "language_loss": 0.7573843,
+      "learning_rate": 3.866890867471972e-06,
+      "loss": 0.78017652,
+      "num_input_tokens_seen": 25354230,
+      "step": 1192,
+      "time_per_iteration": 2.6269564628601074
+    },
+    {
+      "auxiliary_loss_clip": 0.01243036,
+      "auxiliary_loss_mlp": 0.01037652,
+      "balance_loss_clip": 1.05672097,
+      "balance_loss_mlp": 1.02602363,
+      "epoch": 0.14344976853243552,
+      "flos": 16396992241920.0,
+      "grad_norm": 2.1781097561067764,
+      "language_loss": 0.89451784,
+      "learning_rate": 3.86661129361864e-06,
+      "loss": 0.91732466,
+      "num_input_tokens_seen": 25368720,
+      "step": 1193,
+      "time_per_iteration": 2.5870048999786377
+    },
+    {
+      "auxiliary_loss_clip": 0.01250989,
+      "auxiliary_loss_mlp": 0.0104282,
+      "balance_loss_clip": 1.0645678,
+      "balance_loss_mlp": 1.03226423,
+      "epoch": 0.1435700114230746,
+      "flos": 18916736336640.0,
+      "grad_norm": 2.061734484716706,
+      "language_loss": 0.86335891,
+      "learning_rate": 3.866331436601859e-06,
+      "loss": 0.88629699,
+      "num_input_tokens_seen": 25386715,
+      "step": 1194,
+      "time_per_iteration": 2.708169937133789
+    },
+    {
+      "auxiliary_loss_clip": 0.01237338,
+      "auxiliary_loss_mlp": 0.01036308,
+      "balance_loss_clip": 1.06896329,
+      "balance_loss_mlp": 1.02543616,
+      "epoch": 0.1436902543137137,
+      "flos": 19755394058880.0,
+      "grad_norm": 2.679888783911945,
+      "language_loss": 0.73771405,
+      "learning_rate": 3.866051296464083e-06,
+      "loss": 0.76045048,
+      "num_input_tokens_seen": 25405550,
+      "step": 1195,
+      "time_per_iteration": 2.552137613296509
+    },
+    {
+      "auxiliary_loss_clip": 0.01237096,
+      "auxiliary_loss_mlp": 0.01382158,
+      "balance_loss_clip": 1.06565523,
+      "balance_loss_mlp": 1.00017214,
+      "epoch": 0.1438104972043528,
+      "flos": 14684807669760.0,
+      "grad_norm": 2.91876827999361,
+      "language_loss": 0.85159576,
+      "learning_rate": 3.86577087324781e-06,
+      "loss": 0.87778831,
+      "num_input_tokens_seen": 25422040,
+      "step": 1196,
+      "time_per_iteration": 2.635610342025757
+    },
+    {
+      "auxiliary_loss_clip": 0.01241101,
+      "auxiliary_loss_mlp": 0.01036818,
+      "balance_loss_clip": 1.06629908,
+      "balance_loss_mlp": 1.02655458,
+      "epoch": 0.14393074009499188,
+      "flos": 17092330698240.0,
+      "grad_norm": 1.9945291594088503,
+      "language_loss": 0.77658296,
+      "learning_rate": 3.865490166995578e-06,
+      "loss": 0.79936212,
+      "num_input_tokens_seen": 25440270,
+      "step": 1197,
+      "time_per_iteration": 2.643012523651123
+    },
+    {
+      "auxiliary_loss_clip": 0.01242689,
+      "auxiliary_loss_mlp": 0.01037955,
+      "balance_loss_clip": 1.06417501,
+      "balance_loss_mlp": 1.02732706,
+      "epoch": 0.144050982985631,
+      "flos": 30476200608000.0,
+      "grad_norm": 2.504147913157106,
+      "language_loss": 0.83922517,
+      "learning_rate": 3.86520917774997e-06,
+      "loss": 0.86203158,
+      "num_input_tokens_seen": 25459705,
+      "step": 1198,
+      "time_per_iteration": 2.7572996616363525
+    },
+    {
+      "auxiliary_loss_clip": 0.01241363,
+      "auxiliary_loss_mlp": 0.01045404,
+      "balance_loss_clip": 1.06532168,
+      "balance_loss_mlp": 1.0354383,
+      "epoch": 0.14417122587627007,
+      "flos": 17858484817920.0,
+      "grad_norm": 2.3341685833008756,
+      "language_loss": 0.75273478,
+      "learning_rate": 3.864927905553614e-06,
+      "loss": 0.7756024,
+      "num_input_tokens_seen": 25477615,
+      "step": 1199,
+      "time_per_iteration": 2.670346260070801
+    },
+    {
+      "auxiliary_loss_clip": 0.01254975,
+      "auxiliary_loss_mlp": 0.01038825,
+      "balance_loss_clip": 1.05935287,
+      "balance_loss_mlp": 1.02800059,
+      "epoch": 0.14429146876690915,
+      "flos": 21613914639360.0,
+      "grad_norm": 1.6462787880641276,
+      "language_loss": 0.88683671,
+      "learning_rate": 3.8646463504491765e-06,
+      "loss": 0.90977466,
+      "num_input_tokens_seen": 25497750,
+      "step": 1200,
+      "time_per_iteration": 2.7180826663970947
+    },
+    {
+      "auxiliary_loss_clip": 0.01248744,
+      "auxiliary_loss_mlp": 0.01041554,
+      "balance_loss_clip": 1.06841016,
+      "balance_loss_mlp": 1.03061664,
+      "epoch": 0.14441171165754824,
+      "flos": 23258120722560.0,
+      "grad_norm": 1.8373049762598082,
+      "language_loss": 0.83173621,
+      "learning_rate": 3.8643645124793705e-06,
+      "loss": 0.85463911,
+      "num_input_tokens_seen": 25516650,
+      "step": 1201,
+      "time_per_iteration": 2.6376466751098633
+    },
+    {
+      "auxiliary_loss_clip": 0.01239863,
+      "auxiliary_loss_mlp": 0.01034253,
+      "balance_loss_clip": 1.06328285,
+      "balance_loss_mlp": 1.02344668,
+      "epoch": 0.14453195454818735,
+      "flos": 42854213963520.0,
+      "grad_norm": 1.7157352235901768,
+      "language_loss": 0.74830514,
+      "learning_rate": 3.8640823916869515e-06,
+      "loss": 0.77104628,
+      "num_input_tokens_seen": 25540960,
+      "step": 1202,
+      "time_per_iteration": 2.86295223236084
+    },
+    {
+      "auxiliary_loss_clip": 0.01234361,
+      "auxiliary_loss_mlp": 0.01038571,
+      "balance_loss_clip": 1.06597471,
+      "balance_loss_mlp": 1.02788353,
+      "epoch": 0.14465219743882643,
+      "flos": 27235873774080.0,
+      "grad_norm": 1.6271552288609632,
+      "language_loss": 0.78293544,
+      "learning_rate": 3.863799988114714e-06,
+      "loss": 0.80566478,
+      "num_input_tokens_seen": 25562990,
+      "step": 1203,
+      "time_per_iteration": 2.6588082313537598
+    },
+    {
+      "auxiliary_loss_clip": 0.01236365,
+      "auxiliary_loss_mlp": 0.01044212,
+      "balance_loss_clip": 1.06596136,
+      "balance_loss_mlp": 1.03225505,
+      "epoch": 0.1447724403294655,
+      "flos": 16690705752960.0,
+      "grad_norm": 2.505742069428079,
+      "language_loss": 0.70551175,
+      "learning_rate": 3.863517301805502e-06,
+      "loss": 0.7283175,
+      "num_input_tokens_seen": 25581380,
+      "step": 1204,
+      "time_per_iteration": 2.560192346572876
+    },
+    {
+      "auxiliary_loss_clip": 0.01259919,
+      "auxiliary_loss_mlp": 0.01041793,
+      "balance_loss_clip": 1.06452274,
+      "balance_loss_mlp": 1.03095722,
+      "epoch": 0.14489268322010462,
+      "flos": 20073741321600.0,
+      "grad_norm": 2.6016958804443413,
+      "language_loss": 0.97447628,
+      "learning_rate": 3.863234332802196e-06,
+      "loss": 0.99749345,
+      "num_input_tokens_seen": 25593585,
+      "step": 1205,
+      "time_per_iteration": 2.692931890487671
+    },
+    {
+      "auxiliary_loss_clip": 0.01244993,
+      "auxiliary_loss_mlp": 0.01041529,
+      "balance_loss_clip": 1.06235588,
+      "balance_loss_mlp": 1.03085411,
+      "epoch": 0.1450129261107437,
+      "flos": 27125627955840.0,
+      "grad_norm": 2.4213836830465234,
+      "language_loss": 0.74047399,
+      "learning_rate": 3.862951081147723e-06,
+      "loss": 0.76333928,
+      "num_input_tokens_seen": 25613750,
+      "step": 1206,
+      "time_per_iteration": 2.734363555908203
+    },
+    {
+      "auxiliary_loss_clip": 0.01247737,
+      "auxiliary_loss_mlp": 0.01033477,
+      "balance_loss_clip": 1.06832099,
+      "balance_loss_mlp": 1.0234282,
+      "epoch": 0.1451331690013828,
+      "flos": 25702344472320.0,
+      "grad_norm": 2.6259517441416316,
+      "language_loss": 0.78230947,
+      "learning_rate": 3.862667546885053e-06,
+      "loss": 0.8051216,
+      "num_input_tokens_seen": 25632300,
+      "step": 1207,
+      "time_per_iteration": 2.700852394104004
+    },
+    {
+      "auxiliary_loss_clip": 0.01252449,
+      "auxiliary_loss_mlp": 0.01045183,
+      "balance_loss_clip": 1.05894732,
+      "balance_loss_mlp": 1.03341126,
+      "epoch": 0.14525341189202187,
+      "flos": 25737393168000.0,
+      "grad_norm": 1.9058631477164942,
+      "language_loss": 0.73380089,
+      "learning_rate": 3.8623837300571965e-06,
+      "loss": 0.75677717,
+      "num_input_tokens_seen": 25651285,
+      "step": 1208,
+      "time_per_iteration": 2.677182197570801
+    },
+    {
+      "auxiliary_loss_clip": 0.01237649,
+      "auxiliary_loss_mlp": 0.01049104,
+      "balance_loss_clip": 1.06716478,
+      "balance_loss_mlp": 1.03808928,
+      "epoch": 0.14537365478266098,
+      "flos": 23073898844160.0,
+      "grad_norm": 2.118944683676461,
+      "language_loss": 0.8381598,
+      "learning_rate": 3.8620996307072085e-06,
+      "loss": 0.8610273,
+      "num_input_tokens_seen": 25671990,
+      "step": 1209,
+      "time_per_iteration": 2.5845720767974854
+    },
+    {
+      "auxiliary_loss_clip": 0.01259438,
+      "auxiliary_loss_mlp": 0.010454,
+      "balance_loss_clip": 1.05521393,
+      "balance_loss_mlp": 1.03467095,
+      "epoch": 0.14549389767330007,
+      "flos": 20595021448320.0,
+      "grad_norm": 2.0006059672851624,
+      "language_loss": 0.64464706,
+      "learning_rate": 3.861815248878188e-06,
+      "loss": 0.66769546,
+      "num_input_tokens_seen": 25689475,
+      "step": 1210,
+      "time_per_iteration": 3.620697498321533
+    },
+    {
+      "auxiliary_loss_clip": 0.01247113,
+      "auxiliary_loss_mlp": 0.01038679,
+      "balance_loss_clip": 1.06474376,
+      "balance_loss_mlp": 1.02669907,
+      "epoch": 0.14561414056393915,
+      "flos": 15121804533120.0,
+      "grad_norm": 2.3149556912493354,
+      "language_loss": 0.79507303,
+      "learning_rate": 3.861530584613274e-06,
+      "loss": 0.81793094,
+      "num_input_tokens_seen": 25707475,
+      "step": 1211,
+      "time_per_iteration": 2.5934557914733887
+    },
+    {
+      "auxiliary_loss_clip": 0.01241857,
+      "auxiliary_loss_mlp": 0.01381787,
+      "balance_loss_clip": 1.06301272,
+      "balance_loss_mlp": 1.00014687,
+      "epoch": 0.14573438345457826,
+      "flos": 19427493778560.0,
+      "grad_norm": 2.1146836170550345,
+      "language_loss": 0.8232559,
+      "learning_rate": 3.86124563795565e-06,
+      "loss": 0.84949231,
+      "num_input_tokens_seen": 25726290,
+      "step": 1212,
+      "time_per_iteration": 2.623832941055298
+    },
+    {
+      "auxiliary_loss_clip": 0.01234485,
+      "auxiliary_loss_mlp": 0.01036737,
+      "balance_loss_clip": 1.06623602,
+      "balance_loss_mlp": 1.0263356,
+      "epoch": 0.14585462634521734,
+      "flos": 24828422572800.0,
+      "grad_norm": 1.5926610430668726,
+      "language_loss": 0.70190603,
+      "learning_rate": 3.860960408948543e-06,
+      "loss": 0.72461832,
+      "num_input_tokens_seen": 25748040,
+      "step": 1213,
+      "time_per_iteration": 2.6593587398529053
+    },
+    {
+      "auxiliary_loss_clip": 0.0123744,
+      "auxiliary_loss_mlp": 0.01040464,
+      "balance_loss_clip": 1.0668596,
+      "balance_loss_mlp": 1.03000343,
+      "epoch": 0.14597486923585642,
+      "flos": 15448627405440.0,
+      "grad_norm": 2.2952039106472286,
+      "language_loss": 0.89926386,
+      "learning_rate": 3.860674897635222e-06,
+      "loss": 0.92204285,
+      "num_input_tokens_seen": 25764525,
+      "step": 1214,
+      "time_per_iteration": 3.530162811279297
+    },
+    {
+      "auxiliary_loss_clip": 0.0124014,
+      "auxiliary_loss_mlp": 0.01035457,
+      "balance_loss_clip": 1.06502295,
+      "balance_loss_mlp": 1.02455568,
+      "epoch": 0.1460951121264955,
+      "flos": 16655154266880.0,
+      "grad_norm": 1.7773272422543471,
+      "language_loss": 0.83431089,
+      "learning_rate": 3.860389104058998e-06,
+      "loss": 0.85706687,
+      "num_input_tokens_seen": 25782755,
+      "step": 1215,
+      "time_per_iteration": 3.3574562072753906
+    },
+    {
+      "auxiliary_loss_clip": 0.01250557,
+      "auxiliary_loss_mlp": 0.01036897,
+      "balance_loss_clip": 1.0622046,
+      "balance_loss_mlp": 1.02587616,
+      "epoch": 0.14621535501713462,
+      "flos": 24863291700480.0,
+      "grad_norm": 2.6276404318133375,
+      "language_loss": 0.72727007,
+      "learning_rate": 3.860103028263227e-06,
+      "loss": 0.7501446,
+      "num_input_tokens_seen": 25805860,
+      "step": 1216,
+      "time_per_iteration": 3.4384267330169678
+    },
+    {
+      "auxiliary_loss_clip": 0.01258219,
+      "auxiliary_loss_mlp": 0.01037176,
+      "balance_loss_clip": 1.0534482,
+      "balance_loss_mlp": 1.02668536,
+      "epoch": 0.1463355979077737,
+      "flos": 25228000442880.0,
+      "grad_norm": 2.3068358448769106,
+      "language_loss": 0.69956201,
+      "learning_rate": 3.859816670291304e-06,
+      "loss": 0.72251594,
+      "num_input_tokens_seen": 25824955,
+      "step": 1217,
+      "time_per_iteration": 2.699249505996704
+    },
+    {
+      "auxiliary_loss_clip": 0.012608,
+      "auxiliary_loss_mlp": 0.01045158,
+      "balance_loss_clip": 1.0548898,
+      "balance_loss_mlp": 1.03434563,
+      "epoch": 0.14645584079841278,
+      "flos": 22054143726720.0,
+      "grad_norm": 3.1722174821571194,
+      "language_loss": 0.89575696,
+      "learning_rate": 3.859530030186672e-06,
+      "loss": 0.91881657,
+      "num_input_tokens_seen": 25841965,
+      "step": 1218,
+      "time_per_iteration": 2.6557633876800537
+    },
+    {
+      "auxiliary_loss_clip": 0.01253485,
+      "auxiliary_loss_mlp": 0.01044927,
+      "balance_loss_clip": 1.06436062,
+      "balance_loss_mlp": 1.03325677,
+      "epoch": 0.1465760836890519,
+      "flos": 23623870959360.0,
+      "grad_norm": 2.4429193656910866,
+      "language_loss": 0.82666939,
+      "learning_rate": 3.859243107992813e-06,
+      "loss": 0.84965354,
+      "num_input_tokens_seen": 25860770,
+      "step": 1219,
+      "time_per_iteration": 2.6700849533081055
+    },
+    {
+      "auxiliary_loss_clip": 0.01254165,
+      "auxiliary_loss_mlp": 0.01040169,
+      "balance_loss_clip": 1.05265307,
+      "balance_loss_mlp": 1.02874887,
+      "epoch": 0.14669632657969098,
+      "flos": 37407893356800.0,
+      "grad_norm": 4.333260909830189,
+      "language_loss": 0.78177047,
+      "learning_rate": 3.858955903753252e-06,
+      "loss": 0.80471379,
+      "num_input_tokens_seen": 25879410,
+      "step": 1220,
+      "time_per_iteration": 2.7940683364868164
+    },
+    {
+      "auxiliary_loss_clip": 0.01241068,
+      "auxiliary_loss_mlp": 0.01046355,
+      "balance_loss_clip": 1.0626328,
+      "balance_loss_mlp": 1.03671145,
+      "epoch": 0.14681656947033006,
+      "flos": 28365910623360.0,
+      "grad_norm": 1.4820199292324203,
+      "language_loss": 0.83303934,
+      "learning_rate": 3.858668417511559e-06,
+      "loss": 0.85591358,
+      "num_input_tokens_seen": 25902160,
+      "step": 1221,
+      "time_per_iteration": 2.7506678104400635
+    },
+    {
+      "auxiliary_loss_clip": 0.0125558,
+      "auxiliary_loss_mlp": 0.01040587,
+      "balance_loss_clip": 1.06632447,
+      "balance_loss_mlp": 1.02966177,
+      "epoch": 0.14693681236096917,
+      "flos": 18479488078080.0,
+      "grad_norm": 2.0163762703520813,
+      "language_loss": 0.76221657,
+      "learning_rate": 3.8583806493113445e-06,
+      "loss": 0.78517824,
+      "num_input_tokens_seen": 25920505,
+      "step": 1222,
+      "time_per_iteration": 2.6534156799316406
+    },
+    {
+      "auxiliary_loss_clip": 0.01236665,
+      "auxiliary_loss_mlp": 0.01041335,
+      "balance_loss_clip": 1.06252313,
+      "balance_loss_mlp": 1.02995062,
+      "epoch": 0.14705705525160825,
+      "flos": 20777806782720.0,
+      "grad_norm": 2.126152118238381,
+      "language_loss": 0.82370818,
+      "learning_rate": 3.858092599196263e-06,
+      "loss": 0.84648818,
+      "num_input_tokens_seen": 25938460,
+      "step": 1223,
+      "time_per_iteration": 2.630174160003662
+    },
+    {
+      "auxiliary_loss_clip": 0.01243251,
+      "auxiliary_loss_mlp": 0.01034795,
+      "balance_loss_clip": 1.06468463,
+      "balance_loss_mlp": 1.02369642,
+      "epoch": 0.14717729814224734,
+      "flos": 29932944336000.0,
+      "grad_norm": 5.765154514129177,
+      "language_loss": 0.82613689,
+      "learning_rate": 3.857804267210012e-06,
+      "loss": 0.84891737,
+      "num_input_tokens_seen": 25957760,
+      "step": 1224,
+      "time_per_iteration": 2.665001392364502
+    },
+    {
+      "auxiliary_loss_clip": 0.01240158,
+      "auxiliary_loss_mlp": 0.01031178,
+      "balance_loss_clip": 1.05635834,
+      "balance_loss_mlp": 1.02077055,
+      "epoch": 0.14729754103288642,
+      "flos": 20047491457920.0,
+      "grad_norm": 2.261164166730256,
+      "language_loss": 0.88350868,
+      "learning_rate": 3.857515653396331e-06,
+      "loss": 0.90622199,
+      "num_input_tokens_seen": 25974970,
+      "step": 1225,
+      "time_per_iteration": 2.6193864345550537
+    },
+    {
+      "auxiliary_loss_clip": 0.01265914,
+      "auxiliary_loss_mlp": 0.01038764,
+      "balance_loss_clip": 1.0595789,
+      "balance_loss_mlp": 1.02736807,
+      "epoch": 0.14741778392352553,
+      "flos": 19281516906240.0,
+      "grad_norm": 2.432559341316473,
+      "language_loss": 0.87115926,
+      "learning_rate": 3.857226757799002e-06,
+      "loss": 0.89420605,
+      "num_input_tokens_seen": 25992525,
+      "step": 1226,
+      "time_per_iteration": 2.7351951599121094
+    },
+    {
+      "auxiliary_loss_clip": 0.01250135,
+      "auxiliary_loss_mlp": 0.01039032,
+      "balance_loss_clip": 1.06148887,
+      "balance_loss_mlp": 1.02789199,
+      "epoch": 0.1475380268141646,
+      "flos": 25411108999680.0,
+      "grad_norm": 2.56243921941046,
+      "language_loss": 0.74075413,
+      "learning_rate": 3.85693758046185e-06,
+      "loss": 0.76364577,
+      "num_input_tokens_seen": 26010815,
+      "step": 1227,
+      "time_per_iteration": 2.6531858444213867
+    },
+    {
+      "auxiliary_loss_clip": 0.01235244,
+      "auxiliary_loss_mlp": 0.01045468,
+      "balance_loss_clip": 1.06914401,
+      "balance_loss_mlp": 1.0350188,
+      "epoch": 0.1476582697048037,
+      "flos": 20847652778880.0,
+      "grad_norm": 2.073841808908013,
+      "language_loss": 0.8284837,
+      "learning_rate": 3.8566481214287435e-06,
+      "loss": 0.85129082,
+      "num_input_tokens_seen": 26028935,
+      "step": 1228,
+      "time_per_iteration": 2.6322953701019287
+    },
+    {
+      "auxiliary_loss_clip": 0.01242965,
+      "auxiliary_loss_mlp": 0.01032554,
+      "balance_loss_clip": 1.05369067,
+      "balance_loss_mlp": 1.02217698,
+      "epoch": 0.1477785125954428,
+      "flos": 14028109269120.0,
+      "grad_norm": 2.3613450216922764,
+      "language_loss": 0.90731382,
+      "learning_rate": 3.8563583807435935e-06,
+      "loss": 0.93006909,
+      "num_input_tokens_seen": 26045080,
+      "step": 1229,
+      "time_per_iteration": 2.7543063163757324
+    },
+    {
+      "auxiliary_loss_clip": 0.01244027,
+      "auxiliary_loss_mlp": 0.01381612,
+      "balance_loss_clip": 1.06436002,
+      "balance_loss_mlp": 1.00012648,
+      "epoch": 0.1478987554860819,
+      "flos": 20516699842560.0,
+      "grad_norm": 2.0069182680767303,
+      "language_loss": 0.77749407,
+      "learning_rate": 3.856068358450353e-06,
+      "loss": 0.80375046,
+      "num_input_tokens_seen": 26065030,
+      "step": 1230,
+      "time_per_iteration": 2.6671156883239746
+    },
+    {
+      "auxiliary_loss_clip": 0.01245459,
+      "auxiliary_loss_mlp": 0.01042165,
+      "balance_loss_clip": 1.06671405,
+      "balance_loss_mlp": 1.03153181,
+      "epoch": 0.14801899837672097,
+      "flos": 17857012360320.0,
+      "grad_norm": 1.6695676914134092,
+      "language_loss": 0.85843688,
+      "learning_rate": 3.8557780545930186e-06,
+      "loss": 0.88131315,
+      "num_input_tokens_seen": 26083445,
+      "step": 1231,
+      "time_per_iteration": 2.6252524852752686
+    },
+    {
+      "auxiliary_loss_clip": 0.01244993,
+      "auxiliary_loss_mlp": 0.01048371,
+      "balance_loss_clip": 1.06205869,
+      "balance_loss_mlp": 1.03723121,
+      "epoch": 0.14813924126736006,
+      "flos": 20881408584960.0,
+      "grad_norm": 1.9354448815825036,
+      "language_loss": 0.79282755,
+      "learning_rate": 3.855487469215628e-06,
+      "loss": 0.81576121,
+      "num_input_tokens_seen": 26102375,
+      "step": 1232,
+      "time_per_iteration": 2.669377088546753
+    },
+    {
+      "auxiliary_loss_clip": 0.01254477,
+      "auxiliary_loss_mlp": 0.01045187,
+      "balance_loss_clip": 1.06119108,
+      "balance_loss_mlp": 1.03414774,
+      "epoch": 0.14825948415799917,
+      "flos": 37414070496000.0,
+      "grad_norm": 2.1174721567050443,
+      "language_loss": 0.72433341,
+      "learning_rate": 3.855196602362264e-06,
+      "loss": 0.74733001,
+      "num_input_tokens_seen": 26125295,
+      "step": 1233,
+      "time_per_iteration": 2.8212313652038574
+    },
+    {
+      "auxiliary_loss_clip": 0.01242046,
+      "auxiliary_loss_mlp": 0.01036808,
+      "balance_loss_clip": 1.06259596,
+      "balance_loss_mlp": 1.02579916,
+      "epoch": 0.14837972704863825,
+      "flos": 22014641744640.0,
+      "grad_norm": 1.9920631660818648,
+      "language_loss": 0.94334328,
+      "learning_rate": 3.854905454077051e-06,
+      "loss": 0.96613181,
+      "num_input_tokens_seen": 26142905,
+      "step": 1234,
+      "time_per_iteration": 2.6197023391723633
+    },
+    {
+      "auxiliary_loss_clip": 0.01272123,
+      "auxiliary_loss_mlp": 0.01033602,
+      "balance_loss_clip": 1.05100608,
+      "balance_loss_mlp": 1.02316499,
+      "epoch": 0.14849996993927733,
+      "flos": 20996323171200.0,
+      "grad_norm": 1.7823218250702482,
+      "language_loss": 0.88213831,
+      "learning_rate": 3.854614024404155e-06,
+      "loss": 0.90519553,
+      "num_input_tokens_seen": 26161215,
+      "step": 1235,
+      "time_per_iteration": 2.8798861503601074
+    },
+    {
+      "auxiliary_loss_clip": 0.01228867,
+      "auxiliary_loss_mlp": 0.01043855,
+      "balance_loss_clip": 1.05416226,
+      "balance_loss_mlp": 1.03214872,
+      "epoch": 0.14862021282991644,
+      "flos": 20047994248320.0,
+      "grad_norm": 2.9529345707333183,
+      "language_loss": 0.89312464,
+      "learning_rate": 3.8543223133877865e-06,
+      "loss": 0.91585183,
+      "num_input_tokens_seen": 26179810,
+      "step": 1236,
+      "time_per_iteration": 3.7071595191955566
+    },
+    {
+      "auxiliary_loss_clip": 0.01225383,
+      "auxiliary_loss_mlp": 0.01035666,
+      "balance_loss_clip": 1.05745733,
+      "balance_loss_mlp": 1.02413273,
+      "epoch": 0.14874045572055553,
+      "flos": 22712027276160.0,
+      "grad_norm": 1.736881754220249,
+      "language_loss": 0.88513786,
+      "learning_rate": 3.854030321072198e-06,
+      "loss": 0.90774834,
+      "num_input_tokens_seen": 26199715,
+      "step": 1237,
+      "time_per_iteration": 2.742809534072876
+    },
+    {
+      "auxiliary_loss_clip": 0.01262269,
+      "auxiliary_loss_mlp": 0.01036149,
+      "balance_loss_clip": 1.06085396,
+      "balance_loss_mlp": 1.02458537,
+      "epoch": 0.1488606986111946,
+      "flos": 25411288567680.0,
+      "grad_norm": 1.9392528566088445,
+      "language_loss": 0.73516971,
+      "learning_rate": 3.853738047501682e-06,
+      "loss": 0.75815386,
+      "num_input_tokens_seen": 26220275,
+      "step": 1238,
+      "time_per_iteration": 2.740222692489624
+    },
+    {
+      "auxiliary_loss_clip": 0.01244378,
+      "auxiliary_loss_mlp": 0.01048055,
+      "balance_loss_clip": 1.06779504,
+      "balance_loss_mlp": 1.03652167,
+      "epoch": 0.1489809415018337,
+      "flos": 17018749687680.0,
+      "grad_norm": 1.9390989031223553,
+      "language_loss": 0.77806151,
+      "learning_rate": 3.85344549272058e-06,
+      "loss": 0.80098581,
+      "num_input_tokens_seen": 26238255,
+      "step": 1239,
+      "time_per_iteration": 2.6630818843841553
+    },
+    {
+      "auxiliary_loss_clip": 0.01233392,
+      "auxiliary_loss_mlp": 0.01040407,
+      "balance_loss_clip": 1.06182265,
+      "balance_loss_mlp": 1.02955258,
+      "epoch": 0.1491011843924728,
+      "flos": 33659394860160.0,
+      "grad_norm": 1.8701860043065608,
+      "language_loss": 0.82797039,
+      "learning_rate": 3.853152656773269e-06,
+      "loss": 0.85070843,
+      "num_input_tokens_seen": 26259690,
+      "step": 1240,
+      "time_per_iteration": 4.564885854721069
+    },
+    {
+      "auxiliary_loss_clip": 0.01243765,
+      "auxiliary_loss_mlp": 0.01041289,
+      "balance_loss_clip": 1.0605793,
+      "balance_loss_mlp": 1.03107834,
+      "epoch": 0.14922142728311188,
+      "flos": 21179000764800.0,
+      "grad_norm": 1.6727673965245895,
+      "language_loss": 0.84802222,
+      "learning_rate": 3.852859539704174e-06,
+      "loss": 0.87087274,
+      "num_input_tokens_seen": 26278990,
+      "step": 1241,
+      "time_per_iteration": 2.680511951446533
+    },
+    {
+      "auxiliary_loss_clip": 0.0126082,
+      "auxiliary_loss_mlp": 0.01042634,
+      "balance_loss_clip": 1.05744529,
+      "balance_loss_mlp": 1.03178024,
+      "epoch": 0.14934167017375097,
+      "flos": 29860548474240.0,
+      "grad_norm": 1.890506530214889,
+      "language_loss": 0.76674008,
+      "learning_rate": 3.85256614155776e-06,
+      "loss": 0.7897746,
+      "num_input_tokens_seen": 26299120,
+      "step": 1242,
+      "time_per_iteration": 3.788922071456909
+    },
+    {
+      "auxiliary_loss_clip": 0.01240369,
+      "auxiliary_loss_mlp": 0.01047152,
+      "balance_loss_clip": 1.06187773,
+      "balance_loss_mlp": 1.03704894,
+      "epoch": 0.14946191306439008,
+      "flos": 17019216564480.0,
+      "grad_norm": 1.8868194501827713,
+      "language_loss": 0.74192905,
+      "learning_rate": 3.852272462378535e-06,
+      "loss": 0.76480424,
+      "num_input_tokens_seen": 26316995,
+      "step": 1243,
+      "time_per_iteration": 2.6517581939697266
+    },
+    {
+      "auxiliary_loss_clip": 0.01249096,
+      "auxiliary_loss_mlp": 0.010356,
+      "balance_loss_clip": 1.06231952,
+      "balance_loss_mlp": 1.02562225,
+      "epoch": 0.14958215595502916,
+      "flos": 15669047214720.0,
+      "grad_norm": 2.1225007428476883,
+      "language_loss": 0.77624118,
+      "learning_rate": 3.85197850221105e-06,
+      "loss": 0.79908818,
+      "num_input_tokens_seen": 26333295,
+      "step": 1244,
+      "time_per_iteration": 2.6403255462646484
+    },
+    {
+      "auxiliary_loss_clip": 0.01241302,
+      "auxiliary_loss_mlp": 0.01039709,
+      "balance_loss_clip": 1.0683701,
+      "balance_loss_mlp": 1.02931428,
+      "epoch": 0.14970239884566824,
+      "flos": 33108560818560.0,
+      "grad_norm": 1.7556639743076419,
+      "language_loss": 0.75368714,
+      "learning_rate": 3.851684261099899e-06,
+      "loss": 0.77649724,
+      "num_input_tokens_seen": 26355035,
+      "step": 1245,
+      "time_per_iteration": 2.7428112030029297
+    },
+    {
+      "auxiliary_loss_clip": 0.01243468,
+      "auxiliary_loss_mlp": 0.01042383,
+      "balance_loss_clip": 1.06049609,
+      "balance_loss_mlp": 1.03069448,
+      "epoch": 0.14982264173630733,
+      "flos": 17821245392640.0,
+      "grad_norm": 2.6439092953150207,
+      "language_loss": 0.86632133,
+      "learning_rate": 3.851389739089718e-06,
+      "loss": 0.88917983,
+      "num_input_tokens_seen": 26371655,
+      "step": 1246,
+      "time_per_iteration": 2.6314680576324463
+    },
+    {
+      "auxiliary_loss_clip": 0.01245237,
+      "auxiliary_loss_mlp": 0.01038224,
+      "balance_loss_clip": 1.06856573,
+      "balance_loss_mlp": 1.02592206,
+      "epoch": 0.14994288462694644,
+      "flos": 32409559175040.0,
+      "grad_norm": 1.8449225573188128,
+      "language_loss": 0.80428183,
+      "learning_rate": 3.851094936225186e-06,
+      "loss": 0.82711643,
+      "num_input_tokens_seen": 26392540,
+      "step": 1247,
+      "time_per_iteration": 2.7557215690612793
+    },
+    {
+      "auxiliary_loss_clip": 0.0124276,
+      "auxiliary_loss_mlp": 0.01036277,
+      "balance_loss_clip": 1.06229663,
+      "balance_loss_mlp": 1.02579284,
+      "epoch": 0.15006312751758552,
+      "flos": 31794661226880.0,
+      "grad_norm": 1.4163819361845202,
+      "language_loss": 0.76575351,
+      "learning_rate": 3.850799852551024e-06,
+      "loss": 0.78854382,
+      "num_input_tokens_seen": 26414960,
+      "step": 1248,
+      "time_per_iteration": 2.9116315841674805
+    },
+    {
+      "auxiliary_loss_clip": 0.01231289,
+      "auxiliary_loss_mlp": 0.0103495,
+      "balance_loss_clip": 1.06150711,
+      "balance_loss_mlp": 1.02403069,
+      "epoch": 0.1501833704082246,
+      "flos": 16618022582400.0,
+      "grad_norm": 2.209885399057956,
+      "language_loss": 0.86493337,
+      "learning_rate": 3.850504488111995e-06,
+      "loss": 0.88759577,
+      "num_input_tokens_seen": 26431635,
+      "step": 1249,
+      "time_per_iteration": 2.656726121902466
+    },
+    {
+      "auxiliary_loss_clip": 0.01243708,
+      "auxiliary_loss_mlp": 0.01042646,
+      "balance_loss_clip": 1.06185973,
+      "balance_loss_mlp": 1.03175616,
+      "epoch": 0.15030361329886371,
+      "flos": 23471178243840.0,
+      "grad_norm": 2.3164309179759535,
+      "language_loss": 0.82617652,
+      "learning_rate": 3.850208842952907e-06,
+      "loss": 0.84904009,
+      "num_input_tokens_seen": 26450440,
+      "step": 1250,
+      "time_per_iteration": 2.70021390914917
+    },
+    {
+      "auxiliary_loss_clip": 0.01271101,
+      "auxiliary_loss_mlp": 0.01039805,
+      "balance_loss_clip": 1.05811858,
+      "balance_loss_mlp": 1.02911735,
+      "epoch": 0.1504238561895028,
+      "flos": 25629409906560.0,
+      "grad_norm": 1.7079443190326562,
+      "language_loss": 0.79134274,
+      "learning_rate": 3.849912917118608e-06,
+      "loss": 0.81445187,
+      "num_input_tokens_seen": 26471480,
+      "step": 1251,
+      "time_per_iteration": 2.823718547821045
+    },
+    {
+      "auxiliary_loss_clip": 0.01144075,
+      "auxiliary_loss_mlp": 0.01012376,
+      "balance_loss_clip": 1.03632998,
+      "balance_loss_mlp": 1.00938416,
+      "epoch": 0.15054409908014188,
+      "flos": 52095146129280.0,
+      "grad_norm": 0.8918779357704675,
+      "language_loss": 0.59324408,
+      "learning_rate": 3.849616710653992e-06,
+      "loss": 0.61480862,
+      "num_input_tokens_seen": 26532950,
+      "step": 1252,
+      "time_per_iteration": 3.238067865371704
+    },
+    {
+      "auxiliary_loss_clip": 0.01240018,
+      "auxiliary_loss_mlp": 0.01044193,
+      "balance_loss_clip": 1.06411791,
+      "balance_loss_mlp": 1.03277314,
+      "epoch": 0.150664341970781,
+      "flos": 18880251096960.0,
+      "grad_norm": 1.8573177953246416,
+      "language_loss": 0.74908006,
+      "learning_rate": 3.84932022360399e-06,
+      "loss": 0.77192217,
+      "num_input_tokens_seen": 26551615,
+      "step": 1253,
+      "time_per_iteration": 2.6747000217437744
+    },
+    {
+      "auxiliary_loss_clip": 0.01247995,
+      "auxiliary_loss_mlp": 0.0103454,
+      "balance_loss_clip": 1.06635618,
+      "balance_loss_mlp": 1.02416325,
+      "epoch": 0.15078458486142007,
+      "flos": 22163240309760.0,
+      "grad_norm": 3.327089480002559,
+      "language_loss": 0.84138334,
+      "learning_rate": 3.849023456013581e-06,
+      "loss": 0.8642087,
+      "num_input_tokens_seen": 26569175,
+      "step": 1254,
+      "time_per_iteration": 2.6964638233184814
+    },
+    {
+      "auxiliary_loss_clip": 0.01248981,
+      "auxiliary_loss_mlp": 0.01046029,
+      "balance_loss_clip": 1.06833947,
+      "balance_loss_mlp": 1.03490651,
+      "epoch": 0.15090482775205916,
+      "flos": 26651894457600.0,
+      "grad_norm": 2.2486909913212525,
+      "language_loss": 0.62583989,
+      "learning_rate": 3.848726407927784e-06,
+      "loss": 0.64879,
+      "num_input_tokens_seen": 26589560,
+      "step": 1255,
+      "time_per_iteration": 2.6672611236572266
+    },
+    {
+      "auxiliary_loss_clip": 0.01254074,
+      "auxiliary_loss_mlp": 0.01033367,
+      "balance_loss_clip": 1.06569052,
+      "balance_loss_mlp": 1.02234066,
+      "epoch": 0.15102507064269824,
+      "flos": 21798998444160.0,
+      "grad_norm": 2.2839056772222754,
+      "language_loss": 0.86728621,
+      "learning_rate": 3.84842907939166e-06,
+      "loss": 0.89016062,
+      "num_input_tokens_seen": 26608785,
+      "step": 1256,
+      "time_per_iteration": 2.6920433044433594
+    },
+    {
+      "auxiliary_loss_clip": 0.01249625,
+      "auxiliary_loss_mlp": 0.01039765,
+      "balance_loss_clip": 1.06002581,
+      "balance_loss_mlp": 1.02962601,
+      "epoch": 0.15114531353333735,
+      "flos": 22820908377600.0,
+      "grad_norm": 2.5013383728537812,
+      "language_loss": 0.70755816,
+      "learning_rate": 3.8481314704503146e-06,
+      "loss": 0.73045194,
+      "num_input_tokens_seen": 26628615,
+      "step": 1257,
+      "time_per_iteration": 2.714205265045166
+    },
+    {
+      "auxiliary_loss_clip": 0.01242728,
+      "auxiliary_loss_mlp": 0.010478,
+      "balance_loss_clip": 1.0693841,
+      "balance_loss_mlp": 1.0378226,
+      "epoch": 0.15126555642397643,
+      "flos": 19682674974720.0,
+      "grad_norm": 2.2025557727922087,
+      "language_loss": 0.88490438,
+      "learning_rate": 3.847833581148895e-06,
+      "loss": 0.90780973,
+      "num_input_tokens_seen": 26647525,
+      "step": 1258,
+      "time_per_iteration": 2.6513967514038086
+    },
+    {
+      "auxiliary_loss_clip": 0.01230039,
+      "auxiliary_loss_mlp": 0.0103377,
+      "balance_loss_clip": 1.06299031,
+      "balance_loss_mlp": 1.02335072,
+      "epoch": 0.15138579931461552,
+      "flos": 28726022424960.0,
+      "grad_norm": 2.5431177379688292,
+      "language_loss": 0.80917358,
+      "learning_rate": 3.84753541153259e-06,
+      "loss": 0.83181167,
+      "num_input_tokens_seen": 26667095,
+      "step": 1259,
+      "time_per_iteration": 2.6237621307373047
+    },
+    {
+      "auxiliary_loss_clip": 0.01242691,
+      "auxiliary_loss_mlp": 0.01036714,
+      "balance_loss_clip": 1.06545115,
+      "balance_loss_mlp": 1.02556837,
+      "epoch": 0.15150604220525463,
+      "flos": 22127006465280.0,
+      "grad_norm": 1.5649967163281153,
+      "language_loss": 0.83267576,
+      "learning_rate": 3.847236961646633e-06,
+      "loss": 0.85546982,
+      "num_input_tokens_seen": 26686075,
+      "step": 1260,
+      "time_per_iteration": 2.663902521133423
+    },
+    {
+      "auxiliary_loss_clip": 0.01238926,
+      "auxiliary_loss_mlp": 0.01033961,
+      "balance_loss_clip": 1.06088388,
+      "balance_loss_mlp": 1.02308333,
+      "epoch": 0.1516262850958937,
+      "flos": 12968708515200.0,
+      "grad_norm": 2.931342662692437,
+      "language_loss": 0.78219104,
+      "learning_rate": 3.846938231536296e-06,
+      "loss": 0.80491996,
+      "num_input_tokens_seen": 26701695,
+      "step": 1261,
+      "time_per_iteration": 2.624307632446289
+    },
+    {
+      "auxiliary_loss_clip": 0.01245577,
+      "auxiliary_loss_mlp": 0.01036793,
+      "balance_loss_clip": 1.06811786,
+      "balance_loss_mlp": 1.02670205,
+      "epoch": 0.1517465279865328,
+      "flos": 21797130936960.0,
+      "grad_norm": 1.8339826185979329,
+      "language_loss": 0.80937016,
+      "learning_rate": 3.8466392212468995e-06,
+      "loss": 0.83219391,
+      "num_input_tokens_seen": 26721885,
+      "step": 1262,
+      "time_per_iteration": 3.541339874267578
+    },
+    {
+      "auxiliary_loss_clip": 0.01157118,
+      "auxiliary_loss_mlp": 0.01015323,
+      "balance_loss_clip": 1.02542496,
+      "balance_loss_mlp": 1.01231909,
+      "epoch": 0.15186677087717187,
+      "flos": 58174569901440.0,
+      "grad_norm": 0.8223994291592278,
+      "language_loss": 0.61946034,
+      "learning_rate": 3.8463399308238e-06,
+      "loss": 0.64118469,
+      "num_input_tokens_seen": 26780990,
+      "step": 1263,
+      "time_per_iteration": 3.2163665294647217
+    },
+    {
+      "auxiliary_loss_clip": 0.01242394,
+      "auxiliary_loss_mlp": 0.01039078,
+      "balance_loss_clip": 1.06633055,
+      "balance_loss_mlp": 1.02887321,
+      "epoch": 0.15198701376781099,
+      "flos": 32669696448000.0,
+      "grad_norm": 2.0116318259965724,
+      "language_loss": 0.64165282,
+      "learning_rate": 3.846040360312402e-06,
+      "loss": 0.66446757,
+      "num_input_tokens_seen": 26804250,
+      "step": 1264,
+      "time_per_iteration": 2.722717523574829
+    },
+    {
+      "auxiliary_loss_clip": 0.01232627,
+      "auxiliary_loss_mlp": 0.01033595,
+      "balance_loss_clip": 1.06515861,
+      "balance_loss_mlp": 1.02282476,
+      "epoch": 0.15210725665845007,
+      "flos": 28402575431040.0,
+      "grad_norm": 2.1830117738239068,
+      "language_loss": 0.80780685,
+      "learning_rate": 3.8457405097581485e-06,
+      "loss": 0.83046913,
+      "num_input_tokens_seen": 26823240,
+      "step": 1265,
+      "time_per_iteration": 2.682340621948242
+    },
+    {
+      "auxiliary_loss_clip": 0.01264233,
+      "auxiliary_loss_mlp": 0.01043043,
+      "balance_loss_clip": 1.05587709,
+      "balance_loss_mlp": 1.03290975,
+      "epoch": 0.15222749954908915,
+      "flos": 19938179393280.0,
+      "grad_norm": 1.8208539086926256,
+      "language_loss": 0.77914488,
+      "learning_rate": 3.8454403792065275e-06,
+      "loss": 0.80221766,
+      "num_input_tokens_seen": 26842060,
+      "step": 1266,
+      "time_per_iteration": 3.8099865913391113
+    },
+    {
+      "auxiliary_loss_clip": 0.0123955,
+      "auxiliary_loss_mlp": 0.01040307,
+      "balance_loss_clip": 1.05628085,
+      "balance_loss_mlp": 1.03057337,
+      "epoch": 0.15234774243972826,
+      "flos": 21324223451520.0,
+      "grad_norm": 2.044273860323503,
+      "language_loss": 0.85727251,
+      "learning_rate": 3.845139968703068e-06,
+      "loss": 0.88007104,
+      "num_input_tokens_seen": 26859580,
+      "step": 1267,
+      "time_per_iteration": 2.6759722232818604
+    },
+    {
+      "auxiliary_loss_clip": 0.01258546,
+      "auxiliary_loss_mlp": 0.01034954,
+      "balance_loss_clip": 1.0568068,
+      "balance_loss_mlp": 1.02449965,
+      "epoch": 0.15246798533036734,
+      "flos": 25957812977280.0,
+      "grad_norm": 6.703336671679978,
+      "language_loss": 0.82810783,
+      "learning_rate": 3.844839278293342e-06,
+      "loss": 0.85104281,
+      "num_input_tokens_seen": 26880430,
+      "step": 1268,
+      "time_per_iteration": 3.650465250015259
+    },
+    {
+      "auxiliary_loss_clip": 0.01233647,
+      "auxiliary_loss_mlp": 0.01033952,
+      "balance_loss_clip": 1.06690073,
+      "balance_loss_mlp": 1.02294338,
+      "epoch": 0.15258822822100643,
+      "flos": 25811907932160.0,
+      "grad_norm": 2.3583696973059056,
+      "language_loss": 0.77068806,
+      "learning_rate": 3.8445383080229654e-06,
+      "loss": 0.79336405,
+      "num_input_tokens_seen": 26896445,
+      "step": 1269,
+      "time_per_iteration": 2.632754325866699
+    },
+    {
+      "auxiliary_loss_clip": 0.01234512,
+      "auxiliary_loss_mlp": 0.01041547,
+      "balance_loss_clip": 1.05740833,
+      "balance_loss_mlp": 1.03049684,
+      "epoch": 0.1527084711116455,
+      "flos": 25265455349760.0,
+      "grad_norm": 1.9871615530738882,
+      "language_loss": 0.73492694,
+      "learning_rate": 3.844237057937593e-06,
+      "loss": 0.75768757,
+      "num_input_tokens_seen": 26915450,
+      "step": 1270,
+      "time_per_iteration": 2.734858751296997
+    },
+    {
+      "auxiliary_loss_clip": 0.01243132,
+      "auxiliary_loss_mlp": 0.01045754,
+      "balance_loss_clip": 1.06224275,
+      "balance_loss_mlp": 1.03556776,
+      "epoch": 0.15282871400228462,
+      "flos": 29240227572480.0,
+      "grad_norm": 2.375667212518203,
+      "language_loss": 0.7797873,
+      "learning_rate": 3.843935528082926e-06,
+      "loss": 0.80267614,
+      "num_input_tokens_seen": 26936475,
+      "step": 1271,
+      "time_per_iteration": 2.6545770168304443
+    },
+    {
+      "auxiliary_loss_clip": 0.01243423,
+      "auxiliary_loss_mlp": 0.0103772,
+      "balance_loss_clip": 1.06469083,
+      "balance_loss_mlp": 1.02668095,
+      "epoch": 0.1529489568929237,
+      "flos": 20882952869760.0,
+      "grad_norm": 2.240601561360015,
+      "language_loss": 0.84784913,
+      "learning_rate": 3.843633718504704e-06,
+      "loss": 0.87066048,
+      "num_input_tokens_seen": 26954920,
+      "step": 1272,
+      "time_per_iteration": 2.683396100997925
+    },
+    {
+      "auxiliary_loss_clip": 0.01259303,
+      "auxiliary_loss_mlp": 0.01034406,
+      "balance_loss_clip": 1.06087697,
+      "balance_loss_mlp": 1.02395689,
+      "epoch": 0.1530691997835628,
+      "flos": 20083833043200.0,
+      "grad_norm": 2.2885108554171465,
+      "language_loss": 0.90272886,
+      "learning_rate": 3.843331629248715e-06,
+      "loss": 0.92566592,
+      "num_input_tokens_seen": 26972520,
+      "step": 1273,
+      "time_per_iteration": 2.7180676460266113
+    },
+    {
+      "auxiliary_loss_clip": 0.01235043,
+      "auxiliary_loss_mlp": 0.01039948,
+      "balance_loss_clip": 1.06963682,
+      "balance_loss_mlp": 1.02884984,
+      "epoch": 0.1531894426742019,
+      "flos": 28759814144640.0,
+      "grad_norm": 1.9920132813235931,
+      "language_loss": 0.76325589,
+      "learning_rate": 3.843029260360782e-06,
+      "loss": 0.7860058,
+      "num_input_tokens_seen": 26990890,
+      "step": 1274,
+      "time_per_iteration": 2.672095537185669
+    },
+    {
+      "auxiliary_loss_clip": 0.0123946,
+      "auxiliary_loss_mlp": 0.01038533,
+      "balance_loss_clip": 1.06747103,
+      "balance_loss_mlp": 1.02823901,
+      "epoch": 0.15330968556484098,
+      "flos": 22236282616320.0,
+      "grad_norm": 1.8265221945883858,
+      "language_loss": 0.78973824,
+      "learning_rate": 3.8427266118867755e-06,
+      "loss": 0.81251818,
+      "num_input_tokens_seen": 27010640,
+      "step": 1275,
+      "time_per_iteration": 2.6803102493286133
+    },
+    {
+      "auxiliary_loss_clip": 0.012432,
+      "auxiliary_loss_mlp": 0.01036515,
+      "balance_loss_clip": 1.06209064,
+      "balance_loss_mlp": 1.02550006,
+      "epoch": 0.15342992845548006,
+      "flos": 27527504296320.0,
+      "grad_norm": 2.077312329810287,
+      "language_loss": 0.82464838,
+      "learning_rate": 3.842423683872608e-06,
+      "loss": 0.84744561,
+      "num_input_tokens_seen": 27031215,
+      "step": 1276,
+      "time_per_iteration": 2.6996984481811523
+    },
+    {
+      "auxiliary_loss_clip": 0.01235864,
+      "auxiliary_loss_mlp": 0.01040539,
+      "balance_loss_clip": 1.05996501,
+      "balance_loss_mlp": 1.02970886,
+      "epoch": 0.15355017134611917,
+      "flos": 19609596754560.0,
+      "grad_norm": 2.4176625966667826,
+      "language_loss": 0.7776252,
+      "learning_rate": 3.842120476364232e-06,
+      "loss": 0.80038917,
+      "num_input_tokens_seen": 27049665,
+      "step": 1277,
+      "time_per_iteration": 2.5902175903320312
+    },
+    {
+      "auxiliary_loss_clip": 0.01241478,
+      "auxiliary_loss_mlp": 0.01033334,
+      "balance_loss_clip": 1.06264722,
+      "balance_loss_mlp": 1.02212834,
+      "epoch": 0.15367041423675826,
+      "flos": 18478590238080.0,
+      "grad_norm": 2.1005142195135234,
+      "language_loss": 0.83890027,
+      "learning_rate": 3.841816989407644e-06,
+      "loss": 0.86164838,
+      "num_input_tokens_seen": 27065155,
+      "step": 1278,
+      "time_per_iteration": 2.582883834838867
+    },
+    {
+      "auxiliary_loss_clip": 0.01249178,
+      "auxiliary_loss_mlp": 0.01037308,
+      "balance_loss_clip": 1.05766428,
+      "balance_loss_mlp": 1.02711606,
+      "epoch": 0.15379065712739734,
+      "flos": 41427662342400.0,
+      "grad_norm": 2.941670692000881,
+      "language_loss": 0.7668891,
+      "learning_rate": 3.841513223048884e-06,
+      "loss": 0.78975397,
+      "num_input_tokens_seen": 27085840,
+      "step": 1279,
+      "time_per_iteration": 2.890280246734619
+    },
+    {
+      "auxiliary_loss_clip": 0.01245048,
+      "auxiliary_loss_mlp": 0.01036479,
+      "balance_loss_clip": 1.05443239,
+      "balance_loss_mlp": 1.02605391,
+      "epoch": 0.15391090001803642,
+      "flos": 22054215553920.0,
+      "grad_norm": 2.847816157907329,
+      "language_loss": 0.78551781,
+      "learning_rate": 3.841209177334031e-06,
+      "loss": 0.80833316,
+      "num_input_tokens_seen": 27104200,
+      "step": 1280,
+      "time_per_iteration": 2.718545436859131
+    },
+    {
+      "auxiliary_loss_clip": 0.01235674,
+      "auxiliary_loss_mlp": 0.01042105,
+      "balance_loss_clip": 1.06203294,
+      "balance_loss_mlp": 1.03163242,
+      "epoch": 0.15403114290867553,
+      "flos": 15450351258240.0,
+      "grad_norm": 1.932507799351087,
+      "language_loss": 0.74802643,
+      "learning_rate": 3.84090485230921e-06,
+      "loss": 0.77080417,
+      "num_input_tokens_seen": 27122440,
+      "step": 1281,
+      "time_per_iteration": 2.6306874752044678
+    },
+    {
+      "auxiliary_loss_clip": 0.01227478,
+      "auxiliary_loss_mlp": 0.01042584,
+      "balance_loss_clip": 1.06360412,
+      "balance_loss_mlp": 1.03175402,
+      "epoch": 0.15415138579931462,
+      "flos": 17929156826880.0,
+      "grad_norm": 2.7549041062364767,
+      "language_loss": 0.76342571,
+      "learning_rate": 3.840600248020588e-06,
+      "loss": 0.78612638,
+      "num_input_tokens_seen": 27139380,
+      "step": 1282,
+      "time_per_iteration": 2.551873207092285
+    },
+    {
+      "auxiliary_loss_clip": 0.01249519,
+      "auxiliary_loss_mlp": 0.01041696,
+      "balance_loss_clip": 1.05794573,
+      "balance_loss_mlp": 1.03066945,
+      "epoch": 0.1542716286899537,
+      "flos": 11429325296640.0,
+      "grad_norm": 2.133568361092329,
+      "language_loss": 0.79717022,
+      "learning_rate": 3.840295364514371e-06,
+      "loss": 0.82008237,
+      "num_input_tokens_seen": 27156760,
+      "step": 1283,
+      "time_per_iteration": 2.738250494003296
+    },
+    {
+      "auxiliary_loss_clip": 0.0124777,
+      "auxiliary_loss_mlp": 0.01036518,
+      "balance_loss_clip": 1.06167793,
+      "balance_loss_mlp": 1.02571118,
+      "epoch": 0.1543918715805928,
+      "flos": 17420338719360.0,
+      "grad_norm": 4.780084482009469,
+      "language_loss": 0.78481114,
+      "learning_rate": 3.83999020183681e-06,
+      "loss": 0.80765396,
+      "num_input_tokens_seen": 27175455,
+      "step": 1284,
+      "time_per_iteration": 2.7063333988189697
+    },
+    {
+      "auxiliary_loss_clip": 0.01258324,
+      "auxiliary_loss_mlp": 0.01040039,
+      "balance_loss_clip": 1.0525341,
+      "balance_loss_mlp": 1.02833903,
+      "epoch": 0.1545121144712319,
+      "flos": 17786376264960.0,
+      "grad_norm": 2.9800590549791335,
+      "language_loss": 0.7838223,
+      "learning_rate": 3.839684760034199e-06,
+      "loss": 0.80680597,
+      "num_input_tokens_seen": 27193660,
+      "step": 1285,
+      "time_per_iteration": 2.720641851425171
+    },
+    {
+      "auxiliary_loss_clip": 0.01247702,
+      "auxiliary_loss_mlp": 0.01039237,
+      "balance_loss_clip": 1.06036377,
+      "balance_loss_mlp": 1.02849054,
+      "epoch": 0.15463235736187098,
+      "flos": 28220185146240.0,
+      "grad_norm": 9.197665743329773,
+      "language_loss": 0.6579113,
+      "learning_rate": 3.8393790391528716e-06,
+      "loss": 0.68078065,
+      "num_input_tokens_seen": 27214355,
+      "step": 1286,
+      "time_per_iteration": 2.743739604949951
+    },
+    {
+      "auxiliary_loss_clip": 0.01244885,
+      "auxiliary_loss_mlp": 0.01043936,
+      "balance_loss_clip": 1.05993652,
+      "balance_loss_mlp": 1.03352332,
+      "epoch": 0.15475260025251006,
+      "flos": 22856890826880.0,
+      "grad_norm": 2.78691139559293,
+      "language_loss": 0.89043766,
+      "learning_rate": 3.8390730392392075e-06,
+      "loss": 0.91332585,
+      "num_input_tokens_seen": 27234335,
+      "step": 1287,
+      "time_per_iteration": 2.7207603454589844
+    },
+    {
+      "auxiliary_loss_clip": 0.01233133,
+      "auxiliary_loss_mlp": 0.01034835,
+      "balance_loss_clip": 1.06529725,
+      "balance_loss_mlp": 1.02404618,
+      "epoch": 0.15487284314314917,
+      "flos": 17602872658560.0,
+      "grad_norm": 3.0384508443103995,
+      "language_loss": 0.79241008,
+      "learning_rate": 3.838766760339626e-06,
+      "loss": 0.8150897,
+      "num_input_tokens_seen": 27252860,
+      "step": 1288,
+      "time_per_iteration": 2.6072452068328857
+    },
+    {
+      "auxiliary_loss_clip": 0.01229911,
+      "auxiliary_loss_mlp": 0.01033293,
+      "balance_loss_clip": 1.05530763,
+      "balance_loss_mlp": 1.02211761,
+      "epoch": 0.15499308603378825,
+      "flos": 20082037363200.0,
+      "grad_norm": 2.488456067672113,
+      "language_loss": 0.79072392,
+      "learning_rate": 3.838460202500587e-06,
+      "loss": 0.81335592,
+      "num_input_tokens_seen": 27268650,
+      "step": 1289,
+      "time_per_iteration": 3.5715413093566895
+    },
+    {
+      "auxiliary_loss_clip": 0.01250532,
+      "auxiliary_loss_mlp": 0.01042881,
+      "balance_loss_clip": 1.06195867,
+      "balance_loss_mlp": 1.03062654,
+      "epoch": 0.15511332892442733,
+      "flos": 15918051271680.0,
+      "grad_norm": 4.618034285699303,
+      "language_loss": 0.74556309,
+      "learning_rate": 3.838153365768599e-06,
+      "loss": 0.76849723,
+      "num_input_tokens_seen": 27285160,
+      "step": 1290,
+      "time_per_iteration": 2.704063653945923
+    },
+    {
+      "auxiliary_loss_clip": 0.01250555,
+      "auxiliary_loss_mlp": 0.01042784,
+      "balance_loss_clip": 1.06259382,
+      "balance_loss_mlp": 1.03164411,
+      "epoch": 0.15523357181506645,
+      "flos": 41282475569280.0,
+      "grad_norm": 3.6758251724369093,
+      "language_loss": 0.75527477,
+      "learning_rate": 3.837846250190206e-06,
+      "loss": 0.77820814,
+      "num_input_tokens_seen": 27308025,
+      "step": 1291,
+      "time_per_iteration": 2.887840747833252
+    },
+    {
+      "auxiliary_loss_clip": 0.01259472,
+      "auxiliary_loss_mlp": 0.01381215,
+      "balance_loss_clip": 1.05924678,
+      "balance_loss_mlp": 1.00019598,
+      "epoch": 0.15535381470570553,
+      "flos": 18478769806080.0,
+      "grad_norm": 2.0818656975916694,
+      "language_loss": 0.7705484,
+      "learning_rate": 3.837538855811998e-06,
+      "loss": 0.79695529,
+      "num_input_tokens_seen": 27326200,
+      "step": 1292,
+      "time_per_iteration": 4.594832181930542
+    },
+    {
+      "auxiliary_loss_clip": 0.01255602,
+      "auxiliary_loss_mlp": 0.01046796,
+      "balance_loss_clip": 1.06570983,
+      "balance_loss_mlp": 1.03627014,
+      "epoch": 0.1554740575963446,
+      "flos": 13918150759680.0,
+      "grad_norm": 2.124602771175708,
+      "language_loss": 0.70775735,
+      "learning_rate": 3.837231182680606e-06,
+      "loss": 0.73078138,
+      "num_input_tokens_seen": 27344165,
+      "step": 1293,
+      "time_per_iteration": 2.685253381729126
+    },
+    {
+      "auxiliary_loss_clip": 0.01243878,
+      "auxiliary_loss_mlp": 0.01045845,
+      "balance_loss_clip": 1.06462061,
+      "balance_loss_mlp": 1.0349853,
+      "epoch": 0.1555943004869837,
+      "flos": 20847078161280.0,
+      "grad_norm": 1.570919168331054,
+      "language_loss": 0.75813711,
+      "learning_rate": 3.836923230842706e-06,
+      "loss": 0.78103429,
+      "num_input_tokens_seen": 27363280,
+      "step": 1294,
+      "time_per_iteration": 3.5656914710998535
+    },
+    {
+      "auxiliary_loss_clip": 0.01259175,
+      "auxiliary_loss_mlp": 0.0103877,
+      "balance_loss_clip": 1.05349076,
+      "balance_loss_mlp": 1.02839243,
+      "epoch": 0.1557145433776228,
+      "flos": 22085888371200.0,
+      "grad_norm": 2.258053327508254,
+      "language_loss": 0.80405319,
+      "learning_rate": 3.836615000345011e-06,
+      "loss": 0.82703257,
+      "num_input_tokens_seen": 27381460,
+      "step": 1295,
+      "time_per_iteration": 2.73681378364563
+    },
+    {
+      "auxiliary_loss_clip": 0.01231452,
+      "auxiliary_loss_mlp": 0.01036181,
+      "balance_loss_clip": 1.0659045,
+      "balance_loss_mlp": 1.0270133,
+      "epoch": 0.1558347862682619,
+      "flos": 19791987039360.0,
+      "grad_norm": 2.9249590761401936,
+      "language_loss": 0.78021955,
+      "learning_rate": 3.836306491234282e-06,
+      "loss": 0.8028959,
+      "num_input_tokens_seen": 27399310,
+      "step": 1296,
+      "time_per_iteration": 2.646810293197632
+    },
+    {
+      "auxiliary_loss_clip": 0.01244871,
+      "auxiliary_loss_mlp": 0.01045668,
+      "balance_loss_clip": 1.06544781,
+      "balance_loss_mlp": 1.03528523,
+      "epoch": 0.15595502915890097,
+      "flos": 17237086508160.0,
+      "grad_norm": 2.1903980326837584,
+      "language_loss": 0.7522999,
+      "learning_rate": 3.835997703557317e-06,
+      "loss": 0.77520531,
+      "num_input_tokens_seen": 27416050,
+      "step": 1297,
+      "time_per_iteration": 2.734849452972412
+    },
+    {
+      "auxiliary_loss_clip": 0.01255403,
+      "auxiliary_loss_mlp": 0.01043589,
+      "balance_loss_clip": 1.05187964,
+      "balance_loss_mlp": 1.03361106,
+      "epoch": 0.15607527204954008,
+      "flos": 19719519350400.0,
+      "grad_norm": 2.0455307832723464,
+      "language_loss": 0.7995913,
+      "learning_rate": 3.83568863736096e-06,
+      "loss": 0.82258123,
+      "num_input_tokens_seen": 27434920,
+      "step": 1298,
+      "time_per_iteration": 2.882305860519409
+    },
+    {
+      "auxiliary_loss_clip": 0.01252273,
+      "auxiliary_loss_mlp": 0.01034225,
+      "balance_loss_clip": 1.05722904,
+      "balance_loss_mlp": 1.02349043,
+      "epoch": 0.15619551494017916,
+      "flos": 18515650095360.0,
+      "grad_norm": 2.255885150276323,
+      "language_loss": 0.89145124,
+      "learning_rate": 3.8353792926920975e-06,
+      "loss": 0.91431618,
+      "num_input_tokens_seen": 27453570,
+      "step": 1299,
+      "time_per_iteration": 2.7132880687713623
+    },
+    {
+      "auxiliary_loss_clip": 0.0124175,
+      "auxiliary_loss_mlp": 0.01038438,
+      "balance_loss_clip": 1.06402004,
+      "balance_loss_mlp": 1.02778053,
+      "epoch": 0.15631575783081825,
+      "flos": 19902125116800.0,
+      "grad_norm": 2.401534286517635,
+      "language_loss": 0.8183322,
+      "learning_rate": 3.835069669597655e-06,
+      "loss": 0.84113407,
+      "num_input_tokens_seen": 27471960,
+      "step": 1300,
+      "time_per_iteration": 2.7121469974517822
+    },
+    {
+      "auxiliary_loss_clip": 0.01242264,
+      "auxiliary_loss_mlp": 0.01381783,
+      "balance_loss_clip": 1.06307507,
+      "balance_loss_mlp": 1.00017118,
+      "epoch": 0.15643600072145733,
+      "flos": 20777663128320.0,
+      "grad_norm": 2.002572806599959,
+      "language_loss": 0.799178,
+      "learning_rate": 3.834759768124603e-06,
+      "loss": 0.82541847,
+      "num_input_tokens_seen": 27490835,
+      "step": 1301,
+      "time_per_iteration": 2.6378159523010254
+    },
+    {
+      "auxiliary_loss_clip": 0.0126176,
+      "auxiliary_loss_mlp": 0.01045331,
+      "balance_loss_clip": 1.06543446,
+      "balance_loss_mlp": 1.03502548,
+      "epoch": 0.15655624361209644,
+      "flos": 18546389159040.0,
+      "grad_norm": 2.1147798936606534,
+      "language_loss": 0.76083696,
+      "learning_rate": 3.834449588319953e-06,
+      "loss": 0.78390789,
+      "num_input_tokens_seen": 27508870,
+      "step": 1302,
+      "time_per_iteration": 2.8203229904174805
+    },
+    {
+      "auxiliary_loss_clip": 0.01239753,
+      "auxiliary_loss_mlp": 0.01032751,
+      "balance_loss_clip": 1.0695405,
+      "balance_loss_mlp": 1.02311277,
+      "epoch": 0.15667648650273552,
+      "flos": 25229544727680.0,
+      "grad_norm": 2.2484507156775275,
+      "language_loss": 0.85293055,
+      "learning_rate": 3.834139130230758e-06,
+      "loss": 0.87565559,
+      "num_input_tokens_seen": 27528175,
+      "step": 1303,
+      "time_per_iteration": 2.687504529953003
+    },
+    {
+      "auxiliary_loss_clip": 0.01252337,
+      "auxiliary_loss_mlp": 0.01035021,
+      "balance_loss_clip": 1.06361651,
+      "balance_loss_mlp": 1.02419734,
+      "epoch": 0.1567967293933746,
+      "flos": 24827093769600.0,
+      "grad_norm": 2.515852221190651,
+      "language_loss": 0.81208915,
+      "learning_rate": 3.833828393904117e-06,
+      "loss": 0.83496273,
+      "num_input_tokens_seen": 27548455,
+      "step": 1304,
+      "time_per_iteration": 3.1224112510681152
+    },
+    {
+      "auxiliary_loss_clip": 0.01254274,
+      "auxiliary_loss_mlp": 0.01034463,
+      "balance_loss_clip": 1.05584085,
+      "balance_loss_mlp": 1.02456307,
+      "epoch": 0.15691697228401372,
+      "flos": 19164555244800.0,
+      "grad_norm": 2.2126451904924243,
+      "language_loss": 0.77308941,
+      "learning_rate": 3.833517379387165e-06,
+      "loss": 0.79597682,
+      "num_input_tokens_seen": 27564910,
+      "step": 1305,
+      "time_per_iteration": 2.8378748893737793
+    },
+    {
+      "auxiliary_loss_clip": 0.01243601,
+      "auxiliary_loss_mlp": 0.01035081,
+      "balance_loss_clip": 1.06547022,
+      "balance_loss_mlp": 1.02407765,
+      "epoch": 0.1570372151746528,
+      "flos": 24790931752320.0,
+      "grad_norm": 1.9399367618654613,
+      "language_loss": 0.88825357,
+      "learning_rate": 3.833206086727085e-06,
+      "loss": 0.91104043,
+      "num_input_tokens_seen": 27584260,
+      "step": 1306,
+      "time_per_iteration": 2.6569836139678955
+    },
+    {
+      "auxiliary_loss_clip": 0.01256687,
+      "auxiliary_loss_mlp": 0.01038927,
+      "balance_loss_clip": 1.05780613,
+      "balance_loss_mlp": 1.02826405,
+      "epoch": 0.15715745806529188,
+      "flos": 24863650836480.0,
+      "grad_norm": 2.098250730034012,
+      "language_loss": 0.70449394,
+      "learning_rate": 3.8328945159710994e-06,
+      "loss": 0.72745007,
+      "num_input_tokens_seen": 27604440,
+      "step": 1307,
+      "time_per_iteration": 2.9651341438293457
+    },
+    {
+      "auxiliary_loss_clip": 0.01245365,
+      "auxiliary_loss_mlp": 0.01381254,
+      "balance_loss_clip": 1.0673089,
+      "balance_loss_mlp": 1.00015759,
+      "epoch": 0.157277700955931,
+      "flos": 21872148491520.0,
+      "grad_norm": 1.9984569828009286,
+      "language_loss": 0.88722122,
+      "learning_rate": 3.832582667166473e-06,
+      "loss": 0.91348737,
+      "num_input_tokens_seen": 27624250,
+      "step": 1308,
+      "time_per_iteration": 2.6506590843200684
+    },
+    {
+      "auxiliary_loss_clip": 0.0124253,
+      "auxiliary_loss_mlp": 0.01034279,
+      "balance_loss_clip": 1.05923486,
+      "balance_loss_mlp": 1.02327597,
+      "epoch": 0.15739794384657008,
+      "flos": 24533344344960.0,
+      "grad_norm": 1.717455376579045,
+      "language_loss": 0.81293082,
+      "learning_rate": 3.8322705403605125e-06,
+      "loss": 0.83569896,
+      "num_input_tokens_seen": 27644595,
+      "step": 1309,
+      "time_per_iteration": 2.697934150695801
+    },
+    {
+      "auxiliary_loss_clip": 0.01239376,
+      "auxiliary_loss_mlp": 0.01031395,
+      "balance_loss_clip": 1.06080317,
+      "balance_loss_mlp": 1.0213877,
+      "epoch": 0.15751818673720916,
+      "flos": 17745329998080.0,
+      "grad_norm": 2.4281077438879284,
+      "language_loss": 0.80729616,
+      "learning_rate": 3.831958135600568e-06,
+      "loss": 0.83000386,
+      "num_input_tokens_seen": 27662145,
+      "step": 1310,
+      "time_per_iteration": 2.659219980239868
+    },
+    {
+      "auxiliary_loss_clip": 0.01241652,
+      "auxiliary_loss_mlp": 0.01035178,
+      "balance_loss_clip": 1.06567693,
+      "balance_loss_mlp": 1.02446699,
+      "epoch": 0.15763842962784824,
+      "flos": 17858520731520.0,
+      "grad_norm": 2.1988354306116142,
+      "language_loss": 0.79250133,
+      "learning_rate": 3.831645452934032e-06,
+      "loss": 0.81526965,
+      "num_input_tokens_seen": 27680575,
+      "step": 1311,
+      "time_per_iteration": 2.611131191253662
+    },
+    {
+      "auxiliary_loss_clip": 0.01234103,
+      "auxiliary_loss_mlp": 0.01045664,
+      "balance_loss_clip": 1.06889129,
+      "balance_loss_mlp": 1.03467333,
+      "epoch": 0.15775867251848735,
+      "flos": 26980908059520.0,
+      "grad_norm": 1.8299152806330041,
+      "language_loss": 0.80032039,
+      "learning_rate": 3.831332492408336e-06,
+      "loss": 0.82311803,
+      "num_input_tokens_seen": 27701985,
+      "step": 1312,
+      "time_per_iteration": 2.649151086807251
+    },
+    {
+      "auxiliary_loss_clip": 0.01239497,
+      "auxiliary_loss_mlp": 0.01040054,
+      "balance_loss_clip": 1.05787909,
+      "balance_loss_mlp": 1.03015339,
+      "epoch": 0.15787891540912644,
+      "flos": 19240398812160.0,
+      "grad_norm": 1.9925419426924253,
+      "language_loss": 0.69510734,
+      "learning_rate": 3.831019254070957e-06,
+      "loss": 0.71790284,
+      "num_input_tokens_seen": 27719770,
+      "step": 1313,
+      "time_per_iteration": 2.701174736022949
+    },
+    {
+      "auxiliary_loss_clip": 0.01261682,
+      "auxiliary_loss_mlp": 0.01035471,
+      "balance_loss_clip": 1.05581474,
+      "balance_loss_mlp": 1.0256536,
+      "epoch": 0.15799915829976552,
+      "flos": 27271102037760.0,
+      "grad_norm": 2.5083628614555686,
+      "language_loss": 0.94843268,
+      "learning_rate": 3.8307057379694135e-06,
+      "loss": 0.97140419,
+      "num_input_tokens_seen": 27739105,
+      "step": 1314,
+      "time_per_iteration": 2.7995269298553467
+    },
+    {
+      "auxiliary_loss_clip": 0.0123303,
+      "auxiliary_loss_mlp": 0.01039534,
+      "balance_loss_clip": 1.06582546,
+      "balance_loss_mlp": 1.02848315,
+      "epoch": 0.15811940119040463,
+      "flos": 20405520270720.0,
+      "grad_norm": 2.3202215134752437,
+      "language_loss": 0.8232286,
+      "learning_rate": 3.830391944151264e-06,
+      "loss": 0.84595418,
+      "num_input_tokens_seen": 27754985,
+      "step": 1315,
+      "time_per_iteration": 3.5286524295806885
+    },
+    {
+      "auxiliary_loss_clip": 0.01246026,
+      "auxiliary_loss_mlp": 0.01042826,
+      "balance_loss_clip": 1.05939269,
+      "balance_loss_mlp": 1.03104246,
+      "epoch": 0.1582396440810437,
+      "flos": 32599347661440.0,
+      "grad_norm": 1.8667690488495923,
+      "language_loss": 0.67288136,
+      "learning_rate": 3.830077872664114e-06,
+      "loss": 0.69576985,
+      "num_input_tokens_seen": 27776110,
+      "step": 1316,
+      "time_per_iteration": 2.7980990409851074
+    },
+    {
+      "auxiliary_loss_clip": 0.01268382,
+      "auxiliary_loss_mlp": 0.01040822,
+      "balance_loss_clip": 1.05293441,
+      "balance_loss_mlp": 1.03027773,
+      "epoch": 0.1583598869716828,
+      "flos": 33800559310080.0,
+      "grad_norm": 1.6903740467966388,
+      "language_loss": 0.73291278,
+      "learning_rate": 3.829763523555604e-06,
+      "loss": 0.75600481,
+      "num_input_tokens_seen": 27796510,
+      "step": 1317,
+      "time_per_iteration": 2.852170705795288
+    },
+    {
+      "auxiliary_loss_clip": 0.01232282,
+      "auxiliary_loss_mlp": 0.01038499,
+      "balance_loss_clip": 1.06514573,
+      "balance_loss_mlp": 1.02903962,
+      "epoch": 0.15848012986232188,
+      "flos": 24681332378880.0,
+      "grad_norm": 1.9876387310922157,
+      "language_loss": 0.77739894,
+      "learning_rate": 3.829448896873423e-06,
+      "loss": 0.80010676,
+      "num_input_tokens_seen": 27815610,
+      "step": 1318,
+      "time_per_iteration": 4.532312631607056
+    },
+    {
+      "auxiliary_loss_clip": 0.01250584,
+      "auxiliary_loss_mlp": 0.01381354,
+      "balance_loss_clip": 1.05972755,
+      "balance_loss_mlp": 1.00020409,
+      "epoch": 0.158600372752961,
+      "flos": 22602068766720.0,
+      "grad_norm": 1.9209524336375543,
+      "language_loss": 0.79057097,
+      "learning_rate": 3.829133992665299e-06,
+      "loss": 0.8168903,
+      "num_input_tokens_seen": 27834735,
+      "step": 1319,
+      "time_per_iteration": 2.7511045932769775
+    },
+    {
+      "auxiliary_loss_clip": 0.01225767,
+      "auxiliary_loss_mlp": 0.01045624,
+      "balance_loss_clip": 1.06432962,
+      "balance_loss_mlp": 1.03528309,
+      "epoch": 0.15872061564360007,
+      "flos": 27927944092800.0,
+      "grad_norm": 2.9130578338209174,
+      "language_loss": 0.89032978,
+      "learning_rate": 3.828818810979002e-06,
+      "loss": 0.91304374,
+      "num_input_tokens_seen": 27853065,
+      "step": 1320,
+      "time_per_iteration": 2.68623948097229
+    },
+    {
+      "auxiliary_loss_clip": 0.01230321,
+      "auxiliary_loss_mlp": 0.01040459,
+      "balance_loss_clip": 1.06754398,
+      "balance_loss_mlp": 1.0297184,
+      "epoch": 0.15884085853423915,
+      "flos": 23696805525120.0,
+      "grad_norm": 2.0742558556616624,
+      "language_loss": 0.80290979,
+      "learning_rate": 3.8285033518623454e-06,
+      "loss": 0.82561755,
+      "num_input_tokens_seen": 27873315,
+      "step": 1321,
+      "time_per_iteration": 3.4874825477600098
+    },
+    {
+      "auxiliary_loss_clip": 0.0124594,
+      "auxiliary_loss_mlp": 0.0104093,
+      "balance_loss_clip": 1.06653237,
+      "balance_loss_mlp": 1.02982533,
+      "epoch": 0.15896110142487826,
+      "flos": 23112359331840.0,
+      "grad_norm": 2.902030956950953,
+      "language_loss": 0.81180978,
+      "learning_rate": 3.8281876153631845e-06,
+      "loss": 0.83467847,
+      "num_input_tokens_seen": 27890070,
+      "step": 1322,
+      "time_per_iteration": 2.6395251750946045
+    },
+    {
+      "auxiliary_loss_clip": 0.01255698,
+      "auxiliary_loss_mlp": 0.01038496,
+      "balance_loss_clip": 1.05696607,
+      "balance_loss_mlp": 1.02805305,
+      "epoch": 0.15908134431551735,
+      "flos": 14685238632960.0,
+      "grad_norm": 2.137724305940365,
+      "language_loss": 0.64736384,
+      "learning_rate": 3.827871601529416e-06,
+      "loss": 0.67030579,
+      "num_input_tokens_seen": 27908590,
+      "step": 1323,
+      "time_per_iteration": 2.698474168777466
+    },
+    {
+      "auxiliary_loss_clip": 0.01246514,
+      "auxiliary_loss_mlp": 0.01039579,
+      "balance_loss_clip": 1.05963993,
+      "balance_loss_mlp": 1.028898,
+      "epoch": 0.15920158720615643,
+      "flos": 20193611984640.0,
+      "grad_norm": 2.9369129153545916,
+      "language_loss": 0.80447108,
+      "learning_rate": 3.827555310408979e-06,
+      "loss": 0.82733202,
+      "num_input_tokens_seen": 27927985,
+      "step": 1324,
+      "time_per_iteration": 2.6824188232421875
+    },
+    {
+      "auxiliary_loss_clip": 0.01249699,
+      "auxiliary_loss_mlp": 0.0103461,
+      "balance_loss_clip": 1.06010997,
+      "balance_loss_mlp": 1.0236609,
+      "epoch": 0.1593218300967955,
+      "flos": 24826626892800.0,
+      "grad_norm": 1.7996911485942293,
+      "language_loss": 0.82766962,
+      "learning_rate": 3.827238742049854e-06,
+      "loss": 0.85051268,
+      "num_input_tokens_seen": 27948280,
+      "step": 1325,
+      "time_per_iteration": 2.7027180194854736
+    },
+    {
+      "auxiliary_loss_clip": 0.0123101,
+      "auxiliary_loss_mlp": 0.01045372,
+      "balance_loss_clip": 1.06457996,
+      "balance_loss_mlp": 1.03575134,
+      "epoch": 0.15944207298743462,
+      "flos": 28328707111680.0,
+      "grad_norm": 2.438271296612464,
+      "language_loss": 0.51718658,
+      "learning_rate": 3.826921896500066e-06,
+      "loss": 0.53995043,
+      "num_input_tokens_seen": 27969565,
+      "step": 1326,
+      "time_per_iteration": 2.726233959197998
+    },
+    {
+      "auxiliary_loss_clip": 0.01258802,
+      "auxiliary_loss_mlp": 0.01040338,
+      "balance_loss_clip": 1.0630579,
+      "balance_loss_mlp": 1.02881026,
+      "epoch": 0.1595623158780737,
+      "flos": 22964838174720.0,
+      "grad_norm": 1.8592740522871338,
+      "language_loss": 0.77975768,
+      "learning_rate": 3.826604773807678e-06,
+      "loss": 0.80274904,
+      "num_input_tokens_seen": 27987540,
+      "step": 1327,
+      "time_per_iteration": 2.6996402740478516
+    },
+    {
+      "auxiliary_loss_clip": 0.0124384,
+      "auxiliary_loss_mlp": 0.01041996,
+      "balance_loss_clip": 1.05883217,
+      "balance_loss_mlp": 1.03079581,
+      "epoch": 0.1596825587687128,
+      "flos": 19710540950400.0,
+      "grad_norm": 2.6424004017205953,
+      "language_loss": 0.73470277,
+      "learning_rate": 3.826287374020798e-06,
+      "loss": 0.75756109,
+      "num_input_tokens_seen": 28002345,
+      "step": 1328,
+      "time_per_iteration": 2.7157955169677734
+    },
+    {
+      "auxiliary_loss_clip": 0.01234512,
+      "auxiliary_loss_mlp": 0.01048581,
+      "balance_loss_clip": 1.06984138,
+      "balance_loss_mlp": 1.03838289,
+      "epoch": 0.1598028016593519,
+      "flos": 22637727993600.0,
+      "grad_norm": 3.242070171249524,
+      "language_loss": 0.82271892,
+      "learning_rate": 3.825969697187575e-06,
+      "loss": 0.84554988,
+      "num_input_tokens_seen": 28021675,
+      "step": 1329,
+      "time_per_iteration": 2.630504608154297
+    },
+    {
+      "auxiliary_loss_clip": 0.01250742,
+      "auxiliary_loss_mlp": 0.01039987,
+      "balance_loss_clip": 1.05869865,
+      "balance_loss_mlp": 1.03014612,
+      "epoch": 0.15992304454999098,
+      "flos": 20482908122880.0,
+      "grad_norm": 1.8717158031386876,
+      "language_loss": 0.69515848,
+      "learning_rate": 3.8256517433562015e-06,
+      "loss": 0.71806574,
+      "num_input_tokens_seen": 28039615,
+      "step": 1330,
+      "time_per_iteration": 2.717594861984253
+    },
+    {
+      "auxiliary_loss_clip": 0.01231824,
+      "auxiliary_loss_mlp": 0.01040983,
+      "balance_loss_clip": 1.06804347,
+      "balance_loss_mlp": 1.03167903,
+      "epoch": 0.16004328744063007,
+      "flos": 17676094533120.0,
+      "grad_norm": 2.2185673171526115,
+      "language_loss": 0.92118108,
+      "learning_rate": 3.82533351257491e-06,
+      "loss": 0.94390917,
+      "num_input_tokens_seen": 28057565,
+      "step": 1331,
+      "time_per_iteration": 2.6362287998199463
+    },
+    {
+      "auxiliary_loss_clip": 0.01235532,
+      "auxiliary_loss_mlp": 0.01046993,
+      "balance_loss_clip": 1.06432915,
+      "balance_loss_mlp": 1.03696752,
+      "epoch": 0.16016353033126918,
+      "flos": 24098717779200.0,
+      "grad_norm": 1.8368071094986653,
+      "language_loss": 0.88904124,
+      "learning_rate": 3.825015004891975e-06,
+      "loss": 0.91186655,
+      "num_input_tokens_seen": 28076305,
+      "step": 1332,
+      "time_per_iteration": 2.6822221279144287
+    },
+    {
+      "auxiliary_loss_clip": 0.01229968,
+      "auxiliary_loss_mlp": 0.01038673,
+      "balance_loss_clip": 1.06139278,
+      "balance_loss_mlp": 1.02902317,
+      "epoch": 0.16028377322190826,
+      "flos": 27634841112960.0,
+      "grad_norm": 1.8787099040935622,
+      "language_loss": 0.75457525,
+      "learning_rate": 3.824696220355716e-06,
+      "loss": 0.77726173,
+      "num_input_tokens_seen": 28097895,
+      "step": 1333,
+      "time_per_iteration": 2.6813597679138184
+    },
+    {
+      "auxiliary_loss_clip": 0.01240467,
+      "auxiliary_loss_mlp": 0.01038942,
+      "balance_loss_clip": 1.06040466,
+      "balance_loss_mlp": 1.02859449,
+      "epoch": 0.16040401611254734,
+      "flos": 20961202648320.0,
+      "grad_norm": 2.030275590254589,
+      "language_loss": 0.78853166,
+      "learning_rate": 3.824377159014491e-06,
+      "loss": 0.81132567,
+      "num_input_tokens_seen": 28118790,
+      "step": 1334,
+      "time_per_iteration": 2.694903612136841
+    },
+    {
+      "auxiliary_loss_clip": 0.01234523,
+      "auxiliary_loss_mlp": 0.01036341,
+      "balance_loss_clip": 1.06431341,
+      "balance_loss_mlp": 1.02658415,
+      "epoch": 0.16052425900318643,
+      "flos": 21247051080960.0,
+      "grad_norm": 1.7388937514352387,
+      "language_loss": 0.85000968,
+      "learning_rate": 3.824057820916702e-06,
+      "loss": 0.87271833,
+      "num_input_tokens_seen": 28135995,
+      "step": 1335,
+      "time_per_iteration": 2.664322853088379
+    },
+    {
+      "auxiliary_loss_clip": 0.01249406,
+      "auxiliary_loss_mlp": 0.01035183,
+      "balance_loss_clip": 1.06350255,
+      "balance_loss_mlp": 1.0237087,
+      "epoch": 0.16064450189382554,
+      "flos": 15524004096000.0,
+      "grad_norm": 2.334830603462103,
+      "language_loss": 0.71773982,
+      "learning_rate": 3.8237382061107904e-06,
+      "loss": 0.7405858,
+      "num_input_tokens_seen": 28152715,
+      "step": 1336,
+      "time_per_iteration": 2.617060899734497
+    },
+    {
+      "auxiliary_loss_clip": 0.01261574,
+      "auxiliary_loss_mlp": 0.01035252,
+      "balance_loss_clip": 1.04947639,
+      "balance_loss_mlp": 1.02469563,
+      "epoch": 0.16076474478446462,
+      "flos": 21178497974400.0,
+      "grad_norm": 1.6258616506099948,
+      "language_loss": 0.78371674,
+      "learning_rate": 3.823418314645243e-06,
+      "loss": 0.80668497,
+      "num_input_tokens_seen": 28171590,
+      "step": 1337,
+      "time_per_iteration": 2.896885395050049
+    },
+    {
+      "auxiliary_loss_clip": 0.01239285,
+      "auxiliary_loss_mlp": 0.01043416,
+      "balance_loss_clip": 1.05597293,
+      "balance_loss_mlp": 1.03406394,
+      "epoch": 0.1608849876751037,
+      "flos": 18366476912640.0,
+      "grad_norm": 2.071333158984587,
+      "language_loss": 0.75194812,
+      "learning_rate": 3.823098146568588e-06,
+      "loss": 0.77477509,
+      "num_input_tokens_seen": 28191295,
+      "step": 1338,
+      "time_per_iteration": 3.1231727600097656
+    },
+    {
+      "auxiliary_loss_clip": 0.01239252,
+      "auxiliary_loss_mlp": 0.01033167,
+      "balance_loss_clip": 1.0641346,
+      "balance_loss_mlp": 1.02326047,
+      "epoch": 0.1610052305657428,
+      "flos": 29497024880640.0,
+      "grad_norm": 1.8510263287302013,
+      "language_loss": 0.71433151,
+      "learning_rate": 3.822777701929394e-06,
+      "loss": 0.73705572,
+      "num_input_tokens_seen": 28213120,
+      "step": 1339,
+      "time_per_iteration": 2.7181503772735596
+    },
+    {
+      "auxiliary_loss_clip": 0.01219502,
+      "auxiliary_loss_mlp": 0.01036993,
+      "balance_loss_clip": 1.0579114,
+      "balance_loss_mlp": 1.0269022,
+      "epoch": 0.1611254734563819,
+      "flos": 26797871329920.0,
+      "grad_norm": 1.8542866081186375,
+      "language_loss": 0.73421204,
+      "learning_rate": 3.8224569807762714e-06,
+      "loss": 0.75677705,
+      "num_input_tokens_seen": 28232440,
+      "step": 1340,
+      "time_per_iteration": 2.679706335067749
+    },
+    {
+      "auxiliary_loss_clip": 0.01234693,
+      "auxiliary_loss_mlp": 0.01038501,
+      "balance_loss_clip": 1.05056596,
+      "balance_loss_mlp": 1.02758753,
+      "epoch": 0.16124571634702098,
+      "flos": 22419570741120.0,
+      "grad_norm": 2.6136169322752028,
+      "language_loss": 0.76426649,
+      "learning_rate": 3.822135983157873e-06,
+      "loss": 0.78699845,
+      "num_input_tokens_seen": 28251715,
+      "step": 1341,
+      "time_per_iteration": 3.766507387161255
+    },
+    {
+      "auxiliary_loss_clip": 0.01224992,
+      "auxiliary_loss_mlp": 0.0138106,
+      "balance_loss_clip": 1.06376815,
+      "balance_loss_mlp": 1.00038242,
+      "epoch": 0.16136595923766006,
+      "flos": 10999116103680.0,
+      "grad_norm": 2.6787967441216436,
+      "language_loss": 0.84766936,
+      "learning_rate": 3.821814709122896e-06,
+      "loss": 0.87372983,
+      "num_input_tokens_seen": 28269765,
+      "step": 1342,
+      "time_per_iteration": 2.6662747859954834
+    },
+    {
+      "auxiliary_loss_clip": 0.01240266,
+      "auxiliary_loss_mlp": 0.01040532,
+      "balance_loss_clip": 1.06093383,
+      "balance_loss_mlp": 1.03141308,
+      "epoch": 0.16148620212829917,
+      "flos": 21214983214080.0,
+      "grad_norm": 2.5880417534468654,
+      "language_loss": 0.85270482,
+      "learning_rate": 3.821493158720076e-06,
+      "loss": 0.87551284,
+      "num_input_tokens_seen": 28288870,
+      "step": 1343,
+      "time_per_iteration": 2.6938891410827637
+    },
+    {
+      "auxiliary_loss_clip": 0.01248667,
+      "auxiliary_loss_mlp": 0.01036708,
+      "balance_loss_clip": 1.05585599,
+      "balance_loss_mlp": 1.0259676,
+      "epoch": 0.16160644501893826,
+      "flos": 16758468760320.0,
+      "grad_norm": 4.225246174349515,
+      "language_loss": 0.72592175,
+      "learning_rate": 3.821171331998191e-06,
+      "loss": 0.74877548,
+      "num_input_tokens_seen": 28305400,
+      "step": 1344,
+      "time_per_iteration": 4.404429912567139
+    },
+    {
+      "auxiliary_loss_clip": 0.01150883,
+      "auxiliary_loss_mlp": 0.01005168,
+      "balance_loss_clip": 1.02487469,
+      "balance_loss_mlp": 1.00240231,
+      "epoch": 0.16172668790957734,
+      "flos": 64444967308800.0,
+      "grad_norm": 0.7112199272267797,
+      "language_loss": 0.54469359,
+      "learning_rate": 3.820849229006064e-06,
+      "loss": 0.56625408,
+      "num_input_tokens_seen": 28373150,
+      "step": 1345,
+      "time_per_iteration": 3.4475138187408447
+    },
+    {
+      "auxiliary_loss_clip": 0.01227855,
+      "auxiliary_loss_mlp": 0.01030751,
+      "balance_loss_clip": 1.06465662,
+      "balance_loss_mlp": 1.02095819,
+      "epoch": 0.16184693080021645,
+      "flos": 23257689759360.0,
+      "grad_norm": 1.8529871390307713,
+      "language_loss": 0.70515072,
+      "learning_rate": 3.8205268497925564e-06,
+      "loss": 0.72773677,
+      "num_input_tokens_seen": 28393620,
+      "step": 1346,
+      "time_per_iteration": 3.5360147953033447
+    },
+    {
+      "auxiliary_loss_clip": 0.0122986,
+      "auxiliary_loss_mlp": 0.01036852,
+      "balance_loss_clip": 1.06596744,
+      "balance_loss_mlp": 1.02646923,
+      "epoch": 0.16196717369085553,
+      "flos": 17451113696640.0,
+      "grad_norm": 2.1869039027499575,
+      "language_loss": 0.78476161,
+      "learning_rate": 3.8202041944065725e-06,
+      "loss": 0.80742872,
+      "num_input_tokens_seen": 28409440,
+      "step": 1347,
+      "time_per_iteration": 2.5713515281677246
+    },
+    {
+      "auxiliary_loss_clip": 0.01232565,
+      "auxiliary_loss_mlp": 0.01038046,
+      "balance_loss_clip": 1.06906855,
+      "balance_loss_mlp": 1.02793145,
+      "epoch": 0.16208741658149461,
+      "flos": 23873377806720.0,
+      "grad_norm": 1.808218667579124,
+      "language_loss": 0.73797697,
+      "learning_rate": 3.819881262897061e-06,
+      "loss": 0.76068312,
+      "num_input_tokens_seen": 28427575,
+      "step": 1348,
+      "time_per_iteration": 2.6844935417175293
+    },
+    {
+      "auxiliary_loss_clip": 0.01258207,
+      "auxiliary_loss_mlp": 0.0103758,
+      "balance_loss_clip": 1.06487274,
+      "balance_loss_mlp": 1.02709556,
+      "epoch": 0.1622076594721337,
+      "flos": 25884806584320.0,
+      "grad_norm": 2.149940655594675,
+      "language_loss": 0.73531497,
+      "learning_rate": 3.819558055313008e-06,
+      "loss": 0.75827289,
+      "num_input_tokens_seen": 28448260,
+      "step": 1349,
+      "time_per_iteration": 2.738335609436035
+    },
+    {
+      "auxiliary_loss_clip": 0.01239428,
+      "auxiliary_loss_mlp": 0.01038724,
+      "balance_loss_clip": 1.0628953,
+      "balance_loss_mlp": 1.02868116,
+      "epoch": 0.1623279023627728,
+      "flos": 21539759011200.0,
+      "grad_norm": 1.878517122682717,
+      "language_loss": 0.7742697,
+      "learning_rate": 3.819234571703444e-06,
+      "loss": 0.79705131,
+      "num_input_tokens_seen": 28467085,
+      "step": 1350,
+      "time_per_iteration": 2.670393228530884
+    },
+    {
+      "auxiliary_loss_clip": 0.01226823,
+      "auxiliary_loss_mlp": 0.01041212,
+      "balance_loss_clip": 1.0595324,
+      "balance_loss_mlp": 1.03091288,
+      "epoch": 0.1624481452534119,
+      "flos": 22085421494400.0,
+      "grad_norm": 2.616515389066127,
+      "language_loss": 0.85380989,
+      "learning_rate": 3.8189108121174435e-06,
+      "loss": 0.87649029,
+      "num_input_tokens_seen": 28486850,
+      "step": 1351,
+      "time_per_iteration": 2.613978147506714
+    },
+    {
+      "auxiliary_loss_clip": 0.01245134,
+      "auxiliary_loss_mlp": 0.0103423,
+      "balance_loss_clip": 1.05986249,
+      "balance_loss_mlp": 1.02441943,
+      "epoch": 0.16256838814405097,
+      "flos": 27087490690560.0,
+      "grad_norm": 1.6419979846561774,
+      "language_loss": 0.83677566,
+      "learning_rate": 3.818586776604118e-06,
+      "loss": 0.85956925,
+      "num_input_tokens_seen": 28507490,
+      "step": 1352,
+      "time_per_iteration": 2.7172017097473145
+    },
+    {
+      "auxiliary_loss_clip": 0.01236651,
+      "auxiliary_loss_mlp": 0.01043495,
+      "balance_loss_clip": 1.06036425,
+      "balance_loss_mlp": 1.03317738,
+      "epoch": 0.16268863103469008,
+      "flos": 20120354196480.0,
+      "grad_norm": 1.9019097180596487,
+      "language_loss": 0.61675525,
+      "learning_rate": 3.818262465212625e-06,
+      "loss": 0.63955671,
+      "num_input_tokens_seen": 28527615,
+      "step": 1353,
+      "time_per_iteration": 2.630565881729126
+    },
+    {
+      "auxiliary_loss_clip": 0.01223628,
+      "auxiliary_loss_mlp": 0.01048916,
+      "balance_loss_clip": 1.06257391,
+      "balance_loss_mlp": 1.03781152,
+      "epoch": 0.16280887392532917,
+      "flos": 18332792933760.0,
+      "grad_norm": 3.0965176185594054,
+      "language_loss": 0.77303344,
+      "learning_rate": 3.817937877992161e-06,
+      "loss": 0.7957589,
+      "num_input_tokens_seen": 28544910,
+      "step": 1354,
+      "time_per_iteration": 2.6227293014526367
+    },
+    {
+      "auxiliary_loss_clip": 0.01243144,
+      "auxiliary_loss_mlp": 0.01381783,
+      "balance_loss_clip": 1.05364704,
+      "balance_loss_mlp": 1.0004077,
+      "epoch": 0.16292911681596825,
+      "flos": 11874330892800.0,
+      "grad_norm": 2.5247649945432804,
+      "language_loss": 0.85416031,
+      "learning_rate": 3.817613014991967e-06,
+      "loss": 0.8804096,
+      "num_input_tokens_seen": 28561050,
+      "step": 1355,
+      "time_per_iteration": 2.6590282917022705
+    },
+    {
+      "auxiliary_loss_clip": 0.01234845,
+      "auxiliary_loss_mlp": 0.01036881,
+      "balance_loss_clip": 1.05470181,
+      "balance_loss_mlp": 1.02599716,
+      "epoch": 0.16304935970660733,
+      "flos": 26103466627200.0,
+      "grad_norm": 2.4493154063975533,
+      "language_loss": 0.7679041,
+      "learning_rate": 3.817287876261323e-06,
+      "loss": 0.7906214,
+      "num_input_tokens_seen": 28581385,
+      "step": 1356,
+      "time_per_iteration": 2.7896764278411865
+    },
+    {
+      "auxiliary_loss_clip": 0.0123964,
+      "auxiliary_loss_mlp": 0.0103485,
+      "balance_loss_clip": 1.06141448,
+      "balance_loss_mlp": 1.02447295,
+      "epoch": 0.16316960259724644,
+      "flos": 29351945848320.0,
+      "grad_norm": 1.7814138710743166,
+      "language_loss": 0.79957569,
+      "learning_rate": 3.816962461849553e-06,
+      "loss": 0.82232052,
+      "num_input_tokens_seen": 28603255,
+      "step": 1357,
+      "time_per_iteration": 2.7269480228424072
+    },
+    {
+      "auxiliary_loss_clip": 0.01234965,
+      "auxiliary_loss_mlp": 0.01045286,
+      "balance_loss_clip": 1.06032765,
+      "balance_loss_mlp": 1.03483105,
+      "epoch": 0.16328984548788553,
+      "flos": 20886759711360.0,
+      "grad_norm": 2.1222289723941876,
+      "language_loss": 0.84754097,
+      "learning_rate": 3.8166367718060235e-06,
+      "loss": 0.87034351,
+      "num_input_tokens_seen": 28623145,
+      "step": 1358,
+      "time_per_iteration": 2.723484516143799
+    },
+    {
+      "auxiliary_loss_clip": 0.01226846,
+      "auxiliary_loss_mlp": 0.01029555,
+      "balance_loss_clip": 1.05861306,
+      "balance_loss_mlp": 1.01887345,
+      "epoch": 0.1634100883785246,
+      "flos": 18041090584320.0,
+      "grad_norm": 3.0055589432642726,
+      "language_loss": 0.76484573,
+      "learning_rate": 3.816310806180139e-06,
+      "loss": 0.78740978,
+      "num_input_tokens_seen": 28641555,
+      "step": 1359,
+      "time_per_iteration": 2.642019748687744
+    },
+    {
+      "auxiliary_loss_clip": 0.01238649,
+      "auxiliary_loss_mlp": 0.01039484,
+      "balance_loss_clip": 1.06063437,
+      "balance_loss_mlp": 1.02881455,
+      "epoch": 0.16353033126916372,
+      "flos": 24572128055040.0,
+      "grad_norm": 1.8000168496360294,
+      "language_loss": 0.80956745,
+      "learning_rate": 3.81598456502135e-06,
+      "loss": 0.83234876,
+      "num_input_tokens_seen": 28661575,
+      "step": 1360,
+      "time_per_iteration": 2.8092100620269775
+    },
+    {
+      "auxiliary_loss_clip": 0.0123886,
+      "auxiliary_loss_mlp": 0.01042405,
+      "balance_loss_clip": 1.06235158,
+      "balance_loss_mlp": 1.03251648,
+      "epoch": 0.1636505741598028,
+      "flos": 19892895321600.0,
+      "grad_norm": 2.270722116282552,
+      "language_loss": 0.86764508,
+      "learning_rate": 3.8156580483791455e-06,
+      "loss": 0.89045775,
+      "num_input_tokens_seen": 28676765,
+      "step": 1361,
+      "time_per_iteration": 2.742502450942993
+    },
+    {
+      "auxiliary_loss_clip": 0.01227045,
+      "auxiliary_loss_mlp": 0.01036616,
+      "balance_loss_clip": 1.06434941,
+      "balance_loss_mlp": 1.02670979,
+      "epoch": 0.16377081705044189,
+      "flos": 28402611344640.0,
+      "grad_norm": 2.2534566212477456,
+      "language_loss": 0.76469409,
+      "learning_rate": 3.815331256303059e-06,
+      "loss": 0.78733069,
+      "num_input_tokens_seen": 28696795,
+      "step": 1362,
+      "time_per_iteration": 2.634323835372925
+    },
+    {
+      "auxiliary_loss_clip": 0.01249365,
+      "auxiliary_loss_mlp": 0.01036718,
+      "balance_loss_clip": 1.06332469,
+      "balance_loss_mlp": 1.02637672,
+      "epoch": 0.163891059941081,
+      "flos": 21908059113600.0,
+      "grad_norm": 2.4329937830084196,
+      "language_loss": 0.77041173,
+      "learning_rate": 3.815004188842665e-06,
+      "loss": 0.79327261,
+      "num_input_tokens_seen": 28714835,
+      "step": 1363,
+      "time_per_iteration": 2.749081611633301
+    },
+    {
+      "auxiliary_loss_clip": 0.01235296,
+      "auxiliary_loss_mlp": 0.01039325,
+      "balance_loss_clip": 1.05835092,
+      "balance_loss_mlp": 1.02882886,
+      "epoch": 0.16401130283172008,
+      "flos": 26797619934720.0,
+      "grad_norm": 1.6010675128995995,
+      "language_loss": 0.79452777,
+      "learning_rate": 3.814676846047578e-06,
+      "loss": 0.81727397,
+      "num_input_tokens_seen": 28735710,
+      "step": 1364,
+      "time_per_iteration": 2.713397741317749
+    },
+    {
+      "auxiliary_loss_clip": 0.0122811,
+      "auxiliary_loss_mlp": 0.01047937,
+      "balance_loss_clip": 1.05986512,
+      "balance_loss_mlp": 1.03736949,
+      "epoch": 0.16413154572235916,
+      "flos": 32997417160320.0,
+      "grad_norm": 1.835246106978649,
+      "language_loss": 0.70138729,
+      "learning_rate": 3.8143492279674565e-06,
+      "loss": 0.7241478,
+      "num_input_tokens_seen": 28758405,
+      "step": 1365,
+      "time_per_iteration": 2.764618396759033
+    },
+    {
+      "auxiliary_loss_clip": 0.01161662,
+      "auxiliary_loss_mlp": 0.01002606,
+      "balance_loss_clip": 1.03486562,
+      "balance_loss_mlp": 0.99990004,
+      "epoch": 0.16425178861299825,
+      "flos": 40113622074240.0,
+      "grad_norm": 0.8423844091155088,
+      "language_loss": 0.58360219,
+      "learning_rate": 3.8140213346519997e-06,
+      "loss": 0.60524487,
+      "num_input_tokens_seen": 28809000,
+      "step": 1366,
+      "time_per_iteration": 3.036161422729492
+    },
+    {
+      "auxiliary_loss_clip": 0.0123549,
+      "auxiliary_loss_mlp": 0.01038064,
+      "balance_loss_clip": 1.05709112,
+      "balance_loss_mlp": 1.02787733,
+      "epoch": 0.16437203150363736,
+      "flos": 25447486498560.0,
+      "grad_norm": 3.19863420452937,
+      "language_loss": 0.76781416,
+      "learning_rate": 3.813693166150948e-06,
+      "loss": 0.79054964,
+      "num_input_tokens_seen": 28829210,
+      "step": 1367,
+      "time_per_iteration": 3.6489064693450928
+    },
+    {
+      "auxiliary_loss_clip": 0.01242061,
+      "auxiliary_loss_mlp": 0.01035358,
+      "balance_loss_clip": 1.05938649,
+      "balance_loss_mlp": 1.02520704,
+      "epoch": 0.16449227439427644,
+      "flos": 23476888506240.0,
+      "grad_norm": 4.335531059918504,
+      "language_loss": 0.85573399,
+      "learning_rate": 3.813364722514086e-06,
+      "loss": 0.87850821,
+      "num_input_tokens_seen": 28847545,
+      "step": 1368,
+      "time_per_iteration": 2.7530477046966553
+    },
+    {
+      "auxiliary_loss_clip": 0.01232086,
+      "auxiliary_loss_mlp": 0.0104002,
+      "balance_loss_clip": 1.06243873,
+      "balance_loss_mlp": 1.02956581,
+      "epoch": 0.16461251728491552,
+      "flos": 13545217802880.0,
+      "grad_norm": 2.185527124253009,
+      "language_loss": 0.79985613,
+      "learning_rate": 3.8130360037912368e-06,
+      "loss": 0.82257724,
+      "num_input_tokens_seen": 28863990,
+      "step": 1369,
+      "time_per_iteration": 2.6439318656921387
+    },
+    {
+      "auxiliary_loss_clip": 0.0123477,
+      "auxiliary_loss_mlp": 0.0103112,
+      "balance_loss_clip": 1.06417406,
+      "balance_loss_mlp": 1.02052855,
+      "epoch": 0.16473276017555463,
+      "flos": 23003298662400.0,
+      "grad_norm": 2.2668122881826984,
+      "language_loss": 0.81858325,
+      "learning_rate": 3.812707010032268e-06,
+      "loss": 0.84124219,
+      "num_input_tokens_seen": 28883045,
+      "step": 1370,
+      "time_per_iteration": 4.481522798538208
+    },
+    {
+      "auxiliary_loss_clip": 0.01244422,
+      "auxiliary_loss_mlp": 0.0104138,
+      "balance_loss_clip": 1.06920505,
+      "balance_loss_mlp": 1.03036547,
+      "epoch": 0.16485300306619372,
+      "flos": 24790680357120.0,
+      "grad_norm": 6.7913770351563505,
+      "language_loss": 0.79030669,
+      "learning_rate": 3.8123777412870863e-06,
+      "loss": 0.81316471,
+      "num_input_tokens_seen": 28902545,
+      "step": 1371,
+      "time_per_iteration": 2.7580316066741943
+    },
+    {
+      "auxiliary_loss_clip": 0.01248419,
+      "auxiliary_loss_mlp": 0.01039993,
+      "balance_loss_clip": 1.06262326,
+      "balance_loss_mlp": 1.02937758,
+      "epoch": 0.1649732459568328,
+      "flos": 21106497162240.0,
+      "grad_norm": 2.0300474057797286,
+      "language_loss": 0.78383338,
+      "learning_rate": 3.812048197605643e-06,
+      "loss": 0.80671746,
+      "num_input_tokens_seen": 28921440,
+      "step": 1372,
+      "time_per_iteration": 3.6056859493255615
+    },
+    {
+      "auxiliary_loss_clip": 0.01235188,
+      "auxiliary_loss_mlp": 0.01033082,
+      "balance_loss_clip": 1.06293654,
+      "balance_loss_mlp": 1.02290165,
+      "epoch": 0.16509348884747188,
+      "flos": 20266726118400.0,
+      "grad_norm": 1.9625923458053633,
+      "language_loss": 0.81426924,
+      "learning_rate": 3.8117183790379277e-06,
+      "loss": 0.83695197,
+      "num_input_tokens_seen": 28939890,
+      "step": 1373,
+      "time_per_iteration": 2.7993104457855225
+    },
+    {
+      "auxiliary_loss_clip": 0.01229333,
+      "auxiliary_loss_mlp": 0.01033922,
+      "balance_loss_clip": 1.06678224,
+      "balance_loss_mlp": 1.02352655,
+      "epoch": 0.165213731738111,
+      "flos": 11035493602560.0,
+      "grad_norm": 2.7573944668462502,
+      "language_loss": 0.94379354,
+      "learning_rate": 3.811388285633976e-06,
+      "loss": 0.96642607,
+      "num_input_tokens_seen": 28955875,
+      "step": 1374,
+      "time_per_iteration": 2.6309895515441895
+    },
+    {
+      "auxiliary_loss_clip": 0.0126219,
+      "auxiliary_loss_mlp": 0.0103167,
+      "balance_loss_clip": 1.05785012,
+      "balance_loss_mlp": 1.02148378,
+      "epoch": 0.16533397462875007,
+      "flos": 29972051268480.0,
+      "grad_norm": 2.0864949944859155,
+      "language_loss": 0.61890614,
+      "learning_rate": 3.811057917443861e-06,
+      "loss": 0.64184475,
+      "num_input_tokens_seen": 28975140,
+      "step": 1375,
+      "time_per_iteration": 2.786975860595703
+    },
+    {
+      "auxiliary_loss_clip": 0.01156114,
+      "auxiliary_loss_mlp": 0.01003535,
+      "balance_loss_clip": 1.03640318,
+      "balance_loss_mlp": 1.0008173,
+      "epoch": 0.16545421751938916,
+      "flos": 65556763027200.0,
+      "grad_norm": 0.8503155873980447,
+      "language_loss": 0.6829381,
+      "learning_rate": 3.8107272745177e-06,
+      "loss": 0.70453459,
+      "num_input_tokens_seen": 29047470,
+      "step": 1376,
+      "time_per_iteration": 3.3799681663513184
+    },
+    {
+      "auxiliary_loss_clip": 0.01253635,
+      "auxiliary_loss_mlp": 0.01036395,
+      "balance_loss_clip": 1.06206942,
+      "balance_loss_mlp": 1.02586854,
+      "epoch": 0.16557446041002827,
+      "flos": 22492361652480.0,
+      "grad_norm": 1.8079671186521453,
+      "language_loss": 0.78669536,
+      "learning_rate": 3.8103963569056513e-06,
+      "loss": 0.80959558,
+      "num_input_tokens_seen": 29066605,
+      "step": 1377,
+      "time_per_iteration": 2.7367517948150635
+    },
+    {
+      "auxiliary_loss_clip": 0.01232676,
+      "auxiliary_loss_mlp": 0.01037035,
+      "balance_loss_clip": 1.05683148,
+      "balance_loss_mlp": 1.02757597,
+      "epoch": 0.16569470330066735,
+      "flos": 24602723464320.0,
+      "grad_norm": 1.6099263500369454,
+      "language_loss": 0.88148689,
+      "learning_rate": 3.8100651646579146e-06,
+      "loss": 0.90418398,
+      "num_input_tokens_seen": 29085815,
+      "step": 1378,
+      "time_per_iteration": 2.760603904724121
+    },
+    {
+      "auxiliary_loss_clip": 0.01234417,
+      "auxiliary_loss_mlp": 0.01044306,
+      "balance_loss_clip": 1.057724,
+      "balance_loss_mlp": 1.03322589,
+      "epoch": 0.16581494619130643,
+      "flos": 15006207588480.0,
+      "grad_norm": 2.2976179192581334,
+      "language_loss": 0.92721003,
+      "learning_rate": 3.8097336978247317e-06,
+      "loss": 0.94999731,
+      "num_input_tokens_seen": 29102520,
+      "step": 1379,
+      "time_per_iteration": 2.6549367904663086
+    },
+    {
+      "auxiliary_loss_clip": 0.01225814,
+      "auxiliary_loss_mlp": 0.01033883,
+      "balance_loss_clip": 1.05823231,
+      "balance_loss_mlp": 1.02333283,
+      "epoch": 0.16593518908194552,
+      "flos": 17420338719360.0,
+      "grad_norm": 2.0589162581857536,
+      "language_loss": 0.88898194,
+      "learning_rate": 3.8094019564563854e-06,
+      "loss": 0.91157889,
+      "num_input_tokens_seen": 29119450,
+      "step": 1380,
+      "time_per_iteration": 2.6897621154785156
+    },
+    {
+      "auxiliary_loss_clip": 0.01228521,
+      "auxiliary_loss_mlp": 0.0138165,
+      "balance_loss_clip": 1.06436396,
+      "balance_loss_mlp": 1.00049973,
+      "epoch": 0.16605543197258463,
+      "flos": 20412631163520.0,
+      "grad_norm": 2.1915162347716097,
+      "language_loss": 0.7483381,
+      "learning_rate": 3.809069940603201e-06,
+      "loss": 0.77443981,
+      "num_input_tokens_seen": 29137405,
+      "step": 1381,
+      "time_per_iteration": 2.601637363433838
+    },
+    {
+      "auxiliary_loss_clip": 0.0123382,
+      "auxiliary_loss_mlp": 0.01037116,
+      "balance_loss_clip": 1.06139946,
+      "balance_loss_mlp": 1.02717364,
+      "epoch": 0.1661756748632237,
+      "flos": 14209745368320.0,
+      "grad_norm": 2.2809962438599465,
+      "language_loss": 0.7806226,
+      "learning_rate": 3.8087376503155452e-06,
+      "loss": 0.80333191,
+      "num_input_tokens_seen": 29154890,
+      "step": 1382,
+      "time_per_iteration": 2.7527830600738525
+    },
+    {
+      "auxiliary_loss_clip": 0.01148009,
+      "auxiliary_loss_mlp": 0.0100415,
+      "balance_loss_clip": 1.03587055,
+      "balance_loss_mlp": 1.00152731,
+      "epoch": 0.1662959177538628,
+      "flos": 66080877350400.0,
+      "grad_norm": 0.8923700832790884,
+      "language_loss": 0.56201243,
+      "learning_rate": 3.808405085643826e-06,
+      "loss": 0.583534,
+      "num_input_tokens_seen": 29219770,
+      "step": 1383,
+      "time_per_iteration": 3.2793803215026855
+    },
+    {
+      "auxiliary_loss_clip": 0.0123112,
+      "auxiliary_loss_mlp": 0.01381503,
+      "balance_loss_clip": 1.06679618,
+      "balance_loss_mlp": 1.00050449,
+      "epoch": 0.1664161606445019,
+      "flos": 20740567357440.0,
+      "grad_norm": 1.9919724060604111,
+      "language_loss": 0.89085591,
+      "learning_rate": 3.8080722466384925e-06,
+      "loss": 0.91698211,
+      "num_input_tokens_seen": 29237620,
+      "step": 1384,
+      "time_per_iteration": 2.614959955215454
+    },
+    {
+      "auxiliary_loss_clip": 0.01230081,
+      "auxiliary_loss_mlp": 0.01036635,
+      "balance_loss_clip": 1.06416774,
+      "balance_loss_mlp": 1.02647877,
+      "epoch": 0.166536403535141,
+      "flos": 25260930236160.0,
+      "grad_norm": 2.0100393308294953,
+      "language_loss": 0.70971525,
+      "learning_rate": 3.8077391333500376e-06,
+      "loss": 0.73238242,
+      "num_input_tokens_seen": 29256760,
+      "step": 1385,
+      "time_per_iteration": 2.7053446769714355
+    },
+    {
+      "auxiliary_loss_clip": 0.01248918,
+      "auxiliary_loss_mlp": 0.01033386,
+      "balance_loss_clip": 1.0666492,
+      "balance_loss_mlp": 1.02386713,
+      "epoch": 0.16665664642578007,
+      "flos": 25447450584960.0,
+      "grad_norm": 1.9629971937560147,
+      "language_loss": 0.76439583,
+      "learning_rate": 3.8074057458289934e-06,
+      "loss": 0.78721893,
+      "num_input_tokens_seen": 29277450,
+      "step": 1386,
+      "time_per_iteration": 2.8376307487487793
+    },
+    {
+      "auxiliary_loss_clip": 0.01242606,
+      "auxiliary_loss_mlp": 0.01035193,
+      "balance_loss_clip": 1.05866909,
+      "balance_loss_mlp": 1.02416575,
+      "epoch": 0.16677688931641918,
+      "flos": 22200767043840.0,
+      "grad_norm": 2.1353240321339544,
+      "language_loss": 0.82260287,
+      "learning_rate": 3.807072084125934e-06,
+      "loss": 0.8453809,
+      "num_input_tokens_seen": 29299300,
+      "step": 1387,
+      "time_per_iteration": 2.807129144668579
+    },
+    {
+      "auxiliary_loss_clip": 0.01244918,
+      "auxiliary_loss_mlp": 0.01041356,
+      "balance_loss_clip": 1.06478238,
+      "balance_loss_mlp": 1.03108597,
+      "epoch": 0.16689713220705826,
+      "flos": 16945958776320.0,
+      "grad_norm": 2.382937306128302,
+      "language_loss": 0.80790937,
+      "learning_rate": 3.806738148291477e-06,
+      "loss": 0.83077216,
+      "num_input_tokens_seen": 29316125,
+      "step": 1388,
+      "time_per_iteration": 2.6990749835968018
+    },
+    {
+      "auxiliary_loss_clip": 0.01263869,
+      "auxiliary_loss_mlp": 0.01035529,
+      "balance_loss_clip": 1.05294418,
+      "balance_loss_mlp": 1.0237751,
+      "epoch": 0.16701737509769735,
+      "flos": 36244423923840.0,
+      "grad_norm": 2.124618721142698,
+      "language_loss": 0.7094537,
+      "learning_rate": 3.8064039383762793e-06,
+      "loss": 0.73244774,
+      "num_input_tokens_seen": 29338490,
+      "step": 1389,
+      "time_per_iteration": 2.9215965270996094
+    },
+    {
+      "auxiliary_loss_clip": 0.01237227,
+      "auxiliary_loss_mlp": 0.01046407,
+      "balance_loss_clip": 1.06586409,
+      "balance_loss_mlp": 1.03553545,
+      "epoch": 0.16713761798833643,
+      "flos": 23258659426560.0,
+      "grad_norm": 5.312180874710829,
+      "language_loss": 0.77163756,
+      "learning_rate": 3.8060694544310396e-06,
+      "loss": 0.79447389,
+      "num_input_tokens_seen": 29357000,
+      "step": 1390,
+      "time_per_iteration": 2.66805362701416
+    },
+    {
+      "auxiliary_loss_clip": 0.01229636,
+      "auxiliary_loss_mlp": 0.0103602,
+      "balance_loss_clip": 1.06469512,
+      "balance_loss_mlp": 1.0252192,
+      "epoch": 0.16725786087897554,
+      "flos": 25302515207040.0,
+      "grad_norm": 1.786557662857729,
+      "language_loss": 0.78641915,
+      "learning_rate": 3.8057346965065006e-06,
+      "loss": 0.80907571,
+      "num_input_tokens_seen": 29378230,
+      "step": 1391,
+      "time_per_iteration": 3.08475923538208
+    },
+    {
+      "auxiliary_loss_clip": 0.0124493,
+      "auxiliary_loss_mlp": 0.01038251,
+      "balance_loss_clip": 1.06428194,
+      "balance_loss_mlp": 1.02805233,
+      "epoch": 0.16737810376961462,
+      "flos": 31831541516160.0,
+      "grad_norm": 1.9160148592866257,
+      "language_loss": 0.84424615,
+      "learning_rate": 3.805399664653443e-06,
+      "loss": 0.86707795,
+      "num_input_tokens_seen": 29400370,
+      "step": 1392,
+      "time_per_iteration": 2.830423355102539
+    },
+    {
+      "auxiliary_loss_clip": 0.01233842,
+      "auxiliary_loss_mlp": 0.01040275,
+      "balance_loss_clip": 1.06743002,
+      "balance_loss_mlp": 1.02881348,
+      "epoch": 0.1674983466602537,
+      "flos": 27961843553280.0,
+      "grad_norm": 2.5473012301841425,
+      "language_loss": 0.74117333,
+      "learning_rate": 3.805064358922692e-06,
+      "loss": 0.76391447,
+      "num_input_tokens_seen": 29418660,
+      "step": 1393,
+      "time_per_iteration": 3.6478915214538574
+    },
+    {
+      "auxiliary_loss_clip": 0.01244692,
+      "auxiliary_loss_mlp": 0.01038368,
+      "balance_loss_clip": 1.06623888,
+      "balance_loss_mlp": 1.0274725,
+      "epoch": 0.16761858955089282,
+      "flos": 21762656858880.0,
+      "grad_norm": 2.0084647447424255,
+      "language_loss": 0.8132174,
+      "learning_rate": 3.8047287793651136e-06,
+      "loss": 0.83604801,
+      "num_input_tokens_seen": 29440105,
+      "step": 1394,
+      "time_per_iteration": 2.6540863513946533
+    },
+    {
+      "auxiliary_loss_clip": 0.01257736,
+      "auxiliary_loss_mlp": 0.01038004,
+      "balance_loss_clip": 1.06187117,
+      "balance_loss_mlp": 1.02726889,
+      "epoch": 0.1677388324415319,
+      "flos": 23805507058560.0,
+      "grad_norm": 1.8076306407705511,
+      "language_loss": 0.8897869,
+      "learning_rate": 3.8043929260316137e-06,
+      "loss": 0.91274428,
+      "num_input_tokens_seen": 29458260,
+      "step": 1395,
+      "time_per_iteration": 2.709956169128418
+    },
+    {
+      "auxiliary_loss_clip": 0.01248591,
+      "auxiliary_loss_mlp": 0.01042179,
+      "balance_loss_clip": 1.06596923,
+      "balance_loss_mlp": 1.03098559,
+      "epoch": 0.16785907533217098,
+      "flos": 20558859431040.0,
+      "grad_norm": 1.9306742248525577,
+      "language_loss": 0.83647287,
+      "learning_rate": 3.8040567989731417e-06,
+      "loss": 0.8593806,
+      "num_input_tokens_seen": 29476205,
+      "step": 1396,
+      "time_per_iteration": 4.4638636112213135
+    },
+    {
+      "auxiliary_loss_clip": 0.01234272,
+      "auxiliary_loss_mlp": 0.01032242,
+      "balance_loss_clip": 1.06479931,
+      "balance_loss_mlp": 1.0224545,
+      "epoch": 0.16797931822281006,
+      "flos": 15669657745920.0,
+      "grad_norm": 1.9661750209658464,
+      "language_loss": 0.79595578,
+      "learning_rate": 3.8037203982406876e-06,
+      "loss": 0.81862086,
+      "num_input_tokens_seen": 29494370,
+      "step": 1397,
+      "time_per_iteration": 2.689168691635132
+    },
+    {
+      "auxiliary_loss_clip": 0.01232618,
+      "auxiliary_loss_mlp": 0.01040274,
+      "balance_loss_clip": 1.06881547,
+      "balance_loss_mlp": 1.02946186,
+      "epoch": 0.16809956111344918,
+      "flos": 16541101607040.0,
+      "grad_norm": 2.4199943112266085,
+      "language_loss": 0.73058003,
+      "learning_rate": 3.8033837238852835e-06,
+      "loss": 0.75330889,
+      "num_input_tokens_seen": 29511070,
+      "step": 1398,
+      "time_per_iteration": 3.551035165786743
+    },
+    {
+      "auxiliary_loss_clip": 0.01234331,
+      "auxiliary_loss_mlp": 0.0103553,
+      "balance_loss_clip": 1.0591557,
+      "balance_loss_mlp": 1.02557635,
+      "epoch": 0.16821980400408826,
+      "flos": 23258084808960.0,
+      "grad_norm": 1.7682422878908706,
+      "language_loss": 0.69816023,
+      "learning_rate": 3.8030467759580017e-06,
+      "loss": 0.72085881,
+      "num_input_tokens_seen": 29531990,
+      "step": 1399,
+      "time_per_iteration": 2.7235732078552246
+    },
+    {
+      "auxiliary_loss_clip": 0.0123898,
+      "auxiliary_loss_mlp": 0.01039176,
+      "balance_loss_clip": 1.06250513,
+      "balance_loss_mlp": 1.02772641,
+      "epoch": 0.16834004689472734,
+      "flos": 20774754126720.0,
+      "grad_norm": 1.9061546892606545,
+      "language_loss": 0.87029427,
+      "learning_rate": 3.802709554509958e-06,
+      "loss": 0.89307582,
+      "num_input_tokens_seen": 29549790,
+      "step": 1400,
+      "time_per_iteration": 2.695544958114624
+    },
+    {
+      "auxiliary_loss_clip": 0.0124143,
+      "auxiliary_loss_mlp": 0.01035702,
+      "balance_loss_clip": 1.06014967,
+      "balance_loss_mlp": 1.02573574,
+      "epoch": 0.16846028978536645,
+      "flos": 26687302289280.0,
+      "grad_norm": 1.7371243495421875,
+      "language_loss": 0.79377055,
+      "learning_rate": 3.8023720595923083e-06,
+      "loss": 0.81654185,
+      "num_input_tokens_seen": 29569045,
+      "step": 1401,
+      "time_per_iteration": 2.706847667694092
+    },
+    {
+      "auxiliary_loss_clip": 0.01254917,
+      "auxiliary_loss_mlp": 0.01034863,
+      "balance_loss_clip": 1.05489874,
+      "balance_loss_mlp": 1.02450991,
+      "epoch": 0.16858053267600553,
+      "flos": 18843298980480.0,
+      "grad_norm": 2.3680656403797853,
+      "language_loss": 0.87396115,
+      "learning_rate": 3.80203429125625e-06,
+      "loss": 0.89685893,
+      "num_input_tokens_seen": 29587220,
+      "step": 1402,
+      "time_per_iteration": 2.803422689437866
+    },
+    {
+      "auxiliary_loss_clip": 0.01258215,
+      "auxiliary_loss_mlp": 0.0103708,
+      "balance_loss_clip": 1.05548,
+      "balance_loss_mlp": 1.02625036,
+      "epoch": 0.16870077556664462,
+      "flos": 27744548227200.0,
+      "grad_norm": 1.711913279725502,
+      "language_loss": 0.70478988,
+      "learning_rate": 3.8016962495530225e-06,
+      "loss": 0.72774285,
+      "num_input_tokens_seen": 29606410,
+      "step": 1403,
+      "time_per_iteration": 2.8210065364837646
+    },
+    {
+      "auxiliary_loss_clip": 0.01231584,
+      "auxiliary_loss_mlp": 0.01038858,
+      "balance_loss_clip": 1.06604147,
+      "balance_loss_mlp": 1.02812886,
+      "epoch": 0.1688210184572837,
+      "flos": 13730768484480.0,
+      "grad_norm": 3.36259265365524,
+      "language_loss": 0.77208304,
+      "learning_rate": 3.8013579345339063e-06,
+      "loss": 0.79478747,
+      "num_input_tokens_seen": 29621275,
+      "step": 1404,
+      "time_per_iteration": 2.6208322048187256
+    },
+    {
+      "auxiliary_loss_clip": 0.01255084,
+      "auxiliary_loss_mlp": 0.01047113,
+      "balance_loss_clip": 1.05958843,
+      "balance_loss_mlp": 1.03599644,
+      "epoch": 0.1689412613479228,
+      "flos": 26468785900800.0,
+      "grad_norm": 1.8973287950849766,
+      "language_loss": 0.69435114,
+      "learning_rate": 3.801019346250224e-06,
+      "loss": 0.71737307,
+      "num_input_tokens_seen": 29641420,
+      "step": 1405,
+      "time_per_iteration": 2.7025461196899414
+    },
+    {
+      "auxiliary_loss_clip": 0.01236245,
+      "auxiliary_loss_mlp": 0.01045216,
+      "balance_loss_clip": 1.06290507,
+      "balance_loss_mlp": 1.03463674,
+      "epoch": 0.1690615042385619,
+      "flos": 21138852337920.0,
+      "grad_norm": 2.369015514610765,
+      "language_loss": 0.83468091,
+      "learning_rate": 3.8006804847533395e-06,
+      "loss": 0.85749555,
+      "num_input_tokens_seen": 29660935,
+      "step": 1406,
+      "time_per_iteration": 2.662839412689209
+    },
+    {
+      "auxiliary_loss_clip": 0.01230936,
+      "auxiliary_loss_mlp": 0.01041364,
+      "balance_loss_clip": 1.06576669,
+      "balance_loss_mlp": 1.03089714,
+      "epoch": 0.16918174712920098,
+      "flos": 20849340718080.0,
+      "grad_norm": 1.960234989485044,
+      "language_loss": 0.85482866,
+      "learning_rate": 3.8003413500946556e-06,
+      "loss": 0.87755167,
+      "num_input_tokens_seen": 29681045,
+      "step": 1407,
+      "time_per_iteration": 2.60711669921875
+    },
+    {
+      "auxiliary_loss_clip": 0.01249096,
+      "auxiliary_loss_mlp": 0.01045064,
+      "balance_loss_clip": 1.06347835,
+      "balance_loss_mlp": 1.03373349,
+      "epoch": 0.1693019900198401,
+      "flos": 16983270028800.0,
+      "grad_norm": 3.0805021457928317,
+      "language_loss": 0.83193356,
+      "learning_rate": 3.8000019423256216e-06,
+      "loss": 0.85487515,
+      "num_input_tokens_seen": 29698810,
+      "step": 1408,
+      "time_per_iteration": 2.6597180366516113
+    },
+    {
+      "auxiliary_loss_clip": 0.01231445,
+      "auxiliary_loss_mlp": 0.01040037,
+      "balance_loss_clip": 1.0611788,
+      "balance_loss_mlp": 1.02986884,
+      "epoch": 0.16942223291047917,
+      "flos": 26796901662720.0,
+      "grad_norm": 1.665948769265328,
+      "language_loss": 0.882285,
+      "learning_rate": 3.7996622614977234e-06,
+      "loss": 0.90499979,
+      "num_input_tokens_seen": 29720000,
+      "step": 1409,
+      "time_per_iteration": 2.7369158267974854
+    },
+    {
+      "auxiliary_loss_clip": 0.01245435,
+      "auxiliary_loss_mlp": 0.01033853,
+      "balance_loss_clip": 1.06338632,
+      "balance_loss_mlp": 1.02348733,
+      "epoch": 0.16954247580111825,
+      "flos": 18583700411520.0,
+      "grad_norm": 1.8537191112081177,
+      "language_loss": 0.79028916,
+      "learning_rate": 3.799322307662492e-06,
+      "loss": 0.81308204,
+      "num_input_tokens_seen": 29737820,
+      "step": 1410,
+      "time_per_iteration": 2.658952236175537
+    },
+    {
+      "auxiliary_loss_clip": 0.01263113,
+      "auxiliary_loss_mlp": 0.01045388,
+      "balance_loss_clip": 1.05821955,
+      "balance_loss_mlp": 1.03356266,
+      "epoch": 0.16966271869175734,
+      "flos": 13983651210240.0,
+      "grad_norm": 4.199271139606433,
+      "language_loss": 0.839921,
+      "learning_rate": 3.798982080871496e-06,
+      "loss": 0.863006,
+      "num_input_tokens_seen": 29752960,
+      "step": 1411,
+      "time_per_iteration": 2.6967320442199707
+    },
+    {
+      "auxiliary_loss_clip": 0.01230293,
+      "auxiliary_loss_mlp": 0.01038112,
+      "balance_loss_clip": 1.06404316,
+      "balance_loss_mlp": 1.02716291,
+      "epoch": 0.16978296158239645,
+      "flos": 37487328284160.0,
+      "grad_norm": 2.0248872061086747,
+      "language_loss": 0.67724407,
+      "learning_rate": 3.798641581176349e-06,
+      "loss": 0.6999281,
+      "num_input_tokens_seen": 29775240,
+      "step": 1412,
+      "time_per_iteration": 2.698676109313965
+    },
+    {
+      "auxiliary_loss_clip": 0.01244702,
+      "auxiliary_loss_mlp": 0.01034617,
+      "balance_loss_clip": 1.06027508,
+      "balance_loss_mlp": 1.0243175,
+      "epoch": 0.16990320447303553,
+      "flos": 28328958506880.0,
+      "grad_norm": 1.9630117610510192,
+      "language_loss": 0.74425399,
+      "learning_rate": 3.7983008086287044e-06,
+      "loss": 0.76704723,
+      "num_input_tokens_seen": 29796560,
+      "step": 1413,
+      "time_per_iteration": 2.732853651046753
+    },
+    {
+      "auxiliary_loss_clip": 0.01241792,
+      "auxiliary_loss_mlp": 0.01035377,
+      "balance_loss_clip": 1.05950797,
+      "balance_loss_mlp": 1.02405775,
+      "epoch": 0.1700234473636746,
+      "flos": 20188189031040.0,
+      "grad_norm": 2.1723966020831584,
+      "language_loss": 0.79444063,
+      "learning_rate": 3.797959763280257e-06,
+      "loss": 0.81721234,
+      "num_input_tokens_seen": 29815245,
+      "step": 1414,
+      "time_per_iteration": 2.6305739879608154
+    },
+    {
+      "auxiliary_loss_clip": 0.01240268,
+      "auxiliary_loss_mlp": 0.010341,
+      "balance_loss_clip": 1.06443381,
+      "balance_loss_mlp": 1.02391958,
+      "epoch": 0.17014369025431372,
+      "flos": 24858658846080.0,
+      "grad_norm": 1.960525287404172,
+      "language_loss": 0.79309207,
+      "learning_rate": 3.797618445182743e-06,
+      "loss": 0.81583571,
+      "num_input_tokens_seen": 29836640,
+      "step": 1415,
+      "time_per_iteration": 2.763334035873413
+    },
+    {
+      "auxiliary_loss_clip": 0.01252207,
+      "auxiliary_loss_mlp": 0.01041313,
+      "balance_loss_clip": 1.05407047,
+      "balance_loss_mlp": 1.02976131,
+      "epoch": 0.1702639331449528,
+      "flos": 16467233287680.0,
+      "grad_norm": 2.046179779576239,
+      "language_loss": 0.85007679,
+      "learning_rate": 3.79727685438794e-06,
+      "loss": 0.87301195,
+      "num_input_tokens_seen": 29850830,
+      "step": 1416,
+      "time_per_iteration": 2.6967010498046875
+    },
+    {
+      "auxiliary_loss_clip": 0.01142098,
+      "auxiliary_loss_mlp": 0.01007609,
+      "balance_loss_clip": 1.03775668,
+      "balance_loss_mlp": 1.00489068,
+      "epoch": 0.1703841760355919,
+      "flos": 52508870979840.0,
+      "grad_norm": 0.8382142031767728,
+      "language_loss": 0.61653489,
+      "learning_rate": 3.796934990947667e-06,
+      "loss": 0.63803196,
+      "num_input_tokens_seen": 29912515,
+      "step": 1417,
+      "time_per_iteration": 3.2530908584594727
+    },
+    {
+      "auxiliary_loss_clip": 0.01141623,
+      "auxiliary_loss_mlp": 0.01004183,
+      "balance_loss_clip": 1.03817225,
+      "balance_loss_mlp": 1.00157261,
+      "epoch": 0.170504418926231,
+      "flos": 49370637576960.0,
+      "grad_norm": 0.8776078217973854,
+      "language_loss": 0.62499779,
+      "learning_rate": 3.7965928549137854e-06,
+      "loss": 0.64645588,
+      "num_input_tokens_seen": 29969330,
+      "step": 1418,
+      "time_per_iteration": 3.175645589828491
+    },
+    {
+      "auxiliary_loss_clip": 0.01255577,
+      "auxiliary_loss_mlp": 0.01044459,
+      "balance_loss_clip": 1.05485284,
+      "balance_loss_mlp": 1.03262746,
+      "epoch": 0.17062466181687008,
+      "flos": 25849219184640.0,
+      "grad_norm": 1.9908122145038711,
+      "language_loss": 0.77927965,
+      "learning_rate": 3.7962504463381953e-06,
+      "loss": 0.80228007,
+      "num_input_tokens_seen": 29990820,
+      "step": 1419,
+      "time_per_iteration": 3.6623916625976562
+    },
+    {
+      "auxiliary_loss_clip": 0.01233381,
+      "auxiliary_loss_mlp": 0.01382384,
+      "balance_loss_clip": 1.05871391,
+      "balance_loss_mlp": 1.00061464,
+      "epoch": 0.17074490470750917,
+      "flos": 20960412549120.0,
+      "grad_norm": 1.7106947797021865,
+      "language_loss": 0.78854895,
+      "learning_rate": 3.7959077652728412e-06,
+      "loss": 0.81470656,
+      "num_input_tokens_seen": 30009275,
+      "step": 1420,
+      "time_per_iteration": 2.696183443069458
+    },
+    {
+      "auxiliary_loss_clip": 0.01246821,
+      "auxiliary_loss_mlp": 0.01034856,
+      "balance_loss_clip": 1.06046867,
+      "balance_loss_mlp": 1.0242877,
+      "epoch": 0.17086514759814825,
+      "flos": 20959766104320.0,
+      "grad_norm": 1.9516783835437739,
+      "language_loss": 0.77487648,
+      "learning_rate": 3.795564811769707e-06,
+      "loss": 0.79769325,
+      "num_input_tokens_seen": 30027630,
+      "step": 1421,
+      "time_per_iteration": 2.685779094696045
+    },
+    {
+      "auxiliary_loss_clip": 0.01249928,
+      "auxiliary_loss_mlp": 0.01036043,
+      "balance_loss_clip": 1.0663327,
+      "balance_loss_mlp": 1.02598739,
+      "epoch": 0.17098539048878736,
+      "flos": 28474073452800.0,
+      "grad_norm": 2.2262360073842826,
+      "language_loss": 0.78106207,
+      "learning_rate": 3.795221585880818e-06,
+      "loss": 0.8039217,
+      "num_input_tokens_seen": 30048310,
+      "step": 1422,
+      "time_per_iteration": 3.5796585083007812
+    },
+    {
+      "auxiliary_loss_clip": 0.01254789,
+      "auxiliary_loss_mlp": 0.01043791,
+      "balance_loss_clip": 1.06293726,
+      "balance_loss_mlp": 1.03314543,
+      "epoch": 0.17110563337942644,
+      "flos": 16290014561280.0,
+      "grad_norm": 1.783939674655806,
+      "language_loss": 0.90964532,
+      "learning_rate": 3.794878087658242e-06,
+      "loss": 0.93263108,
+      "num_input_tokens_seen": 30066080,
+      "step": 1423,
+      "time_per_iteration": 3.6446568965911865
+    },
+    {
+      "auxiliary_loss_clip": 0.01234918,
+      "auxiliary_loss_mlp": 0.0103887,
+      "balance_loss_clip": 1.05887604,
+      "balance_loss_mlp": 1.0286057,
+      "epoch": 0.17122587627006552,
+      "flos": 29674207693440.0,
+      "grad_norm": 2.6003069327416646,
+      "language_loss": 0.78705496,
+      "learning_rate": 3.7945343171540873e-06,
+      "loss": 0.80979288,
+      "num_input_tokens_seen": 30086955,
+      "step": 1424,
+      "time_per_iteration": 3.6843390464782715
+    },
+    {
+      "auxiliary_loss_clip": 0.01230584,
+      "auxiliary_loss_mlp": 0.01041587,
+      "balance_loss_clip": 1.06466246,
+      "balance_loss_mlp": 1.03016663,
+      "epoch": 0.17134611916070464,
+      "flos": 25338389915520.0,
+      "grad_norm": 1.8532314131208842,
+      "language_loss": 0.78850007,
+      "learning_rate": 3.7941902744205033e-06,
+      "loss": 0.81122172,
+      "num_input_tokens_seen": 30107990,
+      "step": 1425,
+      "time_per_iteration": 2.6942074298858643
+    },
+    {
+      "auxiliary_loss_clip": 0.01250041,
+      "auxiliary_loss_mlp": 0.01039797,
+      "balance_loss_clip": 1.06255865,
+      "balance_loss_mlp": 1.02874589,
+      "epoch": 0.17146636205134372,
+      "flos": 13953845900160.0,
+      "grad_norm": 2.0437522541425053,
+      "language_loss": 0.83385539,
+      "learning_rate": 3.7938459595096817e-06,
+      "loss": 0.85675377,
+      "num_input_tokens_seen": 30126535,
+      "step": 1426,
+      "time_per_iteration": 2.682443857192993
+    },
+    {
+      "auxiliary_loss_clip": 0.01241362,
+      "auxiliary_loss_mlp": 0.01039795,
+      "balance_loss_clip": 1.06182003,
+      "balance_loss_mlp": 1.0274266,
+      "epoch": 0.1715866049419828,
+      "flos": 23915214172800.0,
+      "grad_norm": 3.4308398773941025,
+      "language_loss": 0.86312151,
+      "learning_rate": 3.7935013724738545e-06,
+      "loss": 0.88593304,
+      "num_input_tokens_seen": 30147035,
+      "step": 1427,
+      "time_per_iteration": 2.739349603652954
+    },
+    {
+      "auxiliary_loss_clip": 0.0123023,
+      "auxiliary_loss_mlp": 0.01032988,
+      "balance_loss_clip": 1.05992723,
+      "balance_loss_mlp": 1.02212167,
+      "epoch": 0.17170684783262188,
+      "flos": 22709369669760.0,
+      "grad_norm": 2.049872190671265,
+      "language_loss": 0.78043836,
+      "learning_rate": 3.7931565133652945e-06,
+      "loss": 0.80307055,
+      "num_input_tokens_seen": 30167110,
+      "step": 1428,
+      "time_per_iteration": 2.9186816215515137
+    },
+    {
+      "auxiliary_loss_clip": 0.01228845,
+      "auxiliary_loss_mlp": 0.01043398,
+      "balance_loss_clip": 1.06306171,
+      "balance_loss_mlp": 1.03266299,
+      "epoch": 0.171827090723261,
+      "flos": 26613290315520.0,
+      "grad_norm": 2.709022099032585,
+      "language_loss": 0.67641389,
+      "learning_rate": 3.792811382236317e-06,
+      "loss": 0.69913638,
+      "num_input_tokens_seen": 30185620,
+      "step": 1429,
+      "time_per_iteration": 2.6466944217681885
+    },
+    {
+      "auxiliary_loss_clip": 0.01239086,
+      "auxiliary_loss_mlp": 0.01035278,
+      "balance_loss_clip": 1.0607276,
+      "balance_loss_mlp": 1.02510357,
+      "epoch": 0.17194733361390008,
+      "flos": 28148507556480.0,
+      "grad_norm": 3.186707926590084,
+      "language_loss": 0.78318977,
+      "learning_rate": 3.792465979139279e-06,
+      "loss": 0.80593342,
+      "num_input_tokens_seen": 30208225,
+      "step": 1430,
+      "time_per_iteration": 2.7551400661468506
+    },
+    {
+      "auxiliary_loss_clip": 0.01157542,
+      "auxiliary_loss_mlp": 0.01011358,
+      "balance_loss_clip": 1.03325844,
+      "balance_loss_mlp": 1.00889015,
+      "epoch": 0.17206757650453916,
+      "flos": 65530689753600.0,
+      "grad_norm": 0.9201220996590606,
+      "language_loss": 0.6565457,
+      "learning_rate": 3.792120304126576e-06,
+      "loss": 0.6782347,
+      "num_input_tokens_seen": 30271600,
+      "step": 1431,
+      "time_per_iteration": 3.3488457202911377
+    },
+    {
+      "auxiliary_loss_clip": 0.01278826,
+      "auxiliary_loss_mlp": 0.0103603,
+      "balance_loss_clip": 1.05300605,
+      "balance_loss_mlp": 1.02598107,
+      "epoch": 0.17218781939517827,
+      "flos": 22273486128000.0,
+      "grad_norm": 3.666717153646395,
+      "language_loss": 0.83386087,
+      "learning_rate": 3.791774357250649e-06,
+      "loss": 0.85700947,
+      "num_input_tokens_seen": 30290430,
+      "step": 1432,
+      "time_per_iteration": 3.4250335693359375
+    },
+    {
+      "auxiliary_loss_clip": 0.01242035,
+      "auxiliary_loss_mlp": 0.01046351,
+      "balance_loss_clip": 1.0607177,
+      "balance_loss_mlp": 1.03556836,
+      "epoch": 0.17230806228581735,
+      "flos": 14137313592960.0,
+      "grad_norm": 3.4992848602113646,
+      "language_loss": 0.79189992,
+      "learning_rate": 3.7914281385639757e-06,
+      "loss": 0.81478375,
+      "num_input_tokens_seen": 30308305,
+      "step": 1433,
+      "time_per_iteration": 2.771554470062256
+    },
+    {
+      "auxiliary_loss_clip": 0.01233649,
+      "auxiliary_loss_mlp": 0.01029859,
+      "balance_loss_clip": 1.05787182,
+      "balance_loss_mlp": 1.01940429,
+      "epoch": 0.17242830517645644,
+      "flos": 20704836303360.0,
+      "grad_norm": 1.7600172800320564,
+      "language_loss": 0.79359865,
+      "learning_rate": 3.7910816481190784e-06,
+      "loss": 0.81623375,
+      "num_input_tokens_seen": 30328120,
+      "step": 1434,
+      "time_per_iteration": 2.690605640411377
+    },
+    {
+      "auxiliary_loss_clip": 0.01231369,
+      "auxiliary_loss_mlp": 0.01037454,
+      "balance_loss_clip": 1.05775416,
+      "balance_loss_mlp": 1.02618885,
+      "epoch": 0.17254854806709552,
+      "flos": 30774582887040.0,
+      "grad_norm": 1.9746673937993962,
+      "language_loss": 0.74777138,
+      "learning_rate": 3.7907348859685193e-06,
+      "loss": 0.77045965,
+      "num_input_tokens_seen": 30349825,
+      "step": 1435,
+      "time_per_iteration": 2.8297369480133057
+    },
+    {
+      "auxiliary_loss_clip": 0.01229586,
+      "auxiliary_loss_mlp": 0.01033752,
+      "balance_loss_clip": 1.06191778,
+      "balance_loss_mlp": 1.02327943,
+      "epoch": 0.17266879095773463,
+      "flos": 26614726859520.0,
+      "grad_norm": 1.9730575793759146,
+      "language_loss": 0.80480373,
+      "learning_rate": 3.790387852164902e-06,
+      "loss": 0.82743704,
+      "num_input_tokens_seen": 30370555,
+      "step": 1436,
+      "time_per_iteration": 2.709707021713257
+    },
+    {
+      "auxiliary_loss_clip": 0.01238964,
+      "auxiliary_loss_mlp": 0.01038794,
+      "balance_loss_clip": 1.06318879,
+      "balance_loss_mlp": 1.02832723,
+      "epoch": 0.1727890338483737,
+      "flos": 20266295155200.0,
+      "grad_norm": 1.7417055734577653,
+      "language_loss": 0.76784599,
+      "learning_rate": 3.7900405467608707e-06,
+      "loss": 0.79062355,
+      "num_input_tokens_seen": 30390100,
+      "step": 1437,
+      "time_per_iteration": 2.678910493850708
+    },
+    {
+      "auxiliary_loss_clip": 0.01231802,
+      "auxiliary_loss_mlp": 0.01042378,
+      "balance_loss_clip": 1.04779625,
+      "balance_loss_mlp": 1.03139257,
+      "epoch": 0.1729092767390128,
+      "flos": 18179812909440.0,
+      "grad_norm": 3.048525168473818,
+      "language_loss": 0.78676689,
+      "learning_rate": 3.7896929698091114e-06,
+      "loss": 0.80950868,
+      "num_input_tokens_seen": 30402915,
+      "step": 1438,
+      "time_per_iteration": 2.706895112991333
+    },
+    {
+      "auxiliary_loss_clip": 0.01229862,
+      "auxiliary_loss_mlp": 0.01040844,
+      "balance_loss_clip": 1.06573212,
+      "balance_loss_mlp": 1.03047919,
+      "epoch": 0.1730295196296519,
+      "flos": 26759518583040.0,
+      "grad_norm": 4.869688436756144,
+      "language_loss": 0.68082082,
+      "learning_rate": 3.7893451213623518e-06,
+      "loss": 0.70352793,
+      "num_input_tokens_seen": 30420145,
+      "step": 1439,
+      "time_per_iteration": 2.641766309738159
+    },
+    {
+      "auxiliary_loss_clip": 0.01235166,
+      "auxiliary_loss_mlp": 0.01381821,
+      "balance_loss_clip": 1.06346488,
+      "balance_loss_mlp": 1.00041056,
+      "epoch": 0.173149762520291,
+      "flos": 23842531002240.0,
+      "grad_norm": 2.2180481744650864,
+      "language_loss": 0.8226639,
+      "learning_rate": 3.7889970014733606e-06,
+      "loss": 0.84883374,
+      "num_input_tokens_seen": 30439250,
+      "step": 1440,
+      "time_per_iteration": 2.902454137802124
+    },
+    {
+      "auxiliary_loss_clip": 0.01235407,
+      "auxiliary_loss_mlp": 0.01040597,
+      "balance_loss_clip": 1.05220497,
+      "balance_loss_mlp": 1.0303092,
+      "epoch": 0.17327000541093007,
+      "flos": 23368186972800.0,
+      "grad_norm": 1.6833992379878302,
+      "language_loss": 0.77827168,
+      "learning_rate": 3.7886486101949463e-06,
+      "loss": 0.80103171,
+      "num_input_tokens_seen": 30460430,
+      "step": 1441,
+      "time_per_iteration": 2.759709119796753
+    },
+    {
+      "auxiliary_loss_clip": 0.01239637,
+      "auxiliary_loss_mlp": 0.01038479,
+      "balance_loss_clip": 1.05239487,
+      "balance_loss_mlp": 1.02853703,
+      "epoch": 0.17339024830156918,
+      "flos": 18221290139520.0,
+      "grad_norm": 1.8961654170270696,
+      "language_loss": 0.87948525,
+      "learning_rate": 3.7882999475799594e-06,
+      "loss": 0.90226644,
+      "num_input_tokens_seen": 30478465,
+      "step": 1442,
+      "time_per_iteration": 2.6934053897857666
+    },
+    {
+      "auxiliary_loss_clip": 0.01234445,
+      "auxiliary_loss_mlp": 0.01040023,
+      "balance_loss_clip": 1.05404198,
+      "balance_loss_mlp": 1.02954423,
+      "epoch": 0.17351049119220827,
+      "flos": 23332024955520.0,
+      "grad_norm": 1.9570269594609566,
+      "language_loss": 0.81329334,
+      "learning_rate": 3.787951013681293e-06,
+      "loss": 0.83603799,
+      "num_input_tokens_seen": 30496510,
+      "step": 1443,
+      "time_per_iteration": 2.783843755722046
+    },
+    {
+      "auxiliary_loss_clip": 0.01232214,
+      "auxiliary_loss_mlp": 0.01041981,
+      "balance_loss_clip": 1.06137085,
+      "balance_loss_mlp": 1.03012538,
+      "epoch": 0.17363073408284735,
+      "flos": 23803495896960.0,
+      "grad_norm": 5.928252727618891,
+      "language_loss": 0.77654743,
+      "learning_rate": 3.787601808551879e-06,
+      "loss": 0.79928941,
+      "num_input_tokens_seen": 30516325,
+      "step": 1444,
+      "time_per_iteration": 3.6301369667053223
+    },
+    {
+      "auxiliary_loss_clip": 0.0125209,
+      "auxiliary_loss_mlp": 0.01044573,
+      "balance_loss_clip": 1.05966532,
+      "balance_loss_mlp": 1.03410053,
+      "epoch": 0.17375097697348643,
+      "flos": 18515290959360.0,
+      "grad_norm": 2.2138462830633387,
+      "language_loss": 0.83763099,
+      "learning_rate": 3.7872523322446926e-06,
+      "loss": 0.86059761,
+      "num_input_tokens_seen": 30535210,
+      "step": 1445,
+      "time_per_iteration": 2.74275279045105
+    },
+    {
+      "auxiliary_loss_clip": 0.01262062,
+      "auxiliary_loss_mlp": 0.01036891,
+      "balance_loss_clip": 1.05287266,
+      "balance_loss_mlp": 1.02715135,
+      "epoch": 0.17387121986412554,
+      "flos": 38877897456000.0,
+      "grad_norm": 2.453818869507688,
+      "language_loss": 0.60232723,
+      "learning_rate": 3.7869025848127478e-06,
+      "loss": 0.6253168,
+      "num_input_tokens_seen": 30559405,
+      "step": 1446,
+      "time_per_iteration": 2.991410732269287
+    },
+    {
+      "auxiliary_loss_clip": 0.01236272,
+      "auxiliary_loss_mlp": 0.01037216,
+      "balance_loss_clip": 1.06112409,
+      "balance_loss_mlp": 1.02672553,
+      "epoch": 0.17399146275476463,
+      "flos": 20375714960640.0,
+      "grad_norm": 2.841977203884939,
+      "language_loss": 0.80950606,
+      "learning_rate": 3.786552566309102e-06,
+      "loss": 0.83224094,
+      "num_input_tokens_seen": 30577615,
+      "step": 1447,
+      "time_per_iteration": 2.6662395000457764
+    },
+    {
+      "auxiliary_loss_clip": 0.0123983,
+      "auxiliary_loss_mlp": 0.01381125,
+      "balance_loss_clip": 1.06269073,
+      "balance_loss_mlp": 1.00027156,
+      "epoch": 0.1741117056454037,
+      "flos": 19164339763200.0,
+      "grad_norm": 2.575452913866764,
+      "language_loss": 0.85465741,
+      "learning_rate": 3.7862022767868517e-06,
+      "loss": 0.88086694,
+      "num_input_tokens_seen": 30595205,
+      "step": 1448,
+      "time_per_iteration": 3.8646156787872314
+    },
+    {
+      "auxiliary_loss_clip": 0.01247938,
+      "auxiliary_loss_mlp": 0.01042283,
+      "balance_loss_clip": 1.06221545,
+      "balance_loss_mlp": 1.03206706,
+      "epoch": 0.17423194853604282,
+      "flos": 25374300537600.0,
+      "grad_norm": 1.9711615695778673,
+      "language_loss": 0.84047961,
+      "learning_rate": 3.7858517162991367e-06,
+      "loss": 0.8633818,
+      "num_input_tokens_seen": 30615280,
+      "step": 1449,
+      "time_per_iteration": 3.66196346282959
+    },
+    {
+      "auxiliary_loss_clip": 0.01249853,
+      "auxiliary_loss_mlp": 0.01035872,
+      "balance_loss_clip": 1.05708003,
+      "balance_loss_mlp": 1.02576911,
+      "epoch": 0.1743521914266819,
+      "flos": 25191874339200.0,
+      "grad_norm": 2.463197704570653,
+      "language_loss": 0.61025518,
+      "learning_rate": 3.7855008848991363e-06,
+      "loss": 0.63311243,
+      "num_input_tokens_seen": 30633485,
+      "step": 1450,
+      "time_per_iteration": 3.737910270690918
+    },
+    {
+      "auxiliary_loss_clip": 0.01237736,
+      "auxiliary_loss_mlp": 0.01038323,
+      "balance_loss_clip": 1.06076288,
+      "balance_loss_mlp": 1.02836323,
+      "epoch": 0.17447243431732098,
+      "flos": 25666577504640.0,
+      "grad_norm": 2.031236842377336,
+      "language_loss": 0.77769381,
+      "learning_rate": 3.7851497826400714e-06,
+      "loss": 0.80045438,
+      "num_input_tokens_seen": 30653625,
+      "step": 1451,
+      "time_per_iteration": 2.661381721496582
+    },
+    {
+      "auxiliary_loss_clip": 0.01228429,
+      "auxiliary_loss_mlp": 0.01035326,
+      "balance_loss_clip": 1.0656966,
+      "balance_loss_mlp": 1.024019,
+      "epoch": 0.17459267720796007,
+      "flos": 36281950657920.0,
+      "grad_norm": 1.831841746838739,
+      "language_loss": 0.76170552,
+      "learning_rate": 3.7847984095752034e-06,
+      "loss": 0.78434306,
+      "num_input_tokens_seen": 30677080,
+      "step": 1452,
+      "time_per_iteration": 2.727843999862671
+    },
+    {
+      "auxiliary_loss_clip": 0.01225726,
+      "auxiliary_loss_mlp": 0.01037763,
+      "balance_loss_clip": 1.06297433,
+      "balance_loss_mlp": 1.02796388,
+      "epoch": 0.17471292009859918,
+      "flos": 20011113959040.0,
+      "grad_norm": 12.819032573544042,
+      "language_loss": 0.8013804,
+      "learning_rate": 3.784446765757836e-06,
+      "loss": 0.82401526,
+      "num_input_tokens_seen": 30695725,
+      "step": 1453,
+      "time_per_iteration": 2.575303554534912
+    },
+    {
+      "auxiliary_loss_clip": 0.01225033,
+      "auxiliary_loss_mlp": 0.01038866,
+      "balance_loss_clip": 1.05342674,
+      "balance_loss_mlp": 1.02769566,
+      "epoch": 0.17483316298923826,
+      "flos": 27819242559360.0,
+      "grad_norm": 2.3762743924244374,
+      "language_loss": 0.78051454,
+      "learning_rate": 3.7840948512413133e-06,
+      "loss": 0.80315351,
+      "num_input_tokens_seen": 30713310,
+      "step": 1454,
+      "time_per_iteration": 2.7374441623687744
+    },
+    {
+      "auxiliary_loss_clip": 0.01245532,
+      "auxiliary_loss_mlp": 0.01042513,
+      "balance_loss_clip": 1.0598681,
+      "balance_loss_mlp": 1.03138459,
+      "epoch": 0.17495340587987734,
+      "flos": 44017934791680.0,
+      "grad_norm": 1.8557488272531872,
+      "language_loss": 0.7863971,
+      "learning_rate": 3.7837426660790196e-06,
+      "loss": 0.80927753,
+      "num_input_tokens_seen": 30734725,
+      "step": 1455,
+      "time_per_iteration": 2.9281342029571533
+    },
+    {
+      "auxiliary_loss_clip": 0.01225086,
+      "auxiliary_loss_mlp": 0.01033282,
+      "balance_loss_clip": 1.06299329,
+      "balance_loss_mlp": 1.02377546,
+      "epoch": 0.17507364877051645,
+      "flos": 20885825957760.0,
+      "grad_norm": 1.9290274275841843,
+      "language_loss": 0.82005686,
+      "learning_rate": 3.783390210324382e-06,
+      "loss": 0.84264052,
+      "num_input_tokens_seen": 30754450,
+      "step": 1456,
+      "time_per_iteration": 2.5959391593933105
+    },
+    {
+      "auxiliary_loss_clip": 0.01250152,
+      "auxiliary_loss_mlp": 0.01039116,
+      "balance_loss_clip": 1.06090021,
+      "balance_loss_mlp": 1.02919829,
+      "epoch": 0.17519389166115554,
+      "flos": 24717602136960.0,
+      "grad_norm": 2.6843336555266224,
+      "language_loss": 0.72450191,
+      "learning_rate": 3.7830374840308676e-06,
+      "loss": 0.74739462,
+      "num_input_tokens_seen": 30774605,
+      "step": 1457,
+      "time_per_iteration": 2.7080941200256348
+    },
+    {
+      "auxiliary_loss_clip": 0.01236268,
+      "auxiliary_loss_mlp": 0.01033675,
+      "balance_loss_clip": 1.06399298,
+      "balance_loss_mlp": 1.02348316,
+      "epoch": 0.17531413455179462,
+      "flos": 23798144770560.0,
+      "grad_norm": 2.6959253547740225,
+      "language_loss": 0.82603312,
+      "learning_rate": 3.7826844872519842e-06,
+      "loss": 0.84873259,
+      "num_input_tokens_seen": 30792460,
+      "step": 1458,
+      "time_per_iteration": 2.666579484939575
+    },
+    {
+      "auxiliary_loss_clip": 0.0123945,
+      "auxiliary_loss_mlp": 0.01034069,
+      "balance_loss_clip": 1.06179595,
+      "balance_loss_mlp": 1.02420998,
+      "epoch": 0.1754343774424337,
+      "flos": 24572379450240.0,
+      "grad_norm": 1.9995516694176123,
+      "language_loss": 0.72693837,
+      "learning_rate": 3.782331220041282e-06,
+      "loss": 0.74967355,
+      "num_input_tokens_seen": 30812525,
+      "step": 1459,
+      "time_per_iteration": 2.759674549102783
+    },
+    {
+      "auxiliary_loss_clip": 0.0125882,
+      "auxiliary_loss_mlp": 0.01040679,
+      "balance_loss_clip": 1.05934465,
+      "balance_loss_mlp": 1.02944386,
+      "epoch": 0.17555462033307281,
+      "flos": 18114599767680.0,
+      "grad_norm": 2.7235515629820046,
+      "language_loss": 0.83210081,
+      "learning_rate": 3.7819776824523504e-06,
+      "loss": 0.8550958,
+      "num_input_tokens_seen": 30830390,
+      "step": 1460,
+      "time_per_iteration": 2.7024941444396973
+    },
+    {
+      "auxiliary_loss_clip": 0.01248693,
+      "auxiliary_loss_mlp": 0.01043578,
+      "balance_loss_clip": 1.06108284,
+      "balance_loss_mlp": 1.03203869,
+      "epoch": 0.1756748632237119,
+      "flos": 28366018364160.0,
+      "grad_norm": 2.116957275908154,
+      "language_loss": 0.83752042,
+      "learning_rate": 3.7816238745388213e-06,
+      "loss": 0.86044312,
+      "num_input_tokens_seen": 30849935,
+      "step": 1461,
+      "time_per_iteration": 2.7612240314483643
+    },
+    {
+      "auxiliary_loss_clip": 0.01244477,
+      "auxiliary_loss_mlp": 0.01036808,
+      "balance_loss_clip": 1.05797505,
+      "balance_loss_mlp": 1.0274446,
+      "epoch": 0.17579510611435098,
+      "flos": 25732939881600.0,
+      "grad_norm": 2.197570483492395,
+      "language_loss": 0.87005216,
+      "learning_rate": 3.781269796354367e-06,
+      "loss": 0.89286506,
+      "num_input_tokens_seen": 30869555,
+      "step": 1462,
+      "time_per_iteration": 2.7088396549224854
+    },
+    {
+      "auxiliary_loss_clip": 0.01244344,
+      "auxiliary_loss_mlp": 0.01045966,
+      "balance_loss_clip": 1.0626086,
+      "balance_loss_mlp": 1.03496933,
+      "epoch": 0.1759153490049901,
+      "flos": 18588081870720.0,
+      "grad_norm": 1.7061489689467335,
+      "language_loss": 0.86039716,
+      "learning_rate": 3.7809154479527006e-06,
+      "loss": 0.8833003,
+      "num_input_tokens_seen": 30888760,
+      "step": 1463,
+      "time_per_iteration": 2.689037561416626
+    },
+    {
+      "auxiliary_loss_clip": 0.01241798,
+      "auxiliary_loss_mlp": 0.01038563,
+      "balance_loss_clip": 1.05884242,
+      "balance_loss_mlp": 1.02864516,
+      "epoch": 0.17603559189562917,
+      "flos": 18619323724800.0,
+      "grad_norm": 2.1223764468907063,
+      "language_loss": 0.84623957,
+      "learning_rate": 3.780560829387577e-06,
+      "loss": 0.86904317,
+      "num_input_tokens_seen": 30907260,
+      "step": 1464,
+      "time_per_iteration": 2.70805287361145
+    },
+    {
+      "auxiliary_loss_clip": 0.01137839,
+      "auxiliary_loss_mlp": 0.01000246,
+      "balance_loss_clip": 1.03495336,
+      "balance_loss_mlp": 0.99780226,
+      "epoch": 0.17615583478626826,
+      "flos": 60530775373440.0,
+      "grad_norm": 0.8534514732617525,
+      "language_loss": 0.57922482,
+      "learning_rate": 3.7802059407127915e-06,
+      "loss": 0.60060561,
+      "num_input_tokens_seen": 30965810,
+      "step": 1465,
+      "time_per_iteration": 3.191629409790039
+    },
+    {
+      "auxiliary_loss_clip": 0.01231672,
+      "auxiliary_loss_mlp": 0.01032685,
+      "balance_loss_clip": 1.05606556,
+      "balance_loss_mlp": 1.02258229,
+      "epoch": 0.17627607767690734,
+      "flos": 23616221362560.0,
+      "grad_norm": 1.992210659847845,
+      "language_loss": 0.86162174,
+      "learning_rate": 3.7798507819821797e-06,
+      "loss": 0.8842653,
+      "num_input_tokens_seen": 30982935,
+      "step": 1466,
+      "time_per_iteration": 2.7208423614501953
+    },
+    {
+      "auxiliary_loss_clip": 0.01240042,
+      "auxiliary_loss_mlp": 0.01039275,
+      "balance_loss_clip": 1.05882096,
+      "balance_loss_mlp": 1.02893972,
+      "epoch": 0.17639632056754645,
+      "flos": 17639070589440.0,
+      "grad_norm": 2.6240976315397453,
+      "language_loss": 0.79168695,
+      "learning_rate": 3.7794953532496197e-06,
+      "loss": 0.81448013,
+      "num_input_tokens_seen": 30998840,
+      "step": 1467,
+      "time_per_iteration": 2.6789045333862305
+    },
+    {
+      "auxiliary_loss_clip": 0.01164761,
+      "auxiliary_loss_mlp": 0.01376529,
+      "balance_loss_clip": 1.03806806,
+      "balance_loss_mlp": 0.99991208,
+      "epoch": 0.17651656345818553,
+      "flos": 57932604910080.0,
+      "grad_norm": 0.8985418838191094,
+      "language_loss": 0.57962537,
+      "learning_rate": 3.7791396545690295e-06,
+      "loss": 0.60503823,
+      "num_input_tokens_seen": 31060075,
+      "step": 1468,
+      "time_per_iteration": 3.3316023349761963
+    },
+    {
+      "auxiliary_loss_clip": 0.0123207,
+      "auxiliary_loss_mlp": 0.01031573,
+      "balance_loss_clip": 1.06482029,
+      "balance_loss_mlp": 1.02130294,
+      "epoch": 0.17663680634882462,
+      "flos": 22929502170240.0,
+      "grad_norm": 2.3325254093391212,
+      "language_loss": 0.80501485,
+      "learning_rate": 3.7787836859943685e-06,
+      "loss": 0.82765126,
+      "num_input_tokens_seen": 31078800,
+      "step": 1469,
+      "time_per_iteration": 2.6074013710021973
+    },
+    {
+      "auxiliary_loss_clip": 0.01233748,
+      "auxiliary_loss_mlp": 0.01035386,
+      "balance_loss_clip": 1.06242406,
+      "balance_loss_mlp": 1.02489531,
+      "epoch": 0.17675704923946373,
+      "flos": 22637979388800.0,
+      "grad_norm": 2.9261634420932308,
+      "language_loss": 0.78907043,
+      "learning_rate": 3.7784274475796363e-06,
+      "loss": 0.81176186,
+      "num_input_tokens_seen": 31097430,
+      "step": 1470,
+      "time_per_iteration": 3.636002779006958
+    },
+    {
+      "auxiliary_loss_clip": 0.01250106,
+      "auxiliary_loss_mlp": 0.01035594,
+      "balance_loss_clip": 1.05748379,
+      "balance_loss_mlp": 1.02435851,
+      "epoch": 0.1768772921301028,
+      "flos": 27126525795840.0,
+      "grad_norm": 2.165307719761903,
+      "language_loss": 0.76114398,
+      "learning_rate": 3.7780709393788745e-06,
+      "loss": 0.78400099,
+      "num_input_tokens_seen": 31117905,
+      "step": 1471,
+      "time_per_iteration": 2.7614262104034424
+    },
+    {
+      "auxiliary_loss_clip": 0.01223179,
+      "auxiliary_loss_mlp": 0.01039576,
+      "balance_loss_clip": 1.0638181,
+      "balance_loss_mlp": 1.02964544,
+      "epoch": 0.1769975350207419,
+      "flos": 19172133014400.0,
+      "grad_norm": 1.9692303817606533,
+      "language_loss": 0.75063527,
+      "learning_rate": 3.777714161446165e-06,
+      "loss": 0.77326286,
+      "num_input_tokens_seen": 31137610,
+      "step": 1472,
+      "time_per_iteration": 2.6271891593933105
+    },
+    {
+      "auxiliary_loss_clip": 0.01236768,
+      "auxiliary_loss_mlp": 0.01035613,
+      "balance_loss_clip": 1.0651679,
+      "balance_loss_mlp": 1.02608252,
+      "epoch": 0.177117777911381,
+      "flos": 36134932291200.0,
+      "grad_norm": 2.191403048733398,
+      "language_loss": 0.69423407,
+      "learning_rate": 3.7773571138356304e-06,
+      "loss": 0.71695793,
+      "num_input_tokens_seen": 31157780,
+      "step": 1473,
+      "time_per_iteration": 2.828432083129883
+    },
+    {
+      "auxiliary_loss_clip": 0.01241115,
+      "auxiliary_loss_mlp": 0.01030151,
+      "balance_loss_clip": 1.0566237,
+      "balance_loss_mlp": 1.02076304,
+      "epoch": 0.17723802080202009,
+      "flos": 22090593052800.0,
+      "grad_norm": 2.2012732382213165,
+      "language_loss": 0.89031678,
+      "learning_rate": 3.776999796601435e-06,
+      "loss": 0.91302943,
+      "num_input_tokens_seen": 31176540,
+      "step": 1474,
+      "time_per_iteration": 3.627471446990967
+    },
+    {
+      "auxiliary_loss_clip": 0.01237104,
+      "auxiliary_loss_mlp": 0.01035931,
+      "balance_loss_clip": 1.06329966,
+      "balance_loss_mlp": 1.02610207,
+      "epoch": 0.17735826369265917,
+      "flos": 30222671437440.0,
+      "grad_norm": 2.3671675766239897,
+      "language_loss": 0.72403514,
+      "learning_rate": 3.776642209797783e-06,
+      "loss": 0.74676549,
+      "num_input_tokens_seen": 31198370,
+      "step": 1475,
+      "time_per_iteration": 3.812432289123535
+    },
+    {
+      "auxiliary_loss_clip": 0.01224868,
+      "auxiliary_loss_mlp": 0.01033366,
+      "balance_loss_clip": 1.06018615,
+      "balance_loss_mlp": 1.02263677,
+      "epoch": 0.17747850658329825,
+      "flos": 21397588980480.0,
+      "grad_norm": 2.2927708981876855,
+      "language_loss": 0.77884722,
+      "learning_rate": 3.7762843534789205e-06,
+      "loss": 0.80142957,
+      "num_input_tokens_seen": 31217120,
+      "step": 1476,
+      "time_per_iteration": 3.6553423404693604
+    },
+    {
+      "auxiliary_loss_clip": 0.01246638,
+      "auxiliary_loss_mlp": 0.01044333,
+      "balance_loss_clip": 1.06031346,
+      "balance_loss_mlp": 1.03419375,
+      "epoch": 0.17759874947393736,
+      "flos": 16983341856000.0,
+      "grad_norm": 2.8312642243508774,
+      "language_loss": 0.88431382,
+      "learning_rate": 3.7759262276991343e-06,
+      "loss": 0.90722358,
+      "num_input_tokens_seen": 31234730,
+      "step": 1477,
+      "time_per_iteration": 2.646496295928955
+    },
+    {
+      "auxiliary_loss_clip": 0.01245421,
+      "auxiliary_loss_mlp": 0.01034712,
+      "balance_loss_clip": 1.06115663,
+      "balance_loss_mlp": 1.0252645,
+      "epoch": 0.17771899236457644,
+      "flos": 11546107390080.0,
+      "grad_norm": 2.140470177257644,
+      "language_loss": 0.80524153,
+      "learning_rate": 3.7755678325127506e-06,
+      "loss": 0.82804286,
+      "num_input_tokens_seen": 31252410,
+      "step": 1478,
+      "time_per_iteration": 2.694952964782715
+    },
+    {
+      "auxiliary_loss_clip": 0.01251558,
+      "auxiliary_loss_mlp": 0.01034027,
+      "balance_loss_clip": 1.05879116,
+      "balance_loss_mlp": 1.02393007,
+      "epoch": 0.17783923525521553,
+      "flos": 18807747494400.0,
+      "grad_norm": 2.2197318014132916,
+      "language_loss": 0.75858736,
+      "learning_rate": 3.7752091679741393e-06,
+      "loss": 0.78144324,
+      "num_input_tokens_seen": 31270200,
+      "step": 1479,
+      "time_per_iteration": 2.7566070556640625
+    },
+    {
+      "auxiliary_loss_clip": 0.01232889,
+      "auxiliary_loss_mlp": 0.0103845,
+      "balance_loss_clip": 1.06346774,
+      "balance_loss_mlp": 1.02837682,
+      "epoch": 0.17795947814585464,
+      "flos": 30408365773440.0,
+      "grad_norm": 3.4515074522680607,
+      "language_loss": 0.77549154,
+      "learning_rate": 3.774850234137708e-06,
+      "loss": 0.79820496,
+      "num_input_tokens_seen": 31287495,
+      "step": 1480,
+      "time_per_iteration": 2.7120323181152344
+    },
+    {
+      "auxiliary_loss_clip": 0.01225951,
+      "auxiliary_loss_mlp": 0.01032503,
+      "balance_loss_clip": 1.05919659,
+      "balance_loss_mlp": 1.02178001,
+      "epoch": 0.17807972103649372,
+      "flos": 24389055411840.0,
+      "grad_norm": 2.472787032985449,
+      "language_loss": 0.82589281,
+      "learning_rate": 3.7744910310579076e-06,
+      "loss": 0.84847742,
+      "num_input_tokens_seen": 31306420,
+      "step": 1481,
+      "time_per_iteration": 2.6722609996795654
+    },
+    {
+      "auxiliary_loss_clip": 0.01223327,
+      "auxiliary_loss_mlp": 0.01036194,
+      "balance_loss_clip": 1.0642333,
+      "balance_loss_mlp": 1.02608538,
+      "epoch": 0.1781999639271328,
+      "flos": 20301559332480.0,
+      "grad_norm": 3.2679535295233273,
+      "language_loss": 0.85375106,
+      "learning_rate": 3.774131558789229e-06,
+      "loss": 0.87634635,
+      "num_input_tokens_seen": 31325750,
+      "step": 1482,
+      "time_per_iteration": 2.6041219234466553
+    },
+    {
+      "auxiliary_loss_clip": 0.01227459,
+      "auxiliary_loss_mlp": 0.01380726,
+      "balance_loss_clip": 1.06658053,
+      "balance_loss_mlp": 1.00028503,
+      "epoch": 0.1783202068177719,
+      "flos": 15924479806080.0,
+      "grad_norm": 2.393663028552901,
+      "language_loss": 0.69662279,
+      "learning_rate": 3.773771817386203e-06,
+      "loss": 0.72270465,
+      "num_input_tokens_seen": 31343080,
+      "step": 1483,
+      "time_per_iteration": 2.5688366889953613
+    },
+    {
+      "auxiliary_loss_clip": 0.01238464,
+      "auxiliary_loss_mlp": 0.01038883,
+      "balance_loss_clip": 1.05958581,
+      "balance_loss_mlp": 1.0284822,
+      "epoch": 0.178440449708411,
+      "flos": 20631758083200.0,
+      "grad_norm": 1.5919834832506046,
+      "language_loss": 0.79390466,
+      "learning_rate": 3.773411806903403e-06,
+      "loss": 0.81667817,
+      "num_input_tokens_seen": 31362160,
+      "step": 1484,
+      "time_per_iteration": 2.6785285472869873
+    },
+    {
+      "auxiliary_loss_clip": 0.01262373,
+      "auxiliary_loss_mlp": 0.01043432,
+      "balance_loss_clip": 1.05304229,
+      "balance_loss_mlp": 1.03319788,
+      "epoch": 0.17856069259905008,
+      "flos": 21686059105920.0,
+      "grad_norm": 3.791993313592001,
+      "language_loss": 0.94689059,
+      "learning_rate": 3.7730515273954415e-06,
+      "loss": 0.96994859,
+      "num_input_tokens_seen": 31380770,
+      "step": 1485,
+      "time_per_iteration": 2.8039982318878174
+    },
+    {
+      "auxiliary_loss_clip": 0.01225478,
+      "auxiliary_loss_mlp": 0.01042,
+      "balance_loss_clip": 1.06580424,
+      "balance_loss_mlp": 1.0317421,
+      "epoch": 0.17868093548968916,
+      "flos": 26572962320640.0,
+      "grad_norm": 1.8660508874390873,
+      "language_loss": 0.84976971,
+      "learning_rate": 3.772690978916973e-06,
+      "loss": 0.87244451,
+      "num_input_tokens_seen": 31400525,
+      "step": 1486,
+      "time_per_iteration": 2.624284267425537
+    },
+    {
+      "auxiliary_loss_clip": 0.01232721,
+      "auxiliary_loss_mlp": 0.0103052,
+      "balance_loss_clip": 1.06453204,
+      "balance_loss_mlp": 1.02012503,
+      "epoch": 0.17880117838032827,
+      "flos": 18581006891520.0,
+      "grad_norm": 2.2573200281004637,
+      "language_loss": 0.86699641,
+      "learning_rate": 3.772330161522693e-06,
+      "loss": 0.88962883,
+      "num_input_tokens_seen": 31418435,
+      "step": 1487,
+      "time_per_iteration": 2.6687088012695312
+    },
+    {
+      "auxiliary_loss_clip": 0.01238165,
+      "auxiliary_loss_mlp": 0.0104513,
+      "balance_loss_clip": 1.06200135,
+      "balance_loss_mlp": 1.03458548,
+      "epoch": 0.17892142127096736,
+      "flos": 26541217676160.0,
+      "grad_norm": 1.9357913097867148,
+      "language_loss": 0.7964232,
+      "learning_rate": 3.7719690752673365e-06,
+      "loss": 0.81925607,
+      "num_input_tokens_seen": 31439230,
+      "step": 1488,
+      "time_per_iteration": 2.7243340015411377
+    },
+    {
+      "auxiliary_loss_clip": 0.01248657,
+      "auxiliary_loss_mlp": 0.01038329,
+      "balance_loss_clip": 1.0600276,
+      "balance_loss_mlp": 1.02866066,
+      "epoch": 0.17904166416160644,
+      "flos": 23872623621120.0,
+      "grad_norm": 2.2092260895481766,
+      "language_loss": 0.78144217,
+      "learning_rate": 3.7716077202056796e-06,
+      "loss": 0.80431199,
+      "num_input_tokens_seen": 31457705,
+      "step": 1489,
+      "time_per_iteration": 2.7625374794006348
+    },
+    {
+      "auxiliary_loss_clip": 0.0122236,
+      "auxiliary_loss_mlp": 0.01036665,
+      "balance_loss_clip": 1.05839944,
+      "balance_loss_mlp": 1.02635312,
+      "epoch": 0.17916190705224552,
+      "flos": 19134426712320.0,
+      "grad_norm": 2.0538040679913716,
+      "language_loss": 0.93618846,
+      "learning_rate": 3.7712460963925404e-06,
+      "loss": 0.95877874,
+      "num_input_tokens_seen": 31473645,
+      "step": 1490,
+      "time_per_iteration": 2.6756041049957275
+    },
+    {
+      "auxiliary_loss_clip": 0.01229588,
+      "auxiliary_loss_mlp": 0.01035248,
+      "balance_loss_clip": 1.05899882,
+      "balance_loss_mlp": 1.02612865,
+      "epoch": 0.17928214994288463,
+      "flos": 25152120961920.0,
+      "grad_norm": 2.0876673825073326,
+      "language_loss": 0.75328279,
+      "learning_rate": 3.7708842038827775e-06,
+      "loss": 0.77593118,
+      "num_input_tokens_seen": 31492605,
+      "step": 1491,
+      "time_per_iteration": 2.780306577682495
+    },
+    {
+      "auxiliary_loss_clip": 0.01232451,
+      "auxiliary_loss_mlp": 0.01030903,
+      "balance_loss_clip": 1.06214976,
+      "balance_loss_mlp": 1.02150345,
+      "epoch": 0.17940239283352372,
+      "flos": 22384629786240.0,
+      "grad_norm": 2.0715617997414593,
+      "language_loss": 0.85949409,
+      "learning_rate": 3.770522042731288e-06,
+      "loss": 0.88212764,
+      "num_input_tokens_seen": 31514500,
+      "step": 1492,
+      "time_per_iteration": 2.6666274070739746
+    },
+    {
+      "auxiliary_loss_clip": 0.01241661,
+      "auxiliary_loss_mlp": 0.01044305,
+      "balance_loss_clip": 1.05664277,
+      "balance_loss_mlp": 1.03414869,
+      "epoch": 0.1795226357241628,
+      "flos": 23178685795200.0,
+      "grad_norm": 1.931477903697411,
+      "language_loss": 0.87555933,
+      "learning_rate": 3.7701596129930122e-06,
+      "loss": 0.89841902,
+      "num_input_tokens_seen": 31533225,
+      "step": 1493,
+      "time_per_iteration": 2.73946475982666
+    },
+    {
+      "auxiliary_loss_clip": 0.01254939,
+      "auxiliary_loss_mlp": 0.01031372,
+      "balance_loss_clip": 1.05887818,
+      "balance_loss_mlp": 1.02118564,
+      "epoch": 0.1796428786148019,
+      "flos": 22090413484800.0,
+      "grad_norm": 2.070695108733145,
+      "language_loss": 0.73413634,
+      "learning_rate": 3.7697969147229315e-06,
+      "loss": 0.75699949,
+      "num_input_tokens_seen": 31551385,
+      "step": 1494,
+      "time_per_iteration": 2.714667558670044
+    },
+    {
+      "auxiliary_loss_clip": 0.01231042,
+      "auxiliary_loss_mlp": 0.01035739,
+      "balance_loss_clip": 1.06327009,
+      "balance_loss_mlp": 1.02630949,
+      "epoch": 0.179763121505441,
+      "flos": 21324618501120.0,
+      "grad_norm": 1.8938081018501278,
+      "language_loss": 0.85327303,
+      "learning_rate": 3.7694339479760647e-06,
+      "loss": 0.87594092,
+      "num_input_tokens_seen": 31570415,
+      "step": 1495,
+      "time_per_iteration": 2.621367931365967
+    },
+    {
+      "auxiliary_loss_clip": 0.01143386,
+      "auxiliary_loss_mlp": 0.01010508,
+      "balance_loss_clip": 1.03297031,
+      "balance_loss_mlp": 1.00795674,
+      "epoch": 0.17988336439608008,
+      "flos": 68161864815360.0,
+      "grad_norm": 0.7813530105864278,
+      "language_loss": 0.57324457,
+      "learning_rate": 3.769070712807476e-06,
+      "loss": 0.59478348,
+      "num_input_tokens_seen": 31632445,
+      "step": 1496,
+      "time_per_iteration": 4.250871896743774
+    },
+    {
+      "auxiliary_loss_clip": 0.01250618,
+      "auxiliary_loss_mlp": 0.01037358,
+      "balance_loss_clip": 1.054389,
+      "balance_loss_mlp": 1.02794051,
+      "epoch": 0.18000360728671919,
+      "flos": 21945047143680.0,
+      "grad_norm": 1.7800556697467853,
+      "language_loss": 0.78841126,
+      "learning_rate": 3.768707209272266e-06,
+      "loss": 0.81129098,
+      "num_input_tokens_seen": 31652575,
+      "step": 1497,
+      "time_per_iteration": 2.804029941558838
+    },
+    {
+      "auxiliary_loss_clip": 0.01229124,
+      "auxiliary_loss_mlp": 0.0103324,
+      "balance_loss_clip": 1.05657208,
+      "balance_loss_mlp": 1.02341735,
+      "epoch": 0.18012385017735827,
+      "flos": 18986330937600.0,
+      "grad_norm": 2.2102747389403112,
+      "language_loss": 0.76897615,
+      "learning_rate": 3.768343437425579e-06,
+      "loss": 0.79159987,
+      "num_input_tokens_seen": 31671145,
+      "step": 1498,
+      "time_per_iteration": 2.612928628921509
+    },
+    {
+      "auxiliary_loss_clip": 0.01261423,
+      "auxiliary_loss_mlp": 0.01033825,
+      "balance_loss_clip": 1.05042219,
+      "balance_loss_mlp": 1.0235554,
+      "epoch": 0.18024409306799735,
+      "flos": 19748103598080.0,
+      "grad_norm": 2.529548022212386,
+      "language_loss": 0.8568933,
+      "learning_rate": 3.7679793973225987e-06,
+      "loss": 0.87984586,
+      "num_input_tokens_seen": 31686955,
+      "step": 1499,
+      "time_per_iteration": 2.7863430976867676
+    },
+    {
+      "auxiliary_loss_clip": 0.01158371,
+      "auxiliary_loss_mlp": 0.01004811,
+      "balance_loss_clip": 1.02929366,
+      "balance_loss_mlp": 1.00234365,
+      "epoch": 0.18036433595863643,
+      "flos": 67227183060480.0,
+      "grad_norm": 0.8594523138091991,
+      "language_loss": 0.61610973,
+      "learning_rate": 3.767615089018549e-06,
+      "loss": 0.63774157,
+      "num_input_tokens_seen": 31749300,
+      "step": 1500,
+      "time_per_iteration": 4.204959869384766
+    },
+    {
+      "auxiliary_loss_clip": 0.01230411,
+      "auxiliary_loss_mlp": 0.01033834,
+      "balance_loss_clip": 1.05836189,
+      "balance_loss_mlp": 1.02368951,
+      "epoch": 0.18048457884927555,
+      "flos": 18181464935040.0,
+      "grad_norm": 2.0557559338696905,
+      "language_loss": 0.86270642,
+      "learning_rate": 3.7672505125686966e-06,
+      "loss": 0.8853488,
+      "num_input_tokens_seen": 31765665,
+      "step": 1501,
+      "time_per_iteration": 3.5932066440582275
+    },
+    {
+      "auxiliary_loss_clip": 0.01252345,
+      "auxiliary_loss_mlp": 0.01038733,
+      "balance_loss_clip": 1.05642271,
+      "balance_loss_mlp": 1.02787852,
+      "epoch": 0.18060482173991463,
+      "flos": 15813767111040.0,
+      "grad_norm": 3.5484925543880674,
+      "language_loss": 0.84664047,
+      "learning_rate": 3.7668856680283455e-06,
+      "loss": 0.8695513,
+      "num_input_tokens_seen": 31782690,
+      "step": 1502,
+      "time_per_iteration": 3.6366989612579346
+    },
+    {
+      "auxiliary_loss_clip": 0.01246276,
+      "auxiliary_loss_mlp": 0.01033574,
+      "balance_loss_clip": 1.06327772,
+      "balance_loss_mlp": 1.02327442,
+      "epoch": 0.1807250646305537,
+      "flos": 18587399512320.0,
+      "grad_norm": 1.8683033403481686,
+      "language_loss": 0.81951642,
+      "learning_rate": 3.7665205554528437e-06,
+      "loss": 0.84231496,
+      "num_input_tokens_seen": 31802045,
+      "step": 1503,
+      "time_per_iteration": 2.648536205291748
+    },
+    {
+      "auxiliary_loss_clip": 0.01240159,
+      "auxiliary_loss_mlp": 0.01035456,
+      "balance_loss_clip": 1.06181335,
+      "balance_loss_mlp": 1.02532959,
+      "epoch": 0.18084530752119282,
+      "flos": 23149131880320.0,
+      "grad_norm": 1.7219746379687564,
+      "language_loss": 0.74004316,
+      "learning_rate": 3.7661551748975782e-06,
+      "loss": 0.76279926,
+      "num_input_tokens_seen": 31820220,
+      "step": 1504,
+      "time_per_iteration": 2.693272113800049
+    },
+    {
+      "auxiliary_loss_clip": 0.01144586,
+      "auxiliary_loss_mlp": 0.01006422,
+      "balance_loss_clip": 1.03364825,
+      "balance_loss_mlp": 1.00410891,
+      "epoch": 0.1809655504118319,
+      "flos": 59803153568640.0,
+      "grad_norm": 0.8110294312390796,
+      "language_loss": 0.60417396,
+      "learning_rate": 3.7657895264179772e-06,
+      "loss": 0.62568408,
+      "num_input_tokens_seen": 31876195,
+      "step": 1505,
+      "time_per_iteration": 3.22245454788208
+    },
+    {
+      "auxiliary_loss_clip": 0.01228881,
+      "auxiliary_loss_mlp": 0.01037564,
+      "balance_loss_clip": 1.05904055,
+      "balance_loss_mlp": 1.02709746,
+      "epoch": 0.181085793302471,
+      "flos": 44201941188480.0,
+      "grad_norm": 1.7105363837896668,
+      "language_loss": 0.74479294,
+      "learning_rate": 3.765423610069509e-06,
+      "loss": 0.76745737,
+      "num_input_tokens_seen": 31901585,
+      "step": 1506,
+      "time_per_iteration": 2.8635640144348145
+    },
+    {
+      "auxiliary_loss_clip": 0.01241914,
+      "auxiliary_loss_mlp": 0.01034098,
+      "balance_loss_clip": 1.06341493,
+      "balance_loss_mlp": 1.02369714,
+      "epoch": 0.18120603619311007,
+      "flos": 34898384638080.0,
+      "grad_norm": 2.184996946815326,
+      "language_loss": 0.72603703,
+      "learning_rate": 3.765057425907683e-06,
+      "loss": 0.74879718,
+      "num_input_tokens_seen": 31923045,
+      "step": 1507,
+      "time_per_iteration": 2.826634645462036
+    },
+    {
+      "auxiliary_loss_clip": 0.0123651,
+      "auxiliary_loss_mlp": 0.01037617,
+      "balance_loss_clip": 1.06206703,
+      "balance_loss_mlp": 1.02716279,
+      "epoch": 0.18132627908374918,
+      "flos": 21506757390720.0,
+      "grad_norm": 4.495039806325034,
+      "language_loss": 0.78397369,
+      "learning_rate": 3.764690973988048e-06,
+      "loss": 0.80671501,
+      "num_input_tokens_seen": 31943385,
+      "step": 1508,
+      "time_per_iteration": 2.6281206607818604
+    },
+    {
+      "auxiliary_loss_clip": 0.01253198,
+      "auxiliary_loss_mlp": 0.01036857,
+      "balance_loss_clip": 1.06025374,
+      "balance_loss_mlp": 1.02687311,
+      "epoch": 0.18144652197438826,
+      "flos": 29057693633280.0,
+      "grad_norm": 1.878098371971028,
+      "language_loss": 0.73983294,
+      "learning_rate": 3.7643242543661967e-06,
+      "loss": 0.76273358,
+      "num_input_tokens_seen": 31966045,
+      "step": 1509,
+      "time_per_iteration": 2.799891471862793
+    },
+    {
+      "auxiliary_loss_clip": 0.01134076,
+      "auxiliary_loss_mlp": 0.01006522,
+      "balance_loss_clip": 1.02928543,
+      "balance_loss_mlp": 1.00428057,
+      "epoch": 0.18156676486502735,
+      "flos": 68675064382080.0,
+      "grad_norm": 0.8216727313815354,
+      "language_loss": 0.60531425,
+      "learning_rate": 3.7639572670977573e-06,
+      "loss": 0.62672019,
+      "num_input_tokens_seen": 32021540,
+      "step": 1510,
+      "time_per_iteration": 3.1273887157440186
+    },
+    {
+      "auxiliary_loss_clip": 0.01253283,
+      "auxiliary_loss_mlp": 0.010402,
+      "balance_loss_clip": 1.05989075,
+      "balance_loss_mlp": 1.02983451,
+      "epoch": 0.18168700775566646,
+      "flos": 26471515334400.0,
+      "grad_norm": 2.1383693271704827,
+      "language_loss": 0.76429474,
+      "learning_rate": 3.7635900122384042e-06,
+      "loss": 0.7872296,
+      "num_input_tokens_seen": 32044535,
+      "step": 1511,
+      "time_per_iteration": 2.793210983276367
+    },
+    {
+      "auxiliary_loss_clip": 0.01242225,
+      "auxiliary_loss_mlp": 0.01038103,
+      "balance_loss_clip": 1.06089973,
+      "balance_loss_mlp": 1.02715397,
+      "epoch": 0.18180725064630554,
+      "flos": 15005668884480.0,
+      "grad_norm": 2.663470290051152,
+      "language_loss": 0.86782563,
+      "learning_rate": 3.7632224898438477e-06,
+      "loss": 0.89062881,
+      "num_input_tokens_seen": 32061010,
+      "step": 1512,
+      "time_per_iteration": 2.756561279296875
+    },
+    {
+      "auxiliary_loss_clip": 0.01250762,
+      "auxiliary_loss_mlp": 0.01034955,
+      "balance_loss_clip": 1.05835152,
+      "balance_loss_mlp": 1.02498925,
+      "epoch": 0.18192749353694462,
+      "flos": 19682387665920.0,
+      "grad_norm": 1.4874570686036255,
+      "language_loss": 0.7926712,
+      "learning_rate": 3.762854699969842e-06,
+      "loss": 0.81552833,
+      "num_input_tokens_seen": 32081520,
+      "step": 1513,
+      "time_per_iteration": 2.741952896118164
+    },
+    {
+      "auxiliary_loss_clip": 0.01232868,
+      "auxiliary_loss_mlp": 0.01037777,
+      "balance_loss_clip": 1.06555974,
+      "balance_loss_mlp": 1.02753735,
+      "epoch": 0.1820477364275837,
+      "flos": 20702717400960.0,
+      "grad_norm": 2.486189631065677,
+      "language_loss": 0.73164165,
+      "learning_rate": 3.762486642672179e-06,
+      "loss": 0.75434804,
+      "num_input_tokens_seen": 32098460,
+      "step": 1514,
+      "time_per_iteration": 2.6635806560516357
+    },
+    {
+      "auxiliary_loss_clip": 0.01241804,
+      "auxiliary_loss_mlp": 0.01038591,
+      "balance_loss_clip": 1.06139052,
+      "balance_loss_mlp": 1.02873278,
+      "epoch": 0.18216797931822282,
+      "flos": 17128708197120.0,
+      "grad_norm": 1.7647960132778298,
+      "language_loss": 0.87188941,
+      "learning_rate": 3.7621183180066946e-06,
+      "loss": 0.89469337,
+      "num_input_tokens_seen": 32116420,
+      "step": 1515,
+      "time_per_iteration": 2.670232057571411
+    },
+    {
+      "auxiliary_loss_clip": 0.01236031,
+      "auxiliary_loss_mlp": 0.01033503,
+      "balance_loss_clip": 1.05893922,
+      "balance_loss_mlp": 1.02390695,
+      "epoch": 0.1822882222088619,
+      "flos": 29242561956480.0,
+      "grad_norm": 1.5608568732301005,
+      "language_loss": 0.73698443,
+      "learning_rate": 3.7617497260292625e-06,
+      "loss": 0.75967979,
+      "num_input_tokens_seen": 32138475,
+      "step": 1516,
+      "time_per_iteration": 2.748472213745117
+    },
+    {
+      "auxiliary_loss_clip": 0.01237335,
+      "auxiliary_loss_mlp": 0.01039435,
+      "balance_loss_clip": 1.06247926,
+      "balance_loss_mlp": 1.02808642,
+      "epoch": 0.18240846509950098,
+      "flos": 17702739446400.0,
+      "grad_norm": 2.7199006811599067,
+      "language_loss": 0.78652644,
+      "learning_rate": 3.7613808667957967e-06,
+      "loss": 0.8092941,
+      "num_input_tokens_seen": 32151165,
+      "step": 1517,
+      "time_per_iteration": 2.6308646202087402
+    },
+    {
+      "auxiliary_loss_clip": 0.0124034,
+      "auxiliary_loss_mlp": 0.01039784,
+      "balance_loss_clip": 1.05958724,
+      "balance_loss_mlp": 1.02929366,
+      "epoch": 0.1825287079901401,
+      "flos": 14790025584000.0,
+      "grad_norm": 2.186410531030179,
+      "language_loss": 0.91472995,
+      "learning_rate": 3.7610117403622547e-06,
+      "loss": 0.93753117,
+      "num_input_tokens_seen": 32167725,
+      "step": 1518,
+      "time_per_iteration": 2.7311999797821045
+    },
+    {
+      "auxiliary_loss_clip": 0.01239775,
+      "auxiliary_loss_mlp": 0.01036555,
+      "balance_loss_clip": 1.05603004,
+      "balance_loss_mlp": 1.02644038,
+      "epoch": 0.18264895088077918,
+      "flos": 21946232292480.0,
+      "grad_norm": 1.6081785999283438,
+      "language_loss": 0.90107095,
+      "learning_rate": 3.7606423467846313e-06,
+      "loss": 0.9238342,
+      "num_input_tokens_seen": 32187330,
+      "step": 1519,
+      "time_per_iteration": 2.7110788822174072
+    },
+    {
+      "auxiliary_loss_clip": 0.01255075,
+      "auxiliary_loss_mlp": 0.01050625,
+      "balance_loss_clip": 1.06190383,
+      "balance_loss_mlp": 1.03983641,
+      "epoch": 0.18276919377141826,
+      "flos": 20886759711360.0,
+      "grad_norm": 1.844780207231808,
+      "language_loss": 0.79282796,
+      "learning_rate": 3.760272686118964e-06,
+      "loss": 0.81588501,
+      "num_input_tokens_seen": 32205550,
+      "step": 1520,
+      "time_per_iteration": 2.7002413272857666
+    },
+    {
+      "auxiliary_loss_clip": 0.01245566,
+      "auxiliary_loss_mlp": 0.01041432,
+      "balance_loss_clip": 1.06457198,
+      "balance_loss_mlp": 1.03066754,
+      "epoch": 0.18288943666205737,
+      "flos": 21469877101440.0,
+      "grad_norm": 2.1563574540158297,
+      "language_loss": 0.92312133,
+      "learning_rate": 3.7599027584213297e-06,
+      "loss": 0.94599128,
+      "num_input_tokens_seen": 32224430,
+      "step": 1521,
+      "time_per_iteration": 2.6884891986846924
+    },
+    {
+      "auxiliary_loss_clip": 0.01238202,
+      "auxiliary_loss_mlp": 0.01040764,
+      "balance_loss_clip": 1.06398654,
+      "balance_loss_mlp": 1.02906978,
+      "epoch": 0.18300967955269645,
+      "flos": 21539363961600.0,
+      "grad_norm": 1.8851679687519547,
+      "language_loss": 0.77901936,
+      "learning_rate": 3.7595325637478465e-06,
+      "loss": 0.80180907,
+      "num_input_tokens_seen": 32242455,
+      "step": 1522,
+      "time_per_iteration": 3.61053729057312
+    },
+    {
+      "auxiliary_loss_clip": 0.01231968,
+      "auxiliary_loss_mlp": 0.010431,
+      "balance_loss_clip": 1.06227541,
+      "balance_loss_mlp": 1.03344393,
+      "epoch": 0.18312992244333554,
+      "flos": 28876237102080.0,
+      "grad_norm": 1.6389246975745138,
+      "language_loss": 0.81539536,
+      "learning_rate": 3.7591621021546723e-06,
+      "loss": 0.83814609,
+      "num_input_tokens_seen": 32264450,
+      "step": 1523,
+      "time_per_iteration": 2.7203593254089355
+    },
+    {
+      "auxiliary_loss_clip": 0.01226014,
+      "auxiliary_loss_mlp": 0.01029744,
+      "balance_loss_clip": 1.06036115,
+      "balance_loss_mlp": 1.01968277,
+      "epoch": 0.18325016533397462,
+      "flos": 20120102801280.0,
+      "grad_norm": 1.7519316457967986,
+      "language_loss": 0.81547242,
+      "learning_rate": 3.7587913736980062e-06,
+      "loss": 0.83803004,
+      "num_input_tokens_seen": 32284090,
+      "step": 1524,
+      "time_per_iteration": 2.71160626411438
+    },
+    {
+      "auxiliary_loss_clip": 0.0124075,
+      "auxiliary_loss_mlp": 0.01040732,
+      "balance_loss_clip": 1.04999983,
+      "balance_loss_mlp": 1.03069472,
+      "epoch": 0.18337040822461373,
+      "flos": 23329187781120.0,
+      "grad_norm": 1.7221539423693542,
+      "language_loss": 0.84377813,
+      "learning_rate": 3.7584203784340865e-06,
+      "loss": 0.866593,
+      "num_input_tokens_seen": 32303260,
+      "step": 1525,
+      "time_per_iteration": 3.7030320167541504
+    },
+    {
+      "auxiliary_loss_clip": 0.01237969,
+      "auxiliary_loss_mlp": 0.01045246,
+      "balance_loss_clip": 1.0598712,
+      "balance_loss_mlp": 1.03442752,
+      "epoch": 0.1834906511152528,
+      "flos": 25009555881600.0,
+      "grad_norm": 2.0258546758659786,
+      "language_loss": 0.85779864,
+      "learning_rate": 3.7580491164191938e-06,
+      "loss": 0.88063073,
+      "num_input_tokens_seen": 32321570,
+      "step": 1526,
+      "time_per_iteration": 3.6088404655456543
+    },
+    {
+      "auxiliary_loss_clip": 0.0113365,
+      "auxiliary_loss_mlp": 0.01003393,
+      "balance_loss_clip": 1.03243804,
+      "balance_loss_mlp": 1.00112844,
+      "epoch": 0.1836108940058919,
+      "flos": 67251493589760.0,
+      "grad_norm": 0.7477688853056712,
+      "language_loss": 0.61250985,
+      "learning_rate": 3.757677587709648e-06,
+      "loss": 0.63388026,
+      "num_input_tokens_seen": 32384835,
+      "step": 1527,
+      "time_per_iteration": 4.25897741317749
+    },
+    {
+      "auxiliary_loss_clip": 0.01244267,
+      "auxiliary_loss_mlp": 0.01035171,
+      "balance_loss_clip": 1.05957186,
+      "balance_loss_mlp": 1.02453804,
+      "epoch": 0.183731136896531,
+      "flos": 25738721971200.0,
+      "grad_norm": 1.8368790343975971,
+      "language_loss": 0.75625664,
+      "learning_rate": 3.7573057923618095e-06,
+      "loss": 0.77905107,
+      "num_input_tokens_seen": 32404930,
+      "step": 1528,
+      "time_per_iteration": 2.7907354831695557
+    },
+    {
+      "auxiliary_loss_clip": 0.01252943,
+      "auxiliary_loss_mlp": 0.01035449,
+      "balance_loss_clip": 1.05436826,
+      "balance_loss_mlp": 1.02534008,
+      "epoch": 0.1838513797871701,
+      "flos": 20449403712000.0,
+      "grad_norm": 1.8393352202286672,
+      "language_loss": 0.74283552,
+      "learning_rate": 3.7569337304320793e-06,
+      "loss": 0.76571941,
+      "num_input_tokens_seen": 32424515,
+      "step": 1529,
+      "time_per_iteration": 2.751526355743408
+    },
+    {
+      "auxiliary_loss_clip": 0.01139133,
+      "auxiliary_loss_mlp": 0.01003651,
+      "balance_loss_clip": 1.02915883,
+      "balance_loss_mlp": 1.00112391,
+      "epoch": 0.18397162267780917,
+      "flos": 68565141786240.0,
+      "grad_norm": 0.8365888075574488,
+      "language_loss": 0.64496493,
+      "learning_rate": 3.756561401976899e-06,
+      "loss": 0.6663928,
+      "num_input_tokens_seen": 32484220,
+      "step": 1530,
+      "time_per_iteration": 3.119494676589966
+    },
+    {
+      "auxiliary_loss_clip": 0.01228498,
+      "auxiliary_loss_mlp": 0.01040137,
+      "balance_loss_clip": 1.06588149,
+      "balance_loss_mlp": 1.03049314,
+      "epoch": 0.18409186556844825,
+      "flos": 31941104976000.0,
+      "grad_norm": 2.071543279555242,
+      "language_loss": 0.82418978,
+      "learning_rate": 3.7561888070527514e-06,
+      "loss": 0.84687614,
+      "num_input_tokens_seen": 32506260,
+      "step": 1531,
+      "time_per_iteration": 2.695582628250122
+    },
+    {
+      "auxiliary_loss_clip": 0.0123098,
+      "auxiliary_loss_mlp": 0.0138086,
+      "balance_loss_clip": 1.05947685,
+      "balance_loss_mlp": 1.00014174,
+      "epoch": 0.18421210845908736,
+      "flos": 20120533764480.0,
+      "grad_norm": 1.9361731770330597,
+      "language_loss": 0.80045092,
+      "learning_rate": 3.7558159457161577e-06,
+      "loss": 0.82656932,
+      "num_input_tokens_seen": 32524225,
+      "step": 1532,
+      "time_per_iteration": 2.630397319793701
+    },
+    {
+      "auxiliary_loss_clip": 0.01241315,
+      "auxiliary_loss_mlp": 0.01380828,
+      "balance_loss_clip": 1.06154537,
+      "balance_loss_mlp": 1.00015843,
+      "epoch": 0.18433235134972645,
+      "flos": 23110491824640.0,
+      "grad_norm": 2.1855779974457175,
+      "language_loss": 0.77940798,
+      "learning_rate": 3.755442818023681e-06,
+      "loss": 0.80562937,
+      "num_input_tokens_seen": 32543850,
+      "step": 1533,
+      "time_per_iteration": 2.660860061645508
+    },
+    {
+      "auxiliary_loss_clip": 0.01247037,
+      "auxiliary_loss_mlp": 0.01030458,
+      "balance_loss_clip": 1.05942464,
+      "balance_loss_mlp": 1.02071309,
+      "epoch": 0.18445259424036553,
+      "flos": 18291351617280.0,
+      "grad_norm": 2.052812045911955,
+      "language_loss": 0.76256186,
+      "learning_rate": 3.7550694240319246e-06,
+      "loss": 0.78533685,
+      "num_input_tokens_seen": 32561725,
+      "step": 1534,
+      "time_per_iteration": 2.7437891960144043
+    },
+    {
+      "auxiliary_loss_clip": 0.01232772,
+      "auxiliary_loss_mlp": 0.01037347,
+      "balance_loss_clip": 1.05947578,
+      "balance_loss_mlp": 1.02651644,
+      "epoch": 0.18457283713100464,
+      "flos": 21324079797120.0,
+      "grad_norm": 2.6278356495932114,
+      "language_loss": 0.76190567,
+      "learning_rate": 3.7546957637975326e-06,
+      "loss": 0.78460681,
+      "num_input_tokens_seen": 32579135,
+      "step": 1535,
+      "time_per_iteration": 2.697728395462036
+    },
+    {
+      "auxiliary_loss_clip": 0.01248212,
+      "auxiliary_loss_mlp": 0.01044903,
+      "balance_loss_clip": 1.0490725,
+      "balance_loss_mlp": 1.03533065,
+      "epoch": 0.18469308002164372,
+      "flos": 20375679047040.0,
+      "grad_norm": 1.5882651502007188,
+      "language_loss": 0.7388593,
+      "learning_rate": 3.7543218373771873e-06,
+      "loss": 0.76179045,
+      "num_input_tokens_seen": 32598460,
+      "step": 1536,
+      "time_per_iteration": 2.7829174995422363
+    },
+    {
+      "auxiliary_loss_clip": 0.01249737,
+      "auxiliary_loss_mlp": 0.01380711,
+      "balance_loss_clip": 1.05202425,
+      "balance_loss_mlp": 1.0001334,
+      "epoch": 0.1848133229122828,
+      "flos": 26435892021120.0,
+      "grad_norm": 1.4341576244952257,
+      "language_loss": 0.78264755,
+      "learning_rate": 3.753947644827615e-06,
+      "loss": 0.80895203,
+      "num_input_tokens_seen": 32621920,
+      "step": 1537,
+      "time_per_iteration": 2.9628684520721436
+    },
+    {
+      "auxiliary_loss_clip": 0.01139898,
+      "auxiliary_loss_mlp": 0.01002548,
+      "balance_loss_clip": 1.02763534,
+      "balance_loss_mlp": 1.00015152,
+      "epoch": 0.1849335658029219,
+      "flos": 70547447612160.0,
+      "grad_norm": 0.9300129753849445,
+      "language_loss": 0.57200509,
+      "learning_rate": 3.753573186205579e-06,
+      "loss": 0.59342957,
+      "num_input_tokens_seen": 32690040,
+      "step": 1538,
+      "time_per_iteration": 3.410865545272827
+    },
+    {
+      "auxiliary_loss_clip": 0.01223592,
+      "auxiliary_loss_mlp": 0.0138055,
+      "balance_loss_clip": 1.05619311,
+      "balance_loss_mlp": 1.0001024,
+      "epoch": 0.185053808693561,
+      "flos": 17384140788480.0,
+      "grad_norm": 2.8381367570412275,
+      "language_loss": 0.77805454,
+      "learning_rate": 3.753198461567885e-06,
+      "loss": 0.80409592,
+      "num_input_tokens_seen": 32707285,
+      "step": 1539,
+      "time_per_iteration": 2.6557788848876953
+    },
+    {
+      "auxiliary_loss_clip": 0.01247065,
+      "auxiliary_loss_mlp": 0.01034305,
+      "balance_loss_clip": 1.0645988,
+      "balance_loss_mlp": 1.02494717,
+      "epoch": 0.18517405158420008,
+      "flos": 28986159697920.0,
+      "grad_norm": 1.6471058892978654,
+      "language_loss": 0.91583252,
+      "learning_rate": 3.7528234709713783e-06,
+      "loss": 0.93864626,
+      "num_input_tokens_seen": 32730030,
+      "step": 1540,
+      "time_per_iteration": 2.8525776863098145
+    },
+    {
+      "auxiliary_loss_clip": 0.01235094,
+      "auxiliary_loss_mlp": 0.01039572,
+      "balance_loss_clip": 1.0639255,
+      "balance_loss_mlp": 1.02881956,
+      "epoch": 0.18529429447483917,
+      "flos": 26794962328320.0,
+      "grad_norm": 1.804430051354442,
+      "language_loss": 0.83995759,
+      "learning_rate": 3.7524482144729447e-06,
+      "loss": 0.86270428,
+      "num_input_tokens_seen": 32749485,
+      "step": 1541,
+      "time_per_iteration": 2.704251766204834
+    },
+    {
+      "auxiliary_loss_clip": 0.01239124,
+      "auxiliary_loss_mlp": 0.01037439,
+      "balance_loss_clip": 1.05579662,
+      "balance_loss_mlp": 1.02700174,
+      "epoch": 0.18541453736547828,
+      "flos": 13581595301760.0,
+      "grad_norm": 2.169183654163221,
+      "language_loss": 0.83876014,
+      "learning_rate": 3.7520726921295106e-06,
+      "loss": 0.86152577,
+      "num_input_tokens_seen": 32766205,
+      "step": 1542,
+      "time_per_iteration": 2.7559444904327393
+    },
+    {
+      "auxiliary_loss_clip": 0.01222524,
+      "auxiliary_loss_mlp": 0.01037834,
+      "balance_loss_clip": 1.05814743,
+      "balance_loss_mlp": 1.02727175,
+      "epoch": 0.18553478025611736,
+      "flos": 24025424077440.0,
+      "grad_norm": 2.67884623373119,
+      "language_loss": 0.72442627,
+      "learning_rate": 3.751696903998042e-06,
+      "loss": 0.74702984,
+      "num_input_tokens_seen": 32784840,
+      "step": 1543,
+      "time_per_iteration": 2.667715311050415
+    },
+    {
+      "auxiliary_loss_clip": 0.01230993,
+      "auxiliary_loss_mlp": 0.01039218,
+      "balance_loss_clip": 1.06555605,
+      "balance_loss_mlp": 1.02978849,
+      "epoch": 0.18565502314675644,
+      "flos": 25885165720320.0,
+      "grad_norm": 1.599994283681934,
+      "language_loss": 0.69700706,
+      "learning_rate": 3.7513208501355456e-06,
+      "loss": 0.71970916,
+      "num_input_tokens_seen": 32805945,
+      "step": 1544,
+      "time_per_iteration": 2.656189203262329
+    },
+    {
+      "auxiliary_loss_clip": 0.01235965,
+      "auxiliary_loss_mlp": 0.01031715,
+      "balance_loss_clip": 1.06036258,
+      "balance_loss_mlp": 1.02180886,
+      "epoch": 0.18577526603739553,
+      "flos": 19610063631360.0,
+      "grad_norm": 2.570427013973831,
+      "language_loss": 0.83575654,
+      "learning_rate": 3.750944530599069e-06,
+      "loss": 0.85843337,
+      "num_input_tokens_seen": 32825515,
+      "step": 1545,
+      "time_per_iteration": 2.7282843589782715
+    },
+    {
+      "auxiliary_loss_clip": 0.01239353,
+      "auxiliary_loss_mlp": 0.01042702,
+      "balance_loss_clip": 1.06434727,
+      "balance_loss_mlp": 1.03214574,
+      "epoch": 0.18589550892803464,
+      "flos": 18474891137280.0,
+      "grad_norm": 1.8835830650940744,
+      "language_loss": 0.80853295,
+      "learning_rate": 3.7505679454456992e-06,
+      "loss": 0.83135349,
+      "num_input_tokens_seen": 32842125,
+      "step": 1546,
+      "time_per_iteration": 2.6076982021331787
+    },
+    {
+      "auxiliary_loss_clip": 0.01265205,
+      "auxiliary_loss_mlp": 0.01034046,
+      "balance_loss_clip": 1.05343235,
+      "balance_loss_mlp": 1.0241276,
+      "epoch": 0.18601575181867372,
+      "flos": 23549966726400.0,
+      "grad_norm": 2.1889852775260006,
+      "language_loss": 0.7016685,
+      "learning_rate": 3.750191094732564e-06,
+      "loss": 0.72466099,
+      "num_input_tokens_seen": 32862990,
+      "step": 1547,
+      "time_per_iteration": 2.8435769081115723
+    },
+    {
+      "auxiliary_loss_clip": 0.01260703,
+      "auxiliary_loss_mlp": 0.01381031,
+      "balance_loss_clip": 1.05179763,
+      "balance_loss_mlp": 1.00011659,
+      "epoch": 0.1861359947093128,
+      "flos": 26360192108160.0,
+      "grad_norm": 1.779606464410969,
+      "language_loss": 0.75432038,
+      "learning_rate": 3.7498139785168313e-06,
+      "loss": 0.78073776,
+      "num_input_tokens_seen": 32883595,
+      "step": 1548,
+      "time_per_iteration": 3.891428232192993
+    },
+    {
+      "auxiliary_loss_clip": 0.01228884,
+      "auxiliary_loss_mlp": 0.0103338,
+      "balance_loss_clip": 1.06164718,
+      "balance_loss_mlp": 1.02370656,
+      "epoch": 0.1862562375999519,
+      "flos": 23331198942720.0,
+      "grad_norm": 9.988025329831252,
+      "language_loss": 0.77624393,
+      "learning_rate": 3.749436596855709e-06,
+      "loss": 0.79886657,
+      "num_input_tokens_seen": 32902895,
+      "step": 1549,
+      "time_per_iteration": 2.7718117237091064
+    },
+    {
+      "auxiliary_loss_clip": 0.0122528,
+      "auxiliary_loss_mlp": 0.0103616,
+      "balance_loss_clip": 1.06116521,
+      "balance_loss_mlp": 1.02580118,
+      "epoch": 0.186376480490591,
+      "flos": 16648222942080.0,
+      "grad_norm": 1.8399956172015528,
+      "language_loss": 0.90346992,
+      "learning_rate": 3.749058949806446e-06,
+      "loss": 0.92608428,
+      "num_input_tokens_seen": 32919620,
+      "step": 1550,
+      "time_per_iteration": 2.6452488899230957
+    },
+    {
+      "auxiliary_loss_clip": 0.01234415,
+      "auxiliary_loss_mlp": 0.01032926,
+      "balance_loss_clip": 1.06361008,
+      "balance_loss_mlp": 1.0221014,
+      "epoch": 0.18649672338123008,
+      "flos": 21468656039040.0,
+      "grad_norm": 1.8985218294566872,
+      "language_loss": 0.84394276,
+      "learning_rate": 3.748681037426331e-06,
+      "loss": 0.86661625,
+      "num_input_tokens_seen": 32938830,
+      "step": 1551,
+      "time_per_iteration": 3.517639636993408
+    },
+    {
+      "auxiliary_loss_clip": 0.01225788,
+      "auxiliary_loss_mlp": 0.01040519,
+      "balance_loss_clip": 1.06547618,
+      "balance_loss_mlp": 1.03055894,
+      "epoch": 0.1866169662718692,
+      "flos": 12312728386560.0,
+      "grad_norm": 2.164330873669751,
+      "language_loss": 0.91904366,
+      "learning_rate": 3.7483028597726936e-06,
+      "loss": 0.94170666,
+      "num_input_tokens_seen": 32955600,
+      "step": 1552,
+      "time_per_iteration": 3.677345037460327
+    },
+    {
+      "auxiliary_loss_clip": 0.01247598,
+      "auxiliary_loss_mlp": 0.01040954,
+      "balance_loss_clip": 1.06055999,
+      "balance_loss_mlp": 1.02927125,
+      "epoch": 0.18673720916250827,
+      "flos": 23581280407680.0,
+      "grad_norm": 1.6875751814368474,
+      "language_loss": 0.62581658,
+      "learning_rate": 3.7479244169029017e-06,
+      "loss": 0.64870203,
+      "num_input_tokens_seen": 32975390,
+      "step": 1553,
+      "time_per_iteration": 2.733825206756592
+    },
+    {
+      "auxiliary_loss_clip": 0.01235395,
+      "auxiliary_loss_mlp": 0.01031206,
+      "balance_loss_clip": 1.06111991,
+      "balance_loss_mlp": 1.02131772,
+      "epoch": 0.18685745205314735,
+      "flos": 19718370115200.0,
+      "grad_norm": 2.2189480610920045,
+      "language_loss": 0.7368722,
+      "learning_rate": 3.7475457088743658e-06,
+      "loss": 0.75953817,
+      "num_input_tokens_seen": 32992640,
+      "step": 1554,
+      "time_per_iteration": 3.484128952026367
+    },
+    {
+      "auxiliary_loss_clip": 0.01229353,
+      "auxiliary_loss_mlp": 0.01038422,
+      "balance_loss_clip": 1.06018567,
+      "balance_loss_mlp": 1.02871895,
+      "epoch": 0.18697769494378644,
+      "flos": 34204123589760.0,
+      "grad_norm": 1.8864647715748608,
+      "language_loss": 0.74334657,
+      "learning_rate": 3.7471667357445348e-06,
+      "loss": 0.76602429,
+      "num_input_tokens_seen": 33012470,
+      "step": 1555,
+      "time_per_iteration": 2.791921615600586
+    },
+    {
+      "auxiliary_loss_clip": 0.01262785,
+      "auxiliary_loss_mlp": 0.01038612,
+      "balance_loss_clip": 1.05501246,
+      "balance_loss_mlp": 1.02812123,
+      "epoch": 0.18709793783442555,
+      "flos": 34241327101440.0,
+      "grad_norm": 3.589060153219514,
+      "language_loss": 0.72253346,
+      "learning_rate": 3.7467874975709e-06,
+      "loss": 0.74554741,
+      "num_input_tokens_seen": 33033275,
+      "step": 1556,
+      "time_per_iteration": 2.8365585803985596
+    },
+    {
+      "auxiliary_loss_clip": 0.01236427,
+      "auxiliary_loss_mlp": 0.01031229,
+      "balance_loss_clip": 1.06488788,
+      "balance_loss_mlp": 1.02132833,
+      "epoch": 0.18721818072506463,
+      "flos": 40734550529280.0,
+      "grad_norm": 2.162001133641721,
+      "language_loss": 0.77940285,
+      "learning_rate": 3.7464079944109904e-06,
+      "loss": 0.80207944,
+      "num_input_tokens_seen": 33055135,
+      "step": 1557,
+      "time_per_iteration": 2.8184053897857666
+    },
+    {
+      "auxiliary_loss_clip": 0.01247146,
+      "auxiliary_loss_mlp": 0.01035858,
+      "balance_loss_clip": 1.0573293,
+      "balance_loss_mlp": 1.02644634,
+      "epoch": 0.18733842361570371,
+      "flos": 22157386392960.0,
+      "grad_norm": 1.875635058296114,
+      "language_loss": 0.77732003,
+      "learning_rate": 3.746028226322376e-06,
+      "loss": 0.8001501,
+      "num_input_tokens_seen": 33071015,
+      "step": 1558,
+      "time_per_iteration": 2.6540541648864746
+    },
+    {
+      "auxiliary_loss_clip": 0.01236065,
+      "auxiliary_loss_mlp": 0.01040212,
+      "balance_loss_clip": 1.0594877,
+      "balance_loss_mlp": 1.03062749,
+      "epoch": 0.18745866650634282,
+      "flos": 18914940656640.0,
+      "grad_norm": 1.760424286851501,
+      "language_loss": 0.75557977,
+      "learning_rate": 3.745648193362669e-06,
+      "loss": 0.77834255,
+      "num_input_tokens_seen": 33090370,
+      "step": 1559,
+      "time_per_iteration": 2.647026538848877
+    },
+    {
+      "auxiliary_loss_clip": 0.01239355,
+      "auxiliary_loss_mlp": 0.01030733,
+      "balance_loss_clip": 1.06156111,
+      "balance_loss_mlp": 1.02139258,
+      "epoch": 0.1875789093969819,
+      "flos": 19314626267520.0,
+      "grad_norm": 1.8796652844728379,
+      "language_loss": 0.72394156,
+      "learning_rate": 3.745267895589518e-06,
+      "loss": 0.74664247,
+      "num_input_tokens_seen": 33108910,
+      "step": 1560,
+      "time_per_iteration": 2.715069532394409
+    },
+    {
+      "auxiliary_loss_clip": 0.01238648,
+      "auxiliary_loss_mlp": 0.01034553,
+      "balance_loss_clip": 1.06026554,
+      "balance_loss_mlp": 1.0246172,
+      "epoch": 0.187699152287621,
+      "flos": 17018965169280.0,
+      "grad_norm": 4.115178007064644,
+      "language_loss": 0.82359517,
+      "learning_rate": 3.7448873330606154e-06,
+      "loss": 0.84632713,
+      "num_input_tokens_seen": 33126680,
+      "step": 1561,
+      "time_per_iteration": 2.657895803451538
+    },
+    {
+      "auxiliary_loss_clip": 0.01237906,
+      "auxiliary_loss_mlp": 0.01043229,
+      "balance_loss_clip": 1.0599575,
+      "balance_loss_mlp": 1.03189802,
+      "epoch": 0.18781939517826007,
+      "flos": 22346384780160.0,
+      "grad_norm": 1.9581753930847612,
+      "language_loss": 0.87640905,
+      "learning_rate": 3.7445065058336914e-06,
+      "loss": 0.89922035,
+      "num_input_tokens_seen": 33145550,
+      "step": 1562,
+      "time_per_iteration": 2.7121682167053223
+    },
+    {
+      "auxiliary_loss_clip": 0.01234725,
+      "auxiliary_loss_mlp": 0.0103476,
+      "balance_loss_clip": 1.04904163,
+      "balance_loss_mlp": 1.02488351,
+      "epoch": 0.18793963806889918,
+      "flos": 14611478054400.0,
+      "grad_norm": 2.406185649785801,
+      "language_loss": 0.86539507,
+      "learning_rate": 3.7441254139665176e-06,
+      "loss": 0.8880899,
+      "num_input_tokens_seen": 33161735,
+      "step": 1563,
+      "time_per_iteration": 2.701606512069702
+    },
+    {
+      "auxiliary_loss_clip": 0.01227733,
+      "auxiliary_loss_mlp": 0.01032195,
+      "balance_loss_clip": 1.06880045,
+      "balance_loss_mlp": 1.02313554,
+      "epoch": 0.18805988095953827,
+      "flos": 17457075354240.0,
+      "grad_norm": 5.402973731480193,
+      "language_loss": 0.82498729,
+      "learning_rate": 3.743744057516905e-06,
+      "loss": 0.84758657,
+      "num_input_tokens_seen": 33179795,
+      "step": 1564,
+      "time_per_iteration": 2.602174997329712
+    },
+    {
+      "auxiliary_loss_clip": 0.01251342,
+      "auxiliary_loss_mlp": 0.01038124,
+      "balance_loss_clip": 1.0560534,
+      "balance_loss_mlp": 1.02742469,
+      "epoch": 0.18818012385017735,
+      "flos": 15043877976960.0,
+      "grad_norm": 2.8739805934949763,
+      "language_loss": 0.8785255,
+      "learning_rate": 3.743362436542706e-06,
+      "loss": 0.90142018,
+      "num_input_tokens_seen": 33194485,
+      "step": 1565,
+      "time_per_iteration": 2.7005839347839355
+    },
+    {
+      "auxiliary_loss_clip": 0.01221426,
+      "auxiliary_loss_mlp": 0.01035919,
+      "balance_loss_clip": 1.06322527,
+      "balance_loss_mlp": 1.02644825,
+      "epoch": 0.18830036674081646,
+      "flos": 47551975136640.0,
+      "grad_norm": 1.771854317003793,
+      "language_loss": 0.77034795,
+      "learning_rate": 3.7429805511018115e-06,
+      "loss": 0.79292136,
+      "num_input_tokens_seen": 33216145,
+      "step": 1566,
+      "time_per_iteration": 2.858099937438965
+    },
+    {
+      "auxiliary_loss_clip": 0.01239207,
+      "auxiliary_loss_mlp": 0.01381133,
+      "balance_loss_clip": 1.05703449,
+      "balance_loss_mlp": 1.00011778,
+      "epoch": 0.18842060963145554,
+      "flos": 30044626698240.0,
+      "grad_norm": 2.021225080552375,
+      "language_loss": 0.78475136,
+      "learning_rate": 3.7425984012521524e-06,
+      "loss": 0.81095481,
+      "num_input_tokens_seen": 33236345,
+      "step": 1567,
+      "time_per_iteration": 2.806978702545166
+    },
+    {
+      "auxiliary_loss_clip": 0.01147247,
+      "auxiliary_loss_mlp": 0.01376575,
+      "balance_loss_clip": 1.02974749,
+      "balance_loss_mlp": 0.99999046,
+      "epoch": 0.18854085252209463,
+      "flos": 70318372625280.0,
+      "grad_norm": 1.013759990508112,
+      "language_loss": 0.60420382,
+      "learning_rate": 3.7422159870517025e-06,
+      "loss": 0.62944204,
+      "num_input_tokens_seen": 33301600,
+      "step": 1568,
+      "time_per_iteration": 3.3003761768341064
+    },
+    {
+      "auxiliary_loss_clip": 0.01231458,
+      "auxiliary_loss_mlp": 0.01027646,
+      "balance_loss_clip": 1.05788183,
+      "balance_loss_mlp": 1.01878285,
+      "epoch": 0.1886610954127337,
+      "flos": 21289318410240.0,
+      "grad_norm": 1.4614899819729195,
+      "language_loss": 0.78842622,
+      "learning_rate": 3.7418333085584717e-06,
+      "loss": 0.81101727,
+      "num_input_tokens_seen": 33322785,
+      "step": 1569,
+      "time_per_iteration": 2.7576382160186768
+    },
+    {
+      "auxiliary_loss_clip": 0.01248367,
+      "auxiliary_loss_mlp": 0.01048616,
+      "balance_loss_clip": 1.06187582,
+      "balance_loss_mlp": 1.03745818,
+      "epoch": 0.18878133830337282,
+      "flos": 17266819991040.0,
+      "grad_norm": 2.2099259388873778,
+      "language_loss": 0.90830868,
+      "learning_rate": 3.7414503658305128e-06,
+      "loss": 0.93127847,
+      "num_input_tokens_seen": 33340020,
+      "step": 1570,
+      "time_per_iteration": 2.7090225219726562
+    },
+    {
+      "auxiliary_loss_clip": 0.01255757,
+      "auxiliary_loss_mlp": 0.01037171,
+      "balance_loss_clip": 1.05336237,
+      "balance_loss_mlp": 1.02736652,
+      "epoch": 0.1889015811940119,
+      "flos": 25775207210880.0,
+      "grad_norm": 2.1557938045811738,
+      "language_loss": 0.77622455,
+      "learning_rate": 3.7410671589259185e-06,
+      "loss": 0.79915386,
+      "num_input_tokens_seen": 33358620,
+      "step": 1571,
+      "time_per_iteration": 2.797093629837036
+    },
+    {
+      "auxiliary_loss_clip": 0.01223552,
+      "auxiliary_loss_mlp": 0.01043806,
+      "balance_loss_clip": 1.06505609,
+      "balance_loss_mlp": 1.03406644,
+      "epoch": 0.18902182408465099,
+      "flos": 21032197879680.0,
+      "grad_norm": 1.7521949903689162,
+      "language_loss": 0.79800916,
+      "learning_rate": 3.7406836879028205e-06,
+      "loss": 0.82068276,
+      "num_input_tokens_seen": 33378845,
+      "step": 1572,
+      "time_per_iteration": 2.6049511432647705
+    },
+    {
+      "auxiliary_loss_clip": 0.01228467,
+      "auxiliary_loss_mlp": 0.01039512,
+      "balance_loss_clip": 1.06330633,
+      "balance_loss_mlp": 1.02998745,
+      "epoch": 0.1891420669752901,
+      "flos": 22272121411200.0,
+      "grad_norm": 1.9386455620745162,
+      "language_loss": 0.7641921,
+      "learning_rate": 3.7402999528193907e-06,
+      "loss": 0.78687191,
+      "num_input_tokens_seen": 33398345,
+      "step": 1573,
+      "time_per_iteration": 2.702700138092041
+    },
+    {
+      "auxiliary_loss_clip": 0.01228192,
+      "auxiliary_loss_mlp": 0.01380816,
+      "balance_loss_clip": 1.05811238,
+      "balance_loss_mlp": 1.00012875,
+      "epoch": 0.18926230986592918,
+      "flos": 22017802141440.0,
+      "grad_norm": 3.5939036105657682,
+      "language_loss": 0.85342526,
+      "learning_rate": 3.739915953733842e-06,
+      "loss": 0.87951529,
+      "num_input_tokens_seen": 33416390,
+      "step": 1574,
+      "time_per_iteration": 3.6618852615356445
+    },
+    {
+      "auxiliary_loss_clip": 0.01219076,
+      "auxiliary_loss_mlp": 0.01039265,
+      "balance_loss_clip": 1.06312203,
+      "balance_loss_mlp": 1.02884054,
+      "epoch": 0.18938255275656826,
+      "flos": 24462672336000.0,
+      "grad_norm": 1.605006974160165,
+      "language_loss": 0.82201594,
+      "learning_rate": 3.7395316907044264e-06,
+      "loss": 0.84459937,
+      "num_input_tokens_seen": 33437175,
+      "step": 1575,
+      "time_per_iteration": 2.66750168800354
+    },
+    {
+      "auxiliary_loss_clip": 0.01230902,
+      "auxiliary_loss_mlp": 0.01035901,
+      "balance_loss_clip": 1.06254625,
+      "balance_loss_mlp": 1.02546406,
+      "epoch": 0.18950279564720737,
+      "flos": 24427049022720.0,
+      "grad_norm": 1.5711006513198251,
+      "language_loss": 0.7950114,
+      "learning_rate": 3.7391471637894364e-06,
+      "loss": 0.81767941,
+      "num_input_tokens_seen": 33459440,
+      "step": 1576,
+      "time_per_iteration": 2.7070839405059814
+    },
+    {
+      "auxiliary_loss_clip": 0.01243141,
+      "auxiliary_loss_mlp": 0.01037243,
+      "balance_loss_clip": 1.05465126,
+      "balance_loss_mlp": 1.02781963,
+      "epoch": 0.18962303853784646,
+      "flos": 19756291898880.0,
+      "grad_norm": 1.7548075972352148,
+      "language_loss": 0.84609675,
+      "learning_rate": 3.738762373047205e-06,
+      "loss": 0.8689006,
+      "num_input_tokens_seen": 33479360,
+      "step": 1577,
+      "time_per_iteration": 3.6335361003875732
+    },
+    {
+      "auxiliary_loss_clip": 0.0124829,
+      "auxiliary_loss_mlp": 0.01040628,
+      "balance_loss_clip": 1.05992913,
+      "balance_loss_mlp": 1.03036404,
+      "epoch": 0.18974328142848554,
+      "flos": 21032054225280.0,
+      "grad_norm": 2.037571460502913,
+      "language_loss": 0.83591807,
+      "learning_rate": 3.738377318536103e-06,
+      "loss": 0.85880733,
+      "num_input_tokens_seen": 33499245,
+      "step": 1578,
+      "time_per_iteration": 3.6407015323638916
+    },
+    {
+      "auxiliary_loss_clip": 0.01217879,
+      "auxiliary_loss_mlp": 0.01037502,
+      "balance_loss_clip": 1.06320333,
+      "balance_loss_mlp": 1.02809048,
+      "epoch": 0.18986352431912462,
+      "flos": 12966122736000.0,
+      "grad_norm": 2.7462925665077065,
+      "language_loss": 0.71193534,
+      "learning_rate": 3.7379920003145447e-06,
+      "loss": 0.7344892,
+      "num_input_tokens_seen": 33513520,
+      "step": 1579,
+      "time_per_iteration": 3.4839580059051514
+    },
+    {
+      "auxiliary_loss_clip": 0.01228538,
+      "auxiliary_loss_mlp": 0.01035551,
+      "balance_loss_clip": 1.06062925,
+      "balance_loss_mlp": 1.02499485,
+      "epoch": 0.18998376720976373,
+      "flos": 23767908497280.0,
+      "grad_norm": 2.0312279773010564,
+      "language_loss": 0.83592618,
+      "learning_rate": 3.7376064184409817e-06,
+      "loss": 0.85856712,
+      "num_input_tokens_seen": 33533100,
+      "step": 1580,
+      "time_per_iteration": 2.6684727668762207
+    },
+    {
+      "auxiliary_loss_clip": 0.01232772,
+      "auxiliary_loss_mlp": 0.01041025,
+      "balance_loss_clip": 1.05968714,
+      "balance_loss_mlp": 1.03121972,
+      "epoch": 0.19010401010040281,
+      "flos": 22966023323520.0,
+      "grad_norm": 1.3969122591162533,
+      "language_loss": 0.87109905,
+      "learning_rate": 3.7372205729739063e-06,
+      "loss": 0.89383698,
+      "num_input_tokens_seen": 33554915,
+      "step": 1581,
+      "time_per_iteration": 2.7382593154907227
+    },
+    {
+      "auxiliary_loss_clip": 0.01232304,
+      "auxiliary_loss_mlp": 0.01034163,
+      "balance_loss_clip": 1.06250048,
+      "balance_loss_mlp": 1.02402413,
+      "epoch": 0.1902242529910419,
+      "flos": 19135647774720.0,
+      "grad_norm": 3.520973189757873,
+      "language_loss": 0.71851569,
+      "learning_rate": 3.7368344639718514e-06,
+      "loss": 0.74118036,
+      "num_input_tokens_seen": 33572850,
+      "step": 1582,
+      "time_per_iteration": 2.6034059524536133
+    },
+    {
+      "auxiliary_loss_clip": 0.01231837,
+      "auxiliary_loss_mlp": 0.01041204,
+      "balance_loss_clip": 1.06306458,
+      "balance_loss_mlp": 1.03166127,
+      "epoch": 0.190344495881681,
+      "flos": 25483935824640.0,
+      "grad_norm": 1.499473804627554,
+      "language_loss": 0.80430043,
+      "learning_rate": 3.7364480914933895e-06,
+      "loss": 0.82703078,
+      "num_input_tokens_seen": 33593090,
+      "step": 1583,
+      "time_per_iteration": 2.688896656036377
+    },
+    {
+      "auxiliary_loss_clip": 0.01247772,
+      "auxiliary_loss_mlp": 0.013806,
+      "balance_loss_clip": 1.05602908,
+      "balance_loss_mlp": 1.00007796,
+      "epoch": 0.1904647387723201,
+      "flos": 26792843425920.0,
+      "grad_norm": 1.8598651092509813,
+      "language_loss": 0.81130224,
+      "learning_rate": 3.7360614555971325e-06,
+      "loss": 0.83758593,
+      "num_input_tokens_seen": 33612745,
+      "step": 1584,
+      "time_per_iteration": 2.762960910797119
+    },
+    {
+      "auxiliary_loss_clip": 0.01231152,
+      "auxiliary_loss_mlp": 0.01380437,
+      "balance_loss_clip": 1.06372464,
+      "balance_loss_mlp": 1.00004363,
+      "epoch": 0.19058498166295917,
+      "flos": 23987753688960.0,
+      "grad_norm": 1.8715761315066528,
+      "language_loss": 0.84873903,
+      "learning_rate": 3.735674556341733e-06,
+      "loss": 0.87485492,
+      "num_input_tokens_seen": 33632360,
+      "step": 1585,
+      "time_per_iteration": 2.6568944454193115
+    },
+    {
+      "auxiliary_loss_clip": 0.01238715,
+      "auxiliary_loss_mlp": 0.01040305,
+      "balance_loss_clip": 1.06426454,
+      "balance_loss_mlp": 1.03040504,
+      "epoch": 0.19070522455359826,
+      "flos": 28293299280000.0,
+      "grad_norm": 1.8839643220024835,
+      "language_loss": 0.82790053,
+      "learning_rate": 3.7352873937858835e-06,
+      "loss": 0.85069072,
+      "num_input_tokens_seen": 33653895,
+      "step": 1586,
+      "time_per_iteration": 2.716492176055908
+    },
+    {
+      "auxiliary_loss_clip": 0.01235911,
+      "auxiliary_loss_mlp": 0.01380731,
+      "balance_loss_clip": 1.05634093,
+      "balance_loss_mlp": 1.00003386,
+      "epoch": 0.19082546744423737,
+      "flos": 25660220797440.0,
+      "grad_norm": 2.112192687902865,
+      "language_loss": 0.721398,
+      "learning_rate": 3.734899967988316e-06,
+      "loss": 0.74756444,
+      "num_input_tokens_seen": 33672075,
+      "step": 1587,
+      "time_per_iteration": 2.745380163192749
+    },
+    {
+      "auxiliary_loss_clip": 0.01234269,
+      "auxiliary_loss_mlp": 0.01034412,
+      "balance_loss_clip": 1.05606604,
+      "balance_loss_mlp": 1.02523899,
+      "epoch": 0.19094571033487645,
+      "flos": 19719483436800.0,
+      "grad_norm": 1.7818295065303604,
+      "language_loss": 0.83953118,
+      "learning_rate": 3.7345122790078026e-06,
+      "loss": 0.86221802,
+      "num_input_tokens_seen": 33689640,
+      "step": 1588,
+      "time_per_iteration": 2.7147083282470703
+    },
+    {
+      "auxiliary_loss_clip": 0.01228103,
+      "auxiliary_loss_mlp": 0.01037162,
+      "balance_loss_clip": 1.06136715,
+      "balance_loss_mlp": 1.02640939,
+      "epoch": 0.19106595322551553,
+      "flos": 21616320850560.0,
+      "grad_norm": 4.654835117496724,
+      "language_loss": 0.92550647,
+      "learning_rate": 3.7341243269031556e-06,
+      "loss": 0.9481591,
+      "num_input_tokens_seen": 33708630,
+      "step": 1589,
+      "time_per_iteration": 2.6361019611358643
+    },
+    {
+      "auxiliary_loss_clip": 0.01228883,
+      "auxiliary_loss_mlp": 0.01038979,
+      "balance_loss_clip": 1.06028259,
+      "balance_loss_mlp": 1.02976441,
+      "epoch": 0.19118619611615464,
+      "flos": 29896890059520.0,
+      "grad_norm": 1.690826990560581,
+      "language_loss": 0.77170444,
+      "learning_rate": 3.7337361117332275e-06,
+      "loss": 0.79438311,
+      "num_input_tokens_seen": 33730370,
+      "step": 1590,
+      "time_per_iteration": 2.7732415199279785
+    },
+    {
+      "auxiliary_loss_clip": 0.01245514,
+      "auxiliary_loss_mlp": 0.01035577,
+      "balance_loss_clip": 1.05507696,
+      "balance_loss_mlp": 1.02596283,
+      "epoch": 0.19130643900679373,
+      "flos": 17273428093440.0,
+      "grad_norm": 1.889326696195407,
+      "language_loss": 0.7709322,
+      "learning_rate": 3.7333476335569087e-06,
+      "loss": 0.79374313,
+      "num_input_tokens_seen": 33748370,
+      "step": 1591,
+      "time_per_iteration": 2.6905453205108643
+    },
+    {
+      "auxiliary_loss_clip": 0.01235055,
+      "auxiliary_loss_mlp": 0.01033172,
+      "balance_loss_clip": 1.05860984,
+      "balance_loss_mlp": 1.02330732,
+      "epoch": 0.1914266818974328,
+      "flos": 24826339584000.0,
+      "grad_norm": 2.2867094879553123,
+      "language_loss": 0.67181462,
+      "learning_rate": 3.7329588924331325e-06,
+      "loss": 0.69449687,
+      "num_input_tokens_seen": 33769575,
+      "step": 1592,
+      "time_per_iteration": 2.720346689224243
+    },
+    {
+      "auxiliary_loss_clip": 0.0123589,
+      "auxiliary_loss_mlp": 0.01030934,
+      "balance_loss_clip": 1.05510199,
+      "balance_loss_mlp": 1.02100348,
+      "epoch": 0.1915469247880719,
+      "flos": 18952467390720.0,
+      "grad_norm": 1.713287706824984,
+      "language_loss": 0.82616866,
+      "learning_rate": 3.732569888420871e-06,
+      "loss": 0.84883684,
+      "num_input_tokens_seen": 33789110,
+      "step": 1593,
+      "time_per_iteration": 2.7002265453338623
+    },
+    {
+      "auxiliary_loss_clip": 0.01221552,
+      "auxiliary_loss_mlp": 0.01032825,
+      "balance_loss_clip": 1.06126499,
+      "balance_loss_mlp": 1.02267456,
+      "epoch": 0.191667167678711,
+      "flos": 21032952065280.0,
+      "grad_norm": 2.2780469777594345,
+      "language_loss": 0.82194573,
+      "learning_rate": 3.732180621579134e-06,
+      "loss": 0.84448957,
+      "num_input_tokens_seen": 33808325,
+      "step": 1594,
+      "time_per_iteration": 2.6328988075256348
+    },
+    {
+      "auxiliary_loss_clip": 0.01256609,
+      "auxiliary_loss_mlp": 0.01036612,
+      "balance_loss_clip": 1.0626992,
+      "balance_loss_mlp": 1.02720594,
+      "epoch": 0.1917874105693501,
+      "flos": 34237663914240.0,
+      "grad_norm": 2.4703866651286654,
+      "language_loss": 0.80960268,
+      "learning_rate": 3.7317910919669745e-06,
+      "loss": 0.83253485,
+      "num_input_tokens_seen": 33829520,
+      "step": 1595,
+      "time_per_iteration": 2.8041324615478516
+    },
+    {
+      "auxiliary_loss_clip": 0.01227706,
+      "auxiliary_loss_mlp": 0.010353,
+      "balance_loss_clip": 1.06272256,
+      "balance_loss_mlp": 1.02522075,
+      "epoch": 0.19190765345998917,
+      "flos": 23550613171200.0,
+      "grad_norm": 2.809022588433715,
+      "language_loss": 0.75890398,
+      "learning_rate": 3.7314012996434826e-06,
+      "loss": 0.78153402,
+      "num_input_tokens_seen": 33848250,
+      "step": 1596,
+      "time_per_iteration": 2.7029097080230713
+    },
+    {
+      "auxiliary_loss_clip": 0.01236921,
+      "auxiliary_loss_mlp": 0.01033499,
+      "balance_loss_clip": 1.06143284,
+      "balance_loss_mlp": 1.0238018,
+      "epoch": 0.19202789635062828,
+      "flos": 19861330245120.0,
+      "grad_norm": 1.945911881685662,
+      "language_loss": 0.80905622,
+      "learning_rate": 3.7310112446677907e-06,
+      "loss": 0.83176047,
+      "num_input_tokens_seen": 33866160,
+      "step": 1597,
+      "time_per_iteration": 2.6590588092803955
+    },
+    {
+      "auxiliary_loss_clip": 0.01224723,
+      "auxiliary_loss_mlp": 0.0103361,
+      "balance_loss_clip": 1.06554532,
+      "balance_loss_mlp": 1.02407312,
+      "epoch": 0.19214813924126736,
+      "flos": 20922957642240.0,
+      "grad_norm": 1.9238078313647016,
+      "language_loss": 0.68694627,
+      "learning_rate": 3.7306209270990695e-06,
+      "loss": 0.70952964,
+      "num_input_tokens_seen": 33884165,
+      "step": 1598,
+      "time_per_iteration": 2.655240774154663
+    },
+    {
+      "auxiliary_loss_clip": 0.01238279,
+      "auxiliary_loss_mlp": 0.01037684,
+      "balance_loss_clip": 1.06076837,
+      "balance_loss_mlp": 1.02825463,
+      "epoch": 0.19226838213190645,
+      "flos": 26359725231360.0,
+      "grad_norm": 1.7664146670507825,
+      "language_loss": 0.86550415,
+      "learning_rate": 3.7302303469965292e-06,
+      "loss": 0.88826382,
+      "num_input_tokens_seen": 33903705,
+      "step": 1599,
+      "time_per_iteration": 2.7002055644989014
+    },
+    {
+      "auxiliary_loss_clip": 0.0122856,
+      "auxiliary_loss_mlp": 0.01035732,
+      "balance_loss_clip": 1.06305909,
+      "balance_loss_mlp": 1.02660048,
+      "epoch": 0.19238862502254553,
+      "flos": 20850525866880.0,
+      "grad_norm": 1.8607422335907147,
+      "language_loss": 0.70468175,
+      "learning_rate": 3.7298395044194206e-06,
+      "loss": 0.72732472,
+      "num_input_tokens_seen": 33922515,
+      "step": 1600,
+      "time_per_iteration": 3.603997230529785
+    },
+    {
+      "auxiliary_loss_clip": 0.01227779,
+      "auxiliary_loss_mlp": 0.01038325,
+      "balance_loss_clip": 1.06955671,
+      "balance_loss_mlp": 1.02881193,
+      "epoch": 0.19250886791318464,
+      "flos": 21726063878400.0,
+      "grad_norm": 1.8374679537990837,
+      "language_loss": 0.94349623,
+      "learning_rate": 3.7294483994270356e-06,
+      "loss": 0.96615726,
+      "num_input_tokens_seen": 33940840,
+      "step": 1601,
+      "time_per_iteration": 2.6222376823425293
+    },
+    {
+      "auxiliary_loss_clip": 0.01238129,
+      "auxiliary_loss_mlp": 0.01040066,
+      "balance_loss_clip": 1.0517658,
+      "balance_loss_mlp": 1.03042769,
+      "epoch": 0.19262911080382372,
+      "flos": 23367827836800.0,
+      "grad_norm": 2.2093181370881254,
+      "language_loss": 0.78073281,
+      "learning_rate": 3.7290570320787033e-06,
+      "loss": 0.80351478,
+      "num_input_tokens_seen": 33960420,
+      "step": 1602,
+      "time_per_iteration": 2.756331443786621
+    },
+    {
+      "auxiliary_loss_clip": 0.01227841,
+      "auxiliary_loss_mlp": 0.01033818,
+      "balance_loss_clip": 1.06274509,
+      "balance_loss_mlp": 1.02456152,
+      "epoch": 0.1927493536944628,
+      "flos": 21943502858880.0,
+      "grad_norm": 2.126508197418027,
+      "language_loss": 0.71572888,
+      "learning_rate": 3.728665402433793e-06,
+      "loss": 0.7383455,
+      "num_input_tokens_seen": 33978990,
+      "step": 1603,
+      "time_per_iteration": 3.612764835357666
+    },
+    {
+      "auxiliary_loss_clip": 0.01233949,
+      "auxiliary_loss_mlp": 0.01033376,
+      "balance_loss_clip": 1.05935705,
+      "balance_loss_mlp": 1.02402425,
+      "epoch": 0.19286959658510192,
+      "flos": 16545590807040.0,
+      "grad_norm": 2.526169084300282,
+      "language_loss": 0.8620317,
+      "learning_rate": 3.7282735105517164e-06,
+      "loss": 0.88470495,
+      "num_input_tokens_seen": 33997115,
+      "step": 1604,
+      "time_per_iteration": 2.7041923999786377
+    },
+    {
+      "auxiliary_loss_clip": 0.01258478,
+      "auxiliary_loss_mlp": 0.01040125,
+      "balance_loss_clip": 1.0554775,
+      "balance_loss_mlp": 1.0301528,
+      "epoch": 0.192989839475741,
+      "flos": 21616967295360.0,
+      "grad_norm": 2.057997999255952,
+      "language_loss": 0.67105454,
+      "learning_rate": 3.727881356491922e-06,
+      "loss": 0.69404066,
+      "num_input_tokens_seen": 34015525,
+      "step": 1605,
+      "time_per_iteration": 3.615204334259033
+    },
+    {
+      "auxiliary_loss_clip": 0.01221891,
+      "auxiliary_loss_mlp": 0.0104103,
+      "balance_loss_clip": 1.06686211,
+      "balance_loss_mlp": 1.03169572,
+      "epoch": 0.19311008236638008,
+      "flos": 19281516906240.0,
+      "grad_norm": 1.8346809654641734,
+      "language_loss": 0.76000285,
+      "learning_rate": 3.7274889403139002e-06,
+      "loss": 0.78263205,
+      "num_input_tokens_seen": 34033150,
+      "step": 1606,
+      "time_per_iteration": 2.6053965091705322
+    },
+    {
+      "auxiliary_loss_clip": 0.01247293,
+      "auxiliary_loss_mlp": 0.01028845,
+      "balance_loss_clip": 1.05771637,
+      "balance_loss_mlp": 1.01986814,
+      "epoch": 0.1932303252570192,
+      "flos": 28652369587200.0,
+      "grad_norm": 2.250523641082838,
+      "language_loss": 0.7843051,
+      "learning_rate": 3.727096262077179e-06,
+      "loss": 0.8070665,
+      "num_input_tokens_seen": 34052145,
+      "step": 1607,
+      "time_per_iteration": 2.7635905742645264
+    },
+    {
+      "auxiliary_loss_clip": 0.01229219,
+      "auxiliary_loss_mlp": 0.01037119,
+      "balance_loss_clip": 1.0620507,
+      "balance_loss_mlp": 1.02757645,
+      "epoch": 0.19335056814765827,
+      "flos": 18368990864640.0,
+      "grad_norm": 1.6845445730504924,
+      "language_loss": 0.85308403,
+      "learning_rate": 3.7267033218413285e-06,
+      "loss": 0.87574738,
+      "num_input_tokens_seen": 34069940,
+      "step": 1608,
+      "time_per_iteration": 2.6234028339385986
+    },
+    {
+      "auxiliary_loss_clip": 0.01255168,
+      "auxiliary_loss_mlp": 0.01034995,
+      "balance_loss_clip": 1.04986429,
+      "balance_loss_mlp": 1.02555954,
+      "epoch": 0.19347081103829736,
+      "flos": 13260877741440.0,
+      "grad_norm": 1.9820630686067575,
+      "language_loss": 0.81032741,
+      "learning_rate": 3.726310119665957e-06,
+      "loss": 0.83322906,
+      "num_input_tokens_seen": 34086275,
+      "step": 1609,
+      "time_per_iteration": 2.7148001194000244
+    },
+    {
+      "auxiliary_loss_clip": 0.0122775,
+      "auxiliary_loss_mlp": 0.01033303,
+      "balance_loss_clip": 1.06221342,
+      "balance_loss_mlp": 1.02372479,
+      "epoch": 0.19359105392893644,
+      "flos": 20300122788480.0,
+      "grad_norm": 1.9754364552386467,
+      "language_loss": 0.85502321,
+      "learning_rate": 3.725916655610713e-06,
+      "loss": 0.87763375,
+      "num_input_tokens_seen": 34105605,
+      "step": 1610,
+      "time_per_iteration": 2.6467864513397217
+    },
+    {
+      "auxiliary_loss_clip": 0.01228482,
+      "auxiliary_loss_mlp": 0.01035094,
+      "balance_loss_clip": 1.06018853,
+      "balance_loss_mlp": 1.02501512,
+      "epoch": 0.19371129681957555,
+      "flos": 20484596062080.0,
+      "grad_norm": 3.132473494629016,
+      "language_loss": 0.75530386,
+      "learning_rate": 3.725522929735284e-06,
+      "loss": 0.77793962,
+      "num_input_tokens_seen": 34122540,
+      "step": 1611,
+      "time_per_iteration": 2.6607398986816406
+    },
+    {
+      "auxiliary_loss_clip": 0.01237527,
+      "auxiliary_loss_mlp": 0.01033768,
+      "balance_loss_clip": 1.05643058,
+      "balance_loss_mlp": 1.02392149,
+      "epoch": 0.19383153971021463,
+      "flos": 30445497457920.0,
+      "grad_norm": 2.2602221488812457,
+      "language_loss": 0.74028146,
+      "learning_rate": 3.725128942099399e-06,
+      "loss": 0.76299447,
+      "num_input_tokens_seen": 34142940,
+      "step": 1612,
+      "time_per_iteration": 2.8473317623138428
+    },
+    {
+      "auxiliary_loss_clip": 0.01221785,
+      "auxiliary_loss_mlp": 0.01031469,
+      "balance_loss_clip": 1.05520058,
+      "balance_loss_mlp": 1.02151465,
+      "epoch": 0.19395178260085372,
+      "flos": 24569937325440.0,
+      "grad_norm": 1.8622185129586566,
+      "language_loss": 0.79854459,
+      "learning_rate": 3.7247346927628245e-06,
+      "loss": 0.82107711,
+      "num_input_tokens_seen": 34162875,
+      "step": 1613,
+      "time_per_iteration": 2.722994804382324
+    },
+    {
+      "auxiliary_loss_clip": 0.0123393,
+      "auxiliary_loss_mlp": 0.01380502,
+      "balance_loss_clip": 1.06050634,
+      "balance_loss_mlp": 1.00018477,
+      "epoch": 0.19407202549149283,
+      "flos": 28950608211840.0,
+      "grad_norm": 1.9965095101807606,
+      "language_loss": 0.79261094,
+      "learning_rate": 3.7243401817853694e-06,
+      "loss": 0.81875527,
+      "num_input_tokens_seen": 34183565,
+      "step": 1614,
+      "time_per_iteration": 2.760986566543579
+    },
+    {
+      "auxiliary_loss_clip": 0.01220147,
+      "auxiliary_loss_mlp": 0.01032543,
+      "balance_loss_clip": 1.06155825,
+      "balance_loss_mlp": 1.02313781,
+      "epoch": 0.1941922683821319,
+      "flos": 18004497603840.0,
+      "grad_norm": 1.866274882751797,
+      "language_loss": 0.71942049,
+      "learning_rate": 3.723945409226879e-06,
+      "loss": 0.74194741,
+      "num_input_tokens_seen": 34202055,
+      "step": 1615,
+      "time_per_iteration": 2.636820077896118
+    },
+    {
+      "auxiliary_loss_clip": 0.01224865,
+      "auxiliary_loss_mlp": 0.01035753,
+      "balance_loss_clip": 1.05906701,
+      "balance_loss_mlp": 1.02565598,
+      "epoch": 0.194312511272771,
+      "flos": 9720337034880.0,
+      "grad_norm": 2.12697807689995,
+      "language_loss": 0.80033565,
+      "learning_rate": 3.723550375147241e-06,
+      "loss": 0.82294184,
+      "num_input_tokens_seen": 34216830,
+      "step": 1616,
+      "time_per_iteration": 2.5849545001983643
+    },
+    {
+      "auxiliary_loss_clip": 0.01224067,
+      "auxiliary_loss_mlp": 0.01037357,
+      "balance_loss_clip": 1.05246103,
+      "balance_loss_mlp": 1.02802336,
+      "epoch": 0.19443275416341008,
+      "flos": 27016208150400.0,
+      "grad_norm": 2.175562667226884,
+      "language_loss": 0.79866803,
+      "learning_rate": 3.7231550796063816e-06,
+      "loss": 0.82128227,
+      "num_input_tokens_seen": 34236840,
+      "step": 1617,
+      "time_per_iteration": 2.7586328983306885
+    },
+    {
+      "auxiliary_loss_clip": 0.01245718,
+      "auxiliary_loss_mlp": 0.01032948,
+      "balance_loss_clip": 1.06360054,
+      "balance_loss_mlp": 1.02322686,
+      "epoch": 0.1945529970540492,
+      "flos": 15846625077120.0,
+      "grad_norm": 1.8552160835263343,
+      "language_loss": 0.65068763,
+      "learning_rate": 3.722759522664266e-06,
+      "loss": 0.67347431,
+      "num_input_tokens_seen": 34254140,
+      "step": 1618,
+      "time_per_iteration": 2.650352954864502
+    },
+    {
+      "auxiliary_loss_clip": 0.01249934,
+      "auxiliary_loss_mlp": 0.01040134,
+      "balance_loss_clip": 1.05651367,
+      "balance_loss_mlp": 1.03082347,
+      "epoch": 0.19467323994468827,
+      "flos": 19314985403520.0,
+      "grad_norm": 1.8278541842053033,
+      "language_loss": 0.81798661,
+      "learning_rate": 3.7223637043809016e-06,
+      "loss": 0.84088731,
+      "num_input_tokens_seen": 34273120,
+      "step": 1619,
+      "time_per_iteration": 2.73252534866333
+    },
+    {
+      "auxiliary_loss_clip": 0.01247978,
+      "auxiliary_loss_mlp": 0.0103608,
+      "balance_loss_clip": 1.06131387,
+      "balance_loss_mlp": 1.02662098,
+      "epoch": 0.19479348283532735,
+      "flos": 24133227770880.0,
+      "grad_norm": 1.9543410870454088,
+      "language_loss": 0.86454386,
+      "learning_rate": 3.7219676248163322e-06,
+      "loss": 0.88738441,
+      "num_input_tokens_seen": 34290285,
+      "step": 1620,
+      "time_per_iteration": 2.684662103652954
+    },
+    {
+      "auxiliary_loss_clip": 0.01233987,
+      "auxiliary_loss_mlp": 0.01036372,
+      "balance_loss_clip": 1.06490898,
+      "balance_loss_mlp": 1.02718711,
+      "epoch": 0.19491372572596646,
+      "flos": 25775638174080.0,
+      "grad_norm": 1.9927077998184075,
+      "language_loss": 0.93286157,
+      "learning_rate": 3.721571284030643e-06,
+      "loss": 0.95556509,
+      "num_input_tokens_seen": 34310095,
+      "step": 1621,
+      "time_per_iteration": 2.68229603767395
+    },
+    {
+      "auxiliary_loss_clip": 0.01228913,
+      "auxiliary_loss_mlp": 0.01037716,
+      "balance_loss_clip": 1.06050777,
+      "balance_loss_mlp": 1.02832866,
+      "epoch": 0.19503396861660555,
+      "flos": 19645220067840.0,
+      "grad_norm": 2.1588065392881823,
+      "language_loss": 0.78859895,
+      "learning_rate": 3.7211746820839587e-06,
+      "loss": 0.81126523,
+      "num_input_tokens_seen": 34327190,
+      "step": 1622,
+      "time_per_iteration": 2.6712565422058105
+    },
+    {
+      "auxiliary_loss_clip": 0.01247445,
+      "auxiliary_loss_mlp": 0.01035055,
+      "balance_loss_clip": 1.04978716,
+      "balance_loss_mlp": 1.02551234,
+      "epoch": 0.19515421150724463,
+      "flos": 21033023892480.0,
+      "grad_norm": 3.6143984674655987,
+      "language_loss": 0.80880535,
+      "learning_rate": 3.7207778190364437e-06,
+      "loss": 0.83163035,
+      "num_input_tokens_seen": 34345615,
+      "step": 1623,
+      "time_per_iteration": 2.8369176387786865
+    },
+    {
+      "auxiliary_loss_clip": 0.01240214,
+      "auxiliary_loss_mlp": 0.01034255,
+      "balance_loss_clip": 1.05077481,
+      "balance_loss_mlp": 1.02576137,
+      "epoch": 0.1952744543978837,
+      "flos": 32961255143040.0,
+      "grad_norm": 1.5150554031438894,
+      "language_loss": 0.74002874,
+      "learning_rate": 3.720380694948302e-06,
+      "loss": 0.76277339,
+      "num_input_tokens_seen": 34368500,
+      "step": 1624,
+      "time_per_iteration": 2.7988524436950684
+    },
+    {
+      "auxiliary_loss_clip": 0.01173368,
+      "auxiliary_loss_mlp": 0.01011985,
+      "balance_loss_clip": 1.03590786,
+      "balance_loss_mlp": 1.00915956,
+      "epoch": 0.19539469728852282,
+      "flos": 64044312030720.0,
+      "grad_norm": 1.0409402868163478,
+      "language_loss": 0.71248221,
+      "learning_rate": 3.719983309879777e-06,
+      "loss": 0.73433578,
+      "num_input_tokens_seen": 34428280,
+      "step": 1625,
+      "time_per_iteration": 3.2525441646575928
+    },
+    {
+      "auxiliary_loss_clip": 0.01232998,
+      "auxiliary_loss_mlp": 0.01036202,
+      "balance_loss_clip": 1.05656099,
+      "balance_loss_mlp": 1.02637327,
+      "epoch": 0.1955149401791619,
+      "flos": 13370908078080.0,
+      "grad_norm": 1.7338519920284,
+      "language_loss": 0.7751379,
+      "learning_rate": 3.719585663891151e-06,
+      "loss": 0.79782987,
+      "num_input_tokens_seen": 34445815,
+      "step": 1626,
+      "time_per_iteration": 3.6269006729125977
+    },
+    {
+      "auxiliary_loss_clip": 0.01242213,
+      "auxiliary_loss_mlp": 0.01037056,
+      "balance_loss_clip": 1.05667937,
+      "balance_loss_mlp": 1.02750111,
+      "epoch": 0.195635183069801,
+      "flos": 18728887184640.0,
+      "grad_norm": 1.9930521433683435,
+      "language_loss": 0.79214835,
+      "learning_rate": 3.719187757042747e-06,
+      "loss": 0.81494105,
+      "num_input_tokens_seen": 34463635,
+      "step": 1627,
+      "time_per_iteration": 2.683145046234131
+    },
+    {
+      "auxiliary_loss_clip": 0.01138786,
+      "auxiliary_loss_mlp": 0.01006671,
+      "balance_loss_clip": 1.02953339,
+      "balance_loss_mlp": 1.00406075,
+      "epoch": 0.1957554259604401,
+      "flos": 69313952615040.0,
+      "grad_norm": 0.730716019762997,
+      "language_loss": 0.54990387,
+      "learning_rate": 3.7187895893949275e-06,
+      "loss": 0.57135844,
+      "num_input_tokens_seen": 34530105,
+      "step": 1628,
+      "time_per_iteration": 4.296249628067017
+    },
+    {
+      "auxiliary_loss_clip": 0.0123529,
+      "auxiliary_loss_mlp": 0.01029721,
+      "balance_loss_clip": 1.05207741,
+      "balance_loss_mlp": 1.01992226,
+      "epoch": 0.19587566885107918,
+      "flos": 21069257736960.0,
+      "grad_norm": 2.342759413777079,
+      "language_loss": 0.76437765,
+      "learning_rate": 3.7183911610080937e-06,
+      "loss": 0.78702778,
+      "num_input_tokens_seen": 34546970,
+      "step": 1629,
+      "time_per_iteration": 2.740668773651123
+    },
+    {
+      "auxiliary_loss_clip": 0.01243526,
+      "auxiliary_loss_mlp": 0.01051191,
+      "balance_loss_clip": 1.05838227,
+      "balance_loss_mlp": 1.04078412,
+      "epoch": 0.19599591174171827,
+      "flos": 22194661731840.0,
+      "grad_norm": 2.5604181907298162,
+      "language_loss": 0.74775803,
+      "learning_rate": 3.7179924719426872e-06,
+      "loss": 0.77070522,
+      "num_input_tokens_seen": 34564865,
+      "step": 1630,
+      "time_per_iteration": 3.649298906326294
+    },
+    {
+      "auxiliary_loss_clip": 0.01230347,
+      "auxiliary_loss_mlp": 0.01037125,
+      "balance_loss_clip": 1.06300676,
+      "balance_loss_mlp": 1.02778482,
+      "epoch": 0.19611615463235738,
+      "flos": 23768375374080.0,
+      "grad_norm": 2.7754256193128795,
+      "language_loss": 0.75668454,
+      "learning_rate": 3.7175935222591885e-06,
+      "loss": 0.77935928,
+      "num_input_tokens_seen": 34584165,
+      "step": 1631,
+      "time_per_iteration": 3.623095750808716
+    },
+    {
+      "auxiliary_loss_clip": 0.01243262,
+      "auxiliary_loss_mlp": 0.01041771,
+      "balance_loss_clip": 1.06633925,
+      "balance_loss_mlp": 1.03179944,
+      "epoch": 0.19623639752299646,
+      "flos": 28618218731520.0,
+      "grad_norm": 1.9155747082807386,
+      "language_loss": 0.74296618,
+      "learning_rate": 3.717194312018118e-06,
+      "loss": 0.76581651,
+      "num_input_tokens_seen": 34603150,
+      "step": 1632,
+      "time_per_iteration": 2.735193967819214
+    },
+    {
+      "auxiliary_loss_clip": 0.01232229,
+      "auxiliary_loss_mlp": 0.01036044,
+      "balance_loss_clip": 1.06355274,
+      "balance_loss_mlp": 1.02594078,
+      "epoch": 0.19635664041363554,
+      "flos": 21032700670080.0,
+      "grad_norm": 2.0652617980767154,
+      "language_loss": 0.76297671,
+      "learning_rate": 3.716794841280036e-06,
+      "loss": 0.78565943,
+      "num_input_tokens_seen": 34621855,
+      "step": 1633,
+      "time_per_iteration": 2.6123859882354736
+    },
+    {
+      "auxiliary_loss_clip": 0.01234858,
+      "auxiliary_loss_mlp": 0.01038752,
+      "balance_loss_clip": 1.06411552,
+      "balance_loss_mlp": 1.02829695,
+      "epoch": 0.19647688330427462,
+      "flos": 18879748306560.0,
+      "grad_norm": 2.78039900251183,
+      "language_loss": 0.77197015,
+      "learning_rate": 3.7163951101055407e-06,
+      "loss": 0.79470623,
+      "num_input_tokens_seen": 34639915,
+      "step": 1634,
+      "time_per_iteration": 2.6013548374176025
+    },
+    {
+      "auxiliary_loss_clip": 0.01232327,
+      "auxiliary_loss_mlp": 0.01042416,
+      "balance_loss_clip": 1.06108809,
+      "balance_loss_mlp": 1.03229535,
+      "epoch": 0.19659712619491373,
+      "flos": 24242503921920.0,
+      "grad_norm": 1.770295289905249,
+      "language_loss": 0.79070055,
+      "learning_rate": 3.715995118555273e-06,
+      "loss": 0.81344795,
+      "num_input_tokens_seen": 34659890,
+      "step": 1635,
+      "time_per_iteration": 2.7070958614349365
+    },
+    {
+      "auxiliary_loss_clip": 0.01245908,
+      "auxiliary_loss_mlp": 0.01032811,
+      "balance_loss_clip": 1.05420446,
+      "balance_loss_mlp": 1.02280927,
+      "epoch": 0.19671736908555282,
+      "flos": 24717422568960.0,
+      "grad_norm": 2.1912630791044507,
+      "language_loss": 0.85766804,
+      "learning_rate": 3.71559486668991e-06,
+      "loss": 0.8804552,
+      "num_input_tokens_seen": 34678750,
+      "step": 1636,
+      "time_per_iteration": 2.801345109939575
+    },
+    {
+      "auxiliary_loss_clip": 0.01235093,
+      "auxiliary_loss_mlp": 0.01380797,
+      "balance_loss_clip": 1.06509852,
+      "balance_loss_mlp": 1.00026631,
+      "epoch": 0.1968376119761919,
+      "flos": 23842279607040.0,
+      "grad_norm": 1.729715058174772,
+      "language_loss": 0.77289075,
+      "learning_rate": 3.715194354570169e-06,
+      "loss": 0.79904968,
+      "num_input_tokens_seen": 34698755,
+      "step": 1637,
+      "time_per_iteration": 2.668491840362549
+    },
+    {
+      "auxiliary_loss_clip": 0.01227568,
+      "auxiliary_loss_mlp": 0.01041761,
+      "balance_loss_clip": 1.06470394,
+      "balance_loss_mlp": 1.03185487,
+      "epoch": 0.196957854866831,
+      "flos": 18113917409280.0,
+      "grad_norm": 2.0144225917746286,
+      "language_loss": 0.83215052,
+      "learning_rate": 3.714793582256809e-06,
+      "loss": 0.85484374,
+      "num_input_tokens_seen": 34715820,
+      "step": 1638,
+      "time_per_iteration": 2.5985331535339355
+    },
+    {
+      "auxiliary_loss_clip": 0.01219867,
+      "auxiliary_loss_mlp": 0.01034463,
+      "balance_loss_clip": 1.06368256,
+      "balance_loss_mlp": 1.02520645,
+      "epoch": 0.1970780977574701,
+      "flos": 21653129312640.0,
+      "grad_norm": 2.6825845099836534,
+      "language_loss": 0.85167044,
+      "learning_rate": 3.7143925498106253e-06,
+      "loss": 0.87421376,
+      "num_input_tokens_seen": 34734360,
+      "step": 1639,
+      "time_per_iteration": 2.607614278793335
+    },
+    {
+      "auxiliary_loss_clip": 0.012294,
+      "auxiliary_loss_mlp": 0.01038742,
+      "balance_loss_clip": 1.05463815,
+      "balance_loss_mlp": 1.02904463,
+      "epoch": 0.19719834064810918,
+      "flos": 20811813984000.0,
+      "grad_norm": 1.8486742063935753,
+      "language_loss": 0.79132992,
+      "learning_rate": 3.7139912572924558e-06,
+      "loss": 0.81401139,
+      "num_input_tokens_seen": 34753390,
+      "step": 1640,
+      "time_per_iteration": 2.6889488697052
+    },
+    {
+      "auxiliary_loss_clip": 0.01220707,
+      "auxiliary_loss_mlp": 0.01036209,
+      "balance_loss_clip": 1.05739856,
+      "balance_loss_mlp": 1.02592731,
+      "epoch": 0.19731858353874826,
+      "flos": 23434800744960.0,
+      "grad_norm": 2.676962082636155,
+      "language_loss": 0.80715585,
+      "learning_rate": 3.7135897047631744e-06,
+      "loss": 0.82972515,
+      "num_input_tokens_seen": 34771275,
+      "step": 1641,
+      "time_per_iteration": 2.6758341789245605
+    },
+    {
+      "auxiliary_loss_clip": 0.01238374,
+      "auxiliary_loss_mlp": 0.01034567,
+      "balance_loss_clip": 1.05797744,
+      "balance_loss_mlp": 1.02521539,
+      "epoch": 0.19743882642938737,
+      "flos": 23988184652160.0,
+      "grad_norm": 2.86669776686613,
+      "language_loss": 0.75839996,
+      "learning_rate": 3.713187892283698e-06,
+      "loss": 0.78112936,
+      "num_input_tokens_seen": 34790885,
+      "step": 1642,
+      "time_per_iteration": 2.650284767150879
+    },
+    {
+      "auxiliary_loss_clip": 0.01248691,
+      "auxiliary_loss_mlp": 0.01031227,
+      "balance_loss_clip": 1.05457187,
+      "balance_loss_mlp": 1.02151108,
+      "epoch": 0.19755906932002645,
+      "flos": 15004340081280.0,
+      "grad_norm": 2.442052709981298,
+      "language_loss": 0.87195504,
+      "learning_rate": 3.71278581991498e-06,
+      "loss": 0.89475423,
+      "num_input_tokens_seen": 34806745,
+      "step": 1643,
+      "time_per_iteration": 2.748849391937256
+    },
+    {
+      "auxiliary_loss_clip": 0.01246376,
+      "auxiliary_loss_mlp": 0.0138081,
+      "balance_loss_clip": 1.05993295,
+      "balance_loss_mlp": 1.00039458,
+      "epoch": 0.19767931221066554,
+      "flos": 19494466686720.0,
+      "grad_norm": 1.9425644591765463,
+      "language_loss": 0.78855014,
+      "learning_rate": 3.712383487718015e-06,
+      "loss": 0.81482202,
+      "num_input_tokens_seen": 34824985,
+      "step": 1644,
+      "time_per_iteration": 2.6798648834228516
+    },
+    {
+      "auxiliary_loss_clip": 0.01255128,
+      "auxiliary_loss_mlp": 0.01028598,
+      "balance_loss_clip": 1.05642724,
+      "balance_loss_mlp": 1.02009881,
+      "epoch": 0.19779955510130465,
+      "flos": 25737895958400.0,
+      "grad_norm": 1.9070436744528623,
+      "language_loss": 0.86569548,
+      "learning_rate": 3.7119808957538365e-06,
+      "loss": 0.88853276,
+      "num_input_tokens_seen": 34843980,
+      "step": 1645,
+      "time_per_iteration": 2.8334999084472656
+    },
+    {
+      "auxiliary_loss_clip": 0.01226849,
+      "auxiliary_loss_mlp": 0.01035305,
+      "balance_loss_clip": 1.05498159,
+      "balance_loss_mlp": 1.02467763,
+      "epoch": 0.19791979799194373,
+      "flos": 20777699041920.0,
+      "grad_norm": 2.254545688151635,
+      "language_loss": 0.80437744,
+      "learning_rate": 3.711578044083517e-06,
+      "loss": 0.82699895,
+      "num_input_tokens_seen": 34860780,
+      "step": 1646,
+      "time_per_iteration": 2.6386163234710693
+    },
+    {
+      "auxiliary_loss_clip": 0.01232602,
+      "auxiliary_loss_mlp": 0.01037451,
+      "balance_loss_clip": 1.05769491,
+      "balance_loss_mlp": 1.02786613,
+      "epoch": 0.1980400408825828,
+      "flos": 25589010084480.0,
+      "grad_norm": 2.010258771376046,
+      "language_loss": 0.7458325,
+      "learning_rate": 3.7111749327681698e-06,
+      "loss": 0.76853299,
+      "num_input_tokens_seen": 34880815,
+      "step": 1647,
+      "time_per_iteration": 2.7027082443237305
+    },
+    {
+      "auxiliary_loss_clip": 0.01230666,
+      "auxiliary_loss_mlp": 0.0104213,
+      "balance_loss_clip": 1.06192327,
+      "balance_loss_mlp": 1.03304052,
+      "epoch": 0.1981602837732219,
+      "flos": 23513840622720.0,
+      "grad_norm": 2.2932894142072375,
+      "language_loss": 0.86332679,
+      "learning_rate": 3.7107715618689455e-06,
+      "loss": 0.88605475,
+      "num_input_tokens_seen": 34899790,
+      "step": 1648,
+      "time_per_iteration": 2.615725517272949
+    },
+    {
+      "auxiliary_loss_clip": 0.01224239,
+      "auxiliary_loss_mlp": 0.0103447,
+      "balance_loss_clip": 1.06180525,
+      "balance_loss_mlp": 1.02427721,
+      "epoch": 0.198280526663861,
+      "flos": 23185365724800.0,
+      "grad_norm": 1.5449702904088911,
+      "language_loss": 0.83269906,
+      "learning_rate": 3.710367931447035e-06,
+      "loss": 0.85528618,
+      "num_input_tokens_seen": 34921570,
+      "step": 1649,
+      "time_per_iteration": 2.6880719661712646
+    },
+    {
+      "auxiliary_loss_clip": 0.01236031,
+      "auxiliary_loss_mlp": 0.01042041,
+      "balance_loss_clip": 1.06358242,
+      "balance_loss_mlp": 1.03175282,
+      "epoch": 0.1984007695545001,
+      "flos": 21689470897920.0,
+      "grad_norm": 2.3559987114557597,
+      "language_loss": 0.86486101,
+      "learning_rate": 3.70996404156367e-06,
+      "loss": 0.88764179,
+      "num_input_tokens_seen": 34941205,
+      "step": 1650,
+      "time_per_iteration": 2.6465117931365967
+    },
+    {
+      "auxiliary_loss_clip": 0.01234659,
+      "auxiliary_loss_mlp": 0.01035908,
+      "balance_loss_clip": 1.05216146,
+      "balance_loss_mlp": 1.02701461,
+      "epoch": 0.19852101244513917,
+      "flos": 36064008887040.0,
+      "grad_norm": 1.6400659577008434,
+      "language_loss": 0.72685027,
+      "learning_rate": 3.7095598922801187e-06,
+      "loss": 0.74955589,
+      "num_input_tokens_seen": 34963280,
+      "step": 1651,
+      "time_per_iteration": 2.8650054931640625
+    },
+    {
+      "auxiliary_loss_clip": 0.01219446,
+      "auxiliary_loss_mlp": 0.01032889,
+      "balance_loss_clip": 1.06346273,
+      "balance_loss_mlp": 1.02315545,
+      "epoch": 0.19864125533577828,
+      "flos": 23105894883840.0,
+      "grad_norm": 2.661372893606717,
+      "language_loss": 0.76025093,
+      "learning_rate": 3.7091554836576914e-06,
+      "loss": 0.78277421,
+      "num_input_tokens_seen": 34979955,
+      "step": 1652,
+      "time_per_iteration": 2.6495234966278076
+    },
+    {
+      "auxiliary_loss_clip": 0.01225155,
+      "auxiliary_loss_mlp": 0.01380447,
+      "balance_loss_clip": 1.06171393,
+      "balance_loss_mlp": 1.00027895,
+      "epoch": 0.19876149822641737,
+      "flos": 24608505553920.0,
+      "grad_norm": 1.71196753043,
+      "language_loss": 0.82937002,
+      "learning_rate": 3.708750815757736e-06,
+      "loss": 0.85542607,
+      "num_input_tokens_seen": 35000725,
+      "step": 1653,
+      "time_per_iteration": 3.5514254570007324
+    },
+    {
+      "auxiliary_loss_clip": 0.01225735,
+      "auxiliary_loss_mlp": 0.01034262,
+      "balance_loss_clip": 1.05921412,
+      "balance_loss_mlp": 1.02414083,
+      "epoch": 0.19888174111705645,
+      "flos": 32196645308160.0,
+      "grad_norm": 3.013679731256889,
+      "language_loss": 0.72944367,
+      "learning_rate": 3.7083458886416407e-06,
+      "loss": 0.75204366,
+      "num_input_tokens_seen": 35019920,
+      "step": 1654,
+      "time_per_iteration": 3.6243081092834473
+    },
+    {
+      "auxiliary_loss_clip": 0.01259484,
+      "auxiliary_loss_mlp": 0.01036146,
+      "balance_loss_clip": 1.0542196,
+      "balance_loss_mlp": 1.02603734,
+      "epoch": 0.19900198400769553,
+      "flos": 24608469640320.0,
+      "grad_norm": 10.125159527898852,
+      "language_loss": 0.88201761,
+      "learning_rate": 3.707940702370832e-06,
+      "loss": 0.90497398,
+      "num_input_tokens_seen": 35040765,
+      "step": 1655,
+      "time_per_iteration": 2.8040454387664795
+    },
+    {
+      "auxiliary_loss_clip": 0.01124922,
+      "auxiliary_loss_mlp": 0.01012523,
+      "balance_loss_clip": 1.03055072,
+      "balance_loss_mlp": 1.01003134,
+      "epoch": 0.19912222689833464,
+      "flos": 67915805673600.0,
+      "grad_norm": 0.7846027073569387,
+      "language_loss": 0.58259952,
+      "learning_rate": 3.707535257006777e-06,
+      "loss": 0.60397398,
+      "num_input_tokens_seen": 35106390,
+      "step": 1656,
+      "time_per_iteration": 4.2402026653289795
+    },
+    {
+      "auxiliary_loss_clip": 0.01234375,
+      "auxiliary_loss_mlp": 0.01034292,
+      "balance_loss_clip": 1.05786026,
+      "balance_loss_mlp": 1.02396226,
+      "epoch": 0.19924246978897373,
+      "flos": 15742340916480.0,
+      "grad_norm": 2.2048621382284663,
+      "language_loss": 0.88686711,
+      "learning_rate": 3.707129552610981e-06,
+      "loss": 0.90955377,
+      "num_input_tokens_seen": 35125040,
+      "step": 1657,
+      "time_per_iteration": 3.5690529346466064
+    },
+    {
+      "auxiliary_loss_clip": 0.01227664,
+      "auxiliary_loss_mlp": 0.01034472,
+      "balance_loss_clip": 1.06014919,
+      "balance_loss_mlp": 1.02451169,
+      "epoch": 0.1993627126796128,
+      "flos": 17566566986880.0,
+      "grad_norm": 3.2564881965139745,
+      "language_loss": 0.73954415,
+      "learning_rate": 3.70672358924499e-06,
+      "loss": 0.76216543,
+      "num_input_tokens_seen": 35144280,
+      "step": 1658,
+      "time_per_iteration": 2.6471779346466064
+    },
+    {
+      "auxiliary_loss_clip": 0.01243415,
+      "auxiliary_loss_mlp": 0.01038485,
+      "balance_loss_clip": 1.06142831,
+      "balance_loss_mlp": 1.02891207,
+      "epoch": 0.19948295557025192,
+      "flos": 40843826680320.0,
+      "grad_norm": 1.9338400373153888,
+      "language_loss": 0.78879768,
+      "learning_rate": 3.706317366970386e-06,
+      "loss": 0.81161666,
+      "num_input_tokens_seen": 35165280,
+      "step": 1659,
+      "time_per_iteration": 2.8085505962371826
+    },
+    {
+      "auxiliary_loss_clip": 0.01218295,
+      "auxiliary_loss_mlp": 0.01381187,
+      "balance_loss_clip": 1.05878806,
+      "balance_loss_mlp": 1.00030887,
+      "epoch": 0.199603198460891,
+      "flos": 25082418620160.0,
+      "grad_norm": 1.9572042566139147,
+      "language_loss": 0.83487892,
+      "learning_rate": 3.705910885848795e-06,
+      "loss": 0.8608737,
+      "num_input_tokens_seen": 35183655,
+      "step": 1660,
+      "time_per_iteration": 2.6777572631835938
+    },
+    {
+      "auxiliary_loss_clip": 0.0122607,
+      "auxiliary_loss_mlp": 0.01034773,
+      "balance_loss_clip": 1.06229472,
+      "balance_loss_mlp": 1.0251708,
+      "epoch": 0.19972344135153008,
+      "flos": 20084120352000.0,
+      "grad_norm": 2.7498748648324725,
+      "language_loss": 0.84960043,
+      "learning_rate": 3.705504145941879e-06,
+      "loss": 0.87220883,
+      "num_input_tokens_seen": 35201825,
+      "step": 1661,
+      "time_per_iteration": 2.5919580459594727
+    },
+    {
+      "auxiliary_loss_clip": 0.0121967,
+      "auxiliary_loss_mlp": 0.01031792,
+      "balance_loss_clip": 1.0643909,
+      "balance_loss_mlp": 1.02154613,
+      "epoch": 0.1998436842421692,
+      "flos": 23727472761600.0,
+      "grad_norm": 1.9982737678339968,
+      "language_loss": 0.78621328,
+      "learning_rate": 3.7050971473113403e-06,
+      "loss": 0.80872798,
+      "num_input_tokens_seen": 35221600,
+      "step": 1662,
+      "time_per_iteration": 2.580399513244629
+    },
+    {
+      "auxiliary_loss_clip": 0.01220506,
+      "auxiliary_loss_mlp": 0.0138044,
+      "balance_loss_clip": 1.05963683,
+      "balance_loss_mlp": 1.00022149,
+      "epoch": 0.19996392713280828,
+      "flos": 36102361633920.0,
+      "grad_norm": 1.6903916171875035,
+      "language_loss": 0.79960871,
+      "learning_rate": 3.7046898900189196e-06,
+      "loss": 0.82561815,
+      "num_input_tokens_seen": 35245935,
+      "step": 1663,
+      "time_per_iteration": 2.737147331237793
+    },
+    {
+      "auxiliary_loss_clip": 0.01245016,
+      "auxiliary_loss_mlp": 0.01035443,
+      "balance_loss_clip": 1.05886936,
+      "balance_loss_mlp": 1.02561998,
+      "epoch": 0.20008417002344736,
+      "flos": 23657662679040.0,
+      "grad_norm": 3.0252687045507685,
+      "language_loss": 0.82916248,
+      "learning_rate": 3.704282374126398e-06,
+      "loss": 0.8519671,
+      "num_input_tokens_seen": 35265615,
+      "step": 1664,
+      "time_per_iteration": 2.7129218578338623
+    },
+    {
+      "auxiliary_loss_clip": 0.0123932,
+      "auxiliary_loss_mlp": 0.01040767,
+      "balance_loss_clip": 1.054528,
+      "balance_loss_mlp": 1.03142095,
+      "epoch": 0.20020441291408644,
+      "flos": 21872076664320.0,
+      "grad_norm": 1.8591094368409005,
+      "language_loss": 0.87562644,
+      "learning_rate": 3.7038745996955954e-06,
+      "loss": 0.89842731,
+      "num_input_tokens_seen": 35284960,
+      "step": 1665,
+      "time_per_iteration": 277.529926776886
+    },
+    {
+      "auxiliary_loss_clip": 0.01243982,
+      "auxiliary_loss_mlp": 0.01040348,
+      "balance_loss_clip": 1.05627179,
+      "balance_loss_mlp": 1.03022707,
+      "epoch": 0.20032465580472555,
+      "flos": 23179691376000.0,
+      "grad_norm": 2.7586137843045373,
+      "language_loss": 0.7219156,
+      "learning_rate": 3.703466566788371e-06,
+      "loss": 0.74475896,
+      "num_input_tokens_seen": 35304090,
+      "step": 1666,
+      "time_per_iteration": 2.750622272491455
+    },
+    {
+      "auxiliary_loss_clip": 0.01225229,
+      "auxiliary_loss_mlp": 0.01044917,
+      "balance_loss_clip": 1.05843711,
+      "balance_loss_mlp": 1.03511262,
+      "epoch": 0.20044489869536464,
+      "flos": 23873521461120.0,
+      "grad_norm": 2.015834359309433,
+      "language_loss": 0.7432031,
+      "learning_rate": 3.703058275466622e-06,
+      "loss": 0.76590455,
+      "num_input_tokens_seen": 35323325,
+      "step": 1667,
+      "time_per_iteration": 2.7204527854919434
+    },
+    {
+      "auxiliary_loss_clip": 0.01232408,
+      "auxiliary_loss_mlp": 0.01033392,
+      "balance_loss_clip": 1.05794883,
+      "balance_loss_mlp": 1.02432632,
+      "epoch": 0.20056514158600372,
+      "flos": 21945226711680.0,
+      "grad_norm": 2.0056680023330054,
+      "language_loss": 0.78045976,
+      "learning_rate": 3.7026497257922877e-06,
+      "loss": 0.80311775,
+      "num_input_tokens_seen": 35343635,
+      "step": 1668,
+      "time_per_iteration": 2.712399959564209
+    },
+    {
+      "auxiliary_loss_clip": 0.01245075,
+      "auxiliary_loss_mlp": 0.01025728,
+      "balance_loss_clip": 1.05284059,
+      "balance_loss_mlp": 1.01640582,
+      "epoch": 0.20068538447664283,
+      "flos": 23879159896320.0,
+      "grad_norm": 1.6789736507015434,
+      "language_loss": 0.85446078,
+      "learning_rate": 3.7022409178273436e-06,
+      "loss": 0.87716877,
+      "num_input_tokens_seen": 35364615,
+      "step": 1669,
+      "time_per_iteration": 2.7640249729156494
+    },
+    {
+      "auxiliary_loss_clip": 0.0122352,
+      "auxiliary_loss_mlp": 0.01031895,
+      "balance_loss_clip": 1.06012511,
+      "balance_loss_mlp": 1.02223337,
+      "epoch": 0.2008056273672819,
+      "flos": 18442823270400.0,
+      "grad_norm": 1.9226468599114468,
+      "language_loss": 0.78589433,
+      "learning_rate": 3.7018318516338054e-06,
+      "loss": 0.80844849,
+      "num_input_tokens_seen": 35383775,
+      "step": 1670,
+      "time_per_iteration": 2.636781930923462
+    },
+    {
+      "auxiliary_loss_clip": 0.0123245,
+      "auxiliary_loss_mlp": 0.01038093,
+      "balance_loss_clip": 1.06247711,
+      "balance_loss_mlp": 1.02857995,
+      "epoch": 0.200925870257921,
+      "flos": 23659530186240.0,
+      "grad_norm": 2.388634166340792,
+      "language_loss": 0.81731629,
+      "learning_rate": 3.7014225272737284e-06,
+      "loss": 0.84002173,
+      "num_input_tokens_seen": 35403000,
+      "step": 1671,
+      "time_per_iteration": 2.749871015548706
+    },
+    {
+      "auxiliary_loss_clip": 0.01215075,
+      "auxiliary_loss_mlp": 0.010335,
+      "balance_loss_clip": 1.05689812,
+      "balance_loss_mlp": 1.02428555,
+      "epoch": 0.20104611314856008,
+      "flos": 16217115909120.0,
+      "grad_norm": 2.217936964655928,
+      "language_loss": 0.74283832,
+      "learning_rate": 3.701012944809207e-06,
+      "loss": 0.76532412,
+      "num_input_tokens_seen": 35420115,
+      "step": 1672,
+      "time_per_iteration": 2.633826494216919
+    },
+    {
+      "auxiliary_loss_clip": 0.01236283,
+      "auxiliary_loss_mlp": 0.0138044,
+      "balance_loss_clip": 1.05970645,
+      "balance_loss_mlp": 1.00027728,
+      "epoch": 0.2011663560391992,
+      "flos": 21397373498880.0,
+      "grad_norm": 1.8941494324218542,
+      "language_loss": 0.78799224,
+      "learning_rate": 3.700603104302374e-06,
+      "loss": 0.81415951,
+      "num_input_tokens_seen": 35439925,
+      "step": 1673,
+      "time_per_iteration": 2.799649715423584
+    },
+    {
+      "auxiliary_loss_clip": 0.01133856,
+      "auxiliary_loss_mlp": 0.01001536,
+      "balance_loss_clip": 1.02698839,
+      "balance_loss_mlp": 0.99883014,
+      "epoch": 0.20128659892983827,
+      "flos": 62229459409920.0,
+      "grad_norm": 0.9076350058862757,
+      "language_loss": 0.55958998,
+      "learning_rate": 3.7001930058154027e-06,
+      "loss": 0.58094394,
+      "num_input_tokens_seen": 35504885,
+      "step": 1674,
+      "time_per_iteration": 3.3164212703704834
+    },
+    {
+      "auxiliary_loss_clip": 0.01242119,
+      "auxiliary_loss_mlp": 0.01038253,
+      "balance_loss_clip": 1.05802858,
+      "balance_loss_mlp": 1.02825713,
+      "epoch": 0.20140684182047736,
+      "flos": 28438737448320.0,
+      "grad_norm": 4.234432526886847,
+      "language_loss": 0.79775077,
+      "learning_rate": 3.6997826494105037e-06,
+      "loss": 0.82055444,
+      "num_input_tokens_seen": 35525330,
+      "step": 1675,
+      "time_per_iteration": 2.8419737815856934
+    },
+    {
+      "auxiliary_loss_clip": 0.01234857,
+      "auxiliary_loss_mlp": 0.01031999,
+      "balance_loss_clip": 1.05789769,
+      "balance_loss_mlp": 1.02261758,
+      "epoch": 0.20152708471111647,
+      "flos": 28074064619520.0,
+      "grad_norm": 1.9592818599803763,
+      "language_loss": 0.69138801,
+      "learning_rate": 3.6993720351499286e-06,
+      "loss": 0.71405661,
+      "num_input_tokens_seen": 35546455,
+      "step": 1676,
+      "time_per_iteration": 2.9169130325317383
+    },
+    {
+      "auxiliary_loss_clip": 0.01228449,
+      "auxiliary_loss_mlp": 0.0103915,
+      "balance_loss_clip": 1.06007528,
+      "balance_loss_mlp": 1.02977395,
+      "epoch": 0.20164732760175555,
+      "flos": 23549751244800.0,
+      "grad_norm": 1.8550218475019122,
+      "language_loss": 0.76913816,
+      "learning_rate": 3.6989611630959666e-06,
+      "loss": 0.79181421,
+      "num_input_tokens_seen": 35565010,
+      "step": 1677,
+      "time_per_iteration": 2.8446269035339355
+    },
+    {
+      "auxiliary_loss_clip": 0.01122099,
+      "auxiliary_loss_mlp": 0.01001588,
+      "balance_loss_clip": 1.02775609,
+      "balance_loss_mlp": 0.99927503,
+      "epoch": 0.20176757049239463,
+      "flos": 71100616037760.0,
+      "grad_norm": 0.6778552646000285,
+      "language_loss": 0.58318317,
+      "learning_rate": 3.6985500333109474e-06,
+      "loss": 0.60442007,
+      "num_input_tokens_seen": 35633340,
+      "step": 1678,
+      "time_per_iteration": 4.29540753364563
+    },
+    {
+      "auxiliary_loss_clip": 0.01228866,
+      "auxiliary_loss_mlp": 0.01034505,
+      "balance_loss_clip": 1.05293894,
+      "balance_loss_mlp": 1.02521873,
+      "epoch": 0.20188781338303372,
+      "flos": 21430159637760.0,
+      "grad_norm": 2.1649983962118577,
+      "language_loss": 0.76609743,
+      "learning_rate": 3.6981386458572385e-06,
+      "loss": 0.7887311,
+      "num_input_tokens_seen": 35651315,
+      "step": 1679,
+      "time_per_iteration": 2.7413582801818848
+    },
+    {
+      "auxiliary_loss_clip": 0.01232036,
+      "auxiliary_loss_mlp": 0.01035768,
+      "balance_loss_clip": 1.05292308,
+      "balance_loss_mlp": 1.02562308,
+      "epoch": 0.20200805627367283,
+      "flos": 11546215130880.0,
+      "grad_norm": 3.898385547022079,
+      "language_loss": 0.76408583,
+      "learning_rate": 3.6977270007972468e-06,
+      "loss": 0.78676391,
+      "num_input_tokens_seen": 35668850,
+      "step": 1680,
+      "time_per_iteration": 3.664987802505493
+    },
+    {
+      "auxiliary_loss_clip": 0.01237821,
+      "auxiliary_loss_mlp": 0.01040982,
+      "balance_loss_clip": 1.06086648,
+      "balance_loss_mlp": 1.03158832,
+      "epoch": 0.2021282991643119,
+      "flos": 28545391906560.0,
+      "grad_norm": 2.479805586089166,
+      "language_loss": 0.7201001,
+      "learning_rate": 3.6973150981934196e-06,
+      "loss": 0.74288821,
+      "num_input_tokens_seen": 35690080,
+      "step": 1681,
+      "time_per_iteration": 3.639193534851074
+    },
+    {
+      "auxiliary_loss_clip": 0.01221902,
+      "auxiliary_loss_mlp": 0.01038951,
+      "balance_loss_clip": 1.06261957,
+      "balance_loss_mlp": 1.02903926,
+      "epoch": 0.202248542054951,
+      "flos": 17923446564480.0,
+      "grad_norm": 2.4264873949052053,
+      "language_loss": 0.83876407,
+      "learning_rate": 3.6969029381082415e-06,
+      "loss": 0.86137259,
+      "num_input_tokens_seen": 35706075,
+      "step": 1682,
+      "time_per_iteration": 2.606851100921631
+    },
+    {
+      "auxiliary_loss_clip": 0.01227211,
+      "auxiliary_loss_mlp": 0.01029882,
+      "balance_loss_clip": 1.05596638,
+      "balance_loss_mlp": 1.02107227,
+      "epoch": 0.2023687849455901,
+      "flos": 19864634296320.0,
+      "grad_norm": 1.6670621609005976,
+      "language_loss": 0.79652119,
+      "learning_rate": 3.696490520604237e-06,
+      "loss": 0.81909209,
+      "num_input_tokens_seen": 35724765,
+      "step": 1683,
+      "time_per_iteration": 3.5791752338409424
+    },
+    {
+      "auxiliary_loss_clip": 0.01225956,
+      "auxiliary_loss_mlp": 0.01036642,
+      "balance_loss_clip": 1.0623132,
+      "balance_loss_mlp": 1.0272541,
+      "epoch": 0.20248902783622919,
+      "flos": 22564721600640.0,
+      "grad_norm": 1.7603287591421686,
+      "language_loss": 0.80475867,
+      "learning_rate": 3.696077845743968e-06,
+      "loss": 0.82738459,
+      "num_input_tokens_seen": 35744355,
+      "step": 1684,
+      "time_per_iteration": 2.7022175788879395
+    },
+    {
+      "auxiliary_loss_clip": 0.01217952,
+      "auxiliary_loss_mlp": 0.01036661,
+      "balance_loss_clip": 1.0604794,
+      "balance_loss_mlp": 1.02650404,
+      "epoch": 0.20260927072686827,
+      "flos": 22709728805760.0,
+      "grad_norm": 2.3396159529551475,
+      "language_loss": 0.73235446,
+      "learning_rate": 3.69566491359004e-06,
+      "loss": 0.75490069,
+      "num_input_tokens_seen": 35761000,
+      "step": 1685,
+      "time_per_iteration": 2.5887811183929443
+    },
+    {
+      "auxiliary_loss_clip": 0.01228965,
+      "auxiliary_loss_mlp": 0.01038813,
+      "balance_loss_clip": 1.05619454,
+      "balance_loss_mlp": 1.02859712,
+      "epoch": 0.20272951361750738,
+      "flos": 51023998650240.0,
+      "grad_norm": 2.1809676890701595,
+      "language_loss": 0.69295597,
+      "learning_rate": 3.695251724205092e-06,
+      "loss": 0.71563375,
+      "num_input_tokens_seen": 35785360,
+      "step": 1686,
+      "time_per_iteration": 2.901552677154541
+    },
+    {
+      "auxiliary_loss_clip": 0.01217059,
+      "auxiliary_loss_mlp": 0.01027224,
+      "balance_loss_clip": 1.06175601,
+      "balance_loss_mlp": 1.01767516,
+      "epoch": 0.20284975650814646,
+      "flos": 26578133879040.0,
+      "grad_norm": 1.6171705831380037,
+      "language_loss": 0.86438549,
+      "learning_rate": 3.6948382776518054e-06,
+      "loss": 0.8868283,
+      "num_input_tokens_seen": 35806065,
+      "step": 1687,
+      "time_per_iteration": 2.640838384628296
+    },
+    {
+      "auxiliary_loss_clip": 0.01250369,
+      "auxiliary_loss_mlp": 0.01036985,
+      "balance_loss_clip": 1.05765474,
+      "balance_loss_mlp": 1.02583885,
+      "epoch": 0.20296999939878554,
+      "flos": 16034222833920.0,
+      "grad_norm": 2.1039872025755773,
+      "language_loss": 0.78857511,
+      "learning_rate": 3.6944245739929e-06,
+      "loss": 0.81144857,
+      "num_input_tokens_seen": 35822225,
+      "step": 1688,
+      "time_per_iteration": 2.6923139095306396
+    },
+    {
+      "auxiliary_loss_clip": 0.01223688,
+      "auxiliary_loss_mlp": 0.01041108,
+      "balance_loss_clip": 1.06157827,
+      "balance_loss_mlp": 1.03078485,
+      "epoch": 0.20309024228942463,
+      "flos": 19203374868480.0,
+      "grad_norm": 2.255326100666505,
+      "language_loss": 0.71920216,
+      "learning_rate": 3.6940106132911332e-06,
+      "loss": 0.74185014,
+      "num_input_tokens_seen": 35839410,
+      "step": 1689,
+      "time_per_iteration": 2.659721851348877
+    },
+    {
+      "auxiliary_loss_clip": 0.01228612,
+      "auxiliary_loss_mlp": 0.01032945,
+      "balance_loss_clip": 1.0618335,
+      "balance_loss_mlp": 1.02371836,
+      "epoch": 0.20321048518006374,
+      "flos": 22821087945600.0,
+      "grad_norm": 2.142657860788256,
+      "language_loss": 0.88778222,
+      "learning_rate": 3.6935963956093037e-06,
+      "loss": 0.91039771,
+      "num_input_tokens_seen": 35859495,
+      "step": 1690,
+      "time_per_iteration": 2.6283631324768066
+    },
+    {
+      "auxiliary_loss_clip": 0.0121376,
+      "auxiliary_loss_mlp": 0.01034623,
+      "balance_loss_clip": 1.05774713,
+      "balance_loss_mlp": 1.02541995,
+      "epoch": 0.20333072807070282,
+      "flos": 19096397187840.0,
+      "grad_norm": 1.9047043909547288,
+      "language_loss": 0.687325,
+      "learning_rate": 3.6931819210102474e-06,
+      "loss": 0.70980895,
+      "num_input_tokens_seen": 35878890,
+      "step": 1691,
+      "time_per_iteration": 2.7386157512664795
+    },
+    {
+      "auxiliary_loss_clip": 0.01217622,
+      "auxiliary_loss_mlp": 0.01040246,
+      "balance_loss_clip": 1.06054568,
+      "balance_loss_mlp": 1.03013134,
+      "epoch": 0.2034509709613419,
+      "flos": 18180962144640.0,
+      "grad_norm": 2.2478670355030403,
+      "language_loss": 0.84511673,
+      "learning_rate": 3.6927671895568402e-06,
+      "loss": 0.86769539,
+      "num_input_tokens_seen": 35897950,
+      "step": 1692,
+      "time_per_iteration": 2.634437084197998
+    },
+    {
+      "auxiliary_loss_clip": 0.01220807,
+      "auxiliary_loss_mlp": 0.01040713,
+      "balance_loss_clip": 1.06439555,
+      "balance_loss_mlp": 1.0307827,
+      "epoch": 0.20357121385198101,
+      "flos": 22923899648640.0,
+      "grad_norm": 1.9812615398918063,
+      "language_loss": 0.86604822,
+      "learning_rate": 3.692352201311996e-06,
+      "loss": 0.88866335,
+      "num_input_tokens_seen": 35916800,
+      "step": 1693,
+      "time_per_iteration": 2.6483383178710938
+    },
+    {
+      "auxiliary_loss_clip": 0.01238346,
+      "auxiliary_loss_mlp": 0.01032594,
+      "balance_loss_clip": 1.05709624,
+      "balance_loss_mlp": 1.02283716,
+      "epoch": 0.2036914567426201,
+      "flos": 20922131629440.0,
+      "grad_norm": 1.7467526333725507,
+      "language_loss": 0.77029735,
+      "learning_rate": 3.6919369563386687e-06,
+      "loss": 0.79300678,
+      "num_input_tokens_seen": 35936600,
+      "step": 1694,
+      "time_per_iteration": 2.7208871841430664
+    },
+    {
+      "auxiliary_loss_clip": 0.01230975,
+      "auxiliary_loss_mlp": 0.01026946,
+      "balance_loss_clip": 1.05941808,
+      "balance_loss_mlp": 1.01745117,
+      "epoch": 0.20381169963325918,
+      "flos": 15519155760000.0,
+      "grad_norm": 2.1378370528632735,
+      "language_loss": 0.79064697,
+      "learning_rate": 3.69152145469985e-06,
+      "loss": 0.81322616,
+      "num_input_tokens_seen": 35953645,
+      "step": 1695,
+      "time_per_iteration": 2.699223756790161
+    },
+    {
+      "auxiliary_loss_clip": 0.01251413,
+      "auxiliary_loss_mlp": 0.01034877,
+      "balance_loss_clip": 1.05547667,
+      "balance_loss_mlp": 1.02469647,
+      "epoch": 0.20393194252389826,
+      "flos": 28833143760000.0,
+      "grad_norm": 1.8801143390402086,
+      "language_loss": 0.8203637,
+      "learning_rate": 3.691105696458572e-06,
+      "loss": 0.84322655,
+      "num_input_tokens_seen": 35970940,
+      "step": 1696,
+      "time_per_iteration": 2.912236213684082
+    },
+    {
+      "auxiliary_loss_clip": 0.01219555,
+      "auxiliary_loss_mlp": 0.01038691,
+      "balance_loss_clip": 1.06550348,
+      "balance_loss_mlp": 1.02923787,
+      "epoch": 0.20405218541453737,
+      "flos": 22488554810880.0,
+      "grad_norm": 3.1518445154686705,
+      "language_loss": 0.67796993,
+      "learning_rate": 3.690689681677904e-06,
+      "loss": 0.7005524,
+      "num_input_tokens_seen": 35989410,
+      "step": 1697,
+      "time_per_iteration": 2.650482177734375
+    },
+    {
+      "auxiliary_loss_clip": 0.01233658,
+      "auxiliary_loss_mlp": 0.01033541,
+      "balance_loss_clip": 1.05681372,
+      "balance_loss_mlp": 1.02366424,
+      "epoch": 0.20417242830517646,
+      "flos": 25374408278400.0,
+      "grad_norm": 1.6651219876520442,
+      "language_loss": 0.88887984,
+      "learning_rate": 3.690273410420956e-06,
+      "loss": 0.91155183,
+      "num_input_tokens_seen": 36009175,
+      "step": 1698,
+      "time_per_iteration": 2.8341336250305176
+    },
+    {
+      "auxiliary_loss_clip": 0.01221492,
+      "auxiliary_loss_mlp": 0.01032193,
+      "balance_loss_clip": 1.0585531,
+      "balance_loss_mlp": 1.02217984,
+      "epoch": 0.20429267119581554,
+      "flos": 14793078240000.0,
+      "grad_norm": 2.834182827320403,
+      "language_loss": 0.76452076,
+      "learning_rate": 3.689856882750875e-06,
+      "loss": 0.78705764,
+      "num_input_tokens_seen": 36024375,
+      "step": 1699,
+      "time_per_iteration": 2.6322388648986816
+    },
+    {
+      "auxiliary_loss_clip": 0.01221326,
+      "auxiliary_loss_mlp": 0.01036719,
+      "balance_loss_clip": 1.06163001,
+      "balance_loss_mlp": 1.02746844,
+      "epoch": 0.20441291408645465,
+      "flos": 17781851151360.0,
+      "grad_norm": 1.932425438201807,
+      "language_loss": 0.78666496,
+      "learning_rate": 3.6894400987308486e-06,
+      "loss": 0.80924547,
+      "num_input_tokens_seen": 36041895,
+      "step": 1700,
+      "time_per_iteration": 2.681504726409912
+    },
+    {
+      "auxiliary_loss_clip": 0.01228091,
+      "auxiliary_loss_mlp": 0.01027369,
+      "balance_loss_clip": 1.06022191,
+      "balance_loss_mlp": 1.01771283,
+      "epoch": 0.20453315697709373,
+      "flos": 16435668211200.0,
+      "grad_norm": 2.2880532641566593,
+      "language_loss": 0.84825933,
+      "learning_rate": 3.6890230584241024e-06,
+      "loss": 0.87081397,
+      "num_input_tokens_seen": 36058825,
+      "step": 1701,
+      "time_per_iteration": 2.634615421295166
+    },
+    {
+      "auxiliary_loss_clip": 0.01119957,
+      "auxiliary_loss_mlp": 0.01003414,
+      "balance_loss_clip": 1.03426099,
+      "balance_loss_mlp": 1.00096977,
+      "epoch": 0.20465339986773282,
+      "flos": 66713085653760.0,
+      "grad_norm": 1.0636838914386384,
+      "language_loss": 0.6639154,
+      "learning_rate": 3.6886057618939016e-06,
+      "loss": 0.68514919,
+      "num_input_tokens_seen": 36121645,
+      "step": 1702,
+      "time_per_iteration": 3.2744362354278564
+    },
+    {
+      "auxiliary_loss_clip": 0.0123525,
+      "auxiliary_loss_mlp": 0.01035598,
+      "balance_loss_clip": 1.05687356,
+      "balance_loss_mlp": 1.02582324,
+      "epoch": 0.2047736427583719,
+      "flos": 41974114924800.0,
+      "grad_norm": 2.301661246354434,
+      "language_loss": 0.69222152,
+      "learning_rate": 3.6881882092035492e-06,
+      "loss": 0.71492994,
+      "num_input_tokens_seen": 36143030,
+      "step": 1703,
+      "time_per_iteration": 2.8601651191711426
+    },
+    {
+      "auxiliary_loss_clip": 0.01158652,
+      "auxiliary_loss_mlp": 0.01376598,
+      "balance_loss_clip": 1.03247046,
+      "balance_loss_mlp": 1.00017893,
+      "epoch": 0.204893885649011,
+      "flos": 69940878641280.0,
+      "grad_norm": 0.9226362253644688,
+      "language_loss": 0.61215991,
+      "learning_rate": 3.6877704004163873e-06,
+      "loss": 0.63751245,
+      "num_input_tokens_seen": 36203435,
+      "step": 1704,
+      "time_per_iteration": 4.332745552062988
+    },
+    {
+      "auxiliary_loss_clip": 0.01221498,
+      "auxiliary_loss_mlp": 0.0103757,
+      "balance_loss_clip": 1.06496406,
+      "balance_loss_mlp": 1.02739549,
+      "epoch": 0.2050141285396501,
+      "flos": 22200012858240.0,
+      "grad_norm": 2.135956364633467,
+      "language_loss": 0.77455062,
+      "learning_rate": 3.6873523355957984e-06,
+      "loss": 0.79714131,
+      "num_input_tokens_seen": 36222435,
+      "step": 1705,
+      "time_per_iteration": 3.5970699787139893
+    },
+    {
+      "auxiliary_loss_clip": 0.01118845,
+      "auxiliary_loss_mlp": 0.0100133,
+      "balance_loss_clip": 1.03340983,
+      "balance_loss_mlp": 0.99883902,
+      "epoch": 0.20513437143028918,
+      "flos": 46283721730560.0,
+      "grad_norm": 0.9908141678472148,
+      "language_loss": 0.6408447,
+      "learning_rate": 3.686934014805201e-06,
+      "loss": 0.66204643,
+      "num_input_tokens_seen": 36273065,
+      "step": 1706,
+      "time_per_iteration": 3.094595432281494
+    },
+    {
+      "auxiliary_loss_clip": 0.01225222,
+      "auxiliary_loss_mlp": 0.01037233,
+      "balance_loss_clip": 1.06170213,
+      "balance_loss_mlp": 1.02717209,
+      "epoch": 0.20525461432092829,
+      "flos": 21904324099200.0,
+      "grad_norm": 1.8977681641728754,
+      "language_loss": 0.80746645,
+      "learning_rate": 3.6865154381080552e-06,
+      "loss": 0.830091,
+      "num_input_tokens_seen": 36293750,
+      "step": 1707,
+      "time_per_iteration": 3.6925742626190186
+    },
+    {
+      "auxiliary_loss_clip": 0.01269674,
+      "auxiliary_loss_mlp": 0.01025594,
+      "balance_loss_clip": 1.05211926,
+      "balance_loss_mlp": 1.01618242,
+      "epoch": 0.20537485721156737,
+      "flos": 21214264942080.0,
+      "grad_norm": 2.007740871796611,
+      "language_loss": 0.82865125,
+      "learning_rate": 3.6860966055678585e-06,
+      "loss": 0.85160393,
+      "num_input_tokens_seen": 36310105,
+      "step": 1708,
+      "time_per_iteration": 2.7983479499816895
+    },
+    {
+      "auxiliary_loss_clip": 0.01229057,
+      "auxiliary_loss_mlp": 0.01030308,
+      "balance_loss_clip": 1.06314278,
+      "balance_loss_mlp": 1.02070534,
+      "epoch": 0.20549510010220645,
+      "flos": 20191205773440.0,
+      "grad_norm": 1.6978486542703328,
+      "language_loss": 0.86765945,
+      "learning_rate": 3.685677517248147e-06,
+      "loss": 0.89025313,
+      "num_input_tokens_seen": 36328995,
+      "step": 1709,
+      "time_per_iteration": 3.539417266845703
+    },
+    {
+      "auxiliary_loss_clip": 0.01233763,
+      "auxiliary_loss_mlp": 0.013808,
+      "balance_loss_clip": 1.06262732,
+      "balance_loss_mlp": 1.00030756,
+      "epoch": 0.20561534299284553,
+      "flos": 17016702612480.0,
+      "grad_norm": 1.9873915651220049,
+      "language_loss": 0.80301595,
+      "learning_rate": 3.6852581732124967e-06,
+      "loss": 0.82916164,
+      "num_input_tokens_seen": 36346340,
+      "step": 1710,
+      "time_per_iteration": 2.7027246952056885
+    },
+    {
+      "auxiliary_loss_clip": 0.01228576,
+      "auxiliary_loss_mlp": 0.01034171,
+      "balance_loss_clip": 1.06353998,
+      "balance_loss_mlp": 1.02424145,
+      "epoch": 0.20573558588348465,
+      "flos": 22890467064960.0,
+      "grad_norm": 1.896722613110049,
+      "language_loss": 0.76402438,
+      "learning_rate": 3.6848385735245213e-06,
+      "loss": 0.78665185,
+      "num_input_tokens_seen": 36365430,
+      "step": 1711,
+      "time_per_iteration": 2.702627420425415
+    },
+    {
+      "auxiliary_loss_clip": 0.01208545,
+      "auxiliary_loss_mlp": 0.01030298,
+      "balance_loss_clip": 1.05584276,
+      "balance_loss_mlp": 1.02095747,
+      "epoch": 0.20585582877412373,
+      "flos": 24643123286400.0,
+      "grad_norm": 1.896663949799562,
+      "language_loss": 0.86007988,
+      "learning_rate": 3.6844187182478734e-06,
+      "loss": 0.88246834,
+      "num_input_tokens_seen": 36386285,
+      "step": 1712,
+      "time_per_iteration": 2.7977559566497803
+    },
+    {
+      "auxiliary_loss_clip": 0.01222174,
+      "auxiliary_loss_mlp": 0.01037303,
+      "balance_loss_clip": 1.0556376,
+      "balance_loss_mlp": 1.02737319,
+      "epoch": 0.2059760716647628,
+      "flos": 24206952435840.0,
+      "grad_norm": 2.0083361016846397,
+      "language_loss": 0.74766433,
+      "learning_rate": 3.683998607446246e-06,
+      "loss": 0.77025914,
+      "num_input_tokens_seen": 36404935,
+      "step": 1713,
+      "time_per_iteration": 2.715747356414795
+    },
+    {
+      "auxiliary_loss_clip": 0.01228183,
+      "auxiliary_loss_mlp": 0.01034245,
+      "balance_loss_clip": 1.06234097,
+      "balance_loss_mlp": 1.02526271,
+      "epoch": 0.20609631455540192,
+      "flos": 20229522606720.0,
+      "grad_norm": 1.8068363673514725,
+      "language_loss": 0.74763376,
+      "learning_rate": 3.6835782411833686e-06,
+      "loss": 0.77025807,
+      "num_input_tokens_seen": 36424455,
+      "step": 1714,
+      "time_per_iteration": 2.594743490219116
+    },
+    {
+      "auxiliary_loss_clip": 0.01226564,
+      "auxiliary_loss_mlp": 0.01030555,
+      "balance_loss_clip": 1.05471539,
+      "balance_loss_mlp": 1.02095246,
+      "epoch": 0.206216557446041,
+      "flos": 19864957518720.0,
+      "grad_norm": 1.6810350026765888,
+      "language_loss": 0.73952848,
+      "learning_rate": 3.68315761952301e-06,
+      "loss": 0.76209962,
+      "num_input_tokens_seen": 36441685,
+      "step": 1715,
+      "time_per_iteration": 2.708423614501953
+    },
+    {
+      "auxiliary_loss_clip": 0.01217108,
+      "auxiliary_loss_mlp": 0.01028919,
+      "balance_loss_clip": 1.06272566,
+      "balance_loss_mlp": 1.01900053,
+      "epoch": 0.2063368003366801,
+      "flos": 24096311568000.0,
+      "grad_norm": 2.1377173898495703,
+      "language_loss": 0.83098292,
+      "learning_rate": 3.6827367425289797e-06,
+      "loss": 0.85344321,
+      "num_input_tokens_seen": 36461460,
+      "step": 1716,
+      "time_per_iteration": 2.6099979877471924
+    },
+    {
+      "auxiliary_loss_clip": 0.01232801,
+      "auxiliary_loss_mlp": 0.01030417,
+      "balance_loss_clip": 1.05878901,
+      "balance_loss_mlp": 1.02070737,
+      "epoch": 0.2064570432273192,
+      "flos": 20340163474560.0,
+      "grad_norm": 2.4859874371174455,
+      "language_loss": 0.7288062,
+      "learning_rate": 3.6823156102651225e-06,
+      "loss": 0.75143838,
+      "num_input_tokens_seen": 36479615,
+      "step": 1717,
+      "time_per_iteration": 2.7115001678466797
+    },
+    {
+      "auxiliary_loss_clip": 0.01245985,
+      "auxiliary_loss_mlp": 0.01032882,
+      "balance_loss_clip": 1.05374217,
+      "balance_loss_mlp": 1.0229218,
+      "epoch": 0.20657728611795828,
+      "flos": 20520363029760.0,
+      "grad_norm": 4.351238686825377,
+      "language_loss": 0.71024454,
+      "learning_rate": 3.6818942227953257e-06,
+      "loss": 0.73303318,
+      "num_input_tokens_seen": 36500160,
+      "step": 1718,
+      "time_per_iteration": 2.753232955932617
+    },
+    {
+      "auxiliary_loss_clip": 0.01244171,
+      "auxiliary_loss_mlp": 0.01030159,
+      "balance_loss_clip": 1.05881429,
+      "balance_loss_mlp": 1.02090216,
+      "epoch": 0.20669752900859736,
+      "flos": 21799285752960.0,
+      "grad_norm": 1.985286160191967,
+      "language_loss": 0.69080371,
+      "learning_rate": 3.681472580183512e-06,
+      "loss": 0.71354699,
+      "num_input_tokens_seen": 36518810,
+      "step": 1719,
+      "time_per_iteration": 2.726015567779541
+    },
+    {
+      "auxiliary_loss_clip": 0.01220456,
+      "auxiliary_loss_mlp": 0.01032363,
+      "balance_loss_clip": 1.06083369,
+      "balance_loss_mlp": 1.0231781,
+      "epoch": 0.20681777189923645,
+      "flos": 15122020014720.0,
+      "grad_norm": 1.8364068734968442,
+      "language_loss": 0.86344755,
+      "learning_rate": 3.6810506824936455e-06,
+      "loss": 0.88597578,
+      "num_input_tokens_seen": 36536890,
+      "step": 1720,
+      "time_per_iteration": 2.6808347702026367
+    },
+    {
+      "auxiliary_loss_clip": 0.01132732,
+      "auxiliary_loss_mlp": 0.01002177,
+      "balance_loss_clip": 1.02557278,
+      "balance_loss_mlp": 0.9996382,
+      "epoch": 0.20693801478987556,
+      "flos": 56481021509760.0,
+      "grad_norm": 1.0509848131591029,
+      "language_loss": 0.62471408,
+      "learning_rate": 3.680628529789726e-06,
+      "loss": 0.64606315,
+      "num_input_tokens_seen": 36589300,
+      "step": 1721,
+      "time_per_iteration": 3.0779993534088135
+    },
+    {
+      "auxiliary_loss_clip": 0.01222654,
+      "auxiliary_loss_mlp": 0.01037806,
+      "balance_loss_clip": 1.06362307,
+      "balance_loss_mlp": 1.02805448,
+      "epoch": 0.20705825768051464,
+      "flos": 21614201948160.0,
+      "grad_norm": 2.2447965132094883,
+      "language_loss": 0.86339521,
+      "learning_rate": 3.680206122135796e-06,
+      "loss": 0.8859998,
+      "num_input_tokens_seen": 36609905,
+      "step": 1722,
+      "time_per_iteration": 2.6886162757873535
+    },
+    {
+      "auxiliary_loss_clip": 0.01257624,
+      "auxiliary_loss_mlp": 0.0103953,
+      "balance_loss_clip": 1.05960381,
+      "balance_loss_mlp": 1.03117347,
+      "epoch": 0.20717850057115372,
+      "flos": 25848895962240.0,
+      "grad_norm": 1.7931324149347274,
+      "language_loss": 0.78592509,
+      "learning_rate": 3.6797834595959323e-06,
+      "loss": 0.80889666,
+      "num_input_tokens_seen": 36629805,
+      "step": 1723,
+      "time_per_iteration": 2.871598720550537
+    },
+    {
+      "auxiliary_loss_clip": 0.01236821,
+      "auxiliary_loss_mlp": 0.01033182,
+      "balance_loss_clip": 1.05223334,
+      "balance_loss_mlp": 1.02297211,
+      "epoch": 0.20729874346179283,
+      "flos": 29130807767040.0,
+      "grad_norm": 3.0215445609276705,
+      "language_loss": 0.77768546,
+      "learning_rate": 3.679360542234254e-06,
+      "loss": 0.80038548,
+      "num_input_tokens_seen": 36649150,
+      "step": 1724,
+      "time_per_iteration": 2.881413698196411
+    },
+    {
+      "auxiliary_loss_clip": 0.01220987,
+      "auxiliary_loss_mlp": 0.01380533,
+      "balance_loss_clip": 1.05317068,
+      "balance_loss_mlp": 1.00028729,
+      "epoch": 0.20741898635243192,
+      "flos": 29023363209600.0,
+      "grad_norm": 2.229693836552283,
+      "language_loss": 0.72339016,
+      "learning_rate": 3.678937370114916e-06,
+      "loss": 0.74940538,
+      "num_input_tokens_seen": 36668955,
+      "step": 1725,
+      "time_per_iteration": 2.828139066696167
+    },
+    {
+      "auxiliary_loss_clip": 0.01229418,
+      "auxiliary_loss_mlp": 0.01030561,
+      "balance_loss_clip": 1.06013489,
+      "balance_loss_mlp": 1.02133393,
+      "epoch": 0.207539229243071,
+      "flos": 15559447841280.0,
+      "grad_norm": 2.3011190599313336,
+      "language_loss": 0.78759241,
+      "learning_rate": 3.678513943302114e-06,
+      "loss": 0.81019223,
+      "num_input_tokens_seen": 36685730,
+      "step": 1726,
+      "time_per_iteration": 2.692218780517578
+    },
+    {
+      "auxiliary_loss_clip": 0.01215244,
+      "auxiliary_loss_mlp": 0.01029565,
+      "balance_loss_clip": 1.06122386,
+      "balance_loss_mlp": 1.02039182,
+      "epoch": 0.20765947213371008,
+      "flos": 20521081301760.0,
+      "grad_norm": 1.7961623068102042,
+      "language_loss": 0.84823549,
+      "learning_rate": 3.678090261860082e-06,
+      "loss": 0.87068355,
+      "num_input_tokens_seen": 36705460,
+      "step": 1727,
+      "time_per_iteration": 2.8322393894195557
+    },
+    {
+      "auxiliary_loss_clip": 0.0124003,
+      "auxiliary_loss_mlp": 0.01032573,
+      "balance_loss_clip": 1.0508889,
+      "balance_loss_mlp": 1.02367139,
+      "epoch": 0.2077797150243492,
+      "flos": 19354415558400.0,
+      "grad_norm": 2.9934962045390554,
+      "language_loss": 0.77788132,
+      "learning_rate": 3.6776663258530906e-06,
+      "loss": 0.80060738,
+      "num_input_tokens_seen": 36724110,
+      "step": 1728,
+      "time_per_iteration": 2.8313746452331543
+    },
+    {
+      "auxiliary_loss_clip": 0.01224008,
+      "auxiliary_loss_mlp": 0.01031955,
+      "balance_loss_clip": 1.0586555,
+      "balance_loss_mlp": 1.02337766,
+      "epoch": 0.20789995791498828,
+      "flos": 21829952989440.0,
+      "grad_norm": 2.0443501698373185,
+      "language_loss": 0.71404755,
+      "learning_rate": 3.6772421353454516e-06,
+      "loss": 0.73660719,
+      "num_input_tokens_seen": 36742705,
+      "step": 1729,
+      "time_per_iteration": 2.763543128967285
+    },
+    {
+      "auxiliary_loss_clip": 0.01222934,
+      "auxiliary_loss_mlp": 0.01036929,
+      "balance_loss_clip": 1.06122661,
+      "balance_loss_mlp": 1.02782106,
+      "epoch": 0.20802020080562736,
+      "flos": 23148844571520.0,
+      "grad_norm": 2.112236037526336,
+      "language_loss": 0.887586,
+      "learning_rate": 3.6768176904015153e-06,
+      "loss": 0.91018456,
+      "num_input_tokens_seen": 36762510,
+      "step": 1730,
+      "time_per_iteration": 3.6078357696533203
+    },
+    {
+      "auxiliary_loss_clip": 0.01224119,
+      "auxiliary_loss_mlp": 0.01038128,
+      "balance_loss_clip": 1.0575068,
+      "balance_loss_mlp": 1.0285852,
+      "epoch": 0.20814044369626647,
+      "flos": 23072677781760.0,
+      "grad_norm": 2.571166942554245,
+      "language_loss": 0.60000157,
+      "learning_rate": 3.6763929910856674e-06,
+      "loss": 0.62262404,
+      "num_input_tokens_seen": 36780960,
+      "step": 1731,
+      "time_per_iteration": 3.697690963745117
+    },
+    {
+      "auxiliary_loss_clip": 0.01221671,
+      "auxiliary_loss_mlp": 0.01037716,
+      "balance_loss_clip": 1.05956364,
+      "balance_loss_mlp": 1.0280242,
+      "epoch": 0.20826068658690555,
+      "flos": 19608016556160.0,
+      "grad_norm": 3.0309997895140053,
+      "language_loss": 0.77646172,
+      "learning_rate": 3.6759680374623365e-06,
+      "loss": 0.79905558,
+      "num_input_tokens_seen": 36798875,
+      "step": 1732,
+      "time_per_iteration": 2.6495907306671143
+    },
+    {
+      "auxiliary_loss_clip": 0.01215082,
+      "auxiliary_loss_mlp": 0.01037152,
+      "balance_loss_clip": 1.06244564,
+      "balance_loss_mlp": 1.02722228,
+      "epoch": 0.20838092947754464,
+      "flos": 25374049142400.0,
+      "grad_norm": 2.9463054671417575,
+      "language_loss": 0.75585186,
+      "learning_rate": 3.675542829595986e-06,
+      "loss": 0.77837425,
+      "num_input_tokens_seen": 36818540,
+      "step": 1733,
+      "time_per_iteration": 3.5363049507141113
+    },
+    {
+      "auxiliary_loss_clip": 0.01232805,
+      "auxiliary_loss_mlp": 0.01030592,
+      "balance_loss_clip": 1.05776668,
+      "balance_loss_mlp": 1.02158594,
+      "epoch": 0.20850117236818372,
+      "flos": 24061729749120.0,
+      "grad_norm": 1.6498950994402546,
+      "language_loss": 0.79324609,
+      "learning_rate": 3.6751173675511213e-06,
+      "loss": 0.81588006,
+      "num_input_tokens_seen": 36840585,
+      "step": 1734,
+      "time_per_iteration": 2.772258758544922
+    },
+    {
+      "auxiliary_loss_clip": 0.01223242,
+      "auxiliary_loss_mlp": 0.01034546,
+      "balance_loss_clip": 1.05251026,
+      "balance_loss_mlp": 1.02488422,
+      "epoch": 0.20862141525882283,
+      "flos": 20077799558400.0,
+      "grad_norm": 2.044598485763772,
+      "language_loss": 0.87536836,
+      "learning_rate": 3.674691651392283e-06,
+      "loss": 0.89794624,
+      "num_input_tokens_seen": 36858255,
+      "step": 1735,
+      "time_per_iteration": 3.575350522994995
+    },
+    {
+      "auxiliary_loss_clip": 0.01237822,
+      "auxiliary_loss_mlp": 0.01036681,
+      "balance_loss_clip": 1.06055665,
+      "balance_loss_mlp": 1.02759707,
+      "epoch": 0.2087416581494619,
+      "flos": 39015183237120.0,
+      "grad_norm": 2.0230579263205204,
+      "language_loss": 0.75629401,
+      "learning_rate": 3.674265681184053e-06,
+      "loss": 0.77903903,
+      "num_input_tokens_seen": 36881515,
+      "step": 1736,
+      "time_per_iteration": 2.838794231414795
+    },
+    {
+      "auxiliary_loss_clip": 0.01231088,
+      "auxiliary_loss_mlp": 0.01028807,
+      "balance_loss_clip": 1.05718422,
+      "balance_loss_mlp": 1.01899016,
+      "epoch": 0.208861901040101,
+      "flos": 26101994169600.0,
+      "grad_norm": 2.1919260749680136,
+      "language_loss": 0.86297548,
+      "learning_rate": 3.6738394569910504e-06,
+      "loss": 0.88557434,
+      "num_input_tokens_seen": 36902055,
+      "step": 1737,
+      "time_per_iteration": 2.8875184059143066
+    },
+    {
+      "auxiliary_loss_clip": 0.01222236,
+      "auxiliary_loss_mlp": 0.01041861,
+      "balance_loss_clip": 1.0598762,
+      "balance_loss_mlp": 1.03246093,
+      "epoch": 0.2089821439307401,
+      "flos": 28398732675840.0,
+      "grad_norm": 1.9662434342175301,
+      "language_loss": 0.82743174,
+      "learning_rate": 3.6734129788779333e-06,
+      "loss": 0.85007274,
+      "num_input_tokens_seen": 36921230,
+      "step": 1738,
+      "time_per_iteration": 2.6714961528778076
+    },
+    {
+      "auxiliary_loss_clip": 0.0123616,
+      "auxiliary_loss_mlp": 0.01034568,
+      "balance_loss_clip": 1.05604124,
+      "balance_loss_mlp": 1.02544808,
+      "epoch": 0.2091023868213792,
+      "flos": 21069616872960.0,
+      "grad_norm": 2.079249973299627,
+      "language_loss": 0.9017753,
+      "learning_rate": 3.6729862469093976e-06,
+      "loss": 0.92448258,
+      "num_input_tokens_seen": 36940325,
+      "step": 1739,
+      "time_per_iteration": 2.790480852127075
+    },
+    {
+      "auxiliary_loss_clip": 0.01216215,
+      "auxiliary_loss_mlp": 0.01038087,
+      "balance_loss_clip": 1.05389333,
+      "balance_loss_mlp": 1.02948022,
+      "epoch": 0.20922262971201827,
+      "flos": 22455481363200.0,
+      "grad_norm": 2.455299128668109,
+      "language_loss": 0.82581925,
+      "learning_rate": 3.6725592611501782e-06,
+      "loss": 0.84836227,
+      "num_input_tokens_seen": 36959000,
+      "step": 1740,
+      "time_per_iteration": 2.683302164077759
+    },
+    {
+      "auxiliary_loss_clip": 0.01220143,
+      "auxiliary_loss_mlp": 0.01030295,
+      "balance_loss_clip": 1.0566299,
+      "balance_loss_mlp": 1.02129471,
+      "epoch": 0.20934287260265738,
+      "flos": 27852244179840.0,
+      "grad_norm": 1.7416393594677342,
+      "language_loss": 0.76498348,
+      "learning_rate": 3.6721320216650496e-06,
+      "loss": 0.78748786,
+      "num_input_tokens_seen": 36979615,
+      "step": 1741,
+      "time_per_iteration": 2.8758912086486816
+    },
+    {
+      "auxiliary_loss_clip": 0.01228455,
+      "auxiliary_loss_mlp": 0.01038873,
+      "balance_loss_clip": 1.05751371,
+      "balance_loss_mlp": 1.02959299,
+      "epoch": 0.20946311549329646,
+      "flos": 16435309075200.0,
+      "grad_norm": 1.829888515979776,
+      "language_loss": 0.83142847,
+      "learning_rate": 3.6717045285188215e-06,
+      "loss": 0.85410178,
+      "num_input_tokens_seen": 36997310,
+      "step": 1742,
+      "time_per_iteration": 2.628352403640747
+    },
+    {
+      "auxiliary_loss_clip": 0.01228107,
+      "auxiliary_loss_mlp": 0.01038867,
+      "balance_loss_clip": 1.04944181,
+      "balance_loss_mlp": 1.0283941,
+      "epoch": 0.20958335838393555,
+      "flos": 22492720788480.0,
+      "grad_norm": 2.186255444461003,
+      "language_loss": 0.86787164,
+      "learning_rate": 3.671276781776346e-06,
+      "loss": 0.89054143,
+      "num_input_tokens_seen": 37015965,
+      "step": 1743,
+      "time_per_iteration": 2.7862184047698975
+    },
+    {
+      "auxiliary_loss_clip": 0.01247651,
+      "auxiliary_loss_mlp": 0.01027117,
+      "balance_loss_clip": 1.05567586,
+      "balance_loss_mlp": 1.01831973,
+      "epoch": 0.20970360127457463,
+      "flos": 25224768218880.0,
+      "grad_norm": 1.9365225997752433,
+      "language_loss": 0.67002469,
+      "learning_rate": 3.6708487815025128e-06,
+      "loss": 0.69277239,
+      "num_input_tokens_seen": 37036545,
+      "step": 1744,
+      "time_per_iteration": 2.73175048828125
+    },
+    {
+      "auxiliary_loss_clip": 0.01239857,
+      "auxiliary_loss_mlp": 0.01027289,
+      "balance_loss_clip": 1.05524611,
+      "balance_loss_mlp": 1.01799107,
+      "epoch": 0.20982384416521374,
+      "flos": 18479164855680.0,
+      "grad_norm": 2.3013552465615614,
+      "language_loss": 0.7443161,
+      "learning_rate": 3.6704205277622463e-06,
+      "loss": 0.76698756,
+      "num_input_tokens_seen": 37054985,
+      "step": 1745,
+      "time_per_iteration": 2.675903558731079
+    },
+    {
+      "auxiliary_loss_clip": 0.01232533,
+      "auxiliary_loss_mlp": 0.01026832,
+      "balance_loss_clip": 1.05457854,
+      "balance_loss_mlp": 1.01758707,
+      "epoch": 0.20994408705585282,
+      "flos": 25373546352000.0,
+      "grad_norm": 1.7272373906768081,
+      "language_loss": 0.80286402,
+      "learning_rate": 3.6699920206205146e-06,
+      "loss": 0.82545769,
+      "num_input_tokens_seen": 37075725,
+      "step": 1746,
+      "time_per_iteration": 2.756683826446533
+    },
+    {
+      "auxiliary_loss_clip": 0.01222178,
+      "auxiliary_loss_mlp": 0.01031556,
+      "balance_loss_clip": 1.05656481,
+      "balance_loss_mlp": 1.02256119,
+      "epoch": 0.2100643299464919,
+      "flos": 21320955313920.0,
+      "grad_norm": 1.680525683122723,
+      "language_loss": 0.81890762,
+      "learning_rate": 3.669563260142321e-06,
+      "loss": 0.84144497,
+      "num_input_tokens_seen": 37094615,
+      "step": 1747,
+      "time_per_iteration": 2.63472318649292
+    },
+    {
+      "auxiliary_loss_clip": 0.01228556,
+      "auxiliary_loss_mlp": 0.01034949,
+      "balance_loss_clip": 1.05881703,
+      "balance_loss_mlp": 1.02557302,
+      "epoch": 0.21018457283713102,
+      "flos": 19354379644800.0,
+      "grad_norm": 2.3140205730345285,
+      "language_loss": 0.84336317,
+      "learning_rate": 3.6691342463927083e-06,
+      "loss": 0.86599815,
+      "num_input_tokens_seen": 37113610,
+      "step": 1748,
+      "time_per_iteration": 2.6958675384521484
+    },
+    {
+      "auxiliary_loss_clip": 0.01241993,
+      "auxiliary_loss_mlp": 0.01033656,
+      "balance_loss_clip": 1.05706799,
+      "balance_loss_mlp": 1.02422094,
+      "epoch": 0.2103048157277701,
+      "flos": 28330035914880.0,
+      "grad_norm": 1.745409069460149,
+      "language_loss": 0.81553441,
+      "learning_rate": 3.668704979436758e-06,
+      "loss": 0.83829087,
+      "num_input_tokens_seen": 37133705,
+      "step": 1749,
+      "time_per_iteration": 2.899087429046631
+    },
+    {
+      "auxiliary_loss_clip": 0.01219994,
+      "auxiliary_loss_mlp": 0.01038438,
+      "balance_loss_clip": 1.05369759,
+      "balance_loss_mlp": 1.02896714,
+      "epoch": 0.21042505861840918,
+      "flos": 17457290835840.0,
+      "grad_norm": 2.2458771167558496,
+      "language_loss": 0.78824258,
+      "learning_rate": 3.668275459339588e-06,
+      "loss": 0.8108269,
+      "num_input_tokens_seen": 37152185,
+      "step": 1750,
+      "time_per_iteration": 2.704240322113037
+    },
+    {
+      "auxiliary_loss_clip": 0.01214985,
+      "auxiliary_loss_mlp": 0.0103339,
+      "balance_loss_clip": 1.06172228,
+      "balance_loss_mlp": 1.0238353,
+      "epoch": 0.21054530150904827,
+      "flos": 14209817195520.0,
+      "grad_norm": 1.8406860962143758,
+      "language_loss": 0.80470181,
+      "learning_rate": 3.667845686166358e-06,
+      "loss": 0.82718557,
+      "num_input_tokens_seen": 37169110,
+      "step": 1751,
+      "time_per_iteration": 2.6205079555511475
+    },
+    {
+      "auxiliary_loss_clip": 0.01217093,
+      "auxiliary_loss_mlp": 0.01039546,
+      "balance_loss_clip": 1.05024791,
+      "balance_loss_mlp": 1.0294075,
+      "epoch": 0.21066554439968738,
+      "flos": 18618210403200.0,
+      "grad_norm": 1.6349596825860317,
+      "language_loss": 0.85838467,
+      "learning_rate": 3.6674156599822634e-06,
+      "loss": 0.88095105,
+      "num_input_tokens_seen": 37184905,
+      "step": 1752,
+      "time_per_iteration": 2.6915578842163086
+    },
+    {
+      "auxiliary_loss_clip": 0.01247202,
+      "auxiliary_loss_mlp": 0.01039286,
+      "balance_loss_clip": 1.05106592,
+      "balance_loss_mlp": 1.02918291,
+      "epoch": 0.21078578729032646,
+      "flos": 23658883741440.0,
+      "grad_norm": 1.9400939712196446,
+      "language_loss": 0.81860054,
+      "learning_rate": 3.666985380852539e-06,
+      "loss": 0.84146547,
+      "num_input_tokens_seen": 37203910,
+      "step": 1753,
+      "time_per_iteration": 2.8165125846862793
+    },
+    {
+      "auxiliary_loss_clip": 0.01232069,
+      "auxiliary_loss_mlp": 0.0103214,
+      "balance_loss_clip": 1.05866754,
+      "balance_loss_mlp": 1.02166212,
+      "epoch": 0.21090603018096554,
+      "flos": 29346379240320.0,
+      "grad_norm": 3.117570726734395,
+      "language_loss": 0.74226922,
+      "learning_rate": 3.6665548488424576e-06,
+      "loss": 0.76491129,
+      "num_input_tokens_seen": 37222670,
+      "step": 1754,
+      "time_per_iteration": 2.8489954471588135
+    },
+    {
+      "auxiliary_loss_clip": 0.01215733,
+      "auxiliary_loss_mlp": 0.01037708,
+      "balance_loss_clip": 1.06028247,
+      "balance_loss_mlp": 1.02770638,
+      "epoch": 0.21102627307160465,
+      "flos": 23261245205760.0,
+      "grad_norm": 1.7812082553558208,
+      "language_loss": 0.87757283,
+      "learning_rate": 3.6661240640173307e-06,
+      "loss": 0.90010726,
+      "num_input_tokens_seen": 37244140,
+      "step": 1755,
+      "time_per_iteration": 2.71250057220459
+    },
+    {
+      "auxiliary_loss_clip": 0.0115193,
+      "auxiliary_loss_mlp": 0.01002928,
+      "balance_loss_clip": 1.03079259,
+      "balance_loss_mlp": 1.00056744,
+      "epoch": 0.21114651596224374,
+      "flos": 54633454577280.0,
+      "grad_norm": 1.097682489664134,
+      "language_loss": 0.5786612,
+      "learning_rate": 3.6656930264425085e-06,
+      "loss": 0.60020983,
+      "num_input_tokens_seen": 37308185,
+      "step": 1756,
+      "time_per_iteration": 4.308766841888428
+    },
+    {
+      "auxiliary_loss_clip": 0.01213926,
+      "auxiliary_loss_mlp": 0.01034633,
+      "balance_loss_clip": 1.06075478,
+      "balance_loss_mlp": 1.02495885,
+      "epoch": 0.21126675885288282,
+      "flos": 21543314457600.0,
+      "grad_norm": 1.8099711384480919,
+      "language_loss": 0.75580102,
+      "learning_rate": 3.665261736183378e-06,
+      "loss": 0.77828658,
+      "num_input_tokens_seen": 37328220,
+      "step": 1757,
+      "time_per_iteration": 3.487778425216675
+    },
+    {
+      "auxiliary_loss_clip": 0.01240477,
+      "auxiliary_loss_mlp": 0.01034883,
+      "balance_loss_clip": 1.05633342,
+      "balance_loss_mlp": 1.02470219,
+      "epoch": 0.2113870017435219,
+      "flos": 10961876678400.0,
+      "grad_norm": 3.538529684033641,
+      "language_loss": 0.88607764,
+      "learning_rate": 3.664830193305366e-06,
+      "loss": 0.90883124,
+      "num_input_tokens_seen": 37345995,
+      "step": 1758,
+      "time_per_iteration": 2.710068941116333
+    },
+    {
+      "auxiliary_loss_clip": 0.01230192,
+      "auxiliary_loss_mlp": 0.01038347,
+      "balance_loss_clip": 1.05314648,
+      "balance_loss_mlp": 1.02871525,
+      "epoch": 0.211507244634161,
+      "flos": 16653825463680.0,
+      "grad_norm": 7.461777193621392,
+      "language_loss": 0.77198309,
+      "learning_rate": 3.6643983978739373e-06,
+      "loss": 0.7946685,
+      "num_input_tokens_seen": 37362610,
+      "step": 1759,
+      "time_per_iteration": 3.619699239730835
+    },
+    {
+      "auxiliary_loss_clip": 0.01222799,
+      "auxiliary_loss_mlp": 0.01033974,
+      "balance_loss_clip": 1.05752265,
+      "balance_loss_mlp": 1.02397275,
+      "epoch": 0.2116274875248001,
+      "flos": 20954091755520.0,
+      "grad_norm": 2.236918117276062,
+      "language_loss": 0.82176417,
+      "learning_rate": 3.663966349954596e-06,
+      "loss": 0.84433192,
+      "num_input_tokens_seen": 37382790,
+      "step": 1760,
+      "time_per_iteration": 2.695450782775879
+    },
+    {
+      "auxiliary_loss_clip": 0.01123868,
+      "auxiliary_loss_mlp": 0.01004507,
+      "balance_loss_clip": 1.02749193,
+      "balance_loss_mlp": 1.00203979,
+      "epoch": 0.21174773041543918,
+      "flos": 68196949424640.0,
+      "grad_norm": 0.7853055894862541,
+      "language_loss": 0.59746659,
+      "learning_rate": 3.6635340496128816e-06,
+      "loss": 0.61875033,
+      "num_input_tokens_seen": 37439720,
+      "step": 1761,
+      "time_per_iteration": 4.008767604827881
+    },
+    {
+      "auxiliary_loss_clip": 0.01244429,
+      "auxiliary_loss_mlp": 0.01028977,
+      "balance_loss_clip": 1.05399132,
+      "balance_loss_mlp": 1.01998305,
+      "epoch": 0.2118679733060783,
+      "flos": 20668315150080.0,
+      "grad_norm": 1.7102704287872565,
+      "language_loss": 0.9279002,
+      "learning_rate": 3.6631014969143747e-06,
+      "loss": 0.9506343,
+      "num_input_tokens_seen": 37459410,
+      "step": 1762,
+      "time_per_iteration": 2.8307950496673584
+    },
+    {
+      "auxiliary_loss_clip": 0.01224456,
+      "auxiliary_loss_mlp": 0.0103102,
+      "balance_loss_clip": 1.06172276,
+      "balance_loss_mlp": 1.02173364,
+      "epoch": 0.21198821619671737,
+      "flos": 23223431162880.0,
+      "grad_norm": 1.8637160701209043,
+      "language_loss": 0.88982761,
+      "learning_rate": 3.662668691924693e-06,
+      "loss": 0.91238236,
+      "num_input_tokens_seen": 37480460,
+      "step": 1763,
+      "time_per_iteration": 2.789374351501465
+    },
+    {
+      "auxiliary_loss_clip": 0.01235881,
+      "auxiliary_loss_mlp": 0.01040181,
+      "balance_loss_clip": 1.05337572,
+      "balance_loss_mlp": 1.02991688,
+      "epoch": 0.21210845908735645,
+      "flos": 24498547044480.0,
+      "grad_norm": 2.3939841786890237,
+      "language_loss": 0.71371549,
+      "learning_rate": 3.6622356347094927e-06,
+      "loss": 0.73647612,
+      "num_input_tokens_seen": 37502025,
+      "step": 1764,
+      "time_per_iteration": 2.748342514038086
+    },
+    {
+      "auxiliary_loss_clip": 0.01237703,
+      "auxiliary_loss_mlp": 0.01034798,
+      "balance_loss_clip": 1.05335641,
+      "balance_loss_mlp": 1.02490973,
+      "epoch": 0.21222870197799554,
+      "flos": 27089789160960.0,
+      "grad_norm": 2.2072210267969354,
+      "language_loss": 0.79009843,
+      "learning_rate": 3.6618023253344684e-06,
+      "loss": 0.81282341,
+      "num_input_tokens_seen": 37520885,
+      "step": 1765,
+      "time_per_iteration": 2.7819647789001465
+    },
+    {
+      "auxiliary_loss_clip": 0.01220542,
+      "auxiliary_loss_mlp": 0.01039891,
+      "balance_loss_clip": 1.058025,
+      "balance_loss_mlp": 1.0298717,
+      "epoch": 0.21234894486863465,
+      "flos": 16873850223360.0,
+      "grad_norm": 1.488881741644399,
+      "language_loss": 0.83984256,
+      "learning_rate": 3.6613687638653527e-06,
+      "loss": 0.86244696,
+      "num_input_tokens_seen": 37539055,
+      "step": 1766,
+      "time_per_iteration": 2.6272528171539307
+    },
+    {
+      "auxiliary_loss_clip": 0.01228121,
+      "auxiliary_loss_mlp": 0.01029403,
+      "balance_loss_clip": 1.05773926,
+      "balance_loss_mlp": 1.01960421,
+      "epoch": 0.21246918775927373,
+      "flos": 23474949171840.0,
+      "grad_norm": 2.0156313298486426,
+      "language_loss": 0.77913618,
+      "learning_rate": 3.660934950367916e-06,
+      "loss": 0.80171144,
+      "num_input_tokens_seen": 37558300,
+      "step": 1767,
+      "time_per_iteration": 2.7634568214416504
+    },
+    {
+      "auxiliary_loss_clip": 0.01224632,
+      "auxiliary_loss_mlp": 0.01028682,
+      "balance_loss_clip": 1.05776024,
+      "balance_loss_mlp": 1.01893115,
+      "epoch": 0.21258943064991281,
+      "flos": 22382295402240.0,
+      "grad_norm": 1.8918554797411447,
+      "language_loss": 0.8345437,
+      "learning_rate": 3.660500884907968e-06,
+      "loss": 0.85707688,
+      "num_input_tokens_seen": 37579040,
+      "step": 1768,
+      "time_per_iteration": 2.6720807552337646
+    },
+    {
+      "auxiliary_loss_clip": 0.01132716,
+      "auxiliary_loss_mlp": 0.01005951,
+      "balance_loss_clip": 1.02523327,
+      "balance_loss_mlp": 1.00356698,
+      "epoch": 0.21270967354055192,
+      "flos": 59440168679040.0,
+      "grad_norm": 0.8206762473410629,
+      "language_loss": 0.60044813,
+      "learning_rate": 3.660066567551356e-06,
+      "loss": 0.62183487,
+      "num_input_tokens_seen": 37639185,
+      "step": 1769,
+      "time_per_iteration": 3.24772047996521
+    },
+    {
+      "auxiliary_loss_clip": 0.01223574,
+      "auxiliary_loss_mlp": 0.01380351,
+      "balance_loss_clip": 1.05872178,
+      "balance_loss_mlp": 1.00004494,
+      "epoch": 0.212829916431191,
+      "flos": 21544032729600.0,
+      "grad_norm": 2.674773976000037,
+      "language_loss": 0.84477359,
+      "learning_rate": 3.6596319983639657e-06,
+      "loss": 0.87081283,
+      "num_input_tokens_seen": 37657765,
+      "step": 1770,
+      "time_per_iteration": 2.94575834274292
+    },
+    {
+      "auxiliary_loss_clip": 0.01237517,
+      "auxiliary_loss_mlp": 0.01380676,
+      "balance_loss_clip": 1.05553722,
+      "balance_loss_mlp": 0.99997753,
+      "epoch": 0.2129501593218301,
+      "flos": 28987739896320.0,
+      "grad_norm": 1.728529928077784,
+      "language_loss": 0.86444926,
+      "learning_rate": 3.6591971774117214e-06,
+      "loss": 0.8906312,
+      "num_input_tokens_seen": 37680740,
+      "step": 1771,
+      "time_per_iteration": 2.8383092880249023
+    },
+    {
+      "auxiliary_loss_clip": 0.01227571,
+      "auxiliary_loss_mlp": 0.01033917,
+      "balance_loss_clip": 1.06039929,
+      "balance_loss_mlp": 1.02358162,
+      "epoch": 0.2130704022124692,
+      "flos": 18806993308800.0,
+      "grad_norm": 2.4253339721415825,
+      "language_loss": 0.80235076,
+      "learning_rate": 3.6587621047605833e-06,
+      "loss": 0.8249656,
+      "num_input_tokens_seen": 37697910,
+      "step": 1772,
+      "time_per_iteration": 2.791328191757202
+    },
+    {
+      "auxiliary_loss_clip": 0.01221666,
+      "auxiliary_loss_mlp": 0.01035669,
+      "balance_loss_clip": 1.05904317,
+      "balance_loss_mlp": 1.02557766,
+      "epoch": 0.21319064510310828,
+      "flos": 13918150759680.0,
+      "grad_norm": 2.086305689218926,
+      "language_loss": 0.86563015,
+      "learning_rate": 3.6583267804765542e-06,
+      "loss": 0.8882035,
+      "num_input_tokens_seen": 37712245,
+      "step": 1773,
+      "time_per_iteration": 2.5965754985809326
+    },
+    {
+      "auxiliary_loss_clip": 0.01220545,
+      "auxiliary_loss_mlp": 0.01034827,
+      "balance_loss_clip": 1.05895734,
+      "balance_loss_mlp": 1.02409816,
+      "epoch": 0.21331088799374737,
+      "flos": 20959694277120.0,
+      "grad_norm": 1.916068208843687,
+      "language_loss": 0.85588855,
+      "learning_rate": 3.6578912046256702e-06,
+      "loss": 0.87844229,
+      "num_input_tokens_seen": 37730765,
+      "step": 1774,
+      "time_per_iteration": 2.6819682121276855
+    },
+    {
+      "auxiliary_loss_clip": 0.01234051,
+      "auxiliary_loss_mlp": 0.0103587,
+      "balance_loss_clip": 1.05392396,
+      "balance_loss_mlp": 1.02639306,
+      "epoch": 0.21343113088438645,
+      "flos": 18624638937600.0,
+      "grad_norm": 1.9962284224132958,
+      "language_loss": 0.76466525,
+      "learning_rate": 3.6574553772740083e-06,
+      "loss": 0.78736448,
+      "num_input_tokens_seen": 37748695,
+      "step": 1775,
+      "time_per_iteration": 2.6843550205230713
+    },
+    {
+      "auxiliary_loss_clip": 0.01119509,
+      "auxiliary_loss_mlp": 0.01012622,
+      "balance_loss_clip": 1.02651954,
+      "balance_loss_mlp": 1.01038063,
+      "epoch": 0.21355137377502556,
+      "flos": 67413128791680.0,
+      "grad_norm": 0.875678523918047,
+      "language_loss": 0.61874801,
+      "learning_rate": 3.657019298487684e-06,
+      "loss": 0.64006931,
+      "num_input_tokens_seen": 37813705,
+      "step": 1776,
+      "time_per_iteration": 3.2038559913635254
+    },
+    {
+      "auxiliary_loss_clip": 0.0122794,
+      "auxiliary_loss_mlp": 0.01380754,
+      "balance_loss_clip": 1.05775261,
+      "balance_loss_mlp": 1.00018775,
+      "epoch": 0.21367161666566464,
+      "flos": 34532095697280.0,
+      "grad_norm": 1.6679496080694898,
+      "language_loss": 0.83642101,
+      "learning_rate": 3.6565829683328495e-06,
+      "loss": 0.86250794,
+      "num_input_tokens_seen": 37836330,
+      "step": 1777,
+      "time_per_iteration": 2.799772262573242
+    },
+    {
+      "auxiliary_loss_clip": 0.0121882,
+      "auxiliary_loss_mlp": 0.01039646,
+      "balance_loss_clip": 1.05794728,
+      "balance_loss_mlp": 1.02978182,
+      "epoch": 0.21379185955630373,
+      "flos": 18989347680000.0,
+      "grad_norm": 2.5984386321701245,
+      "language_loss": 0.85855377,
+      "learning_rate": 3.6561463868756965e-06,
+      "loss": 0.88113844,
+      "num_input_tokens_seen": 37855030,
+      "step": 1778,
+      "time_per_iteration": 2.624549150466919
+    },
+    {
+      "auxiliary_loss_clip": 0.01224844,
+      "auxiliary_loss_mlp": 0.01026776,
+      "balance_loss_clip": 1.06271684,
+      "balance_loss_mlp": 1.017102,
+      "epoch": 0.21391210244694284,
+      "flos": 28218497207040.0,
+      "grad_norm": 1.573267200337749,
+      "language_loss": 0.77976197,
+      "learning_rate": 3.655709554182452e-06,
+      "loss": 0.80227816,
+      "num_input_tokens_seen": 37875370,
+      "step": 1779,
+      "time_per_iteration": 2.739389419555664
+    },
+    {
+      "auxiliary_loss_clip": 0.01224879,
+      "auxiliary_loss_mlp": 0.01030266,
+      "balance_loss_clip": 1.05898547,
+      "balance_loss_mlp": 1.02055085,
+      "epoch": 0.21403234533758192,
+      "flos": 17455064192640.0,
+      "grad_norm": 2.687518342181109,
+      "language_loss": 0.84417909,
+      "learning_rate": 3.6552724703193855e-06,
+      "loss": 0.86673057,
+      "num_input_tokens_seen": 37892560,
+      "step": 1780,
+      "time_per_iteration": 2.6107468605041504
+    },
+    {
+      "auxiliary_loss_clip": 0.01142878,
+      "auxiliary_loss_mlp": 0.01010723,
+      "balance_loss_clip": 1.01648903,
+      "balance_loss_mlp": 1.00835085,
+      "epoch": 0.214152588228221,
+      "flos": 51637606686720.0,
+      "grad_norm": 0.792306588289245,
+      "language_loss": 0.55949461,
+      "learning_rate": 3.654835135352801e-06,
+      "loss": 0.58103061,
+      "num_input_tokens_seen": 37947370,
+      "step": 1781,
+      "time_per_iteration": 3.242400884628296
+    },
+    {
+      "auxiliary_loss_clip": 0.01245194,
+      "auxiliary_loss_mlp": 0.01028788,
+      "balance_loss_clip": 1.04969084,
+      "balance_loss_mlp": 1.01843452,
+      "epoch": 0.21427283111886009,
+      "flos": 19496154625920.0,
+      "grad_norm": 1.839016532686822,
+      "language_loss": 0.87370718,
+      "learning_rate": 3.654397549349043e-06,
+      "loss": 0.89644694,
+      "num_input_tokens_seen": 37964745,
+      "step": 1782,
+      "time_per_iteration": 2.865816593170166
+    },
+    {
+      "auxiliary_loss_clip": 0.01230134,
+      "auxiliary_loss_mlp": 0.0103845,
+      "balance_loss_clip": 1.05908608,
+      "balance_loss_mlp": 1.02818632,
+      "epoch": 0.2143930740094992,
+      "flos": 20084802710400.0,
+      "grad_norm": 2.1611332833243235,
+      "language_loss": 0.75155401,
+      "learning_rate": 3.653959712374491e-06,
+      "loss": 0.77423984,
+      "num_input_tokens_seen": 37982850,
+      "step": 1783,
+      "time_per_iteration": 3.5566165447235107
+    },
+    {
+      "auxiliary_loss_clip": 0.01234313,
+      "auxiliary_loss_mlp": 0.01034583,
+      "balance_loss_clip": 1.05682182,
+      "balance_loss_mlp": 1.02449799,
+      "epoch": 0.21451331690013828,
+      "flos": 21798603394560.0,
+      "grad_norm": 1.66896348586263,
+      "language_loss": 0.82644445,
+      "learning_rate": 3.6535216244955663e-06,
+      "loss": 0.84913337,
+      "num_input_tokens_seen": 38002745,
+      "step": 1784,
+      "time_per_iteration": 3.6992111206054688
+    },
+    {
+      "auxiliary_loss_clip": 0.01230998,
+      "auxiliary_loss_mlp": 0.01038526,
+      "balance_loss_clip": 1.05749655,
+      "balance_loss_mlp": 1.02841103,
+      "epoch": 0.21463355979077736,
+      "flos": 32853882412800.0,
+      "grad_norm": 1.9838888055322719,
+      "language_loss": 0.7100879,
+      "learning_rate": 3.653083285778726e-06,
+      "loss": 0.7327832,
+      "num_input_tokens_seen": 38024115,
+      "step": 1785,
+      "time_per_iteration": 3.709148406982422
+    },
+    {
+      "auxiliary_loss_clip": 0.01226585,
+      "auxiliary_loss_mlp": 0.01038649,
+      "balance_loss_clip": 1.05874133,
+      "balance_loss_mlp": 1.02753234,
+      "epoch": 0.21475380268141647,
+      "flos": 21543817248000.0,
+      "grad_norm": 1.996781254650364,
+      "language_loss": 0.81474811,
+      "learning_rate": 3.6526446962904653e-06,
+      "loss": 0.83740044,
+      "num_input_tokens_seen": 38042830,
+      "step": 1786,
+      "time_per_iteration": 2.6390113830566406
+    },
+    {
+      "auxiliary_loss_clip": 0.01217821,
+      "auxiliary_loss_mlp": 0.01036884,
+      "balance_loss_clip": 1.06009865,
+      "balance_loss_mlp": 1.02663195,
+      "epoch": 0.21487404557205556,
+      "flos": 32159082660480.0,
+      "grad_norm": 1.5149928798394132,
+      "language_loss": 0.74106508,
+      "learning_rate": 3.652205856097318e-06,
+      "loss": 0.76361215,
+      "num_input_tokens_seen": 38066015,
+      "step": 1787,
+      "time_per_iteration": 3.681015729904175
+    },
+    {
+      "auxiliary_loss_clip": 0.01249541,
+      "auxiliary_loss_mlp": 0.01380459,
+      "balance_loss_clip": 1.05448842,
+      "balance_loss_mlp": 1.0001235,
+      "epoch": 0.21499428846269464,
+      "flos": 12673091583360.0,
+      "grad_norm": 1.9177496654258854,
+      "language_loss": 0.78996873,
+      "learning_rate": 3.651766765265856e-06,
+      "loss": 0.81626868,
+      "num_input_tokens_seen": 38083025,
+      "step": 1788,
+      "time_per_iteration": 2.742708683013916
+    },
+    {
+      "auxiliary_loss_clip": 0.01226814,
+      "auxiliary_loss_mlp": 0.01036086,
+      "balance_loss_clip": 1.05531454,
+      "balance_loss_mlp": 1.02545798,
+      "epoch": 0.21511453135333372,
+      "flos": 23471573293440.0,
+      "grad_norm": 2.364569209965115,
+      "language_loss": 0.80951738,
+      "learning_rate": 3.65132742386269e-06,
+      "loss": 0.83214641,
+      "num_input_tokens_seen": 38098245,
+      "step": 1789,
+      "time_per_iteration": 2.7135396003723145
+    },
+    {
+      "auxiliary_loss_clip": 0.01213824,
+      "auxiliary_loss_mlp": 0.01035841,
+      "balance_loss_clip": 1.0591414,
+      "balance_loss_mlp": 1.02608991,
+      "epoch": 0.21523477424397283,
+      "flos": 26943560893440.0,
+      "grad_norm": 1.9995874536574045,
+      "language_loss": 0.84983164,
+      "learning_rate": 3.6508878319544656e-06,
+      "loss": 0.87232828,
+      "num_input_tokens_seen": 38118460,
+      "step": 1790,
+      "time_per_iteration": 2.6712234020233154
+    },
+    {
+      "auxiliary_loss_clip": 0.01223889,
+      "auxiliary_loss_mlp": 0.01048136,
+      "balance_loss_clip": 1.0602324,
+      "balance_loss_mlp": 1.03900445,
+      "epoch": 0.21535501713461191,
+      "flos": 18916161719040.0,
+      "grad_norm": 6.629789956461775,
+      "language_loss": 0.80908161,
+      "learning_rate": 3.65044798960787e-06,
+      "loss": 0.83180189,
+      "num_input_tokens_seen": 38136800,
+      "step": 1791,
+      "time_per_iteration": 2.709784507751465
+    },
+    {
+      "auxiliary_loss_clip": 0.01230374,
+      "auxiliary_loss_mlp": 0.01034935,
+      "balance_loss_clip": 1.05429339,
+      "balance_loss_mlp": 1.02509975,
+      "epoch": 0.215475260025251,
+      "flos": 17895113712000.0,
+      "grad_norm": 1.8714719095983225,
+      "language_loss": 0.7836591,
+      "learning_rate": 3.650007896889627e-06,
+      "loss": 0.8063122,
+      "num_input_tokens_seen": 38155380,
+      "step": 1792,
+      "time_per_iteration": 2.682584524154663
+    },
+    {
+      "auxiliary_loss_clip": 0.01213964,
+      "auxiliary_loss_mlp": 0.01037048,
+      "balance_loss_clip": 1.06262267,
+      "balance_loss_mlp": 1.02771938,
+      "epoch": 0.2155955029158901,
+      "flos": 16654292340480.0,
+      "grad_norm": 1.7884027180019662,
+      "language_loss": 0.80595791,
+      "learning_rate": 3.6495675538664974e-06,
+      "loss": 0.82846797,
+      "num_input_tokens_seen": 38174395,
+      "step": 1793,
+      "time_per_iteration": 2.5891809463500977
+    },
+    {
+      "auxiliary_loss_clip": 0.01228585,
+      "auxiliary_loss_mlp": 0.01038425,
+      "balance_loss_clip": 1.05400312,
+      "balance_loss_mlp": 1.02838135,
+      "epoch": 0.2157157458065292,
+      "flos": 23621213352960.0,
+      "grad_norm": 8.478647292323497,
+      "language_loss": 0.82539439,
+      "learning_rate": 3.649126960605282e-06,
+      "loss": 0.84806448,
+      "num_input_tokens_seen": 38195380,
+      "step": 1794,
+      "time_per_iteration": 2.7079482078552246
+    },
+    {
+      "auxiliary_loss_clip": 0.01226553,
+      "auxiliary_loss_mlp": 0.01039218,
+      "balance_loss_clip": 1.05698323,
+      "balance_loss_mlp": 1.029073,
+      "epoch": 0.21583598869716827,
+      "flos": 22127078292480.0,
+      "grad_norm": 2.2474526571204945,
+      "language_loss": 0.83955151,
+      "learning_rate": 3.6486861171728174e-06,
+      "loss": 0.8622092,
+      "num_input_tokens_seen": 38213775,
+      "step": 1795,
+      "time_per_iteration": 2.6305670738220215
+    },
+    {
+      "auxiliary_loss_clip": 0.01238848,
+      "auxiliary_loss_mlp": 0.01037259,
+      "balance_loss_clip": 1.05231643,
+      "balance_loss_mlp": 1.02741194,
+      "epoch": 0.21595623158780738,
+      "flos": 23441229279360.0,
+      "grad_norm": 1.6273066111732044,
+      "language_loss": 0.78352046,
+      "learning_rate": 3.6482450236359803e-06,
+      "loss": 0.80628157,
+      "num_input_tokens_seen": 38235630,
+      "step": 1796,
+      "time_per_iteration": 2.766083002090454
+    },
+    {
+      "auxiliary_loss_clip": 0.01222411,
+      "auxiliary_loss_mlp": 0.01035295,
+      "balance_loss_clip": 1.061306,
+      "balance_loss_mlp": 1.02598453,
+      "epoch": 0.21607647447844647,
+      "flos": 26906501036160.0,
+      "grad_norm": 2.3444771031456413,
+      "language_loss": 0.77795768,
+      "learning_rate": 3.647803680061683e-06,
+      "loss": 0.80053473,
+      "num_input_tokens_seen": 38256045,
+      "step": 1797,
+      "time_per_iteration": 2.688809633255005
+    },
+    {
+      "auxiliary_loss_clip": 0.0123236,
+      "auxiliary_loss_mlp": 0.01033415,
+      "balance_loss_clip": 1.05775642,
+      "balance_loss_mlp": 1.02330041,
+      "epoch": 0.21619671736908555,
+      "flos": 14495378319360.0,
+      "grad_norm": 2.4101488401576368,
+      "language_loss": 0.74483651,
+      "learning_rate": 3.6473620865168776e-06,
+      "loss": 0.76749426,
+      "num_input_tokens_seen": 38272915,
+      "step": 1798,
+      "time_per_iteration": 2.7175748348236084
+    },
+    {
+      "auxiliary_loss_clip": 0.01231989,
+      "auxiliary_loss_mlp": 0.01036121,
+      "balance_loss_clip": 1.05978894,
+      "balance_loss_mlp": 1.0255177,
+      "epoch": 0.21631696025972463,
+      "flos": 17931096161280.0,
+      "grad_norm": 2.3461208987934077,
+      "language_loss": 0.81727052,
+      "learning_rate": 3.646920243068554e-06,
+      "loss": 0.83995163,
+      "num_input_tokens_seen": 38290810,
+      "step": 1799,
+      "time_per_iteration": 2.7032835483551025
+    },
+    {
+      "auxiliary_loss_clip": 0.01214002,
+      "auxiliary_loss_mlp": 0.01040479,
+      "balance_loss_clip": 1.05528986,
+      "balance_loss_mlp": 1.03085256,
+      "epoch": 0.21643720315036374,
+      "flos": 24462385027200.0,
+      "grad_norm": 1.7884623799066193,
+      "language_loss": 0.74599463,
+      "learning_rate": 3.6464781497837384e-06,
+      "loss": 0.76853949,
+      "num_input_tokens_seen": 38312785,
+      "step": 1800,
+      "time_per_iteration": 2.7159290313720703
+    },
+    {
+      "auxiliary_loss_clip": 0.01231663,
+      "auxiliary_loss_mlp": 0.01036082,
+      "balance_loss_clip": 1.05522871,
+      "balance_loss_mlp": 1.02612805,
+      "epoch": 0.21655744604100283,
+      "flos": 28474432588800.0,
+      "grad_norm": 1.6792682311448321,
+      "language_loss": 0.72715193,
+      "learning_rate": 3.6460358067294965e-06,
+      "loss": 0.74982941,
+      "num_input_tokens_seen": 38334015,
+      "step": 1801,
+      "time_per_iteration": 2.719424247741699
+    },
+    {
+      "auxiliary_loss_clip": 0.01217808,
+      "auxiliary_loss_mlp": 0.0103471,
+      "balance_loss_clip": 1.06095433,
+      "balance_loss_mlp": 1.0245775,
+      "epoch": 0.2166776889316419,
+      "flos": 20152960767360.0,
+      "grad_norm": 1.8126694068421363,
+      "language_loss": 0.77393556,
+      "learning_rate": 3.645593213972932e-06,
+      "loss": 0.79646081,
+      "num_input_tokens_seen": 38352920,
+      "step": 1802,
+      "time_per_iteration": 2.6482834815979004
+    },
+    {
+      "auxiliary_loss_clip": 0.01218152,
+      "auxiliary_loss_mlp": 0.01031885,
+      "balance_loss_clip": 1.05908751,
+      "balance_loss_mlp": 1.02217555,
+      "epoch": 0.21679793182228102,
+      "flos": 15193482122880.0,
+      "grad_norm": 2.3964726937793155,
+      "language_loss": 0.79838693,
+      "learning_rate": 3.6451503715811852e-06,
+      "loss": 0.82088733,
+      "num_input_tokens_seen": 38371230,
+      "step": 1803,
+      "time_per_iteration": 2.6681711673736572
+    },
+    {
+      "auxiliary_loss_clip": 0.01230026,
+      "auxiliary_loss_mlp": 0.01031077,
+      "balance_loss_clip": 1.05886054,
+      "balance_loss_mlp": 1.02215469,
+      "epoch": 0.2169181747129201,
+      "flos": 17384464010880.0,
+      "grad_norm": 2.142186005209377,
+      "language_loss": 0.80549204,
+      "learning_rate": 3.6447072796214345e-06,
+      "loss": 0.82810307,
+      "num_input_tokens_seen": 38389795,
+      "step": 1804,
+      "time_per_iteration": 2.6386828422546387
+    },
+    {
+      "auxiliary_loss_clip": 0.01148593,
+      "auxiliary_loss_mlp": 0.01002243,
+      "balance_loss_clip": 1.02420855,
+      "balance_loss_mlp": 0.9996441,
+      "epoch": 0.21703841760355919,
+      "flos": 58760955429120.0,
+      "grad_norm": 0.9120387846908584,
+      "language_loss": 0.63127416,
+      "learning_rate": 3.644263938160898e-06,
+      "loss": 0.6527825,
+      "num_input_tokens_seen": 38445760,
+      "step": 1805,
+      "time_per_iteration": 3.1741764545440674
+    },
+    {
+      "auxiliary_loss_clip": 0.01238848,
+      "auxiliary_loss_mlp": 0.0103459,
+      "balance_loss_clip": 1.0566045,
+      "balance_loss_mlp": 1.02507746,
+      "epoch": 0.21715866049419827,
+      "flos": 22418457419520.0,
+      "grad_norm": 1.9111943440611494,
+      "language_loss": 0.71846998,
+      "learning_rate": 3.6438203472668293e-06,
+      "loss": 0.74120438,
+      "num_input_tokens_seen": 38465405,
+      "step": 1806,
+      "time_per_iteration": 2.6971139907836914
+    },
+    {
+      "auxiliary_loss_clip": 0.01234225,
+      "auxiliary_loss_mlp": 0.01035463,
+      "balance_loss_clip": 1.05948997,
+      "balance_loss_mlp": 1.02581906,
+      "epoch": 0.21727890338483738,
+      "flos": 17237732952960.0,
+      "grad_norm": 2.0067108382295418,
+      "language_loss": 0.8188709,
+      "learning_rate": 3.6433765070065206e-06,
+      "loss": 0.84156775,
+      "num_input_tokens_seen": 38483195,
+      "step": 1807,
+      "time_per_iteration": 2.6115517616271973
+    },
+    {
+      "auxiliary_loss_clip": 0.01213822,
+      "auxiliary_loss_mlp": 0.01032124,
+      "balance_loss_clip": 1.06048012,
+      "balance_loss_mlp": 1.02191401,
+      "epoch": 0.21739914627547646,
+      "flos": 13434792416640.0,
+      "grad_norm": 2.7123664396370972,
+      "language_loss": 0.87230527,
+      "learning_rate": 3.6429324174473025e-06,
+      "loss": 0.89476472,
+      "num_input_tokens_seen": 38496735,
+      "step": 1808,
+      "time_per_iteration": 2.502225637435913
+    },
+    {
+      "auxiliary_loss_clip": 0.0122421,
+      "auxiliary_loss_mlp": 0.01034076,
+      "balance_loss_clip": 1.05919218,
+      "balance_loss_mlp": 1.02417517,
+      "epoch": 0.21751938916611555,
+      "flos": 20959514709120.0,
+      "grad_norm": 3.4040300829923646,
+      "language_loss": 0.84659004,
+      "learning_rate": 3.6424880786565425e-06,
+      "loss": 0.86917287,
+      "num_input_tokens_seen": 38512880,
+      "step": 1809,
+      "time_per_iteration": 3.430041551589966
+    },
+    {
+      "auxiliary_loss_clip": 0.0124448,
+      "auxiliary_loss_mlp": 0.01030769,
+      "balance_loss_clip": 1.05462551,
+      "balance_loss_mlp": 1.02132773,
+      "epoch": 0.21763963205675466,
+      "flos": 27599936071680.0,
+      "grad_norm": 3.394627060540741,
+      "language_loss": 0.79788733,
+      "learning_rate": 3.6420434907016482e-06,
+      "loss": 0.82063985,
+      "num_input_tokens_seen": 38532570,
+      "step": 1810,
+      "time_per_iteration": 3.5614655017852783
+    },
+    {
+      "auxiliary_loss_clip": 0.01224233,
+      "auxiliary_loss_mlp": 0.01037632,
+      "balance_loss_clip": 1.0625422,
+      "balance_loss_mlp": 1.02842903,
+      "epoch": 0.21775987494739374,
+      "flos": 21430411032960.0,
+      "grad_norm": 1.5534643719014511,
+      "language_loss": 0.80831099,
+      "learning_rate": 3.6415986536500606e-06,
+      "loss": 0.83092964,
+      "num_input_tokens_seen": 38550900,
+      "step": 1811,
+      "time_per_iteration": 3.360713005065918
+    },
+    {
+      "auxiliary_loss_clip": 0.01241504,
+      "auxiliary_loss_mlp": 0.01035007,
+      "balance_loss_clip": 1.05879188,
+      "balance_loss_mlp": 1.02635252,
+      "epoch": 0.21788011783803282,
+      "flos": 18332972501760.0,
+      "grad_norm": 1.7735762648023883,
+      "language_loss": 0.80655235,
+      "learning_rate": 3.641153567569263e-06,
+      "loss": 0.82931745,
+      "num_input_tokens_seen": 38569215,
+      "step": 1812,
+      "time_per_iteration": 2.7568161487579346
+    },
+    {
+      "auxiliary_loss_clip": 0.01218883,
+      "auxiliary_loss_mlp": 0.01030498,
+      "balance_loss_clip": 1.05965078,
+      "balance_loss_mlp": 1.02052009,
+      "epoch": 0.2180003607286719,
+      "flos": 30262748037120.0,
+      "grad_norm": 1.9888282447155705,
+      "language_loss": 0.95609486,
+      "learning_rate": 3.640708232526774e-06,
+      "loss": 0.97858864,
+      "num_input_tokens_seen": 38587870,
+      "step": 1813,
+      "time_per_iteration": 3.6460788249969482
+    },
+    {
+      "auxiliary_loss_clip": 0.01249406,
+      "auxiliary_loss_mlp": 0.01032642,
+      "balance_loss_clip": 1.04811287,
+      "balance_loss_mlp": 1.02337956,
+      "epoch": 0.21812060361931102,
+      "flos": 25480272637440.0,
+      "grad_norm": 1.6829955532791023,
+      "language_loss": 0.78203952,
+      "learning_rate": 3.6402626485901504e-06,
+      "loss": 0.80486,
+      "num_input_tokens_seen": 38606965,
+      "step": 1814,
+      "time_per_iteration": 2.824772596359253
+    },
+    {
+      "auxiliary_loss_clip": 0.01222375,
+      "auxiliary_loss_mlp": 0.01029358,
+      "balance_loss_clip": 1.06337488,
+      "balance_loss_mlp": 1.02038777,
+      "epoch": 0.2182408465099501,
+      "flos": 21908166854400.0,
+      "grad_norm": 1.9666407615711694,
+      "language_loss": 0.78114522,
+      "learning_rate": 3.639816815826988e-06,
+      "loss": 0.80366254,
+      "num_input_tokens_seen": 38626290,
+      "step": 1815,
+      "time_per_iteration": 2.635852098464966
+    },
+    {
+      "auxiliary_loss_clip": 0.01229592,
+      "auxiliary_loss_mlp": 0.01039331,
+      "balance_loss_clip": 1.0595299,
+      "balance_loss_mlp": 1.02990186,
+      "epoch": 0.21836108940058918,
+      "flos": 23657339456640.0,
+      "grad_norm": 2.02662866014454,
+      "language_loss": 0.78172982,
+      "learning_rate": 3.6393707343049176e-06,
+      "loss": 0.80441904,
+      "num_input_tokens_seen": 38646620,
+      "step": 1816,
+      "time_per_iteration": 2.6369311809539795
+    },
+    {
+      "auxiliary_loss_clip": 0.01226272,
+      "auxiliary_loss_mlp": 0.01032663,
+      "balance_loss_clip": 1.06041098,
+      "balance_loss_mlp": 1.02288818,
+      "epoch": 0.2184813322912283,
+      "flos": 24681009156480.0,
+      "grad_norm": 2.2300580939168855,
+      "language_loss": 0.73430979,
+      "learning_rate": 3.6389244040916104e-06,
+      "loss": 0.75689912,
+      "num_input_tokens_seen": 38665695,
+      "step": 1817,
+      "time_per_iteration": 2.6371335983276367
+    },
+    {
+      "auxiliary_loss_clip": 0.01218305,
+      "auxiliary_loss_mlp": 0.01380323,
+      "balance_loss_clip": 1.05509114,
+      "balance_loss_mlp": 1.00009799,
+      "epoch": 0.21860157518186737,
+      "flos": 26574650259840.0,
+      "grad_norm": 2.0048156493737066,
+      "language_loss": 0.79128444,
+      "learning_rate": 3.6384778252547747e-06,
+      "loss": 0.81727076,
+      "num_input_tokens_seen": 38681575,
+      "step": 1818,
+      "time_per_iteration": 2.6170859336853027
+    },
+    {
+      "auxiliary_loss_clip": 0.01230528,
+      "auxiliary_loss_mlp": 0.01380702,
+      "balance_loss_clip": 1.0604583,
+      "balance_loss_mlp": 1.00021291,
+      "epoch": 0.21872181807250646,
+      "flos": 20886292834560.0,
+      "grad_norm": 2.5518566340734354,
+      "language_loss": 0.78475165,
+      "learning_rate": 3.638030997862155e-06,
+      "loss": 0.81086385,
+      "num_input_tokens_seen": 38700510,
+      "step": 1819,
+      "time_per_iteration": 2.6603944301605225
+    },
+    {
+      "auxiliary_loss_clip": 0.01133024,
+      "auxiliary_loss_mlp": 0.01006019,
+      "balance_loss_clip": 1.03175759,
+      "balance_loss_mlp": 1.00351608,
+      "epoch": 0.21884206096314554,
+      "flos": 61209452897280.0,
+      "grad_norm": 0.7653876622628085,
+      "language_loss": 0.59455204,
+      "learning_rate": 3.6375839219815356e-06,
+      "loss": 0.61594248,
+      "num_input_tokens_seen": 38758310,
+      "step": 1820,
+      "time_per_iteration": 3.16528058052063
+    },
+    {
+      "auxiliary_loss_clip": 0.01212802,
+      "auxiliary_loss_mlp": 0.01035194,
+      "balance_loss_clip": 1.06007421,
+      "balance_loss_mlp": 1.02527547,
+      "epoch": 0.21896230385378465,
+      "flos": 23473835850240.0,
+      "grad_norm": 2.144114376443238,
+      "language_loss": 0.82552481,
+      "learning_rate": 3.6371365976807375e-06,
+      "loss": 0.8480047,
+      "num_input_tokens_seen": 38778705,
+      "step": 1821,
+      "time_per_iteration": 2.634838104248047
+    },
+    {
+      "auxiliary_loss_clip": 0.01236849,
+      "auxiliary_loss_mlp": 0.01040357,
+      "balance_loss_clip": 1.05615807,
+      "balance_loss_mlp": 1.03052235,
+      "epoch": 0.21908254674442373,
+      "flos": 25081915829760.0,
+      "grad_norm": 1.8987272428076536,
+      "language_loss": 0.83427286,
+      "learning_rate": 3.6366890250276185e-06,
+      "loss": 0.85704494,
+      "num_input_tokens_seen": 38799660,
+      "step": 1822,
+      "time_per_iteration": 2.7581543922424316
+    },
+    {
+      "auxiliary_loss_clip": 0.01214788,
+      "auxiliary_loss_mlp": 0.01033481,
+      "balance_loss_clip": 1.06231046,
+      "balance_loss_mlp": 1.02421808,
+      "epoch": 0.21920278963506282,
+      "flos": 23513768795520.0,
+      "grad_norm": 3.0520760356257433,
+      "language_loss": 0.89902949,
+      "learning_rate": 3.6362412040900764e-06,
+      "loss": 0.92151213,
+      "num_input_tokens_seen": 38819450,
+      "step": 1823,
+      "time_per_iteration": 2.635899782180786
+    },
+    {
+      "auxiliary_loss_clip": 0.0122532,
+      "auxiliary_loss_mlp": 0.0103932,
+      "balance_loss_clip": 1.05989647,
+      "balance_loss_mlp": 1.02996194,
+      "epoch": 0.21932303252570193,
+      "flos": 29242238734080.0,
+      "grad_norm": 1.8846757792798514,
+      "language_loss": 0.80420518,
+      "learning_rate": 3.635793134936044e-06,
+      "loss": 0.82685161,
+      "num_input_tokens_seen": 38840460,
+      "step": 1824,
+      "time_per_iteration": 2.656358242034912
+    },
+    {
+      "auxiliary_loss_clip": 0.01223899,
+      "auxiliary_loss_mlp": 0.01032152,
+      "balance_loss_clip": 1.06201994,
+      "balance_loss_mlp": 1.02275848,
+      "epoch": 0.219443275416341,
+      "flos": 20806857907200.0,
+      "grad_norm": 1.9810333788117138,
+      "language_loss": 0.73312223,
+      "learning_rate": 3.635344817633494e-06,
+      "loss": 0.75568271,
+      "num_input_tokens_seen": 38859775,
+      "step": 1825,
+      "time_per_iteration": 2.611393690109253
+    },
+    {
+      "auxiliary_loss_clip": 0.01218646,
+      "auxiliary_loss_mlp": 0.01036369,
+      "balance_loss_clip": 1.05906022,
+      "balance_loss_mlp": 1.0275116,
+      "epoch": 0.2195635183069801,
+      "flos": 14501555458560.0,
+      "grad_norm": 3.020219479228437,
+      "language_loss": 0.7506054,
+      "learning_rate": 3.634896252250436e-06,
+      "loss": 0.77315557,
+      "num_input_tokens_seen": 38876540,
+      "step": 1826,
+      "time_per_iteration": 2.6047234535217285
+    },
+    {
+      "auxiliary_loss_clip": 0.01218579,
+      "auxiliary_loss_mlp": 0.01029412,
+      "balance_loss_clip": 1.06389093,
+      "balance_loss_mlp": 1.01946378,
+      "epoch": 0.2196837611976192,
+      "flos": 24243473589120.0,
+      "grad_norm": 1.8224827567596211,
+      "language_loss": 0.82308006,
+      "learning_rate": 3.6344474388549157e-06,
+      "loss": 0.84556001,
+      "num_input_tokens_seen": 38896195,
+      "step": 1827,
+      "time_per_iteration": 2.6136176586151123
+    },
+    {
+      "auxiliary_loss_clip": 0.01225355,
+      "auxiliary_loss_mlp": 0.01037052,
+      "balance_loss_clip": 1.06331396,
+      "balance_loss_mlp": 1.02721691,
+      "epoch": 0.2198040040882583,
+      "flos": 18074523168000.0,
+      "grad_norm": 2.2263934628190554,
+      "language_loss": 0.79972458,
+      "learning_rate": 3.6339983775150183e-06,
+      "loss": 0.82234871,
+      "num_input_tokens_seen": 38912755,
+      "step": 1828,
+      "time_per_iteration": 2.6268868446350098
+    },
+    {
+      "auxiliary_loss_clip": 0.01224464,
+      "auxiliary_loss_mlp": 0.01035463,
+      "balance_loss_clip": 1.062024,
+      "balance_loss_mlp": 1.02620649,
+      "epoch": 0.21992424697889737,
+      "flos": 17784185535360.0,
+      "grad_norm": 2.8958043962713025,
+      "language_loss": 0.83956087,
+      "learning_rate": 3.6335490682988664e-06,
+      "loss": 0.86216015,
+      "num_input_tokens_seen": 38928365,
+      "step": 1829,
+      "time_per_iteration": 2.5816988945007324
+    },
+    {
+      "auxiliary_loss_clip": 0.01244697,
+      "auxiliary_loss_mlp": 0.01037232,
+      "balance_loss_clip": 1.05134416,
+      "balance_loss_mlp": 1.0271349,
+      "epoch": 0.22004448986953645,
+      "flos": 17638495971840.0,
+      "grad_norm": 2.3882078673389313,
+      "language_loss": 0.82537216,
+      "learning_rate": 3.63309951127462e-06,
+      "loss": 0.8481915,
+      "num_input_tokens_seen": 38945275,
+      "step": 1830,
+      "time_per_iteration": 2.7889583110809326
+    },
+    {
+      "auxiliary_loss_clip": 0.01239535,
+      "auxiliary_loss_mlp": 0.01032646,
+      "balance_loss_clip": 1.0585357,
+      "balance_loss_mlp": 1.02235818,
+      "epoch": 0.22016473276017556,
+      "flos": 22275533203200.0,
+      "grad_norm": 2.18636506612596,
+      "language_loss": 0.75058365,
+      "learning_rate": 3.6326497065104757e-06,
+      "loss": 0.77330548,
+      "num_input_tokens_seen": 38965740,
+      "step": 1831,
+      "time_per_iteration": 2.734578847885132
+    },
+    {
+      "auxiliary_loss_clip": 0.01227105,
+      "auxiliary_loss_mlp": 0.01033277,
+      "balance_loss_clip": 1.06097353,
+      "balance_loss_mlp": 1.02396703,
+      "epoch": 0.22028497565081465,
+      "flos": 25556259859200.0,
+      "grad_norm": 2.050341873341893,
+      "language_loss": 0.77814817,
+      "learning_rate": 3.6321996540746697e-06,
+      "loss": 0.80075198,
+      "num_input_tokens_seen": 38984815,
+      "step": 1832,
+      "time_per_iteration": 2.719008445739746
+    },
+    {
+      "auxiliary_loss_clip": 0.0123821,
+      "auxiliary_loss_mlp": 0.01034488,
+      "balance_loss_clip": 1.05715275,
+      "balance_loss_mlp": 1.02421844,
+      "epoch": 0.22040521854145373,
+      "flos": 36247332925440.0,
+      "grad_norm": 2.092586293246555,
+      "language_loss": 0.8058182,
+      "learning_rate": 3.6317493540354733e-06,
+      "loss": 0.82854521,
+      "num_input_tokens_seen": 39008230,
+      "step": 1833,
+      "time_per_iteration": 2.912940502166748
+    },
+    {
+      "auxiliary_loss_clip": 0.01214715,
+      "auxiliary_loss_mlp": 0.01037496,
+      "balance_loss_clip": 1.05723095,
+      "balance_loss_mlp": 1.02760172,
+      "epoch": 0.22052546143209284,
+      "flos": 11838420270720.0,
+      "grad_norm": 2.6169492758498896,
+      "language_loss": 0.7682848,
+      "learning_rate": 3.6312988064611976e-06,
+      "loss": 0.79080689,
+      "num_input_tokens_seen": 39026540,
+      "step": 1834,
+      "time_per_iteration": 3.5469205379486084
+    },
+    {
+      "auxiliary_loss_clip": 0.01240553,
+      "auxiliary_loss_mlp": 0.01035826,
+      "balance_loss_clip": 1.05358839,
+      "balance_loss_mlp": 1.02602124,
+      "epoch": 0.22064570432273192,
+      "flos": 24209250906240.0,
+      "grad_norm": 1.647917634094187,
+      "language_loss": 0.81270993,
+      "learning_rate": 3.6308480114201896e-06,
+      "loss": 0.83547372,
+      "num_input_tokens_seen": 39048460,
+      "step": 1835,
+      "time_per_iteration": 2.7447636127471924
+    },
+    {
+      "auxiliary_loss_clip": 0.01218137,
+      "auxiliary_loss_mlp": 0.01035856,
+      "balance_loss_clip": 1.06505907,
+      "balance_loss_mlp": 1.02578235,
+      "epoch": 0.220765947213371,
+      "flos": 17931347556480.0,
+      "grad_norm": 1.9086838270643005,
+      "language_loss": 0.76802307,
+      "learning_rate": 3.630396968980835e-06,
+      "loss": 0.79056299,
+      "num_input_tokens_seen": 39066335,
+      "step": 1836,
+      "time_per_iteration": 4.574431657791138
+    },
+    {
+      "auxiliary_loss_clip": 0.01231823,
+      "auxiliary_loss_mlp": 0.01034721,
+      "balance_loss_clip": 1.0596962,
+      "balance_loss_mlp": 1.02512407,
+      "epoch": 0.2208861901040101,
+      "flos": 26757040544640.0,
+      "grad_norm": 2.2395008816197555,
+      "language_loss": 0.83705151,
+      "learning_rate": 3.6299456792115575e-06,
+      "loss": 0.85971689,
+      "num_input_tokens_seen": 39087590,
+      "step": 1837,
+      "time_per_iteration": 2.710528612136841
+    },
+    {
+      "auxiliary_loss_clip": 0.01240529,
+      "auxiliary_loss_mlp": 0.01038108,
+      "balance_loss_clip": 1.04752064,
+      "balance_loss_mlp": 1.02836299,
+      "epoch": 0.2210064329946492,
+      "flos": 17817977255040.0,
+      "grad_norm": 2.7105229592964415,
+      "language_loss": 0.81211805,
+      "learning_rate": 3.629494142180815e-06,
+      "loss": 0.83490443,
+      "num_input_tokens_seen": 39106335,
+      "step": 1838,
+      "time_per_iteration": 2.911562204360962
+    },
+    {
+      "auxiliary_loss_clip": 0.01215721,
+      "auxiliary_loss_mlp": 0.01036734,
+      "balance_loss_clip": 1.06278443,
+      "balance_loss_mlp": 1.02728677,
+      "epoch": 0.22112667588528828,
+      "flos": 17967401832960.0,
+      "grad_norm": 2.27685269323822,
+      "language_loss": 0.85201263,
+      "learning_rate": 3.6290423579571075e-06,
+      "loss": 0.87453717,
+      "num_input_tokens_seen": 39122875,
+      "step": 1839,
+      "time_per_iteration": 3.9680047035217285
+    },
+    {
+      "auxiliary_loss_clip": 0.01221764,
+      "auxiliary_loss_mlp": 0.01031153,
+      "balance_loss_clip": 1.06188881,
+      "balance_loss_mlp": 1.02149081,
+      "epoch": 0.22124691877592736,
+      "flos": 18369206346240.0,
+      "grad_norm": 1.7284756961399488,
+      "language_loss": 0.80406034,
+      "learning_rate": 3.6285903266089694e-06,
+      "loss": 0.82658947,
+      "num_input_tokens_seen": 39142150,
+      "step": 1840,
+      "time_per_iteration": 2.7910149097442627
+    },
+    {
+      "auxiliary_loss_clip": 0.01232582,
+      "auxiliary_loss_mlp": 0.01034895,
+      "balance_loss_clip": 1.05832481,
+      "balance_loss_mlp": 1.02510762,
+      "epoch": 0.22136716166656648,
+      "flos": 20813286441600.0,
+      "grad_norm": 2.4424882830343644,
+      "language_loss": 0.77151859,
+      "learning_rate": 3.628138048204974e-06,
+      "loss": 0.79419339,
+      "num_input_tokens_seen": 39162835,
+      "step": 1841,
+      "time_per_iteration": 2.7453904151916504
+    },
+    {
+      "auxiliary_loss_clip": 0.01242114,
+      "auxiliary_loss_mlp": 0.01035926,
+      "balance_loss_clip": 1.05691457,
+      "balance_loss_mlp": 1.0250479,
+      "epoch": 0.22148740455720556,
+      "flos": 17675699483520.0,
+      "grad_norm": 2.0286321503392917,
+      "language_loss": 0.75899142,
+      "learning_rate": 3.6276855228137304e-06,
+      "loss": 0.78177184,
+      "num_input_tokens_seen": 39181040,
+      "step": 1842,
+      "time_per_iteration": 2.6869170665740967
+    },
+    {
+      "auxiliary_loss_clip": 0.01216908,
+      "auxiliary_loss_mlp": 0.01380859,
+      "balance_loss_clip": 1.06365454,
+      "balance_loss_mlp": 1.00016487,
+      "epoch": 0.22160764744784464,
+      "flos": 21726710323200.0,
+      "grad_norm": 2.1028085869050255,
+      "language_loss": 0.81803972,
+      "learning_rate": 3.6272327505038874e-06,
+      "loss": 0.84401739,
+      "num_input_tokens_seen": 39197505,
+      "step": 1843,
+      "time_per_iteration": 2.7521629333496094
+    },
+    {
+      "auxiliary_loss_clip": 0.01253611,
+      "auxiliary_loss_mlp": 0.01026483,
+      "balance_loss_clip": 1.0572865,
+      "balance_loss_mlp": 1.01738739,
+      "epoch": 0.22172789033848372,
+      "flos": 23764712186880.0,
+      "grad_norm": 1.8767553588855141,
+      "language_loss": 0.7874282,
+      "learning_rate": 3.626779731344131e-06,
+      "loss": 0.81022918,
+      "num_input_tokens_seen": 39217295,
+      "step": 1844,
+      "time_per_iteration": 2.8430240154266357
+    },
+    {
+      "auxiliary_loss_clip": 0.01210871,
+      "auxiliary_loss_mlp": 0.01033266,
+      "balance_loss_clip": 1.06021297,
+      "balance_loss_mlp": 1.02394366,
+      "epoch": 0.22184813322912283,
+      "flos": 16982300361600.0,
+      "grad_norm": 2.243329398726319,
+      "language_loss": 0.85208935,
+      "learning_rate": 3.6263264654031814e-06,
+      "loss": 0.87453067,
+      "num_input_tokens_seen": 39234195,
+      "step": 1845,
+      "time_per_iteration": 2.6374824047088623
+    },
+    {
+      "auxiliary_loss_clip": 0.01140523,
+      "auxiliary_loss_mlp": 0.01003724,
+      "balance_loss_clip": 1.026366,
+      "balance_loss_mlp": 1.00141144,
+      "epoch": 0.22196837611976192,
+      "flos": 61823740314240.0,
+      "grad_norm": 0.7064007139871679,
+      "language_loss": 0.59169209,
+      "learning_rate": 3.6258729527498008e-06,
+      "loss": 0.61313456,
+      "num_input_tokens_seen": 39295040,
+      "step": 1846,
+      "time_per_iteration": 3.2211215496063232
+    },
+    {
+      "auxiliary_loss_clip": 0.01238581,
+      "auxiliary_loss_mlp": 0.01038465,
+      "balance_loss_clip": 1.06089115,
+      "balance_loss_mlp": 1.02845788,
+      "epoch": 0.222088619010401,
+      "flos": 25558019625600.0,
+      "grad_norm": 3.0336772351406336,
+      "language_loss": 0.653126,
+      "learning_rate": 3.6254191934527854e-06,
+      "loss": 0.67589641,
+      "num_input_tokens_seen": 39314395,
+      "step": 1847,
+      "time_per_iteration": 2.746190309524536
+    },
+    {
+      "auxiliary_loss_clip": 0.01239678,
+      "auxiliary_loss_mlp": 0.01035938,
+      "balance_loss_clip": 1.05949759,
+      "balance_loss_mlp": 1.02599585,
+      "epoch": 0.2222088619010401,
+      "flos": 19318612677120.0,
+      "grad_norm": 1.8570758910216978,
+      "language_loss": 0.64653575,
+      "learning_rate": 3.6249651875809715e-06,
+      "loss": 0.66929197,
+      "num_input_tokens_seen": 39334275,
+      "step": 1848,
+      "time_per_iteration": 2.671419620513916
+    },
+    {
+      "auxiliary_loss_clip": 0.01224169,
+      "auxiliary_loss_mlp": 0.01033929,
+      "balance_loss_clip": 1.05812633,
+      "balance_loss_mlp": 1.02455318,
+      "epoch": 0.2223291047916792,
+      "flos": 19099342103040.0,
+      "grad_norm": 2.0597657891916605,
+      "language_loss": 0.8917101,
+      "learning_rate": 3.62451093520323e-06,
+      "loss": 0.91429108,
+      "num_input_tokens_seen": 39352180,
+      "step": 1849,
+      "time_per_iteration": 2.6758062839508057
+    },
+    {
+      "auxiliary_loss_clip": 0.01237999,
+      "auxiliary_loss_mlp": 0.01033936,
+      "balance_loss_clip": 1.05111337,
+      "balance_loss_mlp": 1.02431571,
+      "epoch": 0.22244934768231828,
+      "flos": 20850418126080.0,
+      "grad_norm": 2.0891394742344414,
+      "language_loss": 0.90555125,
+      "learning_rate": 3.6240564363884714e-06,
+      "loss": 0.92827058,
+      "num_input_tokens_seen": 39372125,
+      "step": 1850,
+      "time_per_iteration": 2.7535204887390137
+    },
+    {
+      "auxiliary_loss_clip": 0.01223591,
+      "auxiliary_loss_mlp": 0.0102879,
+      "balance_loss_clip": 1.05642176,
+      "balance_loss_mlp": 1.01864505,
+      "epoch": 0.2225695905729574,
+      "flos": 15632921111040.0,
+      "grad_norm": 3.9376361451846753,
+      "language_loss": 0.7083019,
+      "learning_rate": 3.623601691205643e-06,
+      "loss": 0.73082572,
+      "num_input_tokens_seen": 39391200,
+      "step": 1851,
+      "time_per_iteration": 2.6266987323760986
+    },
+    {
+      "auxiliary_loss_clip": 0.0121833,
+      "auxiliary_loss_mlp": 0.01035435,
+      "balance_loss_clip": 1.05864525,
+      "balance_loss_mlp": 1.02584505,
+      "epoch": 0.22268983346359647,
+      "flos": 25373582265600.0,
+      "grad_norm": 3.505342155845072,
+      "language_loss": 0.81549215,
+      "learning_rate": 3.623146699723729e-06,
+      "loss": 0.83802974,
+      "num_input_tokens_seen": 39410660,
+      "step": 1852,
+      "time_per_iteration": 2.746691942214966
+    },
+    {
+      "auxiliary_loss_clip": 0.01231189,
+      "auxiliary_loss_mlp": 0.01037108,
+      "balance_loss_clip": 1.06138146,
+      "balance_loss_mlp": 1.02748168,
+      "epoch": 0.22281007635423555,
+      "flos": 13261452359040.0,
+      "grad_norm": 2.3433694011628727,
+      "language_loss": 0.77949202,
+      "learning_rate": 3.6226914620117507e-06,
+      "loss": 0.80217493,
+      "num_input_tokens_seen": 39429280,
+      "step": 1853,
+      "time_per_iteration": 2.7114717960357666
+    },
+    {
+      "auxiliary_loss_clip": 0.01234488,
+      "auxiliary_loss_mlp": 0.01027786,
+      "balance_loss_clip": 1.05208266,
+      "balance_loss_mlp": 1.01922071,
+      "epoch": 0.22293031924487464,
+      "flos": 15340536403200.0,
+      "grad_norm": 2.230525255635408,
+      "language_loss": 0.81008387,
+      "learning_rate": 3.622235978138768e-06,
+      "loss": 0.83270663,
+      "num_input_tokens_seen": 39446905,
+      "step": 1854,
+      "time_per_iteration": 2.7301244735717773
+    },
+    {
+      "auxiliary_loss_clip": 0.01220301,
+      "auxiliary_loss_mlp": 0.01034543,
+      "balance_loss_clip": 1.06119549,
+      "balance_loss_mlp": 1.02514923,
+      "epoch": 0.22305056213551375,
+      "flos": 22564649773440.0,
+      "grad_norm": 1.960822266738686,
+      "language_loss": 0.81302869,
+      "learning_rate": 3.621780248173877e-06,
+      "loss": 0.83557713,
+      "num_input_tokens_seen": 39465105,
+      "step": 1855,
+      "time_per_iteration": 2.707562208175659
+    },
+    {
+      "auxiliary_loss_clip": 0.01133335,
+      "auxiliary_loss_mlp": 0.01004493,
+      "balance_loss_clip": 1.03803039,
+      "balance_loss_mlp": 1.00235963,
+      "epoch": 0.22317080502615283,
+      "flos": 64880419887360.0,
+      "grad_norm": 0.8630985431220574,
+      "language_loss": 0.61042905,
+      "learning_rate": 3.6213242721862125e-06,
+      "loss": 0.63180733,
+      "num_input_tokens_seen": 39523560,
+      "step": 1856,
+      "time_per_iteration": 3.280025005340576
+    },
+    {
+      "auxiliary_loss_clip": 0.01217722,
+      "auxiliary_loss_mlp": 0.01031699,
+      "balance_loss_clip": 1.05831325,
+      "balance_loss_mlp": 1.02299631,
+      "epoch": 0.2232910479167919,
+      "flos": 25775997310080.0,
+      "grad_norm": 1.5575175722682097,
+      "language_loss": 0.75518513,
+      "learning_rate": 3.620868050244945e-06,
+      "loss": 0.77767932,
+      "num_input_tokens_seen": 39544040,
+      "step": 1857,
+      "time_per_iteration": 2.7667670249938965
+    },
+    {
+      "auxiliary_loss_clip": 0.01220779,
+      "auxiliary_loss_mlp": 0.01036113,
+      "balance_loss_clip": 1.05627477,
+      "balance_loss_mlp": 1.02642143,
+      "epoch": 0.22341129080743102,
+      "flos": 23251799928960.0,
+      "grad_norm": 2.053244827060857,
+      "language_loss": 0.7748521,
+      "learning_rate": 3.6204115824192817e-06,
+      "loss": 0.79742098,
+      "num_input_tokens_seen": 39561515,
+      "step": 1858,
+      "time_per_iteration": 2.8045952320098877
+    },
+    {
+      "auxiliary_loss_clip": 0.0121514,
+      "auxiliary_loss_mlp": 0.01032533,
+      "balance_loss_clip": 1.05380857,
+      "balance_loss_mlp": 1.02262652,
+      "epoch": 0.2235315336980701,
+      "flos": 21214552250880.0,
+      "grad_norm": 2.6641803231221495,
+      "language_loss": 0.76982838,
+      "learning_rate": 3.619954868778471e-06,
+      "loss": 0.79230511,
+      "num_input_tokens_seen": 39578210,
+      "step": 1859,
+      "time_per_iteration": 2.7193763256073
+    },
+    {
+      "auxiliary_loss_clip": 0.01225058,
+      "auxiliary_loss_mlp": 0.01033549,
+      "balance_loss_clip": 1.05567467,
+      "balance_loss_mlp": 1.02436435,
+      "epoch": 0.2236517765887092,
+      "flos": 19901945548800.0,
+      "grad_norm": 1.854938099222829,
+      "language_loss": 0.82981622,
+      "learning_rate": 3.6194979093917944e-06,
+      "loss": 0.85240221,
+      "num_input_tokens_seen": 39597625,
+      "step": 1860,
+      "time_per_iteration": 2.731153964996338
+    },
+    {
+      "auxiliary_loss_clip": 0.012229,
+      "auxiliary_loss_mlp": 0.01036055,
+      "balance_loss_clip": 1.05820775,
+      "balance_loss_mlp": 1.02712011,
+      "epoch": 0.22377201947934827,
+      "flos": 23214847812480.0,
+      "grad_norm": 1.9399630802408137,
+      "language_loss": 0.86761343,
+      "learning_rate": 3.6190407043285724e-06,
+      "loss": 0.890203,
+      "num_input_tokens_seen": 39615360,
+      "step": 1861,
+      "time_per_iteration": 4.608783006668091
+    },
+    {
+      "auxiliary_loss_clip": 0.01212846,
+      "auxiliary_loss_mlp": 0.01033164,
+      "balance_loss_clip": 1.06050348,
+      "balance_loss_mlp": 1.02364528,
+      "epoch": 0.22389226236998738,
+      "flos": 26794244056320.0,
+      "grad_norm": 1.8477688276324054,
+      "language_loss": 0.75757354,
+      "learning_rate": 3.618583253658163e-06,
+      "loss": 0.78003371,
+      "num_input_tokens_seen": 39635460,
+      "step": 1862,
+      "time_per_iteration": 3.5861153602600098
+    },
+    {
+      "auxiliary_loss_clip": 0.01245857,
+      "auxiliary_loss_mlp": 0.01380626,
+      "balance_loss_clip": 1.05604935,
+      "balance_loss_mlp": 1.00019836,
+      "epoch": 0.22401250526062647,
+      "flos": 24170359455360.0,
+      "grad_norm": 2.066235766599223,
+      "language_loss": 0.86517251,
+      "learning_rate": 3.618125557449961e-06,
+      "loss": 0.89143735,
+      "num_input_tokens_seen": 39653515,
+      "step": 1863,
+      "time_per_iteration": 2.8234288692474365
+    },
+    {
+      "auxiliary_loss_clip": 0.01217637,
+      "auxiliary_loss_mlp": 0.01034369,
+      "balance_loss_clip": 1.05891049,
+      "balance_loss_mlp": 1.0250113,
+      "epoch": 0.22413274815126555,
+      "flos": 16759761649920.0,
+      "grad_norm": 2.4680802825345993,
+      "language_loss": 0.83074301,
+      "learning_rate": 3.6176676157733983e-06,
+      "loss": 0.85326302,
+      "num_input_tokens_seen": 39668525,
+      "step": 1864,
+      "time_per_iteration": 2.6233479976654053
+    },
+    {
+      "auxiliary_loss_clip": 0.01226537,
+      "auxiliary_loss_mlp": 0.01035291,
+      "balance_loss_clip": 1.05357933,
+      "balance_loss_mlp": 1.0255816,
+      "epoch": 0.22425299104190466,
+      "flos": 21360205900800.0,
+      "grad_norm": 2.3130435587007185,
+      "language_loss": 0.75858527,
+      "learning_rate": 3.6172094286979443e-06,
+      "loss": 0.78120357,
+      "num_input_tokens_seen": 39685895,
+      "step": 1865,
+      "time_per_iteration": 2.7605199813842773
+    },
+    {
+      "auxiliary_loss_clip": 0.01226473,
+      "auxiliary_loss_mlp": 0.01038463,
+      "balance_loss_clip": 1.05578947,
+      "balance_loss_mlp": 1.02982092,
+      "epoch": 0.22437323393254374,
+      "flos": 32165547108480.0,
+      "grad_norm": 1.4689568599037652,
+      "language_loss": 0.81564951,
+      "learning_rate": 3.6167509962931064e-06,
+      "loss": 0.83829892,
+      "num_input_tokens_seen": 39711595,
+      "step": 1866,
+      "time_per_iteration": 3.666019916534424
+    },
+    {
+      "auxiliary_loss_clip": 0.01254432,
+      "auxiliary_loss_mlp": 0.01030834,
+      "balance_loss_clip": 1.05733359,
+      "balance_loss_mlp": 1.02082086,
+      "epoch": 0.22449347682318282,
+      "flos": 18002809664640.0,
+      "grad_norm": 2.5473975456193285,
+      "language_loss": 0.76524603,
+      "learning_rate": 3.6162923186284276e-06,
+      "loss": 0.78809869,
+      "num_input_tokens_seen": 39727555,
+      "step": 1867,
+      "time_per_iteration": 2.773867607116699
+    },
+    {
+      "auxiliary_loss_clip": 0.01225363,
+      "auxiliary_loss_mlp": 0.01033684,
+      "balance_loss_clip": 1.0561049,
+      "balance_loss_mlp": 1.02480936,
+      "epoch": 0.2246137197138219,
+      "flos": 18697286194560.0,
+      "grad_norm": 2.101939620892703,
+      "language_loss": 0.85991228,
+      "learning_rate": 3.6158333957734888e-06,
+      "loss": 0.88250273,
+      "num_input_tokens_seen": 39746145,
+      "step": 1868,
+      "time_per_iteration": 2.6392643451690674
+    },
+    {
+      "auxiliary_loss_clip": 0.01239459,
+      "auxiliary_loss_mlp": 0.01032352,
+      "balance_loss_clip": 1.05426288,
+      "balance_loss_mlp": 1.02327406,
+      "epoch": 0.22473396260446102,
+      "flos": 15590653781760.0,
+      "grad_norm": 2.264361782788723,
+      "language_loss": 0.82867444,
+      "learning_rate": 3.6153742277979088e-06,
+      "loss": 0.85139257,
+      "num_input_tokens_seen": 39763575,
+      "step": 1869,
+      "time_per_iteration": 2.755798578262329
+    },
+    {
+      "auxiliary_loss_clip": 0.01227549,
+      "auxiliary_loss_mlp": 0.01031831,
+      "balance_loss_clip": 1.05585909,
+      "balance_loss_mlp": 1.0227952,
+      "epoch": 0.2248542054951001,
+      "flos": 14465501182080.0,
+      "grad_norm": 2.18316171048681,
+      "language_loss": 0.78038263,
+      "learning_rate": 3.6149148147713434e-06,
+      "loss": 0.80297637,
+      "num_input_tokens_seen": 39781810,
+      "step": 1870,
+      "time_per_iteration": 2.7040047645568848
+    },
+    {
+      "auxiliary_loss_clip": 0.01228205,
+      "auxiliary_loss_mlp": 0.01043513,
+      "balance_loss_clip": 1.06365204,
+      "balance_loss_mlp": 1.03428054,
+      "epoch": 0.22497444838573918,
+      "flos": 19243882431360.0,
+      "grad_norm": 2.004101144156891,
+      "language_loss": 0.86442137,
+      "learning_rate": 3.614455156763484e-06,
+      "loss": 0.88713849,
+      "num_input_tokens_seen": 39800115,
+      "step": 1871,
+      "time_per_iteration": 2.7147107124328613
+    },
+    {
+      "auxiliary_loss_clip": 0.01238294,
+      "auxiliary_loss_mlp": 0.01041004,
+      "balance_loss_clip": 1.04977643,
+      "balance_loss_mlp": 1.03207481,
+      "epoch": 0.2250946912763783,
+      "flos": 16910299549440.0,
+      "grad_norm": 2.125956707851509,
+      "language_loss": 0.71664184,
+      "learning_rate": 3.613995253844061e-06,
+      "loss": 0.73943484,
+      "num_input_tokens_seen": 39817795,
+      "step": 1872,
+      "time_per_iteration": 2.759983777999878
+    },
+    {
+      "auxiliary_loss_clip": 0.01217998,
+      "auxiliary_loss_mlp": 0.01031517,
+      "balance_loss_clip": 1.05906618,
+      "balance_loss_mlp": 1.02196813,
+      "epoch": 0.22521493416701738,
+      "flos": 24681368292480.0,
+      "grad_norm": 2.409063993322615,
+      "language_loss": 0.80723423,
+      "learning_rate": 3.6135351060828414e-06,
+      "loss": 0.82972938,
+      "num_input_tokens_seen": 39838270,
+      "step": 1873,
+      "time_per_iteration": 2.6802423000335693
+    },
+    {
+      "auxiliary_loss_clip": 0.01218556,
+      "auxiliary_loss_mlp": 0.01037219,
+      "balance_loss_clip": 1.06354332,
+      "balance_loss_mlp": 1.02639484,
+      "epoch": 0.22533517705765646,
+      "flos": 17821963664640.0,
+      "grad_norm": 2.355613255333517,
+      "language_loss": 0.6965853,
+      "learning_rate": 3.6130747135496285e-06,
+      "loss": 0.71914303,
+      "num_input_tokens_seen": 39857270,
+      "step": 1874,
+      "time_per_iteration": 2.5761191844940186
+    },
+    {
+      "auxiliary_loss_clip": 0.01212631,
+      "auxiliary_loss_mlp": 0.01033937,
+      "balance_loss_clip": 1.06053853,
+      "balance_loss_mlp": 1.02363706,
+      "epoch": 0.22545541994829554,
+      "flos": 33691390899840.0,
+      "grad_norm": 1.8338551550711382,
+      "language_loss": 0.66452754,
+      "learning_rate": 3.6126140763142646e-06,
+      "loss": 0.6869933,
+      "num_input_tokens_seen": 39882300,
+      "step": 1875,
+      "time_per_iteration": 2.7722694873809814
+    },
+    {
+      "auxiliary_loss_clip": 0.01211361,
+      "auxiliary_loss_mlp": 0.0103041,
+      "balance_loss_clip": 1.05937052,
+      "balance_loss_mlp": 1.0202297,
+      "epoch": 0.22557566283893465,
+      "flos": 19171594310400.0,
+      "grad_norm": 2.7589280198123967,
+      "language_loss": 0.85941613,
+      "learning_rate": 3.6121531944466275e-06,
+      "loss": 0.88183379,
+      "num_input_tokens_seen": 39899625,
+      "step": 1876,
+      "time_per_iteration": 2.6631827354431152
+    },
+    {
+      "auxiliary_loss_clip": 0.01215115,
+      "auxiliary_loss_mlp": 0.01035135,
+      "balance_loss_clip": 1.05762732,
+      "balance_loss_mlp": 1.02572954,
+      "epoch": 0.22569590572957374,
+      "flos": 20773281669120.0,
+      "grad_norm": 2.254796564939821,
+      "language_loss": 0.78226662,
+      "learning_rate": 3.611692068016633e-06,
+      "loss": 0.8047691,
+      "num_input_tokens_seen": 39915955,
+      "step": 1877,
+      "time_per_iteration": 2.6709275245666504
+    },
+    {
+      "auxiliary_loss_clip": 0.0123181,
+      "auxiliary_loss_mlp": 0.01046021,
+      "balance_loss_clip": 1.05256617,
+      "balance_loss_mlp": 1.03524446,
+      "epoch": 0.22581614862021282,
+      "flos": 18442715529600.0,
+      "grad_norm": 2.3013540850922434,
+      "language_loss": 0.75038934,
+      "learning_rate": 3.611230697094233e-06,
+      "loss": 0.77316767,
+      "num_input_tokens_seen": 39932655,
+      "step": 1878,
+      "time_per_iteration": 2.7321250438690186
+    },
+    {
+      "auxiliary_loss_clip": 0.01232559,
+      "auxiliary_loss_mlp": 0.01029695,
+      "balance_loss_clip": 1.05910659,
+      "balance_loss_mlp": 1.02026582,
+      "epoch": 0.22593639151085193,
+      "flos": 20048389297920.0,
+      "grad_norm": 2.022658403517566,
+      "language_loss": 0.87013847,
+      "learning_rate": 3.6107690817494173e-06,
+      "loss": 0.89276105,
+      "num_input_tokens_seen": 39952875,
+      "step": 1879,
+      "time_per_iteration": 2.645967960357666
+    },
+    {
+      "auxiliary_loss_clip": 0.01235403,
+      "auxiliary_loss_mlp": 0.01035139,
+      "balance_loss_clip": 1.04972124,
+      "balance_loss_mlp": 1.02536404,
+      "epoch": 0.226056634401491,
+      "flos": 13115116350720.0,
+      "grad_norm": 2.393392483327454,
+      "language_loss": 0.7054528,
+      "learning_rate": 3.6103072220522117e-06,
+      "loss": 0.72815818,
+      "num_input_tokens_seen": 39968405,
+      "step": 1880,
+      "time_per_iteration": 2.6967451572418213
+    },
+    {
+      "auxiliary_loss_clip": 0.01238324,
+      "auxiliary_loss_mlp": 0.01030044,
+      "balance_loss_clip": 1.05482578,
+      "balance_loss_mlp": 1.02067435,
+      "epoch": 0.2261768772921301,
+      "flos": 18988378012800.0,
+      "grad_norm": 1.9708910870005676,
+      "language_loss": 0.91842604,
+      "learning_rate": 3.609845118072682e-06,
+      "loss": 0.94110972,
+      "num_input_tokens_seen": 39987075,
+      "step": 1881,
+      "time_per_iteration": 2.6447103023529053
+    },
+    {
+      "auxiliary_loss_clip": 0.01225154,
+      "auxiliary_loss_mlp": 0.01380626,
+      "balance_loss_clip": 1.06073427,
+      "balance_loss_mlp": 1.00026834,
+      "epoch": 0.2262971201827692,
+      "flos": 19974054101760.0,
+      "grad_norm": 1.9943735665018703,
+      "language_loss": 0.80094165,
+      "learning_rate": 3.6093827698809276e-06,
+      "loss": 0.82699943,
+      "num_input_tokens_seen": 40006175,
+      "step": 1882,
+      "time_per_iteration": 2.6827969551086426
+    },
+    {
+      "auxiliary_loss_clip": 0.01216624,
+      "auxiliary_loss_mlp": 0.01033879,
+      "balance_loss_clip": 1.05650604,
+      "balance_loss_mlp": 1.02422285,
+      "epoch": 0.2264173630734083,
+      "flos": 16654543735680.0,
+      "grad_norm": 2.2138993093262487,
+      "language_loss": 0.84745759,
+      "learning_rate": 3.6089201775470864e-06,
+      "loss": 0.86996257,
+      "num_input_tokens_seen": 40021630,
+      "step": 1883,
+      "time_per_iteration": 2.5881152153015137
+    },
+    {
+      "auxiliary_loss_clip": 0.01225127,
+      "auxiliary_loss_mlp": 0.01031525,
+      "balance_loss_clip": 1.05345345,
+      "balance_loss_mlp": 1.02258384,
+      "epoch": 0.22653760596404737,
+      "flos": 24389809597440.0,
+      "grad_norm": 1.3314465392694725,
+      "language_loss": 0.77698559,
+      "learning_rate": 3.6084573411413334e-06,
+      "loss": 0.79955208,
+      "num_input_tokens_seen": 40041025,
+      "step": 1884,
+      "time_per_iteration": 2.761610269546509
+    },
+    {
+      "auxiliary_loss_clip": 0.01233523,
+      "auxiliary_loss_mlp": 0.01041769,
+      "balance_loss_clip": 1.05646229,
+      "balance_loss_mlp": 1.0326612,
+      "epoch": 0.22665784885468646,
+      "flos": 18332541538560.0,
+      "grad_norm": 1.9145909200420317,
+      "language_loss": 0.81397146,
+      "learning_rate": 3.607994260733881e-06,
+      "loss": 0.83672434,
+      "num_input_tokens_seen": 40060265,
+      "step": 1885,
+      "time_per_iteration": 2.67734694480896
+    },
+    {
+      "auxiliary_loss_clip": 0.01207559,
+      "auxiliary_loss_mlp": 0.0103646,
+      "balance_loss_clip": 1.05469608,
+      "balance_loss_mlp": 1.0274297,
+      "epoch": 0.22677809174532557,
+      "flos": 24058102475520.0,
+      "grad_norm": 1.6888856664685912,
+      "language_loss": 0.74448216,
+      "learning_rate": 3.6075309363949776e-06,
+      "loss": 0.7669223,
+      "num_input_tokens_seen": 40079435,
+      "step": 1886,
+      "time_per_iteration": 2.672311782836914
+    },
+    {
+      "auxiliary_loss_clip": 0.01215145,
+      "auxiliary_loss_mlp": 0.01031241,
+      "balance_loss_clip": 1.062024,
+      "balance_loss_mlp": 1.02145982,
+      "epoch": 0.22689833463596465,
+      "flos": 20374242503040.0,
+      "grad_norm": 1.8715278031810956,
+      "language_loss": 0.81284887,
+      "learning_rate": 3.6070673681949094e-06,
+      "loss": 0.83531272,
+      "num_input_tokens_seen": 40097800,
+      "step": 1887,
+      "time_per_iteration": 4.335385322570801
+    },
+    {
+      "auxiliary_loss_clip": 0.01230869,
+      "auxiliary_loss_mlp": 0.01380382,
+      "balance_loss_clip": 1.05836773,
+      "balance_loss_mlp": 1.00019789,
+      "epoch": 0.22701857752660373,
+      "flos": 30120398438400.0,
+      "grad_norm": 4.190696261203444,
+      "language_loss": 0.81512833,
+      "learning_rate": 3.606603556203999e-06,
+      "loss": 0.84124082,
+      "num_input_tokens_seen": 40122745,
+      "step": 1888,
+      "time_per_iteration": 2.776937484741211
+    },
+    {
+      "auxiliary_loss_clip": 0.01218876,
+      "auxiliary_loss_mlp": 0.01031475,
+      "balance_loss_clip": 1.05670989,
+      "balance_loss_mlp": 1.02221227,
+      "epoch": 0.22713882041724284,
+      "flos": 22492182084480.0,
+      "grad_norm": 2.1281795063819104,
+      "language_loss": 0.8356123,
+      "learning_rate": 3.6061395004926066e-06,
+      "loss": 0.85811579,
+      "num_input_tokens_seen": 40141680,
+      "step": 1889,
+      "time_per_iteration": 3.574983596801758
+    },
+    {
+      "auxiliary_loss_clip": 0.01212453,
+      "auxiliary_loss_mlp": 0.01029924,
+      "balance_loss_clip": 1.06001759,
+      "balance_loss_mlp": 1.02010655,
+      "epoch": 0.22725906330788193,
+      "flos": 20521548178560.0,
+      "grad_norm": 7.613222605013229,
+      "language_loss": 0.85093415,
+      "learning_rate": 3.605675201131129e-06,
+      "loss": 0.87335789,
+      "num_input_tokens_seen": 40160140,
+      "step": 1890,
+      "time_per_iteration": 2.6665210723876953
+    },
+    {
+      "auxiliary_loss_clip": 0.01227825,
+      "auxiliary_loss_mlp": 0.01032177,
+      "balance_loss_clip": 1.0633657,
+      "balance_loss_mlp": 1.02271795,
+      "epoch": 0.227379306198521,
+      "flos": 18989922297600.0,
+      "grad_norm": 2.165221632632187,
+      "language_loss": 0.79624289,
+      "learning_rate": 3.60521065819e-06,
+      "loss": 0.81884289,
+      "num_input_tokens_seen": 40177450,
+      "step": 1891,
+      "time_per_iteration": 2.6946353912353516
+    },
+    {
+      "auxiliary_loss_clip": 0.01229233,
+      "auxiliary_loss_mlp": 0.01031927,
+      "balance_loss_clip": 1.05560672,
+      "balance_loss_mlp": 1.02271819,
+      "epoch": 0.2274995490891601,
+      "flos": 21798351999360.0,
+      "grad_norm": 1.9950910225936698,
+      "language_loss": 0.87445563,
+      "learning_rate": 3.60474587173969e-06,
+      "loss": 0.89706731,
+      "num_input_tokens_seen": 40195935,
+      "step": 1892,
+      "time_per_iteration": 3.5892302989959717
+    },
+    {
+      "auxiliary_loss_clip": 0.01222296,
+      "auxiliary_loss_mlp": 0.01031924,
+      "balance_loss_clip": 1.06281042,
+      "balance_loss_mlp": 1.02238095,
+      "epoch": 0.2276197919797992,
+      "flos": 19058654972160.0,
+      "grad_norm": 2.030330326167801,
+      "language_loss": 0.84293061,
+      "learning_rate": 3.6042808418507084e-06,
+      "loss": 0.86547279,
+      "num_input_tokens_seen": 40213620,
+      "step": 1893,
+      "time_per_iteration": 2.6019959449768066
+    },
+    {
+      "auxiliary_loss_clip": 0.01224306,
+      "auxiliary_loss_mlp": 0.01037846,
+      "balance_loss_clip": 1.064044,
+      "balance_loss_mlp": 1.02751088,
+      "epoch": 0.22774003487043828,
+      "flos": 18806777827200.0,
+      "grad_norm": 2.0957571764037772,
+      "language_loss": 0.77042401,
+      "learning_rate": 3.6038155685935976e-06,
+      "loss": 0.79304552,
+      "num_input_tokens_seen": 40230190,
+      "step": 1894,
+      "time_per_iteration": 2.6008734703063965
+    },
+    {
+      "auxiliary_loss_clip": 0.01218591,
+      "auxiliary_loss_mlp": 0.01033946,
+      "balance_loss_clip": 1.05936849,
+      "balance_loss_mlp": 1.02462435,
+      "epoch": 0.22786027776107737,
+      "flos": 23002544476800.0,
+      "grad_norm": 1.893466610208893,
+      "language_loss": 0.70741171,
+      "learning_rate": 3.6033500520389404e-06,
+      "loss": 0.72993708,
+      "num_input_tokens_seen": 40246860,
+      "step": 1895,
+      "time_per_iteration": 2.636052131652832
+    },
+    {
+      "auxiliary_loss_clip": 0.01160599,
+      "auxiliary_loss_mlp": 0.01004735,
+      "balance_loss_clip": 1.02977347,
+      "balance_loss_mlp": 1.00242233,
+      "epoch": 0.22798052065171648,
+      "flos": 66706872600960.0,
+      "grad_norm": 0.9487111266503282,
+      "language_loss": 0.64748192,
+      "learning_rate": 3.6028842922573553e-06,
+      "loss": 0.66913527,
+      "num_input_tokens_seen": 40311005,
+      "step": 1896,
+      "time_per_iteration": 3.3623104095458984
+    },
+    {
+      "auxiliary_loss_clip": 0.01147001,
+      "auxiliary_loss_mlp": 0.01376189,
+      "balance_loss_clip": 1.02790952,
+      "balance_loss_mlp": 0.99981469,
+      "epoch": 0.22810076354235556,
+      "flos": 62080896758400.0,
+      "grad_norm": 0.8611714272186012,
+      "language_loss": 0.62897241,
+      "learning_rate": 3.602418289319497e-06,
+      "loss": 0.65420431,
+      "num_input_tokens_seen": 40369560,
+      "step": 1897,
+      "time_per_iteration": 3.230609893798828
+    },
+    {
+      "auxiliary_loss_clip": 0.01239194,
+      "auxiliary_loss_mlp": 0.01034826,
+      "balance_loss_clip": 1.05297673,
+      "balance_loss_mlp": 1.02501547,
+      "epoch": 0.22822100643299464,
+      "flos": 23876358635520.0,
+      "grad_norm": 1.741781793431203,
+      "language_loss": 0.73345208,
+      "learning_rate": 3.601952043296059e-06,
+      "loss": 0.75619233,
+      "num_input_tokens_seen": 40389555,
+      "step": 1898,
+      "time_per_iteration": 2.759788751602173
+    },
+    {
+      "auxiliary_loss_clip": 0.01233564,
+      "auxiliary_loss_mlp": 0.01037291,
+      "balance_loss_clip": 1.05736184,
+      "balance_loss_mlp": 1.02823734,
+      "epoch": 0.22834124932363373,
+      "flos": 20991331180800.0,
+      "grad_norm": 2.382377656161725,
+      "language_loss": 0.80642128,
+      "learning_rate": 3.6014855542577696e-06,
+      "loss": 0.82912982,
+      "num_input_tokens_seen": 40406765,
+      "step": 1899,
+      "time_per_iteration": 2.737020254135132
+    },
+    {
+      "auxiliary_loss_clip": 0.01230246,
+      "auxiliary_loss_mlp": 0.0103866,
+      "balance_loss_clip": 1.06002748,
+      "balance_loss_mlp": 1.02936125,
+      "epoch": 0.22846149221427284,
+      "flos": 24901572620160.0,
+      "grad_norm": 2.251097359349189,
+      "language_loss": 0.84399104,
+      "learning_rate": 3.6010188222753943e-06,
+      "loss": 0.86668003,
+      "num_input_tokens_seen": 40427535,
+      "step": 1900,
+      "time_per_iteration": 2.690023899078369
+    },
+    {
+      "auxiliary_loss_clip": 0.01128622,
+      "auxiliary_loss_mlp": 0.01000544,
+      "balance_loss_clip": 1.02568257,
+      "balance_loss_mlp": 0.99842197,
+      "epoch": 0.22858173510491192,
+      "flos": 56132294319360.0,
+      "grad_norm": 0.9017420691444975,
+      "language_loss": 0.64131641,
+      "learning_rate": 3.6005518474197372e-06,
+      "loss": 0.66260803,
+      "num_input_tokens_seen": 40479580,
+      "step": 1901,
+      "time_per_iteration": 3.145679235458374
+    },
+    {
+      "auxiliary_loss_clip": 0.0122061,
+      "auxiliary_loss_mlp": 0.01031516,
+      "balance_loss_clip": 1.06054807,
+      "balance_loss_mlp": 1.0225153,
+      "epoch": 0.228701977995551,
+      "flos": 24170826332160.0,
+      "grad_norm": 4.121986572115232,
+      "language_loss": 0.7847054,
+      "learning_rate": 3.6000846297616373e-06,
+      "loss": 0.80722672,
+      "num_input_tokens_seen": 40497880,
+      "step": 1902,
+      "time_per_iteration": 2.8262276649475098
+    },
+    {
+      "auxiliary_loss_clip": 0.01220092,
+      "auxiliary_loss_mlp": 0.01035954,
+      "balance_loss_clip": 1.06664348,
+      "balance_loss_mlp": 1.02573788,
+      "epoch": 0.22882222088619011,
+      "flos": 21387892308480.0,
+      "grad_norm": 2.3463590726470396,
+      "language_loss": 0.72500658,
+      "learning_rate": 3.5996171693719717e-06,
+      "loss": 0.74756706,
+      "num_input_tokens_seen": 40513975,
+      "step": 1903,
+      "time_per_iteration": 2.598330020904541
+    },
+    {
+      "auxiliary_loss_clip": 0.01122838,
+      "auxiliary_loss_mlp": 0.01000855,
+      "balance_loss_clip": 1.02776766,
+      "balance_loss_mlp": 0.99878043,
+      "epoch": 0.2289424637768292,
+      "flos": 64589615377920.0,
+      "grad_norm": 0.8420207645036583,
+      "language_loss": 0.64866376,
+      "learning_rate": 3.5991494663216528e-06,
+      "loss": 0.66990077,
+      "num_input_tokens_seen": 40576960,
+      "step": 1904,
+      "time_per_iteration": 3.2514255046844482
+    },
+    {
+      "auxiliary_loss_clip": 0.01211118,
+      "auxiliary_loss_mlp": 0.01031108,
+      "balance_loss_clip": 1.06077409,
+      "balance_loss_mlp": 1.02174973,
+      "epoch": 0.22906270666746828,
+      "flos": 22163419877760.0,
+      "grad_norm": 1.8859907907379228,
+      "language_loss": 0.87786669,
+      "learning_rate": 3.5986815206816314e-06,
+      "loss": 0.900289,
+      "num_input_tokens_seen": 40595780,
+      "step": 1905,
+      "time_per_iteration": 2.6002414226531982
+    },
+    {
+      "auxiliary_loss_clip": 0.01209029,
+      "auxiliary_loss_mlp": 0.0103058,
+      "balance_loss_clip": 1.05850697,
+      "balance_loss_mlp": 1.02138925,
+      "epoch": 0.2291829495581074,
+      "flos": 25772334122880.0,
+      "grad_norm": 2.871210260649478,
+      "language_loss": 0.74631625,
+      "learning_rate": 3.598213332522895e-06,
+      "loss": 0.7687124,
+      "num_input_tokens_seen": 40615810,
+      "step": 1906,
+      "time_per_iteration": 2.6786789894104004
+    },
+    {
+      "auxiliary_loss_clip": 0.01217305,
+      "auxiliary_loss_mlp": 0.01035901,
+      "balance_loss_clip": 1.0579102,
+      "balance_loss_mlp": 1.02712762,
+      "epoch": 0.22930319244874647,
+      "flos": 31172760126720.0,
+      "grad_norm": 1.8906274224195658,
+      "language_loss": 0.77288008,
+      "learning_rate": 3.597744901916466e-06,
+      "loss": 0.79541212,
+      "num_input_tokens_seen": 40637095,
+      "step": 1907,
+      "time_per_iteration": 2.646880626678467
+    },
+    {
+      "auxiliary_loss_clip": 0.01215013,
+      "auxiliary_loss_mlp": 0.01030048,
+      "balance_loss_clip": 1.05958962,
+      "balance_loss_mlp": 1.02017164,
+      "epoch": 0.22942343533938556,
+      "flos": 23254098399360.0,
+      "grad_norm": 2.036387428776994,
+      "language_loss": 0.76766622,
+      "learning_rate": 3.5972762289334058e-06,
+      "loss": 0.79011679,
+      "num_input_tokens_seen": 40656725,
+      "step": 1908,
+      "time_per_iteration": 2.6155190467834473
+    },
+    {
+      "auxiliary_loss_clip": 0.01247356,
+      "auxiliary_loss_mlp": 0.01034912,
+      "balance_loss_clip": 1.05222511,
+      "balance_loss_mlp": 1.02566683,
+      "epoch": 0.22954367823002464,
+      "flos": 14610903436800.0,
+      "grad_norm": 2.4601622677287067,
+      "language_loss": 0.85482717,
+      "learning_rate": 3.5968073136448116e-06,
+      "loss": 0.87764984,
+      "num_input_tokens_seen": 40674745,
+      "step": 1909,
+      "time_per_iteration": 2.732517957687378
+    },
+    {
+      "auxiliary_loss_clip": 0.01223112,
+      "auxiliary_loss_mlp": 0.0102998,
+      "balance_loss_clip": 1.0580765,
+      "balance_loss_mlp": 1.02046072,
+      "epoch": 0.22966392112066375,
+      "flos": 16763604405120.0,
+      "grad_norm": 1.7015350678480303,
+      "language_loss": 0.9144237,
+      "learning_rate": 3.596338156121818e-06,
+      "loss": 0.93695462,
+      "num_input_tokens_seen": 40693630,
+      "step": 1910,
+      "time_per_iteration": 2.6711559295654297
+    },
+    {
+      "auxiliary_loss_clip": 0.01127937,
+      "auxiliary_loss_mlp": 0.01007408,
+      "balance_loss_clip": 1.02293205,
+      "balance_loss_mlp": 1.00541675,
+      "epoch": 0.22978416401130283,
+      "flos": 67474247783040.0,
+      "grad_norm": 0.7433014969078577,
+      "language_loss": 0.59314191,
+      "learning_rate": 3.595868756435595e-06,
+      "loss": 0.61449534,
+      "num_input_tokens_seen": 40761310,
+      "step": 1911,
+      "time_per_iteration": 3.344005584716797
+    },
+    {
+      "auxiliary_loss_clip": 0.01243684,
+      "auxiliary_loss_mlp": 0.01034002,
+      "balance_loss_clip": 1.060498,
+      "balance_loss_mlp": 1.02497792,
+      "epoch": 0.22990440690194192,
+      "flos": 19865137086720.0,
+      "grad_norm": 2.636931491315663,
+      "language_loss": 0.80234963,
+      "learning_rate": 3.5953991146573504e-06,
+      "loss": 0.82512653,
+      "num_input_tokens_seen": 40779955,
+      "step": 1912,
+      "time_per_iteration": 3.6460657119750977
+    },
+    {
+      "auxiliary_loss_clip": 0.01223671,
+      "auxiliary_loss_mlp": 0.01032781,
+      "balance_loss_clip": 1.05824101,
+      "balance_loss_mlp": 1.0232029,
+      "epoch": 0.23002464979258103,
+      "flos": 13289246507520.0,
+      "grad_norm": 9.871668307567216,
+      "language_loss": 0.83156466,
+      "learning_rate": 3.5949292308583294e-06,
+      "loss": 0.8541292,
+      "num_input_tokens_seen": 40793200,
+      "step": 1913,
+      "time_per_iteration": 3.512970447540283
+    },
+    {
+      "auxiliary_loss_clip": 0.01212094,
+      "auxiliary_loss_mlp": 0.01037278,
+      "balance_loss_clip": 1.06144381,
+      "balance_loss_mlp": 1.0276165,
+      "epoch": 0.2301448926832201,
+      "flos": 22163779013760.0,
+      "grad_norm": 2.4682230785232195,
+      "language_loss": 0.80642331,
+      "learning_rate": 3.594459105109811e-06,
+      "loss": 0.82891703,
+      "num_input_tokens_seen": 40812380,
+      "step": 1914,
+      "time_per_iteration": 3.5719804763793945
+    },
+    {
+      "auxiliary_loss_clip": 0.01225075,
+      "auxiliary_loss_mlp": 0.01031251,
+      "balance_loss_clip": 1.06203842,
+      "balance_loss_mlp": 1.02154756,
+      "epoch": 0.2302651355738592,
+      "flos": 20704477167360.0,
+      "grad_norm": 2.248075492869372,
+      "language_loss": 0.81565666,
+      "learning_rate": 3.593988737483115e-06,
+      "loss": 0.83821994,
+      "num_input_tokens_seen": 40832320,
+      "step": 1915,
+      "time_per_iteration": 2.695765256881714
+    },
+    {
+      "auxiliary_loss_clip": 0.01227593,
+      "auxiliary_loss_mlp": 0.01044826,
+      "balance_loss_clip": 1.05653095,
+      "balance_loss_mlp": 1.03512824,
+      "epoch": 0.23038537846449827,
+      "flos": 18588943797120.0,
+      "grad_norm": 1.8421738838466362,
+      "language_loss": 0.78425467,
+      "learning_rate": 3.5935181280495947e-06,
+      "loss": 0.80697882,
+      "num_input_tokens_seen": 40850900,
+      "step": 1916,
+      "time_per_iteration": 2.6958515644073486
+    },
+    {
+      "auxiliary_loss_clip": 0.01117242,
+      "auxiliary_loss_mlp": 0.01001198,
+      "balance_loss_clip": 1.01762414,
+      "balance_loss_mlp": 0.99911231,
+      "epoch": 0.23050562135513739,
+      "flos": 64224260190720.0,
+      "grad_norm": 0.8606421924743785,
+      "language_loss": 0.54254544,
+      "learning_rate": 3.5930472768806412e-06,
+      "loss": 0.56372982,
+      "num_input_tokens_seen": 40909570,
+      "step": 1917,
+      "time_per_iteration": 3.1916491985321045
+    },
+    {
+      "auxiliary_loss_clip": 0.01211941,
+      "auxiliary_loss_mlp": 0.01033377,
+      "balance_loss_clip": 1.06329131,
+      "balance_loss_mlp": 1.02419186,
+      "epoch": 0.23062586424577647,
+      "flos": 17313396952320.0,
+      "grad_norm": 2.0902108159851087,
+      "language_loss": 0.77166045,
+      "learning_rate": 3.5925761840476826e-06,
+      "loss": 0.79411358,
+      "num_input_tokens_seen": 40928180,
+      "step": 1918,
+      "time_per_iteration": 3.6347286701202393
+    },
+    {
+      "auxiliary_loss_clip": 0.01225965,
+      "auxiliary_loss_mlp": 0.01024759,
+      "balance_loss_clip": 1.05958533,
+      "balance_loss_mlp": 1.01605034,
+      "epoch": 0.23074610713641555,
+      "flos": 27855979194240.0,
+      "grad_norm": 2.0408631432291906,
+      "language_loss": 0.81577718,
+      "learning_rate": 3.592104849622183e-06,
+      "loss": 0.83828443,
+      "num_input_tokens_seen": 40950435,
+      "step": 1919,
+      "time_per_iteration": 2.7597618103027344
+    },
+    {
+      "auxiliary_loss_clip": 0.0123513,
+      "auxiliary_loss_mlp": 0.01033277,
+      "balance_loss_clip": 1.05289698,
+      "balance_loss_mlp": 1.02395475,
+      "epoch": 0.23086635002705466,
+      "flos": 28841798937600.0,
+      "grad_norm": 1.4867150658447075,
+      "language_loss": 0.73046559,
+      "learning_rate": 3.591633273675644e-06,
+      "loss": 0.75314963,
+      "num_input_tokens_seen": 40972670,
+      "step": 1920,
+      "time_per_iteration": 2.8238697052001953
+    },
+    {
+      "auxiliary_loss_clip": 0.01126007,
+      "auxiliary_loss_mlp": 0.01000917,
+      "balance_loss_clip": 1.02246308,
+      "balance_loss_mlp": 0.99884301,
+      "epoch": 0.23098659291769374,
+      "flos": 62923681566720.0,
+      "grad_norm": 0.9051527389991283,
+      "language_loss": 0.58203518,
+      "learning_rate": 3.591161456279602e-06,
+      "loss": 0.60330445,
+      "num_input_tokens_seen": 41018215,
+      "step": 1921,
+      "time_per_iteration": 3.0383753776550293
+    },
+    {
+      "auxiliary_loss_clip": 0.01233544,
+      "auxiliary_loss_mlp": 0.01029829,
+      "balance_loss_clip": 1.05757475,
+      "balance_loss_mlp": 1.0205605,
+      "epoch": 0.23110683580833283,
+      "flos": 23476816679040.0,
+      "grad_norm": 1.5087178922356483,
+      "language_loss": 0.80248463,
+      "learning_rate": 3.590689397505633e-06,
+      "loss": 0.82511842,
+      "num_input_tokens_seen": 41039125,
+      "step": 1922,
+      "time_per_iteration": 2.6617865562438965
+    },
+    {
+      "auxiliary_loss_clip": 0.0120878,
+      "auxiliary_loss_mlp": 0.01036568,
+      "balance_loss_clip": 1.06032109,
+      "balance_loss_mlp": 1.02820563,
+      "epoch": 0.2312270786989719,
+      "flos": 27271066124160.0,
+      "grad_norm": 2.2532003941360514,
+      "language_loss": 0.8663581,
+      "learning_rate": 3.590217097425347e-06,
+      "loss": 0.88881159,
+      "num_input_tokens_seen": 41059025,
+      "step": 1923,
+      "time_per_iteration": 2.784956932067871
+    },
+    {
+      "auxiliary_loss_clip": 0.0121128,
+      "auxiliary_loss_mlp": 0.01034591,
+      "balance_loss_clip": 1.06131494,
+      "balance_loss_mlp": 1.02460718,
+      "epoch": 0.23134732158961102,
+      "flos": 13261344618240.0,
+      "grad_norm": 2.2235104936208567,
+      "language_loss": 0.71230197,
+      "learning_rate": 3.589744556110391e-06,
+      "loss": 0.73476064,
+      "num_input_tokens_seen": 41077015,
+      "step": 1924,
+      "time_per_iteration": 2.6436374187469482
+    },
+    {
+      "auxiliary_loss_clip": 0.01221174,
+      "auxiliary_loss_mlp": 0.01035742,
+      "balance_loss_clip": 1.05418873,
+      "balance_loss_mlp": 1.02549565,
+      "epoch": 0.2314675644802501,
+      "flos": 36977648250240.0,
+      "grad_norm": 1.6063983860490432,
+      "language_loss": 0.84265542,
+      "learning_rate": 3.58927177363245e-06,
+      "loss": 0.8652246,
+      "num_input_tokens_seen": 41099840,
+      "step": 1925,
+      "time_per_iteration": 2.7937350273132324
+    },
+    {
+      "auxiliary_loss_clip": 0.0122793,
+      "auxiliary_loss_mlp": 0.01034398,
+      "balance_loss_clip": 1.0538125,
+      "balance_loss_mlp": 1.02481318,
+      "epoch": 0.2315878073708892,
+      "flos": 23842207779840.0,
+      "grad_norm": 2.1848583732210507,
+      "language_loss": 0.72701466,
+      "learning_rate": 3.5887987500632447e-06,
+      "loss": 0.74963796,
+      "num_input_tokens_seen": 41117845,
+      "step": 1926,
+      "time_per_iteration": 2.8266348838806152
+    },
+    {
+      "auxiliary_loss_clip": 0.01241679,
+      "auxiliary_loss_mlp": 0.0103029,
+      "balance_loss_clip": 1.05710387,
+      "balance_loss_mlp": 1.02133203,
+      "epoch": 0.2317080502615283,
+      "flos": 23039424766080.0,
+      "grad_norm": 1.8589514642941534,
+      "language_loss": 0.84021652,
+      "learning_rate": 3.5883254854745325e-06,
+      "loss": 0.86293614,
+      "num_input_tokens_seen": 41136235,
+      "step": 1927,
+      "time_per_iteration": 2.7085180282592773
+    },
+    {
+      "auxiliary_loss_clip": 0.01224571,
+      "auxiliary_loss_mlp": 0.0103628,
+      "balance_loss_clip": 1.05927038,
+      "balance_loss_mlp": 1.02643347,
+      "epoch": 0.23182829315216738,
+      "flos": 11254656435840.0,
+      "grad_norm": 5.418578343393888,
+      "language_loss": 0.75164348,
+      "learning_rate": 3.587851979938107e-06,
+      "loss": 0.774252,
+      "num_input_tokens_seen": 41153125,
+      "step": 1928,
+      "time_per_iteration": 2.7246270179748535
+    },
+    {
+      "auxiliary_loss_clip": 0.0121647,
+      "auxiliary_loss_mlp": 0.01029702,
+      "balance_loss_clip": 1.05801642,
+      "balance_loss_mlp": 1.02054048,
+      "epoch": 0.23194853604280646,
+      "flos": 19828939155840.0,
+      "grad_norm": 2.0072921564387833,
+      "language_loss": 0.77879345,
+      "learning_rate": 3.5873782335257985e-06,
+      "loss": 0.80125523,
+      "num_input_tokens_seen": 41171290,
+      "step": 1929,
+      "time_per_iteration": 2.62139630317688
+    },
+    {
+      "auxiliary_loss_clip": 0.01234125,
+      "auxiliary_loss_mlp": 0.0103149,
+      "balance_loss_clip": 1.05641735,
+      "balance_loss_mlp": 1.02206683,
+      "epoch": 0.23206877893344555,
+      "flos": 15305020830720.0,
+      "grad_norm": 2.1400079529176774,
+      "language_loss": 0.78307146,
+      "learning_rate": 3.5869042463094744e-06,
+      "loss": 0.8057276,
+      "num_input_tokens_seen": 41189005,
+      "step": 1930,
+      "time_per_iteration": 2.720277786254883
+    },
+    {
+      "auxiliary_loss_clip": 0.01221749,
+      "auxiliary_loss_mlp": 0.01033203,
+      "balance_loss_clip": 1.04945779,
+      "balance_loss_mlp": 1.02361906,
+      "epoch": 0.23218902182408466,
+      "flos": 22711488572160.0,
+      "grad_norm": 1.6835056505804298,
+      "language_loss": 0.76804256,
+      "learning_rate": 3.586430018361038e-06,
+      "loss": 0.79059207,
+      "num_input_tokens_seen": 41208775,
+      "step": 1931,
+      "time_per_iteration": 2.800182819366455
+    },
+    {
+      "auxiliary_loss_clip": 0.01208407,
+      "auxiliary_loss_mlp": 0.01033865,
+      "balance_loss_clip": 1.05279875,
+      "balance_loss_mlp": 1.02429295,
+      "epoch": 0.23230926471472374,
+      "flos": 22710734386560.0,
+      "grad_norm": 2.086126473552163,
+      "language_loss": 0.76317799,
+      "learning_rate": 3.5859555497524283e-06,
+      "loss": 0.78560072,
+      "num_input_tokens_seen": 41226010,
+      "step": 1932,
+      "time_per_iteration": 2.687718391418457
+    },
+    {
+      "auxiliary_loss_clip": 0.01218894,
+      "auxiliary_loss_mlp": 0.01028198,
+      "balance_loss_clip": 1.05942273,
+      "balance_loss_mlp": 1.01811886,
+      "epoch": 0.23242950760536282,
+      "flos": 20375499479040.0,
+      "grad_norm": 2.1285749636350917,
+      "language_loss": 0.92153287,
+      "learning_rate": 3.5854808405556237e-06,
+      "loss": 0.9440037,
+      "num_input_tokens_seen": 41245245,
+      "step": 1933,
+      "time_per_iteration": 2.6144299507141113
+    },
+    {
+      "auxiliary_loss_clip": 0.01238517,
+      "auxiliary_loss_mlp": 0.01032154,
+      "balance_loss_clip": 1.05688047,
+      "balance_loss_mlp": 1.02338004,
+      "epoch": 0.23254975049600193,
+      "flos": 16908324301440.0,
+      "grad_norm": 9.37978518661215,
+      "language_loss": 0.75285721,
+      "learning_rate": 3.5850058908426355e-06,
+      "loss": 0.77556396,
+      "num_input_tokens_seen": 41263795,
+      "step": 1934,
+      "time_per_iteration": 2.82173228263855
+    },
+    {
+      "auxiliary_loss_clip": 0.01227911,
+      "auxiliary_loss_mlp": 0.01035991,
+      "balance_loss_clip": 1.05514324,
+      "balance_loss_mlp": 1.02645981,
+      "epoch": 0.23266999338664102,
+      "flos": 23294821443840.0,
+      "grad_norm": 2.0090016641861905,
+      "language_loss": 0.85310245,
+      "learning_rate": 3.584530700685514e-06,
+      "loss": 0.87574148,
+      "num_input_tokens_seen": 41284055,
+      "step": 1935,
+      "time_per_iteration": 2.8882012367248535
+    },
+    {
+      "auxiliary_loss_clip": 0.01223889,
+      "auxiliary_loss_mlp": 0.0103638,
+      "balance_loss_clip": 1.05839908,
+      "balance_loss_mlp": 1.02765393,
+      "epoch": 0.2327902362772801,
+      "flos": 19569987031680.0,
+      "grad_norm": 2.0208207978664348,
+      "language_loss": 0.88385373,
+      "learning_rate": 3.5840552701563448e-06,
+      "loss": 0.90645641,
+      "num_input_tokens_seen": 41300255,
+      "step": 1936,
+      "time_per_iteration": 2.630730152130127
+    },
+    {
+      "auxiliary_loss_clip": 0.01209903,
+      "auxiliary_loss_mlp": 0.01030588,
+      "balance_loss_clip": 1.06083,
+      "balance_loss_mlp": 1.02161729,
+      "epoch": 0.2329104791679192,
+      "flos": 16727514215040.0,
+      "grad_norm": 2.0683482493320673,
+      "language_loss": 0.81886458,
+      "learning_rate": 3.5835795993272513e-06,
+      "loss": 0.84126955,
+      "num_input_tokens_seen": 41318540,
+      "step": 1937,
+      "time_per_iteration": 2.6837525367736816
+    },
+    {
+      "auxiliary_loss_clip": 0.01260588,
+      "auxiliary_loss_mlp": 0.01033765,
+      "balance_loss_clip": 1.0463717,
+      "balance_loss_mlp": 1.02452064,
+      "epoch": 0.2330307220585583,
+      "flos": 22163743100160.0,
+      "grad_norm": 2.248330473511724,
+      "language_loss": 0.71048361,
+      "learning_rate": 3.583103688270391e-06,
+      "loss": 0.73342711,
+      "num_input_tokens_seen": 41338320,
+      "step": 1938,
+      "time_per_iteration": 3.8402984142303467
+    },
+    {
+      "auxiliary_loss_clip": 0.01207754,
+      "auxiliary_loss_mlp": 0.01040041,
+      "balance_loss_clip": 1.05211401,
+      "balance_loss_mlp": 1.03030181,
+      "epoch": 0.23315096494919738,
+      "flos": 19317319787520.0,
+      "grad_norm": 2.3409370736836963,
+      "language_loss": 0.89183885,
+      "learning_rate": 3.58262753705796e-06,
+      "loss": 0.91431677,
+      "num_input_tokens_seen": 41353210,
+      "step": 1939,
+      "time_per_iteration": 3.753824472427368
+    },
+    {
+      "auxiliary_loss_clip": 0.01121567,
+      "auxiliary_loss_mlp": 0.01018232,
+      "balance_loss_clip": 1.02284634,
+      "balance_loss_mlp": 1.01616943,
+      "epoch": 0.23327120783983646,
+      "flos": 53031048946560.0,
+      "grad_norm": 0.762764076692688,
+      "language_loss": 0.55461085,
+      "learning_rate": 3.5821511457621902e-06,
+      "loss": 0.57600886,
+      "num_input_tokens_seen": 41410510,
+      "step": 1940,
+      "time_per_iteration": 3.9876582622528076
+    },
+    {
+      "auxiliary_loss_clip": 0.01219375,
+      "auxiliary_loss_mlp": 0.01039088,
+      "balance_loss_clip": 1.05507088,
+      "balance_loss_mlp": 1.02880037,
+      "epoch": 0.23339145073047557,
+      "flos": 17126984344320.0,
+      "grad_norm": 2.618426422751523,
+      "language_loss": 0.81396234,
+      "learning_rate": 3.5816745144553497e-06,
+      "loss": 0.83654696,
+      "num_input_tokens_seen": 41425830,
+      "step": 1941,
+      "time_per_iteration": 2.6406302452087402
+    },
+    {
+      "auxiliary_loss_clip": 0.01235474,
+      "auxiliary_loss_mlp": 0.01030093,
+      "balance_loss_clip": 1.05332887,
+      "balance_loss_mlp": 1.02130783,
+      "epoch": 0.23351169362111465,
+      "flos": 13078918419840.0,
+      "grad_norm": 2.6287876859766914,
+      "language_loss": 0.75203669,
+      "learning_rate": 3.5811976432097424e-06,
+      "loss": 0.7746923,
+      "num_input_tokens_seen": 41443500,
+      "step": 1942,
+      "time_per_iteration": 2.775904417037964
+    },
+    {
+      "auxiliary_loss_clip": 0.01221719,
+      "auxiliary_loss_mlp": 0.01380707,
+      "balance_loss_clip": 1.06179118,
+      "balance_loss_mlp": 1.00010276,
+      "epoch": 0.23363193651175373,
+      "flos": 15851257931520.0,
+      "grad_norm": 1.8977508708747963,
+      "language_loss": 0.84218597,
+      "learning_rate": 3.58072053209771e-06,
+      "loss": 0.8682102,
+      "num_input_tokens_seen": 41460055,
+      "step": 1943,
+      "time_per_iteration": 2.659554958343506
+    },
+    {
+      "auxiliary_loss_clip": 0.01218757,
+      "auxiliary_loss_mlp": 0.01032063,
+      "balance_loss_clip": 1.05352104,
+      "balance_loss_mlp": 1.0217576,
+      "epoch": 0.23375217940239285,
+      "flos": 21025769345280.0,
+      "grad_norm": 2.187992604324128,
+      "language_loss": 0.79170728,
+      "learning_rate": 3.5802431811916296e-06,
+      "loss": 0.81421554,
+      "num_input_tokens_seen": 41476665,
+      "step": 1944,
+      "time_per_iteration": 3.6186792850494385
+    },
+    {
+      "auxiliary_loss_clip": 0.01225014,
+      "auxiliary_loss_mlp": 0.0103776,
+      "balance_loss_clip": 1.05759656,
+      "balance_loss_mlp": 1.02804995,
+      "epoch": 0.23387242229303193,
+      "flos": 20594698225920.0,
+      "grad_norm": 1.736702301206519,
+      "language_loss": 0.8064031,
+      "learning_rate": 3.579765590563916e-06,
+      "loss": 0.82903075,
+      "num_input_tokens_seen": 41496065,
+      "step": 1945,
+      "time_per_iteration": 2.702885389328003
+    },
+    {
+      "auxiliary_loss_clip": 0.01205863,
+      "auxiliary_loss_mlp": 0.01038039,
+      "balance_loss_clip": 1.05764365,
+      "balance_loss_mlp": 1.02844882,
+      "epoch": 0.233992665183671,
+      "flos": 24279491952000.0,
+      "grad_norm": 2.124324600953569,
+      "language_loss": 0.81304449,
+      "learning_rate": 3.579287760287017e-06,
+      "loss": 0.83548355,
+      "num_input_tokens_seen": 41516815,
+      "step": 1946,
+      "time_per_iteration": 2.679915428161621
+    },
+    {
+      "auxiliary_loss_clip": 0.01216763,
+      "auxiliary_loss_mlp": 0.01035372,
+      "balance_loss_clip": 1.0593915,
+      "balance_loss_mlp": 1.02656806,
+      "epoch": 0.2341129080743101,
+      "flos": 30154621121280.0,
+      "grad_norm": 1.860884515267993,
+      "language_loss": 0.72412926,
+      "learning_rate": 3.578809690433421e-06,
+      "loss": 0.74665058,
+      "num_input_tokens_seen": 41538525,
+      "step": 1947,
+      "time_per_iteration": 2.727325201034546
+    },
+    {
+      "auxiliary_loss_clip": 0.01212711,
+      "auxiliary_loss_mlp": 0.01036898,
+      "balance_loss_clip": 1.06128788,
+      "balance_loss_mlp": 1.02754068,
+      "epoch": 0.2342331509649492,
+      "flos": 22784135829120.0,
+      "grad_norm": 2.053746653125953,
+      "language_loss": 0.81237328,
+      "learning_rate": 3.578331381075651e-06,
+      "loss": 0.83486933,
+      "num_input_tokens_seen": 41559025,
+      "step": 1948,
+      "time_per_iteration": 2.6160616874694824
+    },
+    {
+      "auxiliary_loss_clip": 0.01217939,
+      "auxiliary_loss_mlp": 0.01034418,
+      "balance_loss_clip": 1.05682087,
+      "balance_loss_mlp": 1.02523255,
+      "epoch": 0.2343533938555883,
+      "flos": 23623152687360.0,
+      "grad_norm": 2.0518781941780855,
+      "language_loss": 0.69403708,
+      "learning_rate": 3.5778528322862646e-06,
+      "loss": 0.71656066,
+      "num_input_tokens_seen": 41577845,
+      "step": 1949,
+      "time_per_iteration": 2.6733686923980713
+    },
+    {
+      "auxiliary_loss_clip": 0.0122089,
+      "auxiliary_loss_mlp": 0.01037307,
+      "balance_loss_clip": 1.05911422,
+      "balance_loss_mlp": 1.02846777,
+      "epoch": 0.23447363674622737,
+      "flos": 24570332375040.0,
+      "grad_norm": 1.8235232496764548,
+      "language_loss": 0.86812252,
+      "learning_rate": 3.5773740441378585e-06,
+      "loss": 0.89070451,
+      "num_input_tokens_seen": 41598600,
+      "step": 1950,
+      "time_per_iteration": 2.6721551418304443
+    },
+    {
+      "auxiliary_loss_clip": 0.01216016,
+      "auxiliary_loss_mlp": 0.01030269,
+      "balance_loss_clip": 1.05845737,
+      "balance_loss_mlp": 1.02141154,
+      "epoch": 0.23459387963686648,
+      "flos": 53140322119680.0,
+      "grad_norm": 1.7708270301568652,
+      "language_loss": 0.73663801,
+      "learning_rate": 3.5768950167030633e-06,
+      "loss": 0.75910085,
+      "num_input_tokens_seen": 41623300,
+      "step": 1951,
+      "time_per_iteration": 2.9126315116882324
+    },
+    {
+      "auxiliary_loss_clip": 0.01211225,
+      "auxiliary_loss_mlp": 0.01034744,
+      "balance_loss_clip": 1.05328071,
+      "balance_loss_mlp": 1.02551079,
+      "epoch": 0.23471412252750556,
+      "flos": 23951412103680.0,
+      "grad_norm": 1.767350866413924,
+      "language_loss": 0.78334582,
+      "learning_rate": 3.576415750054548e-06,
+      "loss": 0.8058055,
+      "num_input_tokens_seen": 41643420,
+      "step": 1952,
+      "time_per_iteration": 2.7255215644836426
+    },
+    {
+      "auxiliary_loss_clip": 0.01215833,
+      "auxiliary_loss_mlp": 0.01036421,
+      "balance_loss_clip": 1.05388606,
+      "balance_loss_mlp": 1.02719462,
+      "epoch": 0.23483436541814465,
+      "flos": 15706573948800.0,
+      "grad_norm": 2.0750311697819623,
+      "language_loss": 0.85994303,
+      "learning_rate": 3.5759362442650172e-06,
+      "loss": 0.8824656,
+      "num_input_tokens_seen": 41660170,
+      "step": 1953,
+      "time_per_iteration": 2.8425018787384033
+    },
+    {
+      "auxiliary_loss_clip": 0.01217896,
+      "auxiliary_loss_mlp": 0.01032521,
+      "balance_loss_clip": 1.05986834,
+      "balance_loss_mlp": 1.02310371,
+      "epoch": 0.23495460830878373,
+      "flos": 24936262179840.0,
+      "grad_norm": 2.412095937891718,
+      "language_loss": 0.8528502,
+      "learning_rate": 3.5754564994072113e-06,
+      "loss": 0.87535435,
+      "num_input_tokens_seen": 41679010,
+      "step": 1954,
+      "time_per_iteration": 2.686802864074707
+    },
+    {
+      "auxiliary_loss_clip": 0.01221343,
+      "auxiliary_loss_mlp": 0.01033525,
+      "balance_loss_clip": 1.05446661,
+      "balance_loss_mlp": 1.02337992,
+      "epoch": 0.23507485119942284,
+      "flos": 30482665056000.0,
+      "grad_norm": 2.7182846138454235,
+      "language_loss": 0.59891117,
+      "learning_rate": 3.5749765155539067e-06,
+      "loss": 0.62145984,
+      "num_input_tokens_seen": 41699495,
+      "step": 1955,
+      "time_per_iteration": 2.7298879623413086
+    },
+    {
+      "auxiliary_loss_clip": 0.01228469,
+      "auxiliary_loss_mlp": 0.01035859,
+      "balance_loss_clip": 1.0538274,
+      "balance_loss_mlp": 1.02552307,
+      "epoch": 0.23519509409006192,
+      "flos": 18329129746560.0,
+      "grad_norm": 2.1614666707822625,
+      "language_loss": 0.92298687,
+      "learning_rate": 3.574496292777917e-06,
+      "loss": 0.94563019,
+      "num_input_tokens_seen": 41717705,
+      "step": 1956,
+      "time_per_iteration": 2.795107126235962
+    },
+    {
+      "auxiliary_loss_clip": 0.01235945,
+      "auxiliary_loss_mlp": 0.01043609,
+      "balance_loss_clip": 1.05922198,
+      "balance_loss_mlp": 1.03387511,
+      "epoch": 0.235315336980701,
+      "flos": 29643217234560.0,
+      "grad_norm": 2.4662293048346955,
+      "language_loss": 0.71425998,
+      "learning_rate": 3.574015831152092e-06,
+      "loss": 0.73705554,
+      "num_input_tokens_seen": 41738120,
+      "step": 1957,
+      "time_per_iteration": 2.681091785430908
+    },
+    {
+      "auxiliary_loss_clip": 0.01213527,
+      "auxiliary_loss_mlp": 0.01034634,
+      "balance_loss_clip": 1.05476367,
+      "balance_loss_mlp": 1.02507997,
+      "epoch": 0.23543557987134012,
+      "flos": 18551704371840.0,
+      "grad_norm": 2.4879956302053587,
+      "language_loss": 0.83251619,
+      "learning_rate": 3.573535130749316e-06,
+      "loss": 0.85499775,
+      "num_input_tokens_seen": 41756070,
+      "step": 1958,
+      "time_per_iteration": 2.699803590774536
+    },
+    {
+      "auxiliary_loss_clip": 0.01217571,
+      "auxiliary_loss_mlp": 0.010347,
+      "balance_loss_clip": 1.05792451,
+      "balance_loss_mlp": 1.02513361,
+      "epoch": 0.2355558227619792,
+      "flos": 24679033908480.0,
+      "grad_norm": 1.952972566930701,
+      "language_loss": 0.73574376,
+      "learning_rate": 3.5730541916425127e-06,
+      "loss": 0.75826657,
+      "num_input_tokens_seen": 41777550,
+      "step": 1959,
+      "time_per_iteration": 2.6800248622894287
+    },
+    {
+      "auxiliary_loss_clip": 0.01236372,
+      "auxiliary_loss_mlp": 0.01039942,
+      "balance_loss_clip": 1.05607867,
+      "balance_loss_mlp": 1.02977908,
+      "epoch": 0.23567606565261828,
+      "flos": 21944795748480.0,
+      "grad_norm": 3.2267692851668697,
+      "language_loss": 0.86487567,
+      "learning_rate": 3.572573013904639e-06,
+      "loss": 0.88763881,
+      "num_input_tokens_seen": 41797460,
+      "step": 1960,
+      "time_per_iteration": 2.7340621948242188
+    },
+    {
+      "auxiliary_loss_clip": 0.01212534,
+      "auxiliary_loss_mlp": 0.01030368,
+      "balance_loss_clip": 1.06245458,
+      "balance_loss_mlp": 1.02162409,
+      "epoch": 0.2357963085432574,
+      "flos": 13589352639360.0,
+      "grad_norm": 2.097000591701735,
+      "language_loss": 0.9182713,
+      "learning_rate": 3.572091597608689e-06,
+      "loss": 0.94070029,
+      "num_input_tokens_seen": 41815585,
+      "step": 1961,
+      "time_per_iteration": 2.6020517349243164
+    },
+    {
+      "auxiliary_loss_clip": 0.01233922,
+      "auxiliary_loss_mlp": 0.01032236,
+      "balance_loss_clip": 1.05959511,
+      "balance_loss_mlp": 1.02251434,
+      "epoch": 0.23591655143389648,
+      "flos": 22088689632000.0,
+      "grad_norm": 2.89472100883696,
+      "language_loss": 0.73182023,
+      "learning_rate": 3.571609942827694e-06,
+      "loss": 0.75448179,
+      "num_input_tokens_seen": 41834700,
+      "step": 1962,
+      "time_per_iteration": 2.6959986686706543
+    },
+    {
+      "auxiliary_loss_clip": 0.01225372,
+      "auxiliary_loss_mlp": 0.01033703,
+      "balance_loss_clip": 1.05669212,
+      "balance_loss_mlp": 1.02435708,
+      "epoch": 0.23603679432453556,
+      "flos": 17017349057280.0,
+      "grad_norm": 1.8256701890161056,
+      "language_loss": 0.8844772,
+      "learning_rate": 3.57112804963472e-06,
+      "loss": 0.90706801,
+      "num_input_tokens_seen": 41852915,
+      "step": 1963,
+      "time_per_iteration": 2.7158803939819336
+    },
+    {
+      "auxiliary_loss_clip": 0.01230442,
+      "auxiliary_loss_mlp": 0.01033006,
+      "balance_loss_clip": 1.05838037,
+      "balance_loss_mlp": 1.02478027,
+      "epoch": 0.23615703721517464,
+      "flos": 19171307001600.0,
+      "grad_norm": 1.7697671576238765,
+      "language_loss": 0.76904082,
+      "learning_rate": 3.57064591810287e-06,
+      "loss": 0.79167533,
+      "num_input_tokens_seen": 41870415,
+      "step": 1964,
+      "time_per_iteration": 3.5800583362579346
+    },
+    {
+      "auxiliary_loss_clip": 0.01212387,
+      "auxiliary_loss_mlp": 0.01380123,
+      "balance_loss_clip": 1.06384122,
+      "balance_loss_mlp": 1.00006366,
+      "epoch": 0.23627728010581375,
+      "flos": 19098803399040.0,
+      "grad_norm": 2.3572571444417845,
+      "language_loss": 0.80456543,
+      "learning_rate": 3.570163548305284e-06,
+      "loss": 0.83049059,
+      "num_input_tokens_seen": 41889345,
+      "step": 1965,
+      "time_per_iteration": 3.5344860553741455
+    },
+    {
+      "auxiliary_loss_clip": 0.01228021,
+      "auxiliary_loss_mlp": 0.01031911,
+      "balance_loss_clip": 1.05907881,
+      "balance_loss_mlp": 1.02138472,
+      "epoch": 0.23639752299645284,
+      "flos": 14282213057280.0,
+      "grad_norm": 2.163470023834258,
+      "language_loss": 0.6968388,
+      "learning_rate": 3.569680940315135e-06,
+      "loss": 0.71943808,
+      "num_input_tokens_seen": 41905745,
+      "step": 1966,
+      "time_per_iteration": 2.6874806880950928
+    },
+    {
+      "auxiliary_loss_clip": 0.01240272,
+      "auxiliary_loss_mlp": 0.01034558,
+      "balance_loss_clip": 1.05519927,
+      "balance_loss_mlp": 1.02485478,
+      "epoch": 0.23651776588709192,
+      "flos": 22893411980160.0,
+      "grad_norm": 2.0030262165746677,
+      "language_loss": 0.81981659,
+      "learning_rate": 3.5691980942056356e-06,
+      "loss": 0.84256488,
+      "num_input_tokens_seen": 41925115,
+      "step": 1967,
+      "time_per_iteration": 3.6187524795532227
+    },
+    {
+      "auxiliary_loss_clip": 0.01221197,
+      "auxiliary_loss_mlp": 0.01031844,
+      "balance_loss_clip": 1.0578804,
+      "balance_loss_mlp": 1.02287889,
+      "epoch": 0.23663800877773103,
+      "flos": 18624531196800.0,
+      "grad_norm": 1.6218710303676336,
+      "language_loss": 0.79451829,
+      "learning_rate": 3.5687150100500332e-06,
+      "loss": 0.81704873,
+      "num_input_tokens_seen": 41944815,
+      "step": 1968,
+      "time_per_iteration": 2.697390556335449
+    },
+    {
+      "auxiliary_loss_clip": 0.01221419,
+      "auxiliary_loss_mlp": 0.01039877,
+      "balance_loss_clip": 1.05865192,
+      "balance_loss_mlp": 1.02991676,
+      "epoch": 0.2367582516683701,
+      "flos": 25555828896000.0,
+      "grad_norm": 1.631982822856336,
+      "language_loss": 0.74579334,
+      "learning_rate": 3.568231687921611e-06,
+      "loss": 0.76840639,
+      "num_input_tokens_seen": 41964990,
+      "step": 1969,
+      "time_per_iteration": 2.6474392414093018
+    },
+    {
+      "auxiliary_loss_clip": 0.01210177,
+      "auxiliary_loss_mlp": 0.01028701,
+      "balance_loss_clip": 1.06185699,
+      "balance_loss_mlp": 1.02009451,
+      "epoch": 0.2368784945590092,
+      "flos": 23295072839040.0,
+      "grad_norm": 1.5196269667380542,
+      "language_loss": 0.8032701,
+      "learning_rate": 3.5677481278936883e-06,
+      "loss": 0.82565892,
+      "num_input_tokens_seen": 41984570,
+      "step": 1970,
+      "time_per_iteration": 3.550915479660034
+    },
+    {
+      "auxiliary_loss_clip": 0.01129277,
+      "auxiliary_loss_mlp": 0.01003783,
+      "balance_loss_clip": 1.0293715,
+      "balance_loss_mlp": 1.00168538,
+      "epoch": 0.23699873744964828,
+      "flos": 69859291875840.0,
+      "grad_norm": 0.8503064334274163,
+      "language_loss": 0.57821238,
+      "learning_rate": 3.5672643300396214e-06,
+      "loss": 0.59954298,
+      "num_input_tokens_seen": 42053715,
+      "step": 1971,
+      "time_per_iteration": 3.2962558269500732
+    },
+    {
+      "auxiliary_loss_clip": 0.01233411,
+      "auxiliary_loss_mlp": 0.01031317,
+      "balance_loss_clip": 1.05422795,
+      "balance_loss_mlp": 1.02325833,
+      "epoch": 0.2371189803402874,
+      "flos": 21835052720640.0,
+      "grad_norm": 2.6142686081562134,
+      "language_loss": 0.67589545,
+      "learning_rate": 3.566780294432802e-06,
+      "loss": 0.69854271,
+      "num_input_tokens_seen": 42070890,
+      "step": 1972,
+      "time_per_iteration": 2.7265422344207764
+    },
+    {
+      "auxiliary_loss_clip": 0.01211445,
+      "auxiliary_loss_mlp": 0.01030095,
+      "balance_loss_clip": 1.06295609,
+      "balance_loss_mlp": 1.02082598,
+      "epoch": 0.23723922323092647,
+      "flos": 21908490076800.0,
+      "grad_norm": 2.354916966452423,
+      "language_loss": 0.74605286,
+      "learning_rate": 3.566296021146657e-06,
+      "loss": 0.76846826,
+      "num_input_tokens_seen": 42090270,
+      "step": 1973,
+      "time_per_iteration": 2.658784866333008
+    },
+    {
+      "auxiliary_loss_clip": 0.01216677,
+      "auxiliary_loss_mlp": 0.0103685,
+      "balance_loss_clip": 1.06372297,
+      "balance_loss_mlp": 1.02780235,
+      "epoch": 0.23735946612156555,
+      "flos": 32708803380480.0,
+      "grad_norm": 1.5394274346019958,
+      "language_loss": 0.7318188,
+      "learning_rate": 3.565811510254652e-06,
+      "loss": 0.75435412,
+      "num_input_tokens_seen": 42111150,
+      "step": 1974,
+      "time_per_iteration": 2.7205119132995605
+    },
+    {
+      "auxiliary_loss_clip": 0.0111274,
+      "auxiliary_loss_mlp": 0.00999839,
+      "balance_loss_clip": 1.02564061,
+      "balance_loss_mlp": 0.99811071,
+      "epoch": 0.23747970901220466,
+      "flos": 70546944821760.0,
+      "grad_norm": 0.8388312067058108,
+      "language_loss": 0.58243763,
+      "learning_rate": 3.5653267618302845e-06,
+      "loss": 0.60356343,
+      "num_input_tokens_seen": 42178730,
+      "step": 1975,
+      "time_per_iteration": 3.271505117416382
+    },
+    {
+      "auxiliary_loss_clip": 0.01210995,
+      "auxiliary_loss_mlp": 0.01032608,
+      "balance_loss_clip": 1.06112456,
+      "balance_loss_mlp": 1.0226723,
+      "epoch": 0.23759995190284375,
+      "flos": 20849807594880.0,
+      "grad_norm": 1.9277854374899888,
+      "language_loss": 0.85528892,
+      "learning_rate": 3.564841775947093e-06,
+      "loss": 0.87772501,
+      "num_input_tokens_seen": 42199620,
+      "step": 1976,
+      "time_per_iteration": 2.665072441101074
+    },
+    {
+      "auxiliary_loss_clip": 0.01232247,
+      "auxiliary_loss_mlp": 0.01030366,
+      "balance_loss_clip": 1.05474901,
+      "balance_loss_mlp": 1.02065063,
+      "epoch": 0.23772019479348283,
+      "flos": 32921645420160.0,
+      "grad_norm": 2.146333465093228,
+      "language_loss": 0.76450872,
+      "learning_rate": 3.5643565526786475e-06,
+      "loss": 0.78713495,
+      "num_input_tokens_seen": 42219560,
+      "step": 1977,
+      "time_per_iteration": 2.891266107559204
+    },
+    {
+      "auxiliary_loss_clip": 0.01212745,
+      "auxiliary_loss_mlp": 0.01032066,
+      "balance_loss_clip": 1.06201351,
+      "balance_loss_mlp": 1.02286315,
+      "epoch": 0.2378404376841219,
+      "flos": 32342765834880.0,
+      "grad_norm": 2.004209285426471,
+      "language_loss": 0.77171481,
+      "learning_rate": 3.5638710920985574e-06,
+      "loss": 0.79416287,
+      "num_input_tokens_seen": 42241020,
+      "step": 1978,
+      "time_per_iteration": 2.7727720737457275
+    },
+    {
+      "auxiliary_loss_clip": 0.01224505,
+      "auxiliary_loss_mlp": 0.01380479,
+      "balance_loss_clip": 1.05823815,
+      "balance_loss_mlp": 1.00009239,
+      "epoch": 0.23796068057476102,
+      "flos": 22997624313600.0,
+      "grad_norm": 2.0147208469444995,
+      "language_loss": 0.82013327,
+      "learning_rate": 3.5633853942804655e-06,
+      "loss": 0.84618312,
+      "num_input_tokens_seen": 42259345,
+      "step": 1979,
+      "time_per_iteration": 2.740449905395508
+    },
+    {
+      "auxiliary_loss_clip": 0.01230636,
+      "auxiliary_loss_mlp": 0.01032026,
+      "balance_loss_clip": 1.05107069,
+      "balance_loss_mlp": 1.02241778,
+      "epoch": 0.2380809234654001,
+      "flos": 13480938414720.0,
+      "grad_norm": 2.137309528839119,
+      "language_loss": 0.7650423,
+      "learning_rate": 3.5628994592980527e-06,
+      "loss": 0.78766888,
+      "num_input_tokens_seen": 42277250,
+      "step": 1980,
+      "time_per_iteration": 2.859048366546631
+    },
+    {
+      "auxiliary_loss_clip": 0.01210353,
+      "auxiliary_loss_mlp": 0.01027639,
+      "balance_loss_clip": 1.05950689,
+      "balance_loss_mlp": 1.01809609,
+      "epoch": 0.2382011663560392,
+      "flos": 16871803148160.0,
+      "grad_norm": 1.817250359464653,
+      "language_loss": 0.70298743,
+      "learning_rate": 3.562413287225034e-06,
+      "loss": 0.72536731,
+      "num_input_tokens_seen": 42295360,
+      "step": 1981,
+      "time_per_iteration": 2.580620050430298
+    },
+    {
+      "auxiliary_loss_clip": 0.01216314,
+      "auxiliary_loss_mlp": 0.01032668,
+      "balance_loss_clip": 1.06196654,
+      "balance_loss_mlp": 1.023018,
+      "epoch": 0.2383214092466783,
+      "flos": 18441135331200.0,
+      "grad_norm": 2.5304622704375315,
+      "language_loss": 0.88813204,
+      "learning_rate": 3.5619268781351623e-06,
+      "loss": 0.91062188,
+      "num_input_tokens_seen": 42313430,
+      "step": 1982,
+      "time_per_iteration": 2.6803364753723145
+    },
+    {
+      "auxiliary_loss_clip": 0.0122309,
+      "auxiliary_loss_mlp": 0.01030273,
+      "balance_loss_clip": 1.05890036,
+      "balance_loss_mlp": 1.02128494,
+      "epoch": 0.23844165213731738,
+      "flos": 19755717281280.0,
+      "grad_norm": 2.6683561989828726,
+      "language_loss": 0.76919401,
+      "learning_rate": 3.5614402321022256e-06,
+      "loss": 0.7917276,
+      "num_input_tokens_seen": 42331260,
+      "step": 1983,
+      "time_per_iteration": 2.7972049713134766
+    },
+    {
+      "auxiliary_loss_clip": 0.01232361,
+      "auxiliary_loss_mlp": 0.01029133,
+      "balance_loss_clip": 1.05098999,
+      "balance_loss_mlp": 1.01956654,
+      "epoch": 0.23856189502795647,
+      "flos": 23367360960000.0,
+      "grad_norm": 2.0108533783547538,
+      "language_loss": 0.86941266,
+      "learning_rate": 3.5609533492000463e-06,
+      "loss": 0.89202762,
+      "num_input_tokens_seen": 42350150,
+      "step": 1984,
+      "time_per_iteration": 2.9146928787231445
+    },
+    {
+      "auxiliary_loss_clip": 0.01229218,
+      "auxiliary_loss_mlp": 0.01036596,
+      "balance_loss_clip": 1.06374574,
+      "balance_loss_mlp": 1.02679753,
+      "epoch": 0.23868213791859555,
+      "flos": 23475056912640.0,
+      "grad_norm": 1.9288205347473244,
+      "language_loss": 0.78295588,
+      "learning_rate": 3.560466229502485e-06,
+      "loss": 0.80561399,
+      "num_input_tokens_seen": 42369495,
+      "step": 1985,
+      "time_per_iteration": 2.7262465953826904
+    },
+    {
+      "auxiliary_loss_clip": 0.01225727,
+      "auxiliary_loss_mlp": 0.01380317,
+      "balance_loss_clip": 1.06174016,
+      "balance_loss_mlp": 1.00006413,
+      "epoch": 0.23880238080923466,
+      "flos": 16617340224000.0,
+      "grad_norm": 2.293428901682506,
+      "language_loss": 0.89727855,
+      "learning_rate": 3.5599788730834384e-06,
+      "loss": 0.92333901,
+      "num_input_tokens_seen": 42387455,
+      "step": 1986,
+      "time_per_iteration": 2.652833938598633
+    },
+    {
+      "auxiliary_loss_clip": 0.01226508,
+      "auxiliary_loss_mlp": 0.01036393,
+      "balance_loss_clip": 1.06100488,
+      "balance_loss_mlp": 1.02651095,
+      "epoch": 0.23892262369987374,
+      "flos": 17348409734400.0,
+      "grad_norm": 2.351709692306571,
+      "language_loss": 0.78841263,
+      "learning_rate": 3.559491280016836e-06,
+      "loss": 0.81104165,
+      "num_input_tokens_seen": 42405400,
+      "step": 1987,
+      "time_per_iteration": 2.6997182369232178
+    },
+    {
+      "auxiliary_loss_clip": 0.01229881,
+      "auxiliary_loss_mlp": 0.0104009,
+      "balance_loss_clip": 1.0596596,
+      "balance_loss_mlp": 1.02979672,
+      "epoch": 0.23904286659051283,
+      "flos": 22309899540480.0,
+      "grad_norm": 2.1178479127651615,
+      "language_loss": 0.70990014,
+      "learning_rate": 3.5590034503766465e-06,
+      "loss": 0.73259985,
+      "num_input_tokens_seen": 42425065,
+      "step": 1988,
+      "time_per_iteration": 2.6304073333740234
+    },
+    {
+      "auxiliary_loss_clip": 0.01213309,
+      "auxiliary_loss_mlp": 0.01040151,
+      "balance_loss_clip": 1.06269956,
+      "balance_loss_mlp": 1.03054893,
+      "epoch": 0.23916310948115194,
+      "flos": 21178246579200.0,
+      "grad_norm": 2.333008846984031,
+      "language_loss": 0.81350845,
+      "learning_rate": 3.558515384236874e-06,
+      "loss": 0.83604306,
+      "num_input_tokens_seen": 42442495,
+      "step": 1989,
+      "time_per_iteration": 2.721611499786377
+    },
+    {
+      "auxiliary_loss_clip": 0.01226192,
+      "auxiliary_loss_mlp": 0.01380701,
+      "balance_loss_clip": 1.05723453,
+      "balance_loss_mlp": 1.00006938,
+      "epoch": 0.23928335237179102,
+      "flos": 14137349506560.0,
+      "grad_norm": 2.0895312029862008,
+      "language_loss": 0.84009588,
+      "learning_rate": 3.558027081671556e-06,
+      "loss": 0.8661648,
+      "num_input_tokens_seen": 42459480,
+      "step": 1990,
+      "time_per_iteration": 3.5959737300872803
+    },
+    {
+      "auxiliary_loss_clip": 0.01218425,
+      "auxiliary_loss_mlp": 0.01038942,
+      "balance_loss_clip": 1.05448604,
+      "balance_loss_mlp": 1.02866578,
+      "epoch": 0.2394035952624301,
+      "flos": 23769596436480.0,
+      "grad_norm": 1.9261198176035144,
+      "language_loss": 0.68779159,
+      "learning_rate": 3.557538542754769e-06,
+      "loss": 0.7103653,
+      "num_input_tokens_seen": 42479175,
+      "step": 1991,
+      "time_per_iteration": 3.625875949859619
+    },
+    {
+      "auxiliary_loss_clip": 0.01215019,
+      "auxiliary_loss_mlp": 0.0103802,
+      "balance_loss_clip": 1.06418037,
+      "balance_loss_mlp": 1.02850699,
+      "epoch": 0.2395238381530692,
+      "flos": 24206198250240.0,
+      "grad_norm": 1.9065419897291456,
+      "language_loss": 0.66809142,
+      "learning_rate": 3.557049767560623e-06,
+      "loss": 0.69062179,
+      "num_input_tokens_seen": 42498090,
+      "step": 1992,
+      "time_per_iteration": 3.528292417526245
+    },
+    {
+      "auxiliary_loss_clip": 0.01250977,
+      "auxiliary_loss_mlp": 0.01038087,
+      "balance_loss_clip": 1.06085372,
+      "balance_loss_mlp": 1.02891386,
+      "epoch": 0.2396440810437083,
+      "flos": 25295763450240.0,
+      "grad_norm": 1.9198472408742144,
+      "language_loss": 0.86001039,
+      "learning_rate": 3.5565607561632655e-06,
+      "loss": 0.88290107,
+      "num_input_tokens_seen": 42516930,
+      "step": 1993,
+      "time_per_iteration": 2.758660078048706
+    },
+    {
+      "auxiliary_loss_clip": 0.01224416,
+      "auxiliary_loss_mlp": 0.01032039,
+      "balance_loss_clip": 1.05742395,
+      "balance_loss_mlp": 1.02208519,
+      "epoch": 0.23976432393434738,
+      "flos": 28543093436160.0,
+      "grad_norm": 2.48266430094434,
+      "language_loss": 0.79708743,
+      "learning_rate": 3.5560715086368787e-06,
+      "loss": 0.81965196,
+      "num_input_tokens_seen": 42534800,
+      "step": 1994,
+      "time_per_iteration": 2.728670358657837
+    },
+    {
+      "auxiliary_loss_clip": 0.01223164,
+      "auxiliary_loss_mlp": 0.01035191,
+      "balance_loss_clip": 1.05797935,
+      "balance_loss_mlp": 1.02487314,
+      "epoch": 0.23988456682498646,
+      "flos": 19494358945920.0,
+      "grad_norm": 1.8377072682862738,
+      "language_loss": 0.82208133,
+      "learning_rate": 3.5555820250556816e-06,
+      "loss": 0.84466493,
+      "num_input_tokens_seen": 42552000,
+      "step": 1995,
+      "time_per_iteration": 2.615694284439087
+    },
+    {
+      "auxiliary_loss_clip": 0.0123518,
+      "auxiliary_loss_mlp": 0.01036397,
+      "balance_loss_clip": 1.06254148,
+      "balance_loss_mlp": 1.02673531,
+      "epoch": 0.24000480971562557,
+      "flos": 20266331068800.0,
+      "grad_norm": 2.2455780008025763,
+      "language_loss": 0.6914404,
+      "learning_rate": 3.5550923054939278e-06,
+      "loss": 0.71415621,
+      "num_input_tokens_seen": 42571455,
+      "step": 1996,
+      "time_per_iteration": 3.7206201553344727
+    },
+    {
+      "auxiliary_loss_clip": 0.01234604,
+      "auxiliary_loss_mlp": 0.01037261,
+      "balance_loss_clip": 1.05225992,
+      "balance_loss_mlp": 1.02730727,
+      "epoch": 0.24012505260626466,
+      "flos": 25443176866560.0,
+      "grad_norm": 1.9629151289158275,
+      "language_loss": 0.74834079,
+      "learning_rate": 3.5546023500259083e-06,
+      "loss": 0.77105945,
+      "num_input_tokens_seen": 42592550,
+      "step": 1997,
+      "time_per_iteration": 3.0455634593963623
+    },
+    {
+      "auxiliary_loss_clip": 0.01248324,
+      "auxiliary_loss_mlp": 0.01029368,
+      "balance_loss_clip": 1.05449486,
+      "balance_loss_mlp": 1.02013576,
+      "epoch": 0.24024529549690374,
+      "flos": 15553342529280.0,
+      "grad_norm": 1.7798403290631324,
+      "language_loss": 0.80241597,
+      "learning_rate": 3.5541121587259477e-06,
+      "loss": 0.82519287,
+      "num_input_tokens_seen": 42610385,
+      "step": 1998,
+      "time_per_iteration": 2.817549228668213
+    },
+    {
+      "auxiliary_loss_clip": 0.01119546,
+      "auxiliary_loss_mlp": 0.01010709,
+      "balance_loss_clip": 1.03210664,
+      "balance_loss_mlp": 1.00844407,
+      "epoch": 0.24036553838754285,
+      "flos": 57122351867520.0,
+      "grad_norm": 0.8561136053053718,
+      "language_loss": 0.57908118,
+      "learning_rate": 3.553621731668408e-06,
+      "loss": 0.60038376,
+      "num_input_tokens_seen": 42673595,
+      "step": 1999,
+      "time_per_iteration": 3.262378215789795
+    },
+    {
+      "auxiliary_loss_clip": 0.01212691,
+      "auxiliary_loss_mlp": 0.01028045,
+      "balance_loss_clip": 1.05748081,
+      "balance_loss_mlp": 1.01887155,
+      "epoch": 0.24048578127818193,
+      "flos": 24969946158720.0,
+      "grad_norm": 2.0672784282187737,
+      "language_loss": 0.83237886,
+      "learning_rate": 3.553131068927688e-06,
+      "loss": 0.85478622,
+      "num_input_tokens_seen": 42692000,
+      "step": 2000,
+      "time_per_iteration": 2.7770841121673584
+    },
+    {
+      "auxiliary_loss_clip": 0.01237661,
+      "auxiliary_loss_mlp": 0.01028762,
+      "balance_loss_clip": 1.05942309,
+      "balance_loss_mlp": 1.01938009,
+      "epoch": 0.24060602416882101,
+      "flos": 23330947547520.0,
+      "grad_norm": 1.6710593159468126,
+      "language_loss": 0.79992861,
+      "learning_rate": 3.552640170578219e-06,
+      "loss": 0.82259285,
+      "num_input_tokens_seen": 42712250,
+      "step": 2001,
+      "time_per_iteration": 2.744896411895752
+    },
+    {
+      "auxiliary_loss_clip": 0.01225745,
+      "auxiliary_loss_mlp": 0.0103462,
+      "balance_loss_clip": 1.05627871,
+      "balance_loss_mlp": 1.02489853,
+      "epoch": 0.2407262670594601,
+      "flos": 14173260128640.0,
+      "grad_norm": 2.1434548554299147,
+      "language_loss": 0.77903414,
+      "learning_rate": 3.5521490366944703e-06,
+      "loss": 0.80163777,
+      "num_input_tokens_seen": 42729900,
+      "step": 2002,
+      "time_per_iteration": 2.670137882232666
+    },
+    {
+      "auxiliary_loss_clip": 0.01237105,
+      "auxiliary_loss_mlp": 0.01034416,
+      "balance_loss_clip": 1.05906403,
+      "balance_loss_mlp": 1.02445006,
+      "epoch": 0.2408465099500992,
+      "flos": 13663113217920.0,
+      "grad_norm": 2.168396588296961,
+      "language_loss": 0.80213141,
+      "learning_rate": 3.5516576673509474e-06,
+      "loss": 0.82484663,
+      "num_input_tokens_seen": 42747900,
+      "step": 2003,
+      "time_per_iteration": 2.6895358562469482
+    },
+    {
+      "auxiliary_loss_clip": 0.01216869,
+      "auxiliary_loss_mlp": 0.01035402,
+      "balance_loss_clip": 1.06448793,
+      "balance_loss_mlp": 1.02546632,
+      "epoch": 0.2409667528407383,
+      "flos": 31248029076480.0,
+      "grad_norm": 1.695805482744119,
+      "language_loss": 0.86252689,
+      "learning_rate": 3.5511660626221896e-06,
+      "loss": 0.88504958,
+      "num_input_tokens_seen": 42768540,
+      "step": 2004,
+      "time_per_iteration": 2.781017541885376
+    },
+    {
+      "auxiliary_loss_clip": 0.01226319,
+      "auxiliary_loss_mlp": 0.01380602,
+      "balance_loss_clip": 1.05989051,
+      "balance_loss_mlp": 1.000103,
+      "epoch": 0.24108699573137737,
+      "flos": 22199941031040.0,
+      "grad_norm": 2.7970015721661077,
+      "language_loss": 0.89238048,
+      "learning_rate": 3.5506742225827744e-06,
+      "loss": 0.9184497,
+      "num_input_tokens_seen": 42785395,
+      "step": 2005,
+      "time_per_iteration": 2.6846470832824707
+    },
+    {
+      "auxiliary_loss_clip": 0.01238141,
+      "auxiliary_loss_mlp": 0.01037884,
+      "balance_loss_clip": 1.0598371,
+      "balance_loss_mlp": 1.02796543,
+      "epoch": 0.24120723862201648,
+      "flos": 26103035664000.0,
+      "grad_norm": 2.191002222068962,
+      "language_loss": 0.90024829,
+      "learning_rate": 3.5501821473073116e-06,
+      "loss": 0.9230085,
+      "num_input_tokens_seen": 42801980,
+      "step": 2006,
+      "time_per_iteration": 2.8114535808563232
+    },
+    {
+      "auxiliary_loss_clip": 0.01230465,
+      "auxiliary_loss_mlp": 0.01034684,
+      "balance_loss_clip": 1.05699253,
+      "balance_loss_mlp": 1.0248667,
+      "epoch": 0.24132748151265557,
+      "flos": 18624926246400.0,
+      "grad_norm": 2.0657233708876546,
+      "language_loss": 0.86696666,
+      "learning_rate": 3.54968983687045e-06,
+      "loss": 0.88961816,
+      "num_input_tokens_seen": 42818850,
+      "step": 2007,
+      "time_per_iteration": 2.7794418334960938
+    },
+    {
+      "auxiliary_loss_clip": 0.01229235,
+      "auxiliary_loss_mlp": 0.01038317,
+      "balance_loss_clip": 1.05770659,
+      "balance_loss_mlp": 1.02802324,
+      "epoch": 0.24144772440329465,
+      "flos": 15267673664640.0,
+      "grad_norm": 4.287532904838505,
+      "language_loss": 0.8953976,
+      "learning_rate": 3.549197291346872e-06,
+      "loss": 0.91807306,
+      "num_input_tokens_seen": 42835375,
+      "step": 2008,
+      "time_per_iteration": 2.826183557510376
+    },
+    {
+      "auxiliary_loss_clip": 0.01222348,
+      "auxiliary_loss_mlp": 0.01035191,
+      "balance_loss_clip": 1.06046057,
+      "balance_loss_mlp": 1.02508807,
+      "epoch": 0.24156796729393373,
+      "flos": 24024274842240.0,
+      "grad_norm": 2.101311223973695,
+      "language_loss": 0.79327649,
+      "learning_rate": 3.548704510811297e-06,
+      "loss": 0.81585187,
+      "num_input_tokens_seen": 42854570,
+      "step": 2009,
+      "time_per_iteration": 2.7403812408447266
+    },
+    {
+      "auxiliary_loss_clip": 0.01245793,
+      "auxiliary_loss_mlp": 0.01034782,
+      "balance_loss_clip": 1.05415606,
+      "balance_loss_mlp": 1.0250423,
+      "epoch": 0.24168821018457284,
+      "flos": 26286790665600.0,
+      "grad_norm": 3.48109067590751,
+      "language_loss": 0.74886036,
+      "learning_rate": 3.5482114953384787e-06,
+      "loss": 0.77166617,
+      "num_input_tokens_seen": 42873800,
+      "step": 2010,
+      "time_per_iteration": 2.8605992794036865
+    },
+    {
+      "auxiliary_loss_clip": 0.01223247,
+      "auxiliary_loss_mlp": 0.01031633,
+      "balance_loss_clip": 1.05993831,
+      "balance_loss_mlp": 1.02263856,
+      "epoch": 0.24180845307521193,
+      "flos": 18223193560320.0,
+      "grad_norm": 1.8937378842739292,
+      "language_loss": 0.84650028,
+      "learning_rate": 3.5477182450032077e-06,
+      "loss": 0.86904907,
+      "num_input_tokens_seen": 42892400,
+      "step": 2011,
+      "time_per_iteration": 2.7875893115997314
+    },
+    {
+      "auxiliary_loss_clip": 0.0121892,
+      "auxiliary_loss_mlp": 0.01044616,
+      "balance_loss_clip": 1.06033731,
+      "balance_loss_mlp": 1.03512144,
+      "epoch": 0.241928695965851,
+      "flos": 20449260057600.0,
+      "grad_norm": 2.4664147963730905,
+      "language_loss": 0.83125722,
+      "learning_rate": 3.5472247598803097e-06,
+      "loss": 0.85389251,
+      "num_input_tokens_seen": 42911745,
+      "step": 2012,
+      "time_per_iteration": 2.7106575965881348
+    },
+    {
+      "auxiliary_loss_clip": 0.01215754,
+      "auxiliary_loss_mlp": 0.01033947,
+      "balance_loss_clip": 1.06288457,
+      "balance_loss_mlp": 1.02295566,
+      "epoch": 0.24204893885649012,
+      "flos": 25556475340800.0,
+      "grad_norm": 2.125528250228635,
+      "language_loss": 0.85821205,
+      "learning_rate": 3.546731040044645e-06,
+      "loss": 0.88070905,
+      "num_input_tokens_seen": 42926915,
+      "step": 2013,
+      "time_per_iteration": 2.684868097305298
+    },
+    {
+      "auxiliary_loss_clip": 0.01213189,
+      "auxiliary_loss_mlp": 0.01027272,
+      "balance_loss_clip": 1.06345844,
+      "balance_loss_mlp": 1.01838541,
+      "epoch": 0.2421691817471292,
+      "flos": 30660207004800.0,
+      "grad_norm": 1.7901222947136735,
+      "language_loss": 0.75262296,
+      "learning_rate": 3.546237085571112e-06,
+      "loss": 0.77502757,
+      "num_input_tokens_seen": 42945350,
+      "step": 2014,
+      "time_per_iteration": 2.6804592609405518
+    },
+    {
+      "auxiliary_loss_clip": 0.0122326,
+      "auxiliary_loss_mlp": 0.01037128,
+      "balance_loss_clip": 1.0616101,
+      "balance_loss_mlp": 1.02712619,
+      "epoch": 0.24228942463776829,
+      "flos": 21945011230080.0,
+      "grad_norm": 1.8991873765981548,
+      "language_loss": 0.7254039,
+      "learning_rate": 3.5457428965346425e-06,
+      "loss": 0.74800777,
+      "num_input_tokens_seen": 42964290,
+      "step": 2015,
+      "time_per_iteration": 2.658132314682007
+    },
+    {
+      "auxiliary_loss_clip": 0.01249396,
+      "auxiliary_loss_mlp": 0.01031454,
+      "balance_loss_clip": 1.05200362,
+      "balance_loss_mlp": 1.0224179,
+      "epoch": 0.2424096675284074,
+      "flos": 33984493879680.0,
+      "grad_norm": 1.7508851768913711,
+      "language_loss": 0.74963117,
+      "learning_rate": 3.545248473010205e-06,
+      "loss": 0.77243966,
+      "num_input_tokens_seen": 42987095,
+      "step": 2016,
+      "time_per_iteration": 4.027482748031616
+    },
+    {
+      "auxiliary_loss_clip": 0.01214895,
+      "auxiliary_loss_mlp": 0.01380902,
+      "balance_loss_clip": 1.06192231,
+      "balance_loss_mlp": 1.00011158,
+      "epoch": 0.24252991041904648,
+      "flos": 21653416621440.0,
+      "grad_norm": 1.7882014809858182,
+      "language_loss": 0.87480783,
+      "learning_rate": 3.544753815072802e-06,
+      "loss": 0.90076584,
+      "num_input_tokens_seen": 43005750,
+      "step": 2017,
+      "time_per_iteration": 3.734201669692993
+    },
+    {
+      "auxiliary_loss_clip": 0.01251574,
+      "auxiliary_loss_mlp": 0.0103609,
+      "balance_loss_clip": 1.04676247,
+      "balance_loss_mlp": 1.02615964,
+      "epoch": 0.24265015330968556,
+      "flos": 21870065502720.0,
+      "grad_norm": 1.858207190342427,
+      "language_loss": 0.88157237,
+      "learning_rate": 3.544258922797474e-06,
+      "loss": 0.90444899,
+      "num_input_tokens_seen": 43023870,
+      "step": 2018,
+      "time_per_iteration": 3.7980294227600098
+    },
+    {
+      "auxiliary_loss_clip": 0.01210998,
+      "auxiliary_loss_mlp": 0.01032699,
+      "balance_loss_clip": 1.06131685,
+      "balance_loss_mlp": 1.02362764,
+      "epoch": 0.24277039620032465,
+      "flos": 25628260671360.0,
+      "grad_norm": 1.7346316405057196,
+      "language_loss": 0.78268087,
+      "learning_rate": 3.543763796259295e-06,
+      "loss": 0.80511785,
+      "num_input_tokens_seen": 43043825,
+      "step": 2019,
+      "time_per_iteration": 2.936100959777832
+    },
+    {
+      "auxiliary_loss_clip": 0.01219696,
+      "auxiliary_loss_mlp": 0.01031255,
+      "balance_loss_clip": 1.05934346,
+      "balance_loss_mlp": 1.0214622,
+      "epoch": 0.24289063909096376,
+      "flos": 26286575184000.0,
+      "grad_norm": 1.8369128144211242,
+      "language_loss": 0.90837026,
+      "learning_rate": 3.5432684355333754e-06,
+      "loss": 0.93087977,
+      "num_input_tokens_seen": 43062480,
+      "step": 2020,
+      "time_per_iteration": 2.709251880645752
+    },
+    {
+      "auxiliary_loss_clip": 0.01219618,
+      "auxiliary_loss_mlp": 0.0103254,
+      "balance_loss_clip": 1.05981731,
+      "balance_loss_mlp": 1.02315283,
+      "epoch": 0.24301088198160284,
+      "flos": 25075056332160.0,
+      "grad_norm": 1.8423011213128584,
+      "language_loss": 0.76866627,
+      "learning_rate": 3.5427728406948613e-06,
+      "loss": 0.79118782,
+      "num_input_tokens_seen": 43081595,
+      "step": 2021,
+      "time_per_iteration": 2.6898670196533203
+    },
+    {
+      "auxiliary_loss_clip": 0.01129732,
+      "auxiliary_loss_mlp": 0.01006185,
+      "balance_loss_clip": 1.02736783,
+      "balance_loss_mlp": 1.00418222,
+      "epoch": 0.24313112487224192,
+      "flos": 69900948673920.0,
+      "grad_norm": 0.7745373753242537,
+      "language_loss": 0.57904786,
+      "learning_rate": 3.542277011818934e-06,
+      "loss": 0.60040706,
+      "num_input_tokens_seen": 43145430,
+      "step": 2022,
+      "time_per_iteration": 4.732370853424072
+    },
+    {
+      "auxiliary_loss_clip": 0.01227424,
+      "auxiliary_loss_mlp": 0.01036454,
+      "balance_loss_clip": 1.06007385,
+      "balance_loss_mlp": 1.02714968,
+      "epoch": 0.24325136776288103,
+      "flos": 40662334235520.0,
+      "grad_norm": 2.14413584841978,
+      "language_loss": 0.74103069,
+      "learning_rate": 3.5417809489808104e-06,
+      "loss": 0.76366949,
+      "num_input_tokens_seen": 43167040,
+      "step": 2023,
+      "time_per_iteration": 2.9479169845581055
+    },
+    {
+      "auxiliary_loss_clip": 0.01221463,
+      "auxiliary_loss_mlp": 0.01034917,
+      "balance_loss_clip": 1.06046176,
+      "balance_loss_mlp": 1.02558279,
+      "epoch": 0.24337161065352012,
+      "flos": 25046400257280.0,
+      "grad_norm": 1.7671063561276381,
+      "language_loss": 0.72254807,
+      "learning_rate": 3.5412846522557422e-06,
+      "loss": 0.74511182,
+      "num_input_tokens_seen": 43187930,
+      "step": 2024,
+      "time_per_iteration": 2.8081274032592773
+    },
+    {
+      "auxiliary_loss_clip": 0.01211311,
+      "auxiliary_loss_mlp": 0.01038368,
+      "balance_loss_clip": 1.0618372,
+      "balance_loss_mlp": 1.02805042,
+      "epoch": 0.2434918535441592,
+      "flos": 18661160090880.0,
+      "grad_norm": 2.25644409096004,
+      "language_loss": 0.7409718,
+      "learning_rate": 3.540788121719018e-06,
+      "loss": 0.76346868,
+      "num_input_tokens_seen": 43206350,
+      "step": 2025,
+      "time_per_iteration": 2.6049070358276367
+    },
+    {
+      "auxiliary_loss_clip": 0.01230394,
+      "auxiliary_loss_mlp": 0.01033112,
+      "balance_loss_clip": 1.05923581,
+      "balance_loss_mlp": 1.02418923,
+      "epoch": 0.24361209643479828,
+      "flos": 23915142345600.0,
+      "grad_norm": 2.072010927290113,
+      "language_loss": 0.81900847,
+      "learning_rate": 3.5402913574459604e-06,
+      "loss": 0.84164357,
+      "num_input_tokens_seen": 43226255,
+      "step": 2026,
+      "time_per_iteration": 2.731055736541748
+    },
+    {
+      "auxiliary_loss_clip": 0.01241573,
+      "auxiliary_loss_mlp": 0.0103137,
+      "balance_loss_clip": 1.0485692,
+      "balance_loss_mlp": 1.02209568,
+      "epoch": 0.2437323393254374,
+      "flos": 28657505232000.0,
+      "grad_norm": 1.6987814109184582,
+      "language_loss": 0.85835624,
+      "learning_rate": 3.5397943595119297e-06,
+      "loss": 0.88108563,
+      "num_input_tokens_seen": 43247675,
+      "step": 2027,
+      "time_per_iteration": 2.9259192943573
+    },
+    {
+      "auxiliary_loss_clip": 0.01224196,
+      "auxiliary_loss_mlp": 0.01035692,
+      "balance_loss_clip": 1.05983663,
+      "balance_loss_mlp": 1.0256784,
+      "epoch": 0.24385258221607647,
+      "flos": 23550325862400.0,
+      "grad_norm": 3.047386757245122,
+      "language_loss": 0.77385378,
+      "learning_rate": 3.5392971279923177e-06,
+      "loss": 0.79645264,
+      "num_input_tokens_seen": 43265895,
+      "step": 2028,
+      "time_per_iteration": 2.923021078109741
+    },
+    {
+      "auxiliary_loss_clip": 0.01228053,
+      "auxiliary_loss_mlp": 0.01037911,
+      "balance_loss_clip": 1.05362427,
+      "balance_loss_mlp": 1.02776074,
+      "epoch": 0.24397282510671556,
+      "flos": 25336091445120.0,
+      "grad_norm": 1.9766565308290003,
+      "language_loss": 0.82924151,
+      "learning_rate": 3.5387996629625557e-06,
+      "loss": 0.85190117,
+      "num_input_tokens_seen": 43283485,
+      "step": 2029,
+      "time_per_iteration": 2.7792038917541504
+    },
+    {
+      "auxiliary_loss_clip": 0.01101407,
+      "auxiliary_loss_mlp": 0.01003694,
+      "balance_loss_clip": 1.02221203,
+      "balance_loss_mlp": 1.00170279,
+      "epoch": 0.24409306799735467,
+      "flos": 65187421430400.0,
+      "grad_norm": 0.807590172358764,
+      "language_loss": 0.54984045,
+      "learning_rate": 3.5383019644981083e-06,
+      "loss": 0.57089138,
+      "num_input_tokens_seen": 43347180,
+      "step": 2030,
+      "time_per_iteration": 3.264082431793213
+    },
+    {
+      "auxiliary_loss_clip": 0.0122578,
+      "auxiliary_loss_mlp": 0.01029262,
+      "balance_loss_clip": 1.05791628,
+      "balance_loss_mlp": 1.01927233,
+      "epoch": 0.24421331088799375,
+      "flos": 19537093152000.0,
+      "grad_norm": 2.2293157518348155,
+      "language_loss": 0.73154575,
+      "learning_rate": 3.5378040326744763e-06,
+      "loss": 0.75409621,
+      "num_input_tokens_seen": 43366665,
+      "step": 2031,
+      "time_per_iteration": 2.6741816997528076
+    },
+    {
+      "auxiliary_loss_clip": 0.01238256,
+      "auxiliary_loss_mlp": 0.01025278,
+      "balance_loss_clip": 1.06045985,
+      "balance_loss_mlp": 1.01586032,
+      "epoch": 0.24433355377863283,
+      "flos": 21068575378560.0,
+      "grad_norm": 2.132296940135181,
+      "language_loss": 0.85516703,
+      "learning_rate": 3.5373058675671946e-06,
+      "loss": 0.87780237,
+      "num_input_tokens_seen": 43384670,
+      "step": 2032,
+      "time_per_iteration": 2.6791348457336426
+    },
+    {
+      "auxiliary_loss_clip": 0.0123366,
+      "auxiliary_loss_mlp": 0.01031082,
+      "balance_loss_clip": 1.05359197,
+      "balance_loss_mlp": 1.02135432,
+      "epoch": 0.24445379666927192,
+      "flos": 22637189289600.0,
+      "grad_norm": 1.8664954769675217,
+      "language_loss": 0.72390699,
+      "learning_rate": 3.536807469251836e-06,
+      "loss": 0.74655437,
+      "num_input_tokens_seen": 43403825,
+      "step": 2033,
+      "time_per_iteration": 2.744872570037842
+    },
+    {
+      "auxiliary_loss_clip": 0.01239893,
+      "auxiliary_loss_mlp": 0.01033455,
+      "balance_loss_clip": 1.05559325,
+      "balance_loss_mlp": 1.02399564,
+      "epoch": 0.24457403955991103,
+      "flos": 21251612108160.0,
+      "grad_norm": 2.0668055624918984,
+      "language_loss": 0.82956976,
+      "learning_rate": 3.5363088378040055e-06,
+      "loss": 0.85230321,
+      "num_input_tokens_seen": 43422715,
+      "step": 2034,
+      "time_per_iteration": 2.6906561851501465
+    },
+    {
+      "auxiliary_loss_clip": 0.01099402,
+      "auxiliary_loss_mlp": 0.01375598,
+      "balance_loss_clip": 1.02042818,
+      "balance_loss_mlp": 0.9998371,
+      "epoch": 0.2446942824505501,
+      "flos": 66997820764800.0,
+      "grad_norm": 0.7783830919643595,
+      "language_loss": 0.64370143,
+      "learning_rate": 3.5358099732993463e-06,
+      "loss": 0.66845143,
+      "num_input_tokens_seen": 43481825,
+      "step": 2035,
+      "time_per_iteration": 3.115248203277588
+    },
+    {
+      "auxiliary_loss_clip": 0.01231643,
+      "auxiliary_loss_mlp": 0.01030222,
+      "balance_loss_clip": 1.0574069,
+      "balance_loss_mlp": 1.02112007,
+      "epoch": 0.2448145253411892,
+      "flos": 20411122792320.0,
+      "grad_norm": 2.5429922958455258,
+      "language_loss": 0.89275479,
+      "learning_rate": 3.535310875813535e-06,
+      "loss": 0.91537344,
+      "num_input_tokens_seen": 43500220,
+      "step": 2036,
+      "time_per_iteration": 2.728522300720215
+    },
+    {
+      "auxiliary_loss_clip": 0.01218942,
+      "auxiliary_loss_mlp": 0.01030249,
+      "balance_loss_clip": 1.05957353,
+      "balance_loss_mlp": 1.02053356,
+      "epoch": 0.2449347682318283,
+      "flos": 28804739080320.0,
+      "grad_norm": 1.7445730857012194,
+      "language_loss": 0.81697673,
+      "learning_rate": 3.5348115454222843e-06,
+      "loss": 0.8394686,
+      "num_input_tokens_seen": 43522805,
+      "step": 2037,
+      "time_per_iteration": 2.7349536418914795
+    },
+    {
+      "auxiliary_loss_clip": 0.01219606,
+      "auxiliary_loss_mlp": 0.01032765,
+      "balance_loss_clip": 1.05417371,
+      "balance_loss_mlp": 1.02377057,
+      "epoch": 0.2450550111224674,
+      "flos": 22528990546560.0,
+      "grad_norm": 1.77850681421698,
+      "language_loss": 0.85738379,
+      "learning_rate": 3.5343119822013425e-06,
+      "loss": 0.87990755,
+      "num_input_tokens_seen": 43541915,
+      "step": 2038,
+      "time_per_iteration": 2.746840715408325
+    },
+    {
+      "auxiliary_loss_clip": 0.01223715,
+      "auxiliary_loss_mlp": 0.01039017,
+      "balance_loss_clip": 1.05988014,
+      "balance_loss_mlp": 1.02897906,
+      "epoch": 0.24517525401310647,
+      "flos": 21759137326080.0,
+      "grad_norm": 9.859016094664346,
+      "language_loss": 0.77613795,
+      "learning_rate": 3.533812186226493e-06,
+      "loss": 0.7987653,
+      "num_input_tokens_seen": 43562625,
+      "step": 2039,
+      "time_per_iteration": 2.629817485809326
+    },
+    {
+      "auxiliary_loss_clip": 0.01207332,
+      "auxiliary_loss_mlp": 0.01030967,
+      "balance_loss_clip": 1.05914807,
+      "balance_loss_mlp": 1.02218151,
+      "epoch": 0.24529549690374555,
+      "flos": 25043311687680.0,
+      "grad_norm": 1.921088503109026,
+      "language_loss": 0.75752687,
+      "learning_rate": 3.5333121575735545e-06,
+      "loss": 0.77990985,
+      "num_input_tokens_seen": 43582265,
+      "step": 2040,
+      "time_per_iteration": 2.7183899879455566
+    },
+    {
+      "auxiliary_loss_clip": 0.01228077,
+      "auxiliary_loss_mlp": 0.01033828,
+      "balance_loss_clip": 1.0590378,
+      "balance_loss_mlp": 1.02537024,
+      "epoch": 0.24541573979438466,
+      "flos": 32123638915200.0,
+      "grad_norm": 1.8673500839837094,
+      "language_loss": 0.75950623,
+      "learning_rate": 3.532811896318381e-06,
+      "loss": 0.78212529,
+      "num_input_tokens_seen": 43604335,
+      "step": 2041,
+      "time_per_iteration": 2.76538348197937
+    },
+    {
+      "auxiliary_loss_clip": 0.01239157,
+      "auxiliary_loss_mlp": 0.01033736,
+      "balance_loss_clip": 1.05652046,
+      "balance_loss_mlp": 1.0238533,
+      "epoch": 0.24553598268502375,
+      "flos": 31357556622720.0,
+      "grad_norm": 2.994946941901402,
+      "language_loss": 0.81945181,
+      "learning_rate": 3.5323114025368615e-06,
+      "loss": 0.84218073,
+      "num_input_tokens_seen": 43619400,
+      "step": 2042,
+      "time_per_iteration": 3.6924400329589844
+    },
+    {
+      "auxiliary_loss_clip": 0.01210269,
+      "auxiliary_loss_mlp": 0.01037954,
+      "balance_loss_clip": 1.05445611,
+      "balance_loss_mlp": 1.02870965,
+      "epoch": 0.24565622557566283,
+      "flos": 14027462824320.0,
+      "grad_norm": 2.0548334998064495,
+      "language_loss": 0.82092798,
+      "learning_rate": 3.53181067630492e-06,
+      "loss": 0.84341019,
+      "num_input_tokens_seen": 43636870,
+      "step": 2043,
+      "time_per_iteration": 3.5574631690979004
+    },
+    {
+      "auxiliary_loss_clip": 0.01216236,
+      "auxiliary_loss_mlp": 0.01034981,
+      "balance_loss_clip": 1.0542841,
+      "balance_loss_mlp": 1.02499747,
+      "epoch": 0.24577646846630194,
+      "flos": 16581465515520.0,
+      "grad_norm": 2.703574482438782,
+      "language_loss": 0.75811613,
+      "learning_rate": 3.5313097176985175e-06,
+      "loss": 0.78062832,
+      "num_input_tokens_seen": 43655180,
+      "step": 2044,
+      "time_per_iteration": 3.5540263652801514
+    },
+    {
+      "auxiliary_loss_clip": 0.01220093,
+      "auxiliary_loss_mlp": 0.01030454,
+      "balance_loss_clip": 1.06000245,
+      "balance_loss_mlp": 1.0209651,
+      "epoch": 0.24589671135694102,
+      "flos": 18807424272000.0,
+      "grad_norm": 1.844643571232828,
+      "language_loss": 0.81407285,
+      "learning_rate": 3.5308085267936482e-06,
+      "loss": 0.83657831,
+      "num_input_tokens_seen": 43672895,
+      "step": 2045,
+      "time_per_iteration": 2.5885426998138428
+    },
+    {
+      "auxiliary_loss_clip": 0.01257957,
+      "auxiliary_loss_mlp": 0.01379709,
+      "balance_loss_clip": 1.05668676,
+      "balance_loss_mlp": 1.00009608,
+      "epoch": 0.2460169542475801,
+      "flos": 19938538529280.0,
+      "grad_norm": 1.6631793014145086,
+      "language_loss": 0.89960706,
+      "learning_rate": 3.530307103666342e-06,
+      "loss": 0.92598373,
+      "num_input_tokens_seen": 43691975,
+      "step": 2046,
+      "time_per_iteration": 2.7467620372772217
+    },
+    {
+      "auxiliary_loss_clip": 0.01240227,
+      "auxiliary_loss_mlp": 0.01037165,
+      "balance_loss_clip": 1.05695558,
+      "balance_loss_mlp": 1.02695513,
+      "epoch": 0.24613719713821922,
+      "flos": 24171221381760.0,
+      "grad_norm": 1.949944028510636,
+      "language_loss": 0.80404675,
+      "learning_rate": 3.5298054483926658e-06,
+      "loss": 0.82682073,
+      "num_input_tokens_seen": 43712670,
+      "step": 2047,
+      "time_per_iteration": 2.7142245769500732
+    },
+    {
+      "auxiliary_loss_clip": 0.01224322,
+      "auxiliary_loss_mlp": 0.01033212,
+      "balance_loss_clip": 1.05868495,
+      "balance_loss_mlp": 1.02356815,
+      "epoch": 0.2462574400288583,
+      "flos": 30221055325440.0,
+      "grad_norm": 2.883779632020731,
+      "language_loss": 0.82961524,
+      "learning_rate": 3.5293035610487187e-06,
+      "loss": 0.85219049,
+      "num_input_tokens_seen": 43732035,
+      "step": 2048,
+      "time_per_iteration": 3.632497549057007
+    },
+    {
+      "auxiliary_loss_clip": 0.01111619,
+      "auxiliary_loss_mlp": 0.01008291,
+      "balance_loss_clip": 1.01427555,
+      "balance_loss_mlp": 1.00628817,
+      "epoch": 0.24637768291949738,
+      "flos": 68943030819840.0,
+      "grad_norm": 0.7294651415359925,
+      "language_loss": 0.61951756,
+      "learning_rate": 3.5288014417106374e-06,
+      "loss": 0.64071667,
+      "num_input_tokens_seen": 43798055,
+      "step": 2049,
+      "time_per_iteration": 3.2497286796569824
+    },
+    {
+      "auxiliary_loss_clip": 0.01232837,
+      "auxiliary_loss_mlp": 0.01035182,
+      "balance_loss_clip": 1.0561018,
+      "balance_loss_mlp": 1.02511454,
+      "epoch": 0.24649792581013646,
+      "flos": 34383999922560.0,
+      "grad_norm": 1.927642426177276,
+      "language_loss": 0.75321186,
+      "learning_rate": 3.528299090454593e-06,
+      "loss": 0.77589208,
+      "num_input_tokens_seen": 43818590,
+      "step": 2050,
+      "time_per_iteration": 2.8483943939208984
+    },
+    {
+      "auxiliary_loss_clip": 0.01218853,
+      "auxiliary_loss_mlp": 0.01032133,
+      "balance_loss_clip": 1.05661178,
+      "balance_loss_mlp": 1.02291179,
+      "epoch": 0.24661816870077558,
+      "flos": 19680448331520.0,
+      "grad_norm": 2.271796053286622,
+      "language_loss": 0.82540429,
+      "learning_rate": 3.527796507356792e-06,
+      "loss": 0.8479141,
+      "num_input_tokens_seen": 43832480,
+      "step": 2051,
+      "time_per_iteration": 2.669682025909424
+    },
+    {
+      "auxiliary_loss_clip": 0.01224236,
+      "auxiliary_loss_mlp": 0.01032131,
+      "balance_loss_clip": 1.06038272,
+      "balance_loss_mlp": 1.0226959,
+      "epoch": 0.24673841159141466,
+      "flos": 20002279213440.0,
+      "grad_norm": 3.074510859881675,
+      "language_loss": 0.9020102,
+      "learning_rate": 3.527293692493475e-06,
+      "loss": 0.92457384,
+      "num_input_tokens_seen": 43848345,
+      "step": 2052,
+      "time_per_iteration": 2.6318836212158203
+    },
+    {
+      "auxiliary_loss_clip": 0.01218705,
+      "auxiliary_loss_mlp": 0.01039711,
+      "balance_loss_clip": 1.05718255,
+      "balance_loss_mlp": 1.02951837,
+      "epoch": 0.24685865448205374,
+      "flos": 21646593037440.0,
+      "grad_norm": 2.1573914909039456,
+      "language_loss": 0.72980338,
+      "learning_rate": 3.52679064594092e-06,
+      "loss": 0.75238752,
+      "num_input_tokens_seen": 43865685,
+      "step": 2053,
+      "time_per_iteration": 2.7400968074798584
+    },
+    {
+      "auxiliary_loss_clip": 0.01224243,
+      "auxiliary_loss_mlp": 0.01034573,
+      "balance_loss_clip": 1.04557729,
+      "balance_loss_mlp": 1.0251615,
+      "epoch": 0.24697889737269285,
+      "flos": 17960470508160.0,
+      "grad_norm": 2.453698078200559,
+      "language_loss": 0.74846709,
+      "learning_rate": 3.5262873677754375e-06,
+      "loss": 0.77105522,
+      "num_input_tokens_seen": 43883690,
+      "step": 2054,
+      "time_per_iteration": 3.04030442237854
+    },
+    {
+      "auxiliary_loss_clip": 0.01210014,
+      "auxiliary_loss_mlp": 0.01030057,
+      "balance_loss_clip": 1.06071162,
+      "balance_loss_mlp": 1.02081192,
+      "epoch": 0.24709914026333193,
+      "flos": 27344611221120.0,
+      "grad_norm": 1.703991849851044,
+      "language_loss": 0.80250013,
+      "learning_rate": 3.5257838580733745e-06,
+      "loss": 0.82490087,
+      "num_input_tokens_seen": 43903295,
+      "step": 2055,
+      "time_per_iteration": 2.712836265563965
+    },
+    {
+      "auxiliary_loss_clip": 0.0122349,
+      "auxiliary_loss_mlp": 0.01029203,
+      "balance_loss_clip": 1.05998707,
+      "balance_loss_mlp": 1.02005935,
+      "epoch": 0.24721938315397102,
+      "flos": 19275519335040.0,
+      "grad_norm": 2.3049524780301716,
+      "language_loss": 0.87080294,
+      "learning_rate": 3.5252801169111138e-06,
+      "loss": 0.89332986,
+      "num_input_tokens_seen": 43920960,
+      "step": 2056,
+      "time_per_iteration": 2.615565538406372
+    },
+    {
+      "auxiliary_loss_clip": 0.01224746,
+      "auxiliary_loss_mlp": 0.01031152,
+      "balance_loss_clip": 1.05878258,
+      "balance_loss_mlp": 1.0220567,
+      "epoch": 0.2473396260446101,
+      "flos": 23185796688000.0,
+      "grad_norm": 1.8583298488158333,
+      "language_loss": 0.79984415,
+      "learning_rate": 3.524776144365072e-06,
+      "loss": 0.82240307,
+      "num_input_tokens_seen": 43939415,
+      "step": 2057,
+      "time_per_iteration": 2.6894819736480713
+    },
+    {
+      "auxiliary_loss_clip": 0.01218242,
+      "auxiliary_loss_mlp": 0.01031601,
+      "balance_loss_clip": 1.05750084,
+      "balance_loss_mlp": 1.0220046,
+      "epoch": 0.2474598689352492,
+      "flos": 21142443697920.0,
+      "grad_norm": 1.635224657409408,
+      "language_loss": 0.79136765,
+      "learning_rate": 3.5242719405117016e-06,
+      "loss": 0.81386608,
+      "num_input_tokens_seen": 43959220,
+      "step": 2058,
+      "time_per_iteration": 2.7062013149261475
+    },
+    {
+      "auxiliary_loss_clip": 0.01228658,
+      "auxiliary_loss_mlp": 0.01380217,
+      "balance_loss_clip": 1.05917811,
+      "balance_loss_mlp": 1.00012231,
+      "epoch": 0.2475801118258883,
+      "flos": 21648352803840.0,
+      "grad_norm": 2.514840162354125,
+      "language_loss": 0.75136423,
+      "learning_rate": 3.5237675054274893e-06,
+      "loss": 0.77745295,
+      "num_input_tokens_seen": 43978420,
+      "step": 2059,
+      "time_per_iteration": 2.698370933532715
+    },
+    {
+      "auxiliary_loss_clip": 0.01220271,
+      "auxiliary_loss_mlp": 0.01030708,
+      "balance_loss_clip": 1.06014228,
+      "balance_loss_mlp": 1.02119553,
+      "epoch": 0.24770035471652738,
+      "flos": 22674500542080.0,
+      "grad_norm": 7.3655694562514675,
+      "language_loss": 0.80395854,
+      "learning_rate": 3.5232628391889584e-06,
+      "loss": 0.82646823,
+      "num_input_tokens_seen": 43996710,
+      "step": 2060,
+      "time_per_iteration": 2.630218744277954
+    },
+    {
+      "auxiliary_loss_clip": 0.0123939,
+      "auxiliary_loss_mlp": 0.01027487,
+      "balance_loss_clip": 1.05472362,
+      "balance_loss_mlp": 1.01851666,
+      "epoch": 0.2478205976071665,
+      "flos": 22163814927360.0,
+      "grad_norm": 2.1998158716787417,
+      "language_loss": 0.64622945,
+      "learning_rate": 3.522757941872666e-06,
+      "loss": 0.66889822,
+      "num_input_tokens_seen": 44014865,
+      "step": 2061,
+      "time_per_iteration": 2.7618143558502197
+    },
+    {
+      "auxiliary_loss_clip": 0.01215003,
+      "auxiliary_loss_mlp": 0.01380039,
+      "balance_loss_clip": 1.06495523,
+      "balance_loss_mlp": 1.000103,
+      "epoch": 0.24794084049780557,
+      "flos": 24973106555520.0,
+      "grad_norm": 1.5265644155811233,
+      "language_loss": 0.82403606,
+      "learning_rate": 3.5222528135552042e-06,
+      "loss": 0.84998649,
+      "num_input_tokens_seen": 44036325,
+      "step": 2062,
+      "time_per_iteration": 2.6908695697784424
+    },
+    {
+      "auxiliary_loss_clip": 0.01217713,
+      "auxiliary_loss_mlp": 0.01032549,
+      "balance_loss_clip": 1.06174314,
+      "balance_loss_mlp": 1.02390003,
+      "epoch": 0.24806108338844465,
+      "flos": 18296379521280.0,
+      "grad_norm": 1.7057297395284086,
+      "language_loss": 0.80424774,
+      "learning_rate": 3.521747454313201e-06,
+      "loss": 0.82675034,
+      "num_input_tokens_seen": 44055005,
+      "step": 2063,
+      "time_per_iteration": 2.717841386795044
+    },
+    {
+      "auxiliary_loss_clip": 0.01221344,
+      "auxiliary_loss_mlp": 0.01038151,
+      "balance_loss_clip": 1.0499537,
+      "balance_loss_mlp": 1.02896631,
+      "epoch": 0.24818132627908374,
+      "flos": 19282163351040.0,
+      "grad_norm": 3.9226026747136564,
+      "language_loss": 0.66656649,
+      "learning_rate": 3.521241864223319e-06,
+      "loss": 0.68916142,
+      "num_input_tokens_seen": 44073965,
+      "step": 2064,
+      "time_per_iteration": 2.745756149291992
+    },
+    {
+      "auxiliary_loss_clip": 0.01125121,
+      "auxiliary_loss_mlp": 0.01005854,
+      "balance_loss_clip": 1.02165794,
+      "balance_loss_mlp": 1.00377941,
+      "epoch": 0.24830156916972285,
+      "flos": 70285837881600.0,
+      "grad_norm": 0.7888047600010081,
+      "language_loss": 0.61965692,
+      "learning_rate": 3.5207360433622552e-06,
+      "loss": 0.64096665,
+      "num_input_tokens_seen": 44135965,
+      "step": 2065,
+      "time_per_iteration": 3.2293834686279297
+    },
+    {
+      "auxiliary_loss_clip": 0.01220574,
+      "auxiliary_loss_mlp": 0.01033182,
+      "balance_loss_clip": 1.05883706,
+      "balance_loss_mlp": 1.02413988,
+      "epoch": 0.24842181206036193,
+      "flos": 40409128287360.0,
+      "grad_norm": 1.6927779934345957,
+      "language_loss": 0.74607641,
+      "learning_rate": 3.5202299918067437e-06,
+      "loss": 0.76861393,
+      "num_input_tokens_seen": 44159560,
+      "step": 2066,
+      "time_per_iteration": 2.8857107162475586
+    },
+    {
+      "auxiliary_loss_clip": 0.01217459,
+      "auxiliary_loss_mlp": 0.01034718,
+      "balance_loss_clip": 1.05918694,
+      "balance_loss_mlp": 1.02577734,
+      "epoch": 0.248542054951001,
+      "flos": 20082432412800.0,
+      "grad_norm": 2.3372431267064173,
+      "language_loss": 0.69162488,
+      "learning_rate": 3.519723709633551e-06,
+      "loss": 0.71414667,
+      "num_input_tokens_seen": 44178320,
+      "step": 2067,
+      "time_per_iteration": 2.634671688079834
+    },
+    {
+      "auxiliary_loss_clip": 0.01218433,
+      "auxiliary_loss_mlp": 0.01031124,
+      "balance_loss_clip": 1.05722928,
+      "balance_loss_mlp": 1.02214718,
+      "epoch": 0.24866229784164012,
+      "flos": 23513948363520.0,
+      "grad_norm": 2.1715670530012794,
+      "language_loss": 0.83472335,
+      "learning_rate": 3.519217196919479e-06,
+      "loss": 0.85721898,
+      "num_input_tokens_seen": 44197305,
+      "step": 2068,
+      "time_per_iteration": 3.62564754486084
+    },
+    {
+      "auxiliary_loss_clip": 0.01228122,
+      "auxiliary_loss_mlp": 0.01038584,
+      "balance_loss_clip": 1.05841291,
+      "balance_loss_mlp": 1.0289104,
+      "epoch": 0.2487825407322792,
+      "flos": 19865101173120.0,
+      "grad_norm": 2.0598769834573427,
+      "language_loss": 0.73250651,
+      "learning_rate": 3.518710453741367e-06,
+      "loss": 0.75517356,
+      "num_input_tokens_seen": 44216505,
+      "step": 2069,
+      "time_per_iteration": 3.6784462928771973
+    },
+    {
+      "auxiliary_loss_clip": 0.01214742,
+      "auxiliary_loss_mlp": 0.01380056,
+      "balance_loss_clip": 1.05457616,
+      "balance_loss_mlp": 1.00002146,
+      "epoch": 0.2489027836229183,
+      "flos": 22017622573440.0,
+      "grad_norm": 2.364489353865733,
+      "language_loss": 0.67932814,
+      "learning_rate": 3.518203480176086e-06,
+      "loss": 0.70527613,
+      "num_input_tokens_seen": 44235435,
+      "step": 2070,
+      "time_per_iteration": 3.6321465969085693
+    },
+    {
+      "auxiliary_loss_clip": 0.01253221,
+      "auxiliary_loss_mlp": 0.01035724,
+      "balance_loss_clip": 1.04659605,
+      "balance_loss_mlp": 1.02676511,
+      "epoch": 0.2490230265135574,
+      "flos": 23294354567040.0,
+      "grad_norm": 2.229371264789957,
+      "language_loss": 0.80861366,
+      "learning_rate": 3.517696276300545e-06,
+      "loss": 0.83150303,
+      "num_input_tokens_seen": 44256975,
+      "step": 2071,
+      "time_per_iteration": 2.822768449783325
+    },
+    {
+      "auxiliary_loss_clip": 0.01220416,
+      "auxiliary_loss_mlp": 0.01049764,
+      "balance_loss_clip": 1.06263769,
+      "balance_loss_mlp": 1.0402329,
+      "epoch": 0.24914326940419648,
+      "flos": 19826784339840.0,
+      "grad_norm": 2.7230443716224344,
+      "language_loss": 0.68796396,
+      "learning_rate": 3.517188842191685e-06,
+      "loss": 0.71066576,
+      "num_input_tokens_seen": 44275125,
+      "step": 2072,
+      "time_per_iteration": 2.6622917652130127
+    },
+    {
+      "auxiliary_loss_clip": 0.01213655,
+      "auxiliary_loss_mlp": 0.01031373,
+      "balance_loss_clip": 1.05752826,
+      "balance_loss_mlp": 1.02190232,
+      "epoch": 0.24926351229483557,
+      "flos": 20229271211520.0,
+      "grad_norm": 1.8315238934436402,
+      "language_loss": 0.73818892,
+      "learning_rate": 3.5166811779264837e-06,
+      "loss": 0.76063919,
+      "num_input_tokens_seen": 44295445,
+      "step": 2073,
+      "time_per_iteration": 2.6737101078033447
+    },
+    {
+      "auxiliary_loss_clip": 0.01208305,
+      "auxiliary_loss_mlp": 0.0103302,
+      "balance_loss_clip": 1.05991793,
+      "balance_loss_mlp": 1.02421081,
+      "epoch": 0.24938375518547465,
+      "flos": 23294570048640.0,
+      "grad_norm": 1.9670142333872231,
+      "language_loss": 0.77948451,
+      "learning_rate": 3.5161732835819545e-06,
+      "loss": 0.80189776,
+      "num_input_tokens_seen": 44314755,
+      "step": 2074,
+      "time_per_iteration": 3.5835156440734863
+    },
+    {
+      "auxiliary_loss_clip": 0.01207488,
+      "auxiliary_loss_mlp": 0.01033764,
+      "balance_loss_clip": 1.06022596,
+      "balance_loss_mlp": 1.02500188,
+      "epoch": 0.24950399807611376,
+      "flos": 17311673099520.0,
+      "grad_norm": 1.7648449369674784,
+      "language_loss": 0.83231044,
+      "learning_rate": 3.515665159235143e-06,
+      "loss": 0.85472298,
+      "num_input_tokens_seen": 44333640,
+      "step": 2075,
+      "time_per_iteration": 2.5851874351501465
+    },
+    {
+      "auxiliary_loss_clip": 0.0122034,
+      "auxiliary_loss_mlp": 0.01030392,
+      "balance_loss_clip": 1.05442023,
+      "balance_loss_mlp": 1.02181494,
+      "epoch": 0.24962424096675284,
+      "flos": 19024863252480.0,
+      "grad_norm": 1.5184575385305128,
+      "language_loss": 0.75047755,
+      "learning_rate": 3.5151568049631318e-06,
+      "loss": 0.77298486,
+      "num_input_tokens_seen": 44352355,
+      "step": 2076,
+      "time_per_iteration": 2.6964640617370605
+    },
+    {
+      "auxiliary_loss_clip": 0.0121097,
+      "auxiliary_loss_mlp": 0.01029829,
+      "balance_loss_clip": 1.06164312,
+      "balance_loss_mlp": 1.02051306,
+      "epoch": 0.24974448385739192,
+      "flos": 33398790710400.0,
+      "grad_norm": 1.7392806422407396,
+      "language_loss": 0.80573785,
+      "learning_rate": 3.5146482208430385e-06,
+      "loss": 0.82814586,
+      "num_input_tokens_seen": 44374185,
+      "step": 2077,
+      "time_per_iteration": 2.736570358276367
+    },
+    {
+      "auxiliary_loss_clip": 0.01233889,
+      "auxiliary_loss_mlp": 0.01039802,
+      "balance_loss_clip": 1.04779637,
+      "balance_loss_mlp": 1.02943683,
+      "epoch": 0.24986472674803104,
+      "flos": 30007279532160.0,
+      "grad_norm": 2.470464380283846,
+      "language_loss": 0.67676413,
+      "learning_rate": 3.514139406952014e-06,
+      "loss": 0.69950104,
+      "num_input_tokens_seen": 44396210,
+      "step": 2078,
+      "time_per_iteration": 2.810161590576172
+    },
+    {
+      "auxiliary_loss_clip": 0.01217235,
+      "auxiliary_loss_mlp": 0.01037921,
+      "balance_loss_clip": 1.05978,
+      "balance_loss_mlp": 1.02920675,
+      "epoch": 0.24998496963867012,
+      "flos": 26613074833920.0,
+      "grad_norm": 2.0214597872551576,
+      "language_loss": 0.83327508,
+      "learning_rate": 3.5136303633672454e-06,
+      "loss": 0.85582662,
+      "num_input_tokens_seen": 44416340,
+      "step": 2079,
+      "time_per_iteration": 2.681514024734497
+    },
+    {
+      "auxiliary_loss_clip": 0.01243268,
+      "auxiliary_loss_mlp": 0.01379794,
+      "balance_loss_clip": 1.05772448,
+      "balance_loss_mlp": 1.00010872,
+      "epoch": 0.25010521252930923,
+      "flos": 23553989049600.0,
+      "grad_norm": 1.7559197650254197,
+      "language_loss": 0.74613923,
+      "learning_rate": 3.5131210901659544e-06,
+      "loss": 0.77236986,
+      "num_input_tokens_seen": 44438095,
+      "step": 2080,
+      "time_per_iteration": 2.741938352584839
+    },
+    {
+      "auxiliary_loss_clip": 0.01227729,
+      "auxiliary_loss_mlp": 0.01032596,
+      "balance_loss_clip": 1.05410075,
+      "balance_loss_mlp": 1.0239116,
+      "epoch": 0.2502254554199483,
+      "flos": 23441193365760.0,
+      "grad_norm": 2.48608459474283,
+      "language_loss": 0.81882632,
+      "learning_rate": 3.5126115874253967e-06,
+      "loss": 0.84142959,
+      "num_input_tokens_seen": 44457650,
+      "step": 2081,
+      "time_per_iteration": 2.8057162761688232
+    },
+    {
+      "auxiliary_loss_clip": 0.01236003,
+      "auxiliary_loss_mlp": 0.01029844,
+      "balance_loss_clip": 1.05716193,
+      "balance_loss_mlp": 1.02020001,
+      "epoch": 0.2503456983105874,
+      "flos": 28761681651840.0,
+      "grad_norm": 2.1495778581183322,
+      "language_loss": 0.80722177,
+      "learning_rate": 3.5121018552228644e-06,
+      "loss": 0.82988024,
+      "num_input_tokens_seen": 44476155,
+      "step": 2082,
+      "time_per_iteration": 2.740056037902832
+    },
+    {
+      "auxiliary_loss_clip": 0.01234569,
+      "auxiliary_loss_mlp": 0.01036796,
+      "balance_loss_clip": 1.05784702,
+      "balance_loss_mlp": 1.02782536,
+      "epoch": 0.2504659412012265,
+      "flos": 18770256673920.0,
+      "grad_norm": 2.5232629337923353,
+      "language_loss": 0.76118112,
+      "learning_rate": 3.5115918936356827e-06,
+      "loss": 0.78389472,
+      "num_input_tokens_seen": 44492910,
+      "step": 2083,
+      "time_per_iteration": 2.855879545211792
+    },
+    {
+      "auxiliary_loss_clip": 0.01207565,
+      "auxiliary_loss_mlp": 0.01037492,
+      "balance_loss_clip": 1.05066431,
+      "balance_loss_mlp": 1.02820587,
+      "epoch": 0.25058618409186556,
+      "flos": 16873383346560.0,
+      "grad_norm": 1.8660111825496413,
+      "language_loss": 0.78465223,
+      "learning_rate": 3.5110817027412123e-06,
+      "loss": 0.8071028,
+      "num_input_tokens_seen": 44512000,
+      "step": 2084,
+      "time_per_iteration": 2.7938971519470215
+    },
+    {
+      "auxiliary_loss_clip": 0.01226071,
+      "auxiliary_loss_mlp": 0.01034324,
+      "balance_loss_clip": 1.05309761,
+      "balance_loss_mlp": 1.02500212,
+      "epoch": 0.25070642698250467,
+      "flos": 24425540651520.0,
+      "grad_norm": 1.915342264529471,
+      "language_loss": 0.68506426,
+      "learning_rate": 3.5105712826168493e-06,
+      "loss": 0.70766819,
+      "num_input_tokens_seen": 44531650,
+      "step": 2085,
+      "time_per_iteration": 2.7941017150878906
+    },
+    {
+      "auxiliary_loss_clip": 0.01215073,
+      "auxiliary_loss_mlp": 0.01379712,
+      "balance_loss_clip": 1.05858159,
+      "balance_loss_mlp": 1.00003386,
+      "epoch": 0.2508266698731437,
+      "flos": 20260944028800.0,
+      "grad_norm": 1.9602359210215499,
+      "language_loss": 0.70658189,
+      "learning_rate": 3.5100606333400235e-06,
+      "loss": 0.7325297,
+      "num_input_tokens_seen": 44548785,
+      "step": 2086,
+      "time_per_iteration": 2.7271203994750977
+    },
+    {
+      "auxiliary_loss_clip": 0.01235457,
+      "auxiliary_loss_mlp": 0.01033891,
+      "balance_loss_clip": 1.05766237,
+      "balance_loss_mlp": 1.02449167,
+      "epoch": 0.25094691276378284,
+      "flos": 19245318975360.0,
+      "grad_norm": 2.8836181823197147,
+      "language_loss": 0.77509308,
+      "learning_rate": 3.5095497549882006e-06,
+      "loss": 0.79778659,
+      "num_input_tokens_seen": 44567230,
+      "step": 2087,
+      "time_per_iteration": 2.736361265182495
+    },
+    {
+      "auxiliary_loss_clip": 0.01220028,
+      "auxiliary_loss_mlp": 0.01038664,
+      "balance_loss_clip": 1.06118858,
+      "balance_loss_mlp": 1.02966404,
+      "epoch": 0.25106715565442195,
+      "flos": 26943237671040.0,
+      "grad_norm": 2.1334266070353523,
+      "language_loss": 0.71949273,
+      "learning_rate": 3.50903864763888e-06,
+      "loss": 0.74207968,
+      "num_input_tokens_seen": 44588020,
+      "step": 2088,
+      "time_per_iteration": 2.7247262001037598
+    },
+    {
+      "auxiliary_loss_clip": 0.01223302,
+      "auxiliary_loss_mlp": 0.01031387,
+      "balance_loss_clip": 1.06078577,
+      "balance_loss_mlp": 1.02180886,
+      "epoch": 0.251187398545061,
+      "flos": 48359570572800.0,
+      "grad_norm": 2.0685188628059925,
+      "language_loss": 0.75891906,
+      "learning_rate": 3.5085273113695965e-06,
+      "loss": 0.78146589,
+      "num_input_tokens_seen": 44612590,
+      "step": 2089,
+      "time_per_iteration": 2.8553106784820557
+    },
+    {
+      "auxiliary_loss_clip": 0.01210456,
+      "auxiliary_loss_mlp": 0.01034499,
+      "balance_loss_clip": 1.06161308,
+      "balance_loss_mlp": 1.02511764,
+      "epoch": 0.2513076414357001,
+      "flos": 27016100409600.0,
+      "grad_norm": 1.7806143073837712,
+      "language_loss": 0.78674042,
+      "learning_rate": 3.508015746257919e-06,
+      "loss": 0.80919003,
+      "num_input_tokens_seen": 44631630,
+      "step": 2090,
+      "time_per_iteration": 2.6844940185546875
+    },
+    {
+      "auxiliary_loss_clip": 0.01238792,
+      "auxiliary_loss_mlp": 0.0103524,
+      "balance_loss_clip": 1.05692005,
+      "balance_loss_mlp": 1.02595997,
+      "epoch": 0.2514278843263392,
+      "flos": 19463619882240.0,
+      "grad_norm": 2.1036162392830375,
+      "language_loss": 0.83427,
+      "learning_rate": 3.5075039523814518e-06,
+      "loss": 0.85701025,
+      "num_input_tokens_seen": 44650820,
+      "step": 2091,
+      "time_per_iteration": 2.6807057857513428
+    },
+    {
+      "auxiliary_loss_clip": 0.01224537,
+      "auxiliary_loss_mlp": 0.0103418,
+      "balance_loss_clip": 1.05950904,
+      "balance_loss_mlp": 1.02448809,
+      "epoch": 0.2515481272169783,
+      "flos": 16866092885760.0,
+      "grad_norm": 2.144878397307424,
+      "language_loss": 0.81909293,
+      "learning_rate": 3.506991929817834e-06,
+      "loss": 0.84168005,
+      "num_input_tokens_seen": 44667540,
+      "step": 2092,
+      "time_per_iteration": 2.650557279586792
+    },
+    {
+      "auxiliary_loss_clip": 0.01208765,
+      "auxiliary_loss_mlp": 0.0102497,
+      "balance_loss_clip": 1.06438863,
+      "balance_loss_mlp": 1.0163393,
+      "epoch": 0.2516683701076174,
+      "flos": 23732464752000.0,
+      "grad_norm": 2.6616176606872903,
+      "language_loss": 0.82509005,
+      "learning_rate": 3.506479678644738e-06,
+      "loss": 0.84742737,
+      "num_input_tokens_seen": 44687935,
+      "step": 2093,
+      "time_per_iteration": 2.6269052028656006
+    },
+    {
+      "auxiliary_loss_clip": 0.01231535,
+      "auxiliary_loss_mlp": 0.01034234,
+      "balance_loss_clip": 1.05395508,
+      "balance_loss_mlp": 1.02503657,
+      "epoch": 0.2517886129982565,
+      "flos": 27635954434560.0,
+      "grad_norm": 114.89622509254856,
+      "language_loss": 0.73651421,
+      "learning_rate": 3.505967198939873e-06,
+      "loss": 0.75917184,
+      "num_input_tokens_seen": 44704975,
+      "step": 2094,
+      "time_per_iteration": 3.6834490299224854
+    },
+    {
+      "auxiliary_loss_clip": 0.01221061,
+      "auxiliary_loss_mlp": 0.01032691,
+      "balance_loss_clip": 1.0533576,
+      "balance_loss_mlp": 1.02413166,
+      "epoch": 0.25190885588889556,
+      "flos": 38104596529920.0,
+      "grad_norm": 1.9947318985298663,
+      "language_loss": 0.78201473,
+      "learning_rate": 3.5054544907809813e-06,
+      "loss": 0.80455232,
+      "num_input_tokens_seen": 44725475,
+      "step": 2095,
+      "time_per_iteration": 3.831298828125
+    },
+    {
+      "auxiliary_loss_clip": 0.01223513,
+      "auxiliary_loss_mlp": 0.01380035,
+      "balance_loss_clip": 1.05863488,
+      "balance_loss_mlp": 1.00007319,
+      "epoch": 0.25202909877953467,
+      "flos": 22269894768000.0,
+      "grad_norm": 2.410135688629215,
+      "language_loss": 0.8083927,
+      "learning_rate": 3.50494155424584e-06,
+      "loss": 0.83442819,
+      "num_input_tokens_seen": 44744380,
+      "step": 2096,
+      "time_per_iteration": 3.700204849243164
+    },
+    {
+      "auxiliary_loss_clip": 0.01220419,
+      "auxiliary_loss_mlp": 0.01030075,
+      "balance_loss_clip": 1.0599792,
+      "balance_loss_mlp": 1.02134323,
+      "epoch": 0.2521493416701738,
+      "flos": 21761759018880.0,
+      "grad_norm": 1.7944974620139096,
+      "language_loss": 0.83422399,
+      "learning_rate": 3.504428389412262e-06,
+      "loss": 0.85672891,
+      "num_input_tokens_seen": 44765190,
+      "step": 2097,
+      "time_per_iteration": 2.727177143096924
+    },
+    {
+      "auxiliary_loss_clip": 0.01213768,
+      "auxiliary_loss_mlp": 0.01028821,
+      "balance_loss_clip": 1.05768108,
+      "balance_loss_mlp": 1.0193615,
+      "epoch": 0.25226958456081283,
+      "flos": 27746738956800.0,
+      "grad_norm": 4.7033508974582805,
+      "language_loss": 0.73435926,
+      "learning_rate": 3.5039149963580927e-06,
+      "loss": 0.75678515,
+      "num_input_tokens_seen": 44785210,
+      "step": 2098,
+      "time_per_iteration": 2.8204612731933594
+    },
+    {
+      "auxiliary_loss_clip": 0.01221191,
+      "auxiliary_loss_mlp": 0.01031567,
+      "balance_loss_clip": 1.05927122,
+      "balance_loss_mlp": 1.02257288,
+      "epoch": 0.25238982745145194,
+      "flos": 30732171903360.0,
+      "grad_norm": 3.079995695486305,
+      "language_loss": 0.70115268,
+      "learning_rate": 3.503401375161215e-06,
+      "loss": 0.72368026,
+      "num_input_tokens_seen": 44804955,
+      "step": 2099,
+      "time_per_iteration": 2.7657387256622314
+    },
+    {
+      "auxiliary_loss_clip": 0.01205731,
+      "auxiliary_loss_mlp": 0.01029951,
+      "balance_loss_clip": 1.05919552,
+      "balance_loss_mlp": 1.02071881,
+      "epoch": 0.252510070342091,
+      "flos": 20266331068800.0,
+      "grad_norm": 3.388325926503128,
+      "language_loss": 0.83663917,
+      "learning_rate": 3.502887525899544e-06,
+      "loss": 0.85899603,
+      "num_input_tokens_seen": 44823935,
+      "step": 2100,
+      "time_per_iteration": 3.5313668251037598
+    },
+    {
+      "auxiliary_loss_clip": 0.01224801,
+      "auxiliary_loss_mlp": 0.01034936,
+      "balance_loss_clip": 1.0566901,
+      "balance_loss_mlp": 1.02553654,
+      "epoch": 0.2526303132327301,
+      "flos": 22747399194240.0,
+      "grad_norm": 2.1197750163295477,
+      "language_loss": 0.82893789,
+      "learning_rate": 3.50237344865103e-06,
+      "loss": 0.85153526,
+      "num_input_tokens_seen": 44844935,
+      "step": 2101,
+      "time_per_iteration": 2.7069246768951416
+    },
+    {
+      "auxiliary_loss_clip": 0.0120978,
+      "auxiliary_loss_mlp": 0.01032638,
+      "balance_loss_clip": 1.06180167,
+      "balance_loss_mlp": 1.02400124,
+      "epoch": 0.2527505561233692,
+      "flos": 30263466309120.0,
+      "grad_norm": 2.5647290340647184,
+      "language_loss": 0.7608279,
+      "learning_rate": 3.501859143493658e-06,
+      "loss": 0.78325212,
+      "num_input_tokens_seen": 44865565,
+      "step": 2102,
+      "time_per_iteration": 2.680898666381836
+    },
+    {
+      "auxiliary_loss_clip": 0.01107054,
+      "auxiliary_loss_mlp": 0.01000394,
+      "balance_loss_clip": 1.02854872,
+      "balance_loss_mlp": 0.99842721,
+      "epoch": 0.2528707990140083,
+      "flos": 58492917164160.0,
+      "grad_norm": 0.933474489071914,
+      "language_loss": 0.60532445,
+      "learning_rate": 3.5013446105054488e-06,
+      "loss": 0.62639892,
+      "num_input_tokens_seen": 44918485,
+      "step": 2103,
+      "time_per_iteration": 2.924302577972412
+    },
+    {
+      "auxiliary_loss_clip": 0.01216513,
+      "auxiliary_loss_mlp": 0.01036666,
+      "balance_loss_clip": 1.05246449,
+      "balance_loss_mlp": 1.02761173,
+      "epoch": 0.2529910419046474,
+      "flos": 24645134448000.0,
+      "grad_norm": 1.7498182130074202,
+      "language_loss": 0.75139898,
+      "learning_rate": 3.5008298497644555e-06,
+      "loss": 0.77393079,
+      "num_input_tokens_seen": 44937530,
+      "step": 2104,
+      "time_per_iteration": 2.713329315185547
+    },
+    {
+      "auxiliary_loss_clip": 0.0123791,
+      "auxiliary_loss_mlp": 0.01032872,
+      "balance_loss_clip": 1.0577507,
+      "balance_loss_mlp": 1.0235076,
+      "epoch": 0.2531112847952865,
+      "flos": 23842135952640.0,
+      "grad_norm": 1.9115499471751514,
+      "language_loss": 0.87851214,
+      "learning_rate": 3.500314861348767e-06,
+      "loss": 0.9012199,
+      "num_input_tokens_seen": 44958165,
+      "step": 2105,
+      "time_per_iteration": 2.7490594387054443
+    },
+    {
+      "auxiliary_loss_clip": 0.01225381,
+      "auxiliary_loss_mlp": 0.01036376,
+      "balance_loss_clip": 1.05747163,
+      "balance_loss_mlp": 1.02652907,
+      "epoch": 0.25323152768592555,
+      "flos": 16143822207360.0,
+      "grad_norm": 1.8308964842969995,
+      "language_loss": 0.77109367,
+      "learning_rate": 3.499799645336507e-06,
+      "loss": 0.79371119,
+      "num_input_tokens_seen": 44975060,
+      "step": 2106,
+      "time_per_iteration": 2.8674490451812744
+    },
+    {
+      "auxiliary_loss_clip": 0.01220329,
+      "auxiliary_loss_mlp": 0.01028459,
+      "balance_loss_clip": 1.06219506,
+      "balance_loss_mlp": 1.02040088,
+      "epoch": 0.25335177057656466,
+      "flos": 28405161210240.0,
+      "grad_norm": 1.8499969309369615,
+      "language_loss": 0.86861753,
+      "learning_rate": 3.4992842018058336e-06,
+      "loss": 0.89110541,
+      "num_input_tokens_seen": 44997960,
+      "step": 2107,
+      "time_per_iteration": 2.716810464859009
+    },
+    {
+      "auxiliary_loss_clip": 0.01241413,
+      "auxiliary_loss_mlp": 0.01030797,
+      "balance_loss_clip": 1.05664182,
+      "balance_loss_mlp": 1.02142119,
+      "epoch": 0.25347201346720377,
+      "flos": 18799666934400.0,
+      "grad_norm": 2.7610290948353597,
+      "language_loss": 0.88217378,
+      "learning_rate": 3.4987685308349384e-06,
+      "loss": 0.9048959,
+      "num_input_tokens_seen": 45015690,
+      "step": 2108,
+      "time_per_iteration": 2.648028612136841
+    },
+    {
+      "auxiliary_loss_clip": 0.01227929,
+      "auxiliary_loss_mlp": 0.01032424,
+      "balance_loss_clip": 1.05044746,
+      "balance_loss_mlp": 1.02344131,
+      "epoch": 0.2535922563578428,
+      "flos": 15815490963840.0,
+      "grad_norm": 2.211712648109795,
+      "language_loss": 0.61665857,
+      "learning_rate": 3.4982526325020497e-06,
+      "loss": 0.63926208,
+      "num_input_tokens_seen": 45032660,
+      "step": 2109,
+      "time_per_iteration": 2.7571210861206055
+    },
+    {
+      "auxiliary_loss_clip": 0.01226524,
+      "auxiliary_loss_mlp": 0.01034545,
+      "balance_loss_clip": 1.05646062,
+      "balance_loss_mlp": 1.02519321,
+      "epoch": 0.25371249924848194,
+      "flos": 16318922031360.0,
+      "grad_norm": 2.118249265403673,
+      "language_loss": 0.81725073,
+      "learning_rate": 3.4977365068854273e-06,
+      "loss": 0.83986139,
+      "num_input_tokens_seen": 45048280,
+      "step": 2110,
+      "time_per_iteration": 2.612539529800415
+    },
+    {
+      "auxiliary_loss_clip": 0.01214988,
+      "auxiliary_loss_mlp": 0.01030595,
+      "balance_loss_clip": 1.05496693,
+      "balance_loss_mlp": 1.02124858,
+      "epoch": 0.25383274213912105,
+      "flos": 21761615364480.0,
+      "grad_norm": 1.784678956235311,
+      "language_loss": 0.7356075,
+      "learning_rate": 3.4972201540633676e-06,
+      "loss": 0.75806338,
+      "num_input_tokens_seen": 45067635,
+      "step": 2111,
+      "time_per_iteration": 2.731476306915283
+    },
+    {
+      "auxiliary_loss_clip": 0.01216818,
+      "auxiliary_loss_mlp": 0.01033315,
+      "balance_loss_clip": 1.05631125,
+      "balance_loss_mlp": 1.02442765,
+      "epoch": 0.2539529850297601,
+      "flos": 21396870708480.0,
+      "grad_norm": 1.8555367411313184,
+      "language_loss": 0.85012782,
+      "learning_rate": 3.4967035741142008e-06,
+      "loss": 0.87262917,
+      "num_input_tokens_seen": 45086455,
+      "step": 2112,
+      "time_per_iteration": 2.874671459197998
+    },
+    {
+      "auxiliary_loss_clip": 0.01217284,
+      "auxiliary_loss_mlp": 0.01034287,
+      "balance_loss_clip": 1.06089306,
+      "balance_loss_mlp": 1.02584112,
+      "epoch": 0.2540732279203992,
+      "flos": 25228467319680.0,
+      "grad_norm": 1.8438296706737982,
+      "language_loss": 0.82112944,
+      "learning_rate": 3.4961867671162917e-06,
+      "loss": 0.8436451,
+      "num_input_tokens_seen": 45106385,
+      "step": 2113,
+      "time_per_iteration": 2.673252820968628
+    },
+    {
+      "auxiliary_loss_clip": 0.01209725,
+      "auxiliary_loss_mlp": 0.01036758,
+      "balance_loss_clip": 1.05956268,
+      "balance_loss_mlp": 1.02741241,
+      "epoch": 0.2541934708110383,
+      "flos": 19427386037760.0,
+      "grad_norm": 2.8518102257277684,
+      "language_loss": 0.77218843,
+      "learning_rate": 3.4956697331480402e-06,
+      "loss": 0.79465324,
+      "num_input_tokens_seen": 45124955,
+      "step": 2114,
+      "time_per_iteration": 2.6098625659942627
+    },
+    {
+      "auxiliary_loss_clip": 0.01236301,
+      "auxiliary_loss_mlp": 0.01034088,
+      "balance_loss_clip": 1.05417717,
+      "balance_loss_mlp": 1.02444994,
+      "epoch": 0.2543137137016774,
+      "flos": 23949436855680.0,
+      "grad_norm": 1.5315839582750712,
+      "language_loss": 0.79944849,
+      "learning_rate": 3.495152472287879e-06,
+      "loss": 0.82215232,
+      "num_input_tokens_seen": 45145665,
+      "step": 2115,
+      "time_per_iteration": 2.804514169692993
+    },
+    {
+      "auxiliary_loss_clip": 0.0123808,
+      "auxiliary_loss_mlp": 0.01036418,
+      "balance_loss_clip": 1.05869269,
+      "balance_loss_mlp": 1.02735233,
+      "epoch": 0.2544339565923165,
+      "flos": 25593283802880.0,
+      "grad_norm": 1.543667602558463,
+      "language_loss": 0.74030709,
+      "learning_rate": 3.4946349846142766e-06,
+      "loss": 0.76305217,
+      "num_input_tokens_seen": 45164805,
+      "step": 2116,
+      "time_per_iteration": 2.806182384490967
+    },
+    {
+      "auxiliary_loss_clip": 0.01207448,
+      "auxiliary_loss_mlp": 0.0103061,
+      "balance_loss_clip": 1.0602262,
+      "balance_loss_mlp": 1.02150846,
+      "epoch": 0.25455419948295555,
+      "flos": 21689470897920.0,
+      "grad_norm": 3.192980015718693,
+      "language_loss": 0.75612187,
+      "learning_rate": 3.4941172702057353e-06,
+      "loss": 0.77850246,
+      "num_input_tokens_seen": 45184865,
+      "step": 2117,
+      "time_per_iteration": 2.784372568130493
+    },
+    {
+      "auxiliary_loss_clip": 0.01228397,
+      "auxiliary_loss_mlp": 0.01030518,
+      "balance_loss_clip": 1.06001627,
+      "balance_loss_mlp": 1.02185726,
+      "epoch": 0.25467444237359466,
+      "flos": 26250341339520.0,
+      "grad_norm": 1.823697049294683,
+      "language_loss": 0.80296338,
+      "learning_rate": 3.4935993291407924e-06,
+      "loss": 0.82555258,
+      "num_input_tokens_seen": 45203690,
+      "step": 2118,
+      "time_per_iteration": 2.7931201457977295
+    },
+    {
+      "auxiliary_loss_clip": 0.01222622,
+      "auxiliary_loss_mlp": 0.01037413,
+      "balance_loss_clip": 1.05819547,
+      "balance_loss_mlp": 1.02846014,
+      "epoch": 0.25479468526423377,
+      "flos": 26979686997120.0,
+      "grad_norm": 2.3098919261683464,
+      "language_loss": 0.71061528,
+      "learning_rate": 3.4930811614980183e-06,
+      "loss": 0.73321563,
+      "num_input_tokens_seen": 45225385,
+      "step": 2119,
+      "time_per_iteration": 2.783573865890503
+    },
+    {
+      "auxiliary_loss_clip": 0.01212104,
+      "auxiliary_loss_mlp": 0.01034823,
+      "balance_loss_clip": 1.0591085,
+      "balance_loss_mlp": 1.02581692,
+      "epoch": 0.2549149281548728,
+      "flos": 23475811098240.0,
+      "grad_norm": 1.6374231468039468,
+      "language_loss": 0.79476827,
+      "learning_rate": 3.4925627673560198e-06,
+      "loss": 0.81723762,
+      "num_input_tokens_seen": 45246045,
+      "step": 2120,
+      "time_per_iteration": 3.578296422958374
+    },
+    {
+      "auxiliary_loss_clip": 0.01233405,
+      "auxiliary_loss_mlp": 0.0104319,
+      "balance_loss_clip": 1.05631137,
+      "balance_loss_mlp": 1.03363514,
+      "epoch": 0.25503517104551193,
+      "flos": 25812302981760.0,
+      "grad_norm": 1.871256454013379,
+      "language_loss": 0.88211864,
+      "learning_rate": 3.4920441467934357e-06,
+      "loss": 0.90488464,
+      "num_input_tokens_seen": 45266560,
+      "step": 2121,
+      "time_per_iteration": 3.689966917037964
+    },
+    {
+      "auxiliary_loss_clip": 0.01222869,
+      "auxiliary_loss_mlp": 0.01032,
+      "balance_loss_clip": 1.05446374,
+      "balance_loss_mlp": 1.02318478,
+      "epoch": 0.25515541393615104,
+      "flos": 26645106787200.0,
+      "grad_norm": 2.1486186407143895,
+      "language_loss": 0.82530546,
+      "learning_rate": 3.491525299888941e-06,
+      "loss": 0.84785414,
+      "num_input_tokens_seen": 45285405,
+      "step": 2122,
+      "time_per_iteration": 3.7079710960388184
+    },
+    {
+      "auxiliary_loss_clip": 0.01119278,
+      "auxiliary_loss_mlp": 0.01375479,
+      "balance_loss_clip": 1.0271827,
+      "balance_loss_mlp": 0.99963123,
+      "epoch": 0.2552756568267901,
+      "flos": 65955945847680.0,
+      "grad_norm": 0.8808916388320076,
+      "language_loss": 0.62709188,
+      "learning_rate": 3.491006226721244e-06,
+      "loss": 0.65203947,
+      "num_input_tokens_seen": 45349615,
+      "step": 2123,
+      "time_per_iteration": 3.2771036624908447
+    },
+    {
+      "auxiliary_loss_clip": 0.01228692,
+      "auxiliary_loss_mlp": 0.0137991,
+      "balance_loss_clip": 1.06030893,
+      "balance_loss_mlp": 1.00008237,
+      "epoch": 0.2553958997174292,
+      "flos": 17931096161280.0,
+      "grad_norm": 3.1444915060547594,
+      "language_loss": 0.78076643,
+      "learning_rate": 3.4904869273690882e-06,
+      "loss": 0.80685246,
+      "num_input_tokens_seen": 45367505,
+      "step": 2124,
+      "time_per_iteration": 2.7324275970458984
+    },
+    {
+      "auxiliary_loss_clip": 0.01219941,
+      "auxiliary_loss_mlp": 0.01036658,
+      "balance_loss_clip": 1.05872488,
+      "balance_loss_mlp": 1.02759826,
+      "epoch": 0.2555161426080683,
+      "flos": 23367791923200.0,
+      "grad_norm": 2.402258955213244,
+      "language_loss": 0.88924193,
+      "learning_rate": 3.489967401911251e-06,
+      "loss": 0.91180789,
+      "num_input_tokens_seen": 45386805,
+      "step": 2125,
+      "time_per_iteration": 2.680601119995117
+    },
+    {
+      "auxiliary_loss_clip": 0.0121205,
+      "auxiliary_loss_mlp": 0.01044231,
+      "balance_loss_clip": 1.06138468,
+      "balance_loss_mlp": 1.03451502,
+      "epoch": 0.2556363854987074,
+      "flos": 40625130723840.0,
+      "grad_norm": 1.740031615147917,
+      "language_loss": 0.69532555,
+      "learning_rate": 3.4894476504265428e-06,
+      "loss": 0.71788836,
+      "num_input_tokens_seen": 45411045,
+      "step": 2126,
+      "time_per_iteration": 3.7130954265594482
+    },
+    {
+      "auxiliary_loss_clip": 0.01112838,
+      "auxiliary_loss_mlp": 0.01001962,
+      "balance_loss_clip": 1.02489567,
+      "balance_loss_mlp": 0.99989951,
+      "epoch": 0.2557566283893465,
+      "flos": 68019443389440.0,
+      "grad_norm": 0.8092878302569183,
+      "language_loss": 0.54483747,
+      "learning_rate": 3.4889276729938104e-06,
+      "loss": 0.5659855,
+      "num_input_tokens_seen": 45469575,
+      "step": 2127,
+      "time_per_iteration": 3.1482627391815186
+    },
+    {
+      "auxiliary_loss_clip": 0.01221912,
+      "auxiliary_loss_mlp": 0.01034205,
+      "balance_loss_clip": 1.05808854,
+      "balance_loss_mlp": 1.02485263,
+      "epoch": 0.2558768712799856,
+      "flos": 22635645004800.0,
+      "grad_norm": 2.0470469400447815,
+      "language_loss": 0.80747694,
+      "learning_rate": 3.488407469691934e-06,
+      "loss": 0.83003807,
+      "num_input_tokens_seen": 45490270,
+      "step": 2128,
+      "time_per_iteration": 2.688539743423462
+    },
+    {
+      "auxiliary_loss_clip": 0.01221187,
+      "auxiliary_loss_mlp": 0.01033424,
+      "balance_loss_clip": 1.05544889,
+      "balance_loss_mlp": 1.02391148,
+      "epoch": 0.25599711417062465,
+      "flos": 26396354125440.0,
+      "grad_norm": 1.9418583047561533,
+      "language_loss": 0.80594158,
+      "learning_rate": 3.487887040599828e-06,
+      "loss": 0.82848763,
+      "num_input_tokens_seen": 45510070,
+      "step": 2129,
+      "time_per_iteration": 2.7621874809265137
+    },
+    {
+      "auxiliary_loss_clip": 0.01211709,
+      "auxiliary_loss_mlp": 0.01043199,
+      "balance_loss_clip": 1.06279731,
+      "balance_loss_mlp": 1.03391242,
+      "epoch": 0.25611735706126376,
+      "flos": 22852042490880.0,
+      "grad_norm": 2.2936117753457066,
+      "language_loss": 0.76699805,
+      "learning_rate": 3.4873663857964407e-06,
+      "loss": 0.78954709,
+      "num_input_tokens_seen": 45527285,
+      "step": 2130,
+      "time_per_iteration": 2.592083215713501
+    },
+    {
+      "auxiliary_loss_clip": 0.01244794,
+      "auxiliary_loss_mlp": 0.01040488,
+      "balance_loss_clip": 1.05807328,
+      "balance_loss_mlp": 1.03114247,
+      "epoch": 0.2562375999519028,
+      "flos": 23367863750400.0,
+      "grad_norm": 1.7341865038768025,
+      "language_loss": 0.66456866,
+      "learning_rate": 3.4868455053607556e-06,
+      "loss": 0.68742144,
+      "num_input_tokens_seen": 45546900,
+      "step": 2131,
+      "time_per_iteration": 2.7649693489074707
+    },
+    {
+      "auxiliary_loss_clip": 0.01223006,
+      "auxiliary_loss_mlp": 0.01035302,
+      "balance_loss_clip": 1.06043577,
+      "balance_loss_mlp": 1.02599788,
+      "epoch": 0.2563578428425419,
+      "flos": 22856962654080.0,
+      "grad_norm": 1.8480817165581211,
+      "language_loss": 0.71173704,
+      "learning_rate": 3.486324399371789e-06,
+      "loss": 0.73432016,
+      "num_input_tokens_seen": 45566200,
+      "step": 2132,
+      "time_per_iteration": 2.6388165950775146
+    },
+    {
+      "auxiliary_loss_clip": 0.01227831,
+      "auxiliary_loss_mlp": 0.01041688,
+      "balance_loss_clip": 1.05629659,
+      "balance_loss_mlp": 1.03324223,
+      "epoch": 0.25647808573318104,
+      "flos": 21653883498240.0,
+      "grad_norm": 1.9522416182345808,
+      "language_loss": 0.7835381,
+      "learning_rate": 3.485803067908593e-06,
+      "loss": 0.80623329,
+      "num_input_tokens_seen": 45585710,
+      "step": 2133,
+      "time_per_iteration": 2.7399585247039795
+    },
+    {
+      "auxiliary_loss_clip": 0.01219587,
+      "auxiliary_loss_mlp": 0.01037125,
+      "balance_loss_clip": 1.04526687,
+      "balance_loss_mlp": 1.0277909,
+      "epoch": 0.2565983286238201,
+      "flos": 33730569659520.0,
+      "grad_norm": 1.9270040038557141,
+      "language_loss": 0.79641438,
+      "learning_rate": 3.485281511050253e-06,
+      "loss": 0.81898153,
+      "num_input_tokens_seen": 45607845,
+      "step": 2134,
+      "time_per_iteration": 2.89172625541687
+    },
+    {
+      "auxiliary_loss_clip": 0.0122013,
+      "auxiliary_loss_mlp": 0.01034994,
+      "balance_loss_clip": 1.05841517,
+      "balance_loss_mlp": 1.0259583,
+      "epoch": 0.2567185715144592,
+      "flos": 16216002587520.0,
+      "grad_norm": 2.930242363723049,
+      "language_loss": 0.89752817,
+      "learning_rate": 3.484759728875889e-06,
+      "loss": 0.92007947,
+      "num_input_tokens_seen": 45623210,
+      "step": 2135,
+      "time_per_iteration": 2.607203483581543
+    },
+    {
+      "auxiliary_loss_clip": 0.01227418,
+      "auxiliary_loss_mlp": 0.01036468,
+      "balance_loss_clip": 1.0522505,
+      "balance_loss_mlp": 1.02771771,
+      "epoch": 0.2568388144050983,
+      "flos": 17458475984640.0,
+      "grad_norm": 1.8028112973528916,
+      "language_loss": 0.80703604,
+      "learning_rate": 3.4842377214646543e-06,
+      "loss": 0.82967496,
+      "num_input_tokens_seen": 45641505,
+      "step": 2136,
+      "time_per_iteration": 2.726004123687744
+    },
+    {
+      "auxiliary_loss_clip": 0.01207086,
+      "auxiliary_loss_mlp": 0.01031052,
+      "balance_loss_clip": 1.06074202,
+      "balance_loss_mlp": 1.02248085,
+      "epoch": 0.25695905729573737,
+      "flos": 20887442069760.0,
+      "grad_norm": 1.6863281047630239,
+      "language_loss": 0.66934741,
+      "learning_rate": 3.483715488895737e-06,
+      "loss": 0.69172883,
+      "num_input_tokens_seen": 45661835,
+      "step": 2137,
+      "time_per_iteration": 2.5689237117767334
+    },
+    {
+      "auxiliary_loss_clip": 0.01240311,
+      "auxiliary_loss_mlp": 0.01037754,
+      "balance_loss_clip": 1.05197382,
+      "balance_loss_mlp": 1.02878916,
+      "epoch": 0.2570793001863765,
+      "flos": 24717278914560.0,
+      "grad_norm": 1.8641157754687216,
+      "language_loss": 0.77892792,
+      "learning_rate": 3.48319303124836e-06,
+      "loss": 0.80170864,
+      "num_input_tokens_seen": 45682215,
+      "step": 2138,
+      "time_per_iteration": 2.8665881156921387
+    },
+    {
+      "auxiliary_loss_clip": 0.01221644,
+      "auxiliary_loss_mlp": 0.01033221,
+      "balance_loss_clip": 1.05923033,
+      "balance_loss_mlp": 1.02429843,
+      "epoch": 0.2571995430770156,
+      "flos": 26906896085760.0,
+      "grad_norm": 2.1351567957111603,
+      "language_loss": 0.67117822,
+      "learning_rate": 3.4826703486017798e-06,
+      "loss": 0.69372684,
+      "num_input_tokens_seen": 45701840,
+      "step": 2139,
+      "time_per_iteration": 2.7191741466522217
+    },
+    {
+      "auxiliary_loss_clip": 0.01214284,
+      "auxiliary_loss_mlp": 0.0103468,
+      "balance_loss_clip": 1.06078792,
+      "balance_loss_mlp": 1.02564371,
+      "epoch": 0.25731978596765465,
+      "flos": 19792561656960.0,
+      "grad_norm": 1.9564542335770276,
+      "language_loss": 0.76971006,
+      "learning_rate": 3.4821474410352867e-06,
+      "loss": 0.79219973,
+      "num_input_tokens_seen": 45720500,
+      "step": 2140,
+      "time_per_iteration": 2.719269275665283
+    },
+    {
+      "auxiliary_loss_clip": 0.01143657,
+      "auxiliary_loss_mlp": 0.01000314,
+      "balance_loss_clip": 1.03176236,
+      "balance_loss_mlp": 0.99812108,
+      "epoch": 0.25744002885829376,
+      "flos": 70564970471040.0,
+      "grad_norm": 0.9074357102165657,
+      "language_loss": 0.62675869,
+      "learning_rate": 3.481624308628205e-06,
+      "loss": 0.64819843,
+      "num_input_tokens_seen": 45781870,
+      "step": 2141,
+      "time_per_iteration": 3.3988194465637207
+    },
+    {
+      "auxiliary_loss_clip": 0.01225219,
+      "auxiliary_loss_mlp": 0.01031601,
+      "balance_loss_clip": 1.05910492,
+      "balance_loss_mlp": 1.02217746,
+      "epoch": 0.25756027174893287,
+      "flos": 18038181582720.0,
+      "grad_norm": 3.4434310164846167,
+      "language_loss": 1.00298738,
+      "learning_rate": 3.481100951459893e-06,
+      "loss": 1.02555561,
+      "num_input_tokens_seen": 45794890,
+      "step": 2142,
+      "time_per_iteration": 2.6483821868896484
+    },
+    {
+      "auxiliary_loss_clip": 0.01212493,
+      "auxiliary_loss_mlp": 0.01031252,
+      "balance_loss_clip": 1.05797815,
+      "balance_loss_mlp": 1.02225733,
+      "epoch": 0.2576805146395719,
+      "flos": 22674069578880.0,
+      "grad_norm": 1.6274432379922987,
+      "language_loss": 0.78719813,
+      "learning_rate": 3.4805773696097453e-06,
+      "loss": 0.80963558,
+      "num_input_tokens_seen": 45815780,
+      "step": 2143,
+      "time_per_iteration": 2.7020912170410156
+    },
+    {
+      "auxiliary_loss_clip": 0.01217297,
+      "auxiliary_loss_mlp": 0.01035876,
+      "balance_loss_clip": 1.05647206,
+      "balance_loss_mlp": 1.02682805,
+      "epoch": 0.25780075753021103,
+      "flos": 16472225278080.0,
+      "grad_norm": 2.0396082468840517,
+      "language_loss": 0.87725496,
+      "learning_rate": 3.4800535631571874e-06,
+      "loss": 0.89978671,
+      "num_input_tokens_seen": 45831310,
+      "step": 2144,
+      "time_per_iteration": 2.6723506450653076
+    },
+    {
+      "auxiliary_loss_clip": 0.01231009,
+      "auxiliary_loss_mlp": 0.01033343,
+      "balance_loss_clip": 1.05895507,
+      "balance_loss_mlp": 1.02418804,
+      "epoch": 0.25792100042085014,
+      "flos": 22820297846400.0,
+      "grad_norm": 2.0351084815111604,
+      "language_loss": 0.75930166,
+      "learning_rate": 3.4795295321816804e-06,
+      "loss": 0.78194523,
+      "num_input_tokens_seen": 45850135,
+      "step": 2145,
+      "time_per_iteration": 2.861455202102661
+    },
+    {
+      "auxiliary_loss_clip": 0.01212217,
+      "auxiliary_loss_mlp": 0.01032385,
+      "balance_loss_clip": 1.05632901,
+      "balance_loss_mlp": 1.02327752,
+      "epoch": 0.2580412433114892,
+      "flos": 18697286194560.0,
+      "grad_norm": 2.2048764887066525,
+      "language_loss": 0.91163772,
+      "learning_rate": 3.47900527676272e-06,
+      "loss": 0.9340837,
+      "num_input_tokens_seen": 45868470,
+      "step": 2146,
+      "time_per_iteration": 3.568800449371338
+    },
+    {
+      "auxiliary_loss_clip": 0.01208226,
+      "auxiliary_loss_mlp": 0.01040789,
+      "balance_loss_clip": 1.06175339,
+      "balance_loss_mlp": 1.0317347,
+      "epoch": 0.2581614862021283,
+      "flos": 14283146810880.0,
+      "grad_norm": 2.4628166734724966,
+      "language_loss": 0.88580066,
+      "learning_rate": 3.478480796979835e-06,
+      "loss": 0.90829074,
+      "num_input_tokens_seen": 45886355,
+      "step": 2147,
+      "time_per_iteration": 3.5869698524475098
+    },
+    {
+      "auxiliary_loss_clip": 0.01218204,
+      "auxiliary_loss_mlp": 0.01032618,
+      "balance_loss_clip": 1.05638266,
+      "balance_loss_mlp": 1.02344441,
+      "epoch": 0.25828172909276736,
+      "flos": 29498281856640.0,
+      "grad_norm": 1.5507516987900578,
+      "language_loss": 0.77818406,
+      "learning_rate": 3.4779560929125894e-06,
+      "loss": 0.8006922,
+      "num_input_tokens_seen": 45907900,
+      "step": 2148,
+      "time_per_iteration": 3.6074435710906982
+    },
+    {
+      "auxiliary_loss_clip": 0.01131597,
+      "auxiliary_loss_mlp": 0.0101165,
+      "balance_loss_clip": 1.02177429,
+      "balance_loss_mlp": 1.00952816,
+      "epoch": 0.2584019719834065,
+      "flos": 67114387376640.0,
+      "grad_norm": 0.7735430887039086,
+      "language_loss": 0.56907368,
+      "learning_rate": 3.4774311646405783e-06,
+      "loss": 0.59050608,
+      "num_input_tokens_seen": 45977805,
+      "step": 2149,
+      "time_per_iteration": 3.4195263385772705
+    },
+    {
+      "auxiliary_loss_clip": 0.01215307,
+      "auxiliary_loss_mlp": 0.01032451,
+      "balance_loss_clip": 1.05029535,
+      "balance_loss_mlp": 1.02364743,
+      "epoch": 0.2585222148740456,
+      "flos": 22893555634560.0,
+      "grad_norm": 2.3640260540185425,
+      "language_loss": 0.83601123,
+      "learning_rate": 3.476906012243435e-06,
+      "loss": 0.8584888,
+      "num_input_tokens_seen": 45996715,
+      "step": 2150,
+      "time_per_iteration": 2.793482780456543
+    },
+    {
+      "auxiliary_loss_clip": 0.01202928,
+      "auxiliary_loss_mlp": 0.01030433,
+      "balance_loss_clip": 1.05678165,
+      "balance_loss_mlp": 1.02150464,
+      "epoch": 0.25864245776468464,
+      "flos": 28909202808960.0,
+      "grad_norm": 1.6738088538608928,
+      "language_loss": 0.81102443,
+      "learning_rate": 3.476380635800824e-06,
+      "loss": 0.83335805,
+      "num_input_tokens_seen": 46017915,
+      "step": 2151,
+      "time_per_iteration": 2.748281717300415
+    },
+    {
+      "auxiliary_loss_clip": 0.01221194,
+      "auxiliary_loss_mlp": 0.01032879,
+      "balance_loss_clip": 1.05758333,
+      "balance_loss_mlp": 1.0232408,
+      "epoch": 0.25876270065532375,
+      "flos": 14793185980800.0,
+      "grad_norm": 1.9287776948149993,
+      "language_loss": 0.86116803,
+      "learning_rate": 3.475855035392444e-06,
+      "loss": 0.88370878,
+      "num_input_tokens_seen": 46033235,
+      "step": 2152,
+      "time_per_iteration": 3.7423088550567627
+    },
+    {
+      "auxiliary_loss_clip": 0.01242707,
+      "auxiliary_loss_mlp": 0.01031268,
+      "balance_loss_clip": 1.04953766,
+      "balance_loss_mlp": 1.02249467,
+      "epoch": 0.25888294354596286,
+      "flos": 60467821810560.0,
+      "grad_norm": 2.4198376250014153,
+      "language_loss": 0.71380925,
+      "learning_rate": 3.475329211098029e-06,
+      "loss": 0.73654896,
+      "num_input_tokens_seen": 46056390,
+      "step": 2153,
+      "time_per_iteration": 3.284705638885498
+    },
+    {
+      "auxiliary_loss_clip": 0.01245531,
+      "auxiliary_loss_mlp": 0.01032112,
+      "balance_loss_clip": 1.05553126,
+      "balance_loss_mlp": 1.02242637,
+      "epoch": 0.2590031864366019,
+      "flos": 27851166771840.0,
+      "grad_norm": 1.5961107591696126,
+      "language_loss": 0.82426864,
+      "learning_rate": 3.4748031629973453e-06,
+      "loss": 0.84704506,
+      "num_input_tokens_seen": 46077120,
+      "step": 2154,
+      "time_per_iteration": 2.793630838394165
+    },
+    {
+      "auxiliary_loss_clip": 0.01138774,
+      "auxiliary_loss_mlp": 0.01008325,
+      "balance_loss_clip": 1.01876187,
+      "balance_loss_mlp": 1.00614381,
+      "epoch": 0.25912342932724103,
+      "flos": 62422444206720.0,
+      "grad_norm": 0.9117589813085403,
+      "language_loss": 0.56667352,
+      "learning_rate": 3.4742768911701944e-06,
+      "loss": 0.58814454,
+      "num_input_tokens_seen": 46139815,
+      "step": 2155,
+      "time_per_iteration": 3.4253079891204834
+    },
+    {
+      "auxiliary_loss_clip": 0.01225272,
+      "auxiliary_loss_mlp": 0.01036662,
+      "balance_loss_clip": 1.06317258,
+      "balance_loss_mlp": 1.02713108,
+      "epoch": 0.25924367221788014,
+      "flos": 12378839368320.0,
+      "grad_norm": 2.8191502074097015,
+      "language_loss": 0.70694005,
+      "learning_rate": 3.4737503956964113e-06,
+      "loss": 0.72955942,
+      "num_input_tokens_seen": 46152120,
+      "step": 2156,
+      "time_per_iteration": 2.7269585132598877
+    },
+    {
+      "auxiliary_loss_clip": 0.01214615,
+      "auxiliary_loss_mlp": 0.01030888,
+      "balance_loss_clip": 1.05301404,
+      "balance_loss_mlp": 1.01980197,
+      "epoch": 0.2593639151085192,
+      "flos": 14575208296320.0,
+      "grad_norm": 2.063478122054419,
+      "language_loss": 0.67224717,
+      "learning_rate": 3.473223676655865e-06,
+      "loss": 0.69470221,
+      "num_input_tokens_seen": 46170120,
+      "step": 2157,
+      "time_per_iteration": 2.6292102336883545
+    },
+    {
+      "auxiliary_loss_clip": 0.01215841,
+      "auxiliary_loss_mlp": 0.01038533,
+      "balance_loss_clip": 1.05334294,
+      "balance_loss_mlp": 1.02770853,
+      "epoch": 0.2594841579991583,
+      "flos": 15230937029760.0,
+      "grad_norm": 1.8839944524495196,
+      "language_loss": 0.80066514,
+      "learning_rate": 3.472696734128459e-06,
+      "loss": 0.82320893,
+      "num_input_tokens_seen": 46187985,
+      "step": 2158,
+      "time_per_iteration": 2.685307025909424
+    },
+    {
+      "auxiliary_loss_clip": 0.01217532,
+      "auxiliary_loss_mlp": 0.01032012,
+      "balance_loss_clip": 1.06012547,
+      "balance_loss_mlp": 1.02202785,
+      "epoch": 0.2596044008897974,
+      "flos": 23623583650560.0,
+      "grad_norm": 1.6115928058186417,
+      "language_loss": 0.75736755,
+      "learning_rate": 3.4721695681941286e-06,
+      "loss": 0.77986294,
+      "num_input_tokens_seen": 46207025,
+      "step": 2159,
+      "time_per_iteration": 2.729637861251831
+    },
+    {
+      "auxiliary_loss_clip": 0.01219813,
+      "auxiliary_loss_mlp": 0.0138045,
+      "balance_loss_clip": 1.05420852,
+      "balance_loss_mlp": 1.00029063,
+      "epoch": 0.25972464378043647,
+      "flos": 13772281628160.0,
+      "grad_norm": 2.077876990088672,
+      "language_loss": 0.82587576,
+      "learning_rate": 3.471642178932845e-06,
+      "loss": 0.85187829,
+      "num_input_tokens_seen": 46225670,
+      "step": 2160,
+      "time_per_iteration": 2.6980783939361572
+    },
+    {
+      "auxiliary_loss_clip": 0.01223413,
+      "auxiliary_loss_mlp": 0.01032601,
+      "balance_loss_clip": 1.05294061,
+      "balance_loss_mlp": 1.02335072,
+      "epoch": 0.2598448866710756,
+      "flos": 19573578391680.0,
+      "grad_norm": 1.9198768288589718,
+      "language_loss": 0.89319217,
+      "learning_rate": 3.471114566424613e-06,
+      "loss": 0.91575229,
+      "num_input_tokens_seen": 46244130,
+      "step": 2161,
+      "time_per_iteration": 2.684412717819214
+    },
+    {
+      "auxiliary_loss_clip": 0.01224037,
+      "auxiliary_loss_mlp": 0.01028857,
+      "balance_loss_clip": 1.05800557,
+      "balance_loss_mlp": 1.01939762,
+      "epoch": 0.25996512956171464,
+      "flos": 21653237053440.0,
+      "grad_norm": 1.879518072407555,
+      "language_loss": 0.75898999,
+      "learning_rate": 3.4705867307494715e-06,
+      "loss": 0.78151894,
+      "num_input_tokens_seen": 46263200,
+      "step": 2162,
+      "time_per_iteration": 2.654383420944214
+    },
+    {
+      "auxiliary_loss_clip": 0.01218485,
+      "auxiliary_loss_mlp": 0.01036841,
+      "balance_loss_clip": 1.05777097,
+      "balance_loss_mlp": 1.02714324,
+      "epoch": 0.26008537245235375,
+      "flos": 18223480869120.0,
+      "grad_norm": 2.0588020410860532,
+      "language_loss": 0.84151947,
+      "learning_rate": 3.470058671987492e-06,
+      "loss": 0.86407274,
+      "num_input_tokens_seen": 46281465,
+      "step": 2163,
+      "time_per_iteration": 2.6107332706451416
+    },
+    {
+      "auxiliary_loss_clip": 0.01221569,
+      "auxiliary_loss_mlp": 0.01042555,
+      "balance_loss_clip": 1.05882633,
+      "balance_loss_mlp": 1.03173709,
+      "epoch": 0.26020561534299286,
+      "flos": 24645385843200.0,
+      "grad_norm": 1.9654048654504916,
+      "language_loss": 0.84543318,
+      "learning_rate": 3.4695303902187805e-06,
+      "loss": 0.86807442,
+      "num_input_tokens_seen": 46301020,
+      "step": 2164,
+      "time_per_iteration": 2.6695451736450195
+    },
+    {
+      "auxiliary_loss_clip": 0.0122235,
+      "auxiliary_loss_mlp": 0.01032069,
+      "balance_loss_clip": 1.05239534,
+      "balance_loss_mlp": 1.02240109,
+      "epoch": 0.2603258582336319,
+      "flos": 25773662926080.0,
+      "grad_norm": 2.502587255415566,
+      "language_loss": 0.78623116,
+      "learning_rate": 3.469001885523478e-06,
+      "loss": 0.80877537,
+      "num_input_tokens_seen": 46321740,
+      "step": 2165,
+      "time_per_iteration": 2.796175479888916
+    },
+    {
+      "auxiliary_loss_clip": 0.01209021,
+      "auxiliary_loss_mlp": 0.01030898,
+      "balance_loss_clip": 1.05984306,
+      "balance_loss_mlp": 1.02105093,
+      "epoch": 0.260446101124271,
+      "flos": 28766314506240.0,
+      "grad_norm": 1.6572090550511516,
+      "language_loss": 0.8079071,
+      "learning_rate": 3.4684731579817568e-06,
+      "loss": 0.83030629,
+      "num_input_tokens_seen": 46342730,
+      "step": 2166,
+      "time_per_iteration": 2.6582467555999756
+    },
+    {
+      "auxiliary_loss_clip": 0.01244961,
+      "auxiliary_loss_mlp": 0.01031209,
+      "balance_loss_clip": 1.05293095,
+      "balance_loss_mlp": 1.02215517,
+      "epoch": 0.26056634401491013,
+      "flos": 25666757072640.0,
+      "grad_norm": 2.1528915410694904,
+      "language_loss": 0.7708956,
+      "learning_rate": 3.4679442076738247e-06,
+      "loss": 0.7936573,
+      "num_input_tokens_seen": 46362445,
+      "step": 2167,
+      "time_per_iteration": 2.8891611099243164
+    },
+    {
+      "auxiliary_loss_clip": 0.01210321,
+      "auxiliary_loss_mlp": 0.0104065,
+      "balance_loss_clip": 1.06010938,
+      "balance_loss_mlp": 1.03095186,
+      "epoch": 0.2606865869055492,
+      "flos": 27052765217280.0,
+      "grad_norm": 1.8175369931256642,
+      "language_loss": 0.83359325,
+      "learning_rate": 3.4674150346799245e-06,
+      "loss": 0.85610294,
+      "num_input_tokens_seen": 46382145,
+      "step": 2168,
+      "time_per_iteration": 2.6521947383880615
+    },
+    {
+      "auxiliary_loss_clip": 0.01224507,
+      "auxiliary_loss_mlp": 0.01042271,
+      "balance_loss_clip": 1.05706906,
+      "balance_loss_mlp": 1.03253198,
+      "epoch": 0.2608068297961883,
+      "flos": 17712615686400.0,
+      "grad_norm": 2.112556089454543,
+      "language_loss": 0.80072427,
+      "learning_rate": 3.4668856390803295e-06,
+      "loss": 0.82339203,
+      "num_input_tokens_seen": 46400025,
+      "step": 2169,
+      "time_per_iteration": 2.7007148265838623
+    },
+    {
+      "auxiliary_loss_clip": 0.01198295,
+      "auxiliary_loss_mlp": 0.01032515,
+      "balance_loss_clip": 1.05282497,
+      "balance_loss_mlp": 1.02298427,
+      "epoch": 0.2609270726868274,
+      "flos": 18551632544640.0,
+      "grad_norm": 2.1047394334265648,
+      "language_loss": 0.89974499,
+      "learning_rate": 3.4663560209553495e-06,
+      "loss": 0.9220531,
+      "num_input_tokens_seen": 46418090,
+      "step": 2170,
+      "time_per_iteration": 2.584711790084839
+    },
+    {
+      "auxiliary_loss_clip": 0.0121034,
+      "auxiliary_loss_mlp": 0.01033391,
+      "balance_loss_clip": 1.0529989,
+      "balance_loss_mlp": 1.02385426,
+      "epoch": 0.26104731557746647,
+      "flos": 21835699165440.0,
+      "grad_norm": 2.0314482942690804,
+      "language_loss": 0.79382288,
+      "learning_rate": 3.4658261803853267e-06,
+      "loss": 0.81626022,
+      "num_input_tokens_seen": 46436015,
+      "step": 2171,
+      "time_per_iteration": 2.738187551498413
+    },
+    {
+      "auxiliary_loss_clip": 0.01222859,
+      "auxiliary_loss_mlp": 0.01032071,
+      "balance_loss_clip": 1.05892599,
+      "balance_loss_mlp": 1.02299345,
+      "epoch": 0.2611675584681056,
+      "flos": 21689650465920.0,
+      "grad_norm": 2.276285441052986,
+      "language_loss": 0.80886102,
+      "learning_rate": 3.4652961174506383e-06,
+      "loss": 0.83141035,
+      "num_input_tokens_seen": 46455885,
+      "step": 2172,
+      "time_per_iteration": 3.675459384918213
+    },
+    {
+      "auxiliary_loss_clip": 0.01107158,
+      "auxiliary_loss_mlp": 0.01016155,
+      "balance_loss_clip": 1.02210784,
+      "balance_loss_mlp": 1.01417589,
+      "epoch": 0.2612878013587447,
+      "flos": 71862101389440.0,
+      "grad_norm": 0.9840752790909838,
+      "language_loss": 0.58175421,
+      "learning_rate": 3.464765832231694e-06,
+      "loss": 0.60298729,
+      "num_input_tokens_seen": 46510050,
+      "step": 2173,
+      "time_per_iteration": 4.15064811706543
+    },
+    {
+      "auxiliary_loss_clip": 0.01218538,
+      "auxiliary_loss_mlp": 0.01033969,
+      "balance_loss_clip": 1.06047869,
+      "balance_loss_mlp": 1.02415216,
+      "epoch": 0.26140804424938374,
+      "flos": 20227511445120.0,
+      "grad_norm": 2.37522165481168,
+      "language_loss": 0.70966601,
+      "learning_rate": 3.4642353248089373e-06,
+      "loss": 0.73219109,
+      "num_input_tokens_seen": 46528810,
+      "step": 2174,
+      "time_per_iteration": 3.6938436031341553
+    },
+    {
+      "auxiliary_loss_clip": 0.0121844,
+      "auxiliary_loss_mlp": 0.0102942,
+      "balance_loss_clip": 1.05660796,
+      "balance_loss_mlp": 1.01982403,
+      "epoch": 0.26152828714002285,
+      "flos": 25557085872000.0,
+      "grad_norm": 1.651570458092742,
+      "language_loss": 0.80570805,
+      "learning_rate": 3.463704595262846e-06,
+      "loss": 0.82818663,
+      "num_input_tokens_seen": 46549690,
+      "step": 2175,
+      "time_per_iteration": 2.920823335647583
+    },
+    {
+      "auxiliary_loss_clip": 0.01229912,
+      "auxiliary_loss_mlp": 0.01035577,
+      "balance_loss_clip": 1.05502355,
+      "balance_loss_mlp": 1.02614164,
+      "epoch": 0.26164853003066196,
+      "flos": 25446516831360.0,
+      "grad_norm": 1.7886439830626768,
+      "language_loss": 0.70679724,
+      "learning_rate": 3.463173643673931e-06,
+      "loss": 0.72945213,
+      "num_input_tokens_seen": 46572215,
+      "step": 2176,
+      "time_per_iteration": 2.7191970348358154
+    },
+    {
+      "auxiliary_loss_clip": 0.01114574,
+      "auxiliary_loss_mlp": 0.01002755,
+      "balance_loss_clip": 1.02381086,
+      "balance_loss_mlp": 1.00064504,
+      "epoch": 0.261768772921301,
+      "flos": 53944580568960.0,
+      "grad_norm": 0.9146904947225053,
+      "language_loss": 0.63533998,
+      "learning_rate": 3.4626424701227387e-06,
+      "loss": 0.65651321,
+      "num_input_tokens_seen": 46627275,
+      "step": 2177,
+      "time_per_iteration": 3.1703293323516846
+    },
+    {
+      "auxiliary_loss_clip": 0.01104093,
+      "auxiliary_loss_mlp": 0.01003534,
+      "balance_loss_clip": 1.02548099,
+      "balance_loss_mlp": 1.00155473,
+      "epoch": 0.26188901581194013,
+      "flos": 70687606481280.0,
+      "grad_norm": 0.822668406739809,
+      "language_loss": 0.55777979,
+      "learning_rate": 3.4621110746898452e-06,
+      "loss": 0.57885599,
+      "num_input_tokens_seen": 46695135,
+      "step": 2178,
+      "time_per_iteration": 3.289511203765869
+    },
+    {
+      "auxiliary_loss_clip": 0.01218447,
+      "auxiliary_loss_mlp": 0.01028679,
+      "balance_loss_clip": 1.05827844,
+      "balance_loss_mlp": 1.01954722,
+      "epoch": 0.2620092587025792,
+      "flos": 21069580959360.0,
+      "grad_norm": 3.2240525677607614,
+      "language_loss": 0.7458837,
+      "learning_rate": 3.4615794574558654e-06,
+      "loss": 0.76835501,
+      "num_input_tokens_seen": 46714145,
+      "step": 2179,
+      "time_per_iteration": 3.6061549186706543
+    },
+    {
+      "auxiliary_loss_clip": 0.01224776,
+      "auxiliary_loss_mlp": 0.0103865,
+      "balance_loss_clip": 1.05570459,
+      "balance_loss_mlp": 1.02954245,
+      "epoch": 0.2621295015932183,
+      "flos": 18369601395840.0,
+      "grad_norm": 2.2861791854339506,
+      "language_loss": 0.83927566,
+      "learning_rate": 3.4610476185014436e-06,
+      "loss": 0.86190987,
+      "num_input_tokens_seen": 46731405,
+      "step": 2180,
+      "time_per_iteration": 2.6947364807128906
+    },
+    {
+      "auxiliary_loss_clip": 0.01208679,
+      "auxiliary_loss_mlp": 0.0103299,
+      "balance_loss_clip": 1.05946851,
+      "balance_loss_mlp": 1.02232647,
+      "epoch": 0.2622497444838574,
+      "flos": 23659997063040.0,
+      "grad_norm": 1.7169384953770814,
+      "language_loss": 0.79377961,
+      "learning_rate": 3.4605155579072597e-06,
+      "loss": 0.81619632,
+      "num_input_tokens_seen": 46751260,
+      "step": 2181,
+      "time_per_iteration": 2.6372616291046143
+    },
+    {
+      "auxiliary_loss_clip": 0.01232058,
+      "auxiliary_loss_mlp": 0.01032776,
+      "balance_loss_clip": 1.05069363,
+      "balance_loss_mlp": 1.02341771,
+      "epoch": 0.26236998737449646,
+      "flos": 22123810154880.0,
+      "grad_norm": 1.940760603383293,
+      "language_loss": 0.71541196,
+      "learning_rate": 3.459983275754027e-06,
+      "loss": 0.73806036,
+      "num_input_tokens_seen": 46770155,
+      "step": 2182,
+      "time_per_iteration": 2.9069955348968506
+    },
+    {
+      "auxiliary_loss_clip": 0.01209634,
+      "auxiliary_loss_mlp": 0.01030977,
+      "balance_loss_clip": 1.0601896,
+      "balance_loss_mlp": 1.02221501,
+      "epoch": 0.26249023026513557,
+      "flos": 17895185539200.0,
+      "grad_norm": 2.214306641495156,
+      "language_loss": 0.79647022,
+      "learning_rate": 3.4594507721224918e-06,
+      "loss": 0.81887627,
+      "num_input_tokens_seen": 46788805,
+      "step": 2183,
+      "time_per_iteration": 2.5900607109069824
+    },
+    {
+      "auxiliary_loss_clip": 0.01224329,
+      "auxiliary_loss_mlp": 0.01033214,
+      "balance_loss_clip": 1.05568314,
+      "balance_loss_mlp": 1.0247736,
+      "epoch": 0.2626104731557747,
+      "flos": 18332936588160.0,
+      "grad_norm": 1.9697836149293575,
+      "language_loss": 0.82054555,
+      "learning_rate": 3.4589180470934353e-06,
+      "loss": 0.84312105,
+      "num_input_tokens_seen": 46808670,
+      "step": 2184,
+      "time_per_iteration": 2.7852089405059814
+    },
+    {
+      "auxiliary_loss_clip": 0.01220797,
+      "auxiliary_loss_mlp": 0.01032575,
+      "balance_loss_clip": 1.05583739,
+      "balance_loss_mlp": 1.02283525,
+      "epoch": 0.26273071604641374,
+      "flos": 19317714837120.0,
+      "grad_norm": 2.7768479267388444,
+      "language_loss": 0.76913261,
+      "learning_rate": 3.4583851007476713e-06,
+      "loss": 0.79166627,
+      "num_input_tokens_seen": 46827140,
+      "step": 2185,
+      "time_per_iteration": 2.6660053730010986
+    },
+    {
+      "auxiliary_loss_clip": 0.01232776,
+      "auxiliary_loss_mlp": 0.01028458,
+      "balance_loss_clip": 1.05404699,
+      "balance_loss_mlp": 1.01897514,
+      "epoch": 0.26285095893705285,
+      "flos": 18327477720960.0,
+      "grad_norm": 2.2004648010039753,
+      "language_loss": 0.68424332,
+      "learning_rate": 3.4578519331660464e-06,
+      "loss": 0.70685565,
+      "num_input_tokens_seen": 46844135,
+      "step": 2186,
+      "time_per_iteration": 2.6474878787994385
+    },
+    {
+      "auxiliary_loss_clip": 0.01211849,
+      "auxiliary_loss_mlp": 0.01038173,
+      "balance_loss_clip": 1.05851877,
+      "balance_loss_mlp": 1.02947116,
+      "epoch": 0.26297120182769196,
+      "flos": 20193827466240.0,
+      "grad_norm": 2.0728316903144703,
+      "language_loss": 0.82033056,
+      "learning_rate": 3.4573185444294426e-06,
+      "loss": 0.84283078,
+      "num_input_tokens_seen": 46862500,
+      "step": 2187,
+      "time_per_iteration": 2.714618444442749
+    },
+    {
+      "auxiliary_loss_clip": 0.01222099,
+      "auxiliary_loss_mlp": 0.01380888,
+      "balance_loss_clip": 1.05555284,
+      "balance_loss_mlp": 1.00034916,
+      "epoch": 0.263091444718331,
+      "flos": 22418421505920.0,
+      "grad_norm": 1.7051026739117001,
+      "language_loss": 0.78804195,
+      "learning_rate": 3.456784934618774e-06,
+      "loss": 0.81407177,
+      "num_input_tokens_seen": 46883665,
+      "step": 2188,
+      "time_per_iteration": 2.6744048595428467
+    },
+    {
+      "auxiliary_loss_clip": 0.01222134,
+      "auxiliary_loss_mlp": 0.0103131,
+      "balance_loss_clip": 1.05545974,
+      "balance_loss_mlp": 1.02188683,
+      "epoch": 0.2632116876089701,
+      "flos": 19024827338880.0,
+      "grad_norm": 1.8950154477754424,
+      "language_loss": 0.79905772,
+      "learning_rate": 3.4562511038149897e-06,
+      "loss": 0.82159221,
+      "num_input_tokens_seen": 46899160,
+      "step": 2189,
+      "time_per_iteration": 2.686706304550171
+    },
+    {
+      "auxiliary_loss_clip": 0.01133349,
+      "auxiliary_loss_mlp": 0.01025834,
+      "balance_loss_clip": 1.01374555,
+      "balance_loss_mlp": 1.02366436,
+      "epoch": 0.26333193049960923,
+      "flos": 67308054531840.0,
+      "grad_norm": 0.8664077272640088,
+      "language_loss": 0.57725883,
+      "learning_rate": 3.4557170520990705e-06,
+      "loss": 0.59885061,
+      "num_input_tokens_seen": 46959835,
+      "step": 2190,
+      "time_per_iteration": 3.291184663772583
+    },
+    {
+      "auxiliary_loss_clip": 0.01211303,
+      "auxiliary_loss_mlp": 0.01029162,
+      "balance_loss_clip": 1.05774665,
+      "balance_loss_mlp": 1.01998854,
+      "epoch": 0.2634521733902483,
+      "flos": 25048806468480.0,
+      "grad_norm": 1.4752950161457492,
+      "language_loss": 0.86464643,
+      "learning_rate": 3.4551827795520324e-06,
+      "loss": 0.88705099,
+      "num_input_tokens_seen": 46982720,
+      "step": 2191,
+      "time_per_iteration": 2.7689669132232666
+    },
+    {
+      "auxiliary_loss_clip": 0.01215701,
+      "auxiliary_loss_mlp": 0.01027578,
+      "balance_loss_clip": 1.05709803,
+      "balance_loss_mlp": 1.01854205,
+      "epoch": 0.2635724162808874,
+      "flos": 20594985534720.0,
+      "grad_norm": 1.651864980237364,
+      "language_loss": 0.84919953,
+      "learning_rate": 3.4546482862549226e-06,
+      "loss": 0.87163234,
+      "num_input_tokens_seen": 47003035,
+      "step": 2192,
+      "time_per_iteration": 2.6281447410583496
+    },
+    {
+      "auxiliary_loss_clip": 0.01224498,
+      "auxiliary_loss_mlp": 0.01033561,
+      "balance_loss_clip": 1.05269694,
+      "balance_loss_mlp": 1.02419138,
+      "epoch": 0.2636926591715265,
+      "flos": 19244636616960.0,
+      "grad_norm": 3.0715770658252923,
+      "language_loss": 0.78716815,
+      "learning_rate": 3.4541135722888253e-06,
+      "loss": 0.80974871,
+      "num_input_tokens_seen": 47019625,
+      "step": 2193,
+      "time_per_iteration": 2.7919211387634277
+    },
+    {
+      "auxiliary_loss_clip": 0.01209385,
+      "auxiliary_loss_mlp": 0.01029083,
+      "balance_loss_clip": 1.06006503,
+      "balance_loss_mlp": 1.01989806,
+      "epoch": 0.26381290206216557,
+      "flos": 28804882734720.0,
+      "grad_norm": 1.7399282832062217,
+      "language_loss": 0.804896,
+      "learning_rate": 3.453578637734854e-06,
+      "loss": 0.82728076,
+      "num_input_tokens_seen": 47040815,
+      "step": 2194,
+      "time_per_iteration": 2.6959660053253174
+    },
+    {
+      "auxiliary_loss_clip": 0.01211026,
+      "auxiliary_loss_mlp": 0.01040484,
+      "balance_loss_clip": 1.06294394,
+      "balance_loss_mlp": 1.03100133,
+      "epoch": 0.2639331449528047,
+      "flos": 25008909436800.0,
+      "grad_norm": 1.630562100958971,
+      "language_loss": 0.78735113,
+      "learning_rate": 3.4530434826741605e-06,
+      "loss": 0.80986625,
+      "num_input_tokens_seen": 47061755,
+      "step": 2195,
+      "time_per_iteration": 2.6638059616088867
+    },
+    {
+      "auxiliary_loss_clip": 0.01217943,
+      "auxiliary_loss_mlp": 0.01031667,
+      "balance_loss_clip": 1.05563736,
+      "balance_loss_mlp": 1.02268457,
+      "epoch": 0.26405338784344373,
+      "flos": 46535775465600.0,
+      "grad_norm": 1.5526169543963748,
+      "language_loss": 0.68758756,
+      "learning_rate": 3.452508107187926e-06,
+      "loss": 0.71008366,
+      "num_input_tokens_seen": 47085130,
+      "step": 2196,
+      "time_per_iteration": 2.912713050842285
+    },
+    {
+      "auxiliary_loss_clip": 0.01248515,
+      "auxiliary_loss_mlp": 0.01038417,
+      "balance_loss_clip": 1.05010247,
+      "balance_loss_mlp": 1.02854681,
+      "epoch": 0.26417363073408284,
+      "flos": 21179467641600.0,
+      "grad_norm": 1.7466587451577231,
+      "language_loss": 0.77068424,
+      "learning_rate": 3.451972511357366e-06,
+      "loss": 0.79355359,
+      "num_input_tokens_seen": 47104675,
+      "step": 2197,
+      "time_per_iteration": 2.7853245735168457
+    },
+    {
+      "auxiliary_loss_clip": 0.01211425,
+      "auxiliary_loss_mlp": 0.01033553,
+      "balance_loss_clip": 1.05775142,
+      "balance_loss_mlp": 1.02514863,
+      "epoch": 0.26429387362472195,
+      "flos": 22674751937280.0,
+      "grad_norm": 1.811539468310212,
+      "language_loss": 0.85124999,
+      "learning_rate": 3.45143669526373e-06,
+      "loss": 0.87369972,
+      "num_input_tokens_seen": 47124435,
+      "step": 2198,
+      "time_per_iteration": 3.5709547996520996
+    },
+    {
+      "auxiliary_loss_clip": 0.01131026,
+      "auxiliary_loss_mlp": 0.01009056,
+      "balance_loss_clip": 1.02721357,
+      "balance_loss_mlp": 1.0071249,
+      "epoch": 0.264414116515361,
+      "flos": 67180534272000.0,
+      "grad_norm": 0.7777959835442676,
+      "language_loss": 0.63257444,
+      "learning_rate": 3.450900658988302e-06,
+      "loss": 0.65397525,
+      "num_input_tokens_seen": 47185985,
+      "step": 2199,
+      "time_per_iteration": 4.017361879348755
+    },
+    {
+      "auxiliary_loss_clip": 0.01211535,
+      "auxiliary_loss_mlp": 0.01033904,
+      "balance_loss_clip": 1.05652571,
+      "balance_loss_mlp": 1.02410471,
+      "epoch": 0.2645343594060001,
+      "flos": 25664709997440.0,
+      "grad_norm": 2.084564260327516,
+      "language_loss": 0.77859712,
+      "learning_rate": 3.450364402612397e-06,
+      "loss": 0.8010515,
+      "num_input_tokens_seen": 47203140,
+      "step": 2200,
+      "time_per_iteration": 3.603665828704834
+    },
+    {
+      "auxiliary_loss_clip": 0.01219898,
+      "auxiliary_loss_mlp": 0.01037554,
+      "balance_loss_clip": 1.05553865,
+      "balance_loss_mlp": 1.02739096,
+      "epoch": 0.26465460229663923,
+      "flos": 22491822948480.0,
+      "grad_norm": 2.1551511208209586,
+      "language_loss": 0.83966374,
+      "learning_rate": 3.449827926217366e-06,
+      "loss": 0.86223829,
+      "num_input_tokens_seen": 47222575,
+      "step": 2201,
+      "time_per_iteration": 2.8372690677642822
+    },
+    {
+      "auxiliary_loss_clip": 0.01225623,
+      "auxiliary_loss_mlp": 0.01033248,
+      "balance_loss_clip": 1.05334866,
+      "balance_loss_mlp": 1.02378845,
+      "epoch": 0.2647748451872783,
+      "flos": 29388036038400.0,
+      "grad_norm": 1.8648576279445714,
+      "language_loss": 0.80534261,
+      "learning_rate": 3.449291229884591e-06,
+      "loss": 0.82793128,
+      "num_input_tokens_seen": 47243815,
+      "step": 2202,
+      "time_per_iteration": 2.7660768032073975
+    },
+    {
+      "auxiliary_loss_clip": 0.01236824,
+      "auxiliary_loss_mlp": 0.01027505,
+      "balance_loss_clip": 1.0560925,
+      "balance_loss_mlp": 1.01841509,
+      "epoch": 0.2648950880779174,
+      "flos": 26797799502720.0,
+      "grad_norm": 1.7204800136598697,
+      "language_loss": 0.86534262,
+      "learning_rate": 3.4487543136954887e-06,
+      "loss": 0.88798594,
+      "num_input_tokens_seen": 47263435,
+      "step": 2203,
+      "time_per_iteration": 2.789651393890381
+    },
+    {
+      "auxiliary_loss_clip": 0.01230437,
+      "auxiliary_loss_mlp": 0.01033747,
+      "balance_loss_clip": 1.05494356,
+      "balance_loss_mlp": 1.02512205,
+      "epoch": 0.2650153309685565,
+      "flos": 28841008838400.0,
+      "grad_norm": 1.718640614249469,
+      "language_loss": 0.91146791,
+      "learning_rate": 3.448217177731509e-06,
+      "loss": 0.93410975,
+      "num_input_tokens_seen": 47283920,
+      "step": 2204,
+      "time_per_iteration": 2.887577533721924
+    },
+    {
+      "auxiliary_loss_clip": 0.01218165,
+      "auxiliary_loss_mlp": 0.01032925,
+      "balance_loss_clip": 1.05775189,
+      "balance_loss_mlp": 1.02380586,
+      "epoch": 0.26513557385919556,
+      "flos": 20303247271680.0,
+      "grad_norm": 1.9593457535676184,
+      "language_loss": 0.77985072,
+      "learning_rate": 3.4476798220741348e-06,
+      "loss": 0.80236161,
+      "num_input_tokens_seen": 47302800,
+      "step": 2205,
+      "time_per_iteration": 3.57889986038208
+    },
+    {
+      "auxiliary_loss_clip": 0.01209353,
+      "auxiliary_loss_mlp": 0.01038043,
+      "balance_loss_clip": 1.06321228,
+      "balance_loss_mlp": 1.02946591,
+      "epoch": 0.26525581674983467,
+      "flos": 17676274101120.0,
+      "grad_norm": 2.3107993555692254,
+      "language_loss": 0.78677309,
+      "learning_rate": 3.4471422468048826e-06,
+      "loss": 0.80924714,
+      "num_input_tokens_seen": 47321525,
+      "step": 2206,
+      "time_per_iteration": 2.6441757678985596
+    },
+    {
+      "auxiliary_loss_clip": 0.01205617,
+      "auxiliary_loss_mlp": 0.01032574,
+      "balance_loss_clip": 1.05888343,
+      "balance_loss_mlp": 1.02318609,
+      "epoch": 0.2653760596404738,
+      "flos": 26833746038400.0,
+      "grad_norm": 2.173148603802907,
+      "language_loss": 0.72300112,
+      "learning_rate": 3.4466044520053022e-06,
+      "loss": 0.74538302,
+      "num_input_tokens_seen": 47340530,
+      "step": 2207,
+      "time_per_iteration": 2.640467405319214
+    },
+    {
+      "auxiliary_loss_clip": 0.01205239,
+      "auxiliary_loss_mlp": 0.01034849,
+      "balance_loss_clip": 1.05267239,
+      "balance_loss_mlp": 1.02531815,
+      "epoch": 0.26549630253111284,
+      "flos": 22782160581120.0,
+      "grad_norm": 1.9297562939679014,
+      "language_loss": 0.5995369,
+      "learning_rate": 3.446066437756977e-06,
+      "loss": 0.62193769,
+      "num_input_tokens_seen": 47359735,
+      "step": 2208,
+      "time_per_iteration": 2.7569785118103027
+    },
+    {
+      "auxiliary_loss_clip": 0.01220664,
+      "auxiliary_loss_mlp": 0.0102889,
+      "balance_loss_clip": 1.05686986,
+      "balance_loss_mlp": 1.01994348,
+      "epoch": 0.26561654542175195,
+      "flos": 23550002640000.0,
+      "grad_norm": 2.808159602193546,
+      "language_loss": 0.75476497,
+      "learning_rate": 3.4455282041415224e-06,
+      "loss": 0.77726054,
+      "num_input_tokens_seen": 47378945,
+      "step": 2209,
+      "time_per_iteration": 2.7264621257781982
+    },
+    {
+      "auxiliary_loss_clip": 0.01235071,
+      "auxiliary_loss_mlp": 0.01039806,
+      "balance_loss_clip": 1.05671883,
+      "balance_loss_mlp": 1.03010249,
+      "epoch": 0.265736788312391,
+      "flos": 26906680604160.0,
+      "grad_norm": 2.114032761275534,
+      "language_loss": 0.8703264,
+      "learning_rate": 3.4449897512405894e-06,
+      "loss": 0.89307523,
+      "num_input_tokens_seen": 47398095,
+      "step": 2210,
+      "time_per_iteration": 2.755340814590454
+    },
+    {
+      "auxiliary_loss_clip": 0.01238268,
+      "auxiliary_loss_mlp": 0.01380383,
+      "balance_loss_clip": 1.04725623,
+      "balance_loss_mlp": 1.00027621,
+      "epoch": 0.2658570312030301,
+      "flos": 23477139901440.0,
+      "grad_norm": 2.022354431196128,
+      "language_loss": 0.75557667,
+      "learning_rate": 3.444451079135859e-06,
+      "loss": 0.78176314,
+      "num_input_tokens_seen": 47417605,
+      "step": 2211,
+      "time_per_iteration": 2.8340351581573486
+    },
+    {
+      "auxiliary_loss_clip": 0.01222418,
+      "auxiliary_loss_mlp": 0.01380462,
+      "balance_loss_clip": 1.04820371,
+      "balance_loss_mlp": 1.00023055,
+      "epoch": 0.2659772740936692,
+      "flos": 21866402315520.0,
+      "grad_norm": 1.8309581700566324,
+      "language_loss": 0.74086559,
+      "learning_rate": 3.4439121879090493e-06,
+      "loss": 0.76689446,
+      "num_input_tokens_seen": 47435385,
+      "step": 2212,
+      "time_per_iteration": 2.7328402996063232
+    },
+    {
+      "auxiliary_loss_clip": 0.01224757,
+      "auxiliary_loss_mlp": 0.01033694,
+      "balance_loss_clip": 1.05641758,
+      "balance_loss_mlp": 1.02433562,
+      "epoch": 0.2660975169843083,
+      "flos": 19793100360960.0,
+      "grad_norm": 1.9465613920858156,
+      "language_loss": 0.83115602,
+      "learning_rate": 3.4433730776419082e-06,
+      "loss": 0.85374057,
+      "num_input_tokens_seen": 47454310,
+      "step": 2213,
+      "time_per_iteration": 2.836148738861084
+    },
+    {
+      "auxiliary_loss_clip": 0.01216577,
+      "auxiliary_loss_mlp": 0.01380633,
+      "balance_loss_clip": 1.05672204,
+      "balance_loss_mlp": 1.0004214,
+      "epoch": 0.2662177598749474,
+      "flos": 29018981750400.0,
+      "grad_norm": 3.1177407336931093,
+      "language_loss": 0.80465829,
+      "learning_rate": 3.4428337484162183e-06,
+      "loss": 0.83063036,
+      "num_input_tokens_seen": 47475120,
+      "step": 2214,
+      "time_per_iteration": 2.7113139629364014
+    },
+    {
+      "auxiliary_loss_clip": 0.01217971,
+      "auxiliary_loss_mlp": 0.01027149,
+      "balance_loss_clip": 1.05442607,
+      "balance_loss_mlp": 1.01748705,
+      "epoch": 0.2663380027655865,
+      "flos": 21762549118080.0,
+      "grad_norm": 2.2210508036272203,
+      "language_loss": 0.8459549,
+      "learning_rate": 3.442294200313797e-06,
+      "loss": 0.86840606,
+      "num_input_tokens_seen": 47493150,
+      "step": 2215,
+      "time_per_iteration": 2.748279094696045
+    },
+    {
+      "auxiliary_loss_clip": 0.0110071,
+      "auxiliary_loss_mlp": 0.01003372,
+      "balance_loss_clip": 1.02418447,
+      "balance_loss_mlp": 1.00157213,
+      "epoch": 0.26645824565622556,
+      "flos": 66980333819520.0,
+      "grad_norm": 0.765188641017228,
+      "language_loss": 0.52677399,
+      "learning_rate": 3.4417544334164916e-06,
+      "loss": 0.54781479,
+      "num_input_tokens_seen": 47557295,
+      "step": 2216,
+      "time_per_iteration": 3.229485034942627
+    },
+    {
+      "auxiliary_loss_clip": 0.01229581,
+      "auxiliary_loss_mlp": 0.0102833,
+      "balance_loss_clip": 1.05453408,
+      "balance_loss_mlp": 1.01943052,
+      "epoch": 0.26657848854686467,
+      "flos": 25264198373760.0,
+      "grad_norm": 1.8829617004853132,
+      "language_loss": 0.77360475,
+      "learning_rate": 3.4412144478061854e-06,
+      "loss": 0.79618382,
+      "num_input_tokens_seen": 47579705,
+      "step": 2217,
+      "time_per_iteration": 2.764317274093628
+    },
+    {
+      "auxiliary_loss_clip": 0.0126294,
+      "auxiliary_loss_mlp": 0.01034763,
+      "balance_loss_clip": 1.04971194,
+      "balance_loss_mlp": 1.02512455,
+      "epoch": 0.2666987314375038,
+      "flos": 23696769611520.0,
+      "grad_norm": 1.8079416582060677,
+      "language_loss": 0.75140035,
+      "learning_rate": 3.4406742435647925e-06,
+      "loss": 0.77437747,
+      "num_input_tokens_seen": 47599770,
+      "step": 2218,
+      "time_per_iteration": 3.052056312561035
+    },
+    {
+      "auxiliary_loss_clip": 0.01213833,
+      "auxiliary_loss_mlp": 0.01031219,
+      "balance_loss_clip": 1.06007683,
+      "balance_loss_mlp": 1.02239192,
+      "epoch": 0.26681897432814283,
+      "flos": 27048958375680.0,
+      "grad_norm": 2.148802480498236,
+      "language_loss": 0.79126745,
+      "learning_rate": 3.440133820774263e-06,
+      "loss": 0.81371802,
+      "num_input_tokens_seen": 47619580,
+      "step": 2219,
+      "time_per_iteration": 2.9522221088409424
+    },
+    {
+      "auxiliary_loss_clip": 0.01228616,
+      "auxiliary_loss_mlp": 0.01038177,
+      "balance_loss_clip": 1.05927444,
+      "balance_loss_mlp": 1.02779961,
+      "epoch": 0.26693921721878194,
+      "flos": 28985944216320.0,
+      "grad_norm": 2.034085458096377,
+      "language_loss": 0.81835878,
+      "learning_rate": 3.439593179516578e-06,
+      "loss": 0.84102678,
+      "num_input_tokens_seen": 47639490,
+      "step": 2220,
+      "time_per_iteration": 2.85662579536438
+    },
+    {
+      "auxiliary_loss_clip": 0.01228002,
+      "auxiliary_loss_mlp": 0.01038539,
+      "balance_loss_clip": 1.05821991,
+      "balance_loss_mlp": 1.02820992,
+      "epoch": 0.26705946010942105,
+      "flos": 21507834798720.0,
+      "grad_norm": 1.915219070968461,
+      "language_loss": 0.81182206,
+      "learning_rate": 3.4390523198737524e-06,
+      "loss": 0.8344875,
+      "num_input_tokens_seen": 47658650,
+      "step": 2221,
+      "time_per_iteration": 2.7167282104492188
+    },
+    {
+      "auxiliary_loss_clip": 0.0120928,
+      "auxiliary_loss_mlp": 0.01380475,
+      "balance_loss_clip": 1.06094813,
+      "balance_loss_mlp": 1.00033987,
+      "epoch": 0.2671797030000601,
+      "flos": 21471277731840.0,
+      "grad_norm": 3.9031208073887393,
+      "language_loss": 0.73586571,
+      "learning_rate": 3.4385112419278333e-06,
+      "loss": 0.76176322,
+      "num_input_tokens_seen": 47679875,
+      "step": 2222,
+      "time_per_iteration": 2.708101987838745
+    },
+    {
+      "auxiliary_loss_clip": 0.01116443,
+      "auxiliary_loss_mlp": 0.01000974,
+      "balance_loss_clip": 1.02653635,
+      "balance_loss_mlp": 0.99910212,
+      "epoch": 0.2672999458906992,
+      "flos": 64189929767040.0,
+      "grad_norm": 0.7912188360324073,
+      "language_loss": 0.64871269,
+      "learning_rate": 3.4379699457609033e-06,
+      "loss": 0.66988689,
+      "num_input_tokens_seen": 47737700,
+      "step": 2223,
+      "time_per_iteration": 3.198162317276001
+    },
+    {
+      "auxiliary_loss_clip": 0.01212678,
+      "auxiliary_loss_mlp": 0.01033529,
+      "balance_loss_clip": 1.05464637,
+      "balance_loss_mlp": 1.02346122,
+      "epoch": 0.26742018878133833,
+      "flos": 16909042573440.0,
+      "grad_norm": 1.8665783665837197,
+      "language_loss": 0.90143472,
+      "learning_rate": 3.4374284314550755e-06,
+      "loss": 0.92389679,
+      "num_input_tokens_seen": 47756740,
+      "step": 2224,
+      "time_per_iteration": 3.608497142791748
+    },
+    {
+      "auxiliary_loss_clip": 0.01208459,
+      "auxiliary_loss_mlp": 0.01033636,
+      "balance_loss_clip": 1.06146479,
+      "balance_loss_mlp": 1.02392638,
+      "epoch": 0.2675404316719774,
+      "flos": 20667560964480.0,
+      "grad_norm": 4.637717368239258,
+      "language_loss": 0.80993462,
+      "learning_rate": 3.436886699092498e-06,
+      "loss": 0.8323555,
+      "num_input_tokens_seen": 47775255,
+      "step": 2225,
+      "time_per_iteration": 3.564652681350708
+    },
+    {
+      "auxiliary_loss_clip": 0.01211686,
+      "auxiliary_loss_mlp": 0.01035556,
+      "balance_loss_clip": 1.06181395,
+      "balance_loss_mlp": 1.02590597,
+      "epoch": 0.2676606745626165,
+      "flos": 17485013157120.0,
+      "grad_norm": 2.651786450985324,
+      "language_loss": 0.71823311,
+      "learning_rate": 3.4363447487553502e-06,
+      "loss": 0.74070549,
+      "num_input_tokens_seen": 47788570,
+      "step": 2226,
+      "time_per_iteration": 3.476790428161621
+    },
+    {
+      "auxiliary_loss_clip": 0.01220444,
+      "auxiliary_loss_mlp": 0.01033016,
+      "balance_loss_clip": 1.05818844,
+      "balance_loss_mlp": 1.0234015,
+      "epoch": 0.26778091745325555,
+      "flos": 27852675143040.0,
+      "grad_norm": 1.7676004851850653,
+      "language_loss": 0.77940154,
+      "learning_rate": 3.4358025805258455e-06,
+      "loss": 0.80193615,
+      "num_input_tokens_seen": 47808275,
+      "step": 2227,
+      "time_per_iteration": 2.7439730167388916
+    },
+    {
+      "auxiliary_loss_clip": 0.0124637,
+      "auxiliary_loss_mlp": 0.01031292,
+      "balance_loss_clip": 1.05519879,
+      "balance_loss_mlp": 1.02193379,
+      "epoch": 0.26790116034389466,
+      "flos": 20955995176320.0,
+      "grad_norm": 1.730377142088732,
+      "language_loss": 0.83152902,
+      "learning_rate": 3.435260194486232e-06,
+      "loss": 0.85430568,
+      "num_input_tokens_seen": 47826245,
+      "step": 2228,
+      "time_per_iteration": 2.7925221920013428
+    },
+    {
+      "auxiliary_loss_clip": 0.0122432,
+      "auxiliary_loss_mlp": 0.01034921,
+      "balance_loss_clip": 1.05712152,
+      "balance_loss_mlp": 1.02522969,
+      "epoch": 0.2680214032345338,
+      "flos": 18040659621120.0,
+      "grad_norm": 2.3396249851453343,
+      "language_loss": 0.81878906,
+      "learning_rate": 3.4347175907187875e-06,
+      "loss": 0.84138155,
+      "num_input_tokens_seen": 47843235,
+      "step": 2229,
+      "time_per_iteration": 2.6411373615264893
+    },
+    {
+      "auxiliary_loss_clip": 0.01212898,
+      "auxiliary_loss_mlp": 0.01034208,
+      "balance_loss_clip": 1.05738592,
+      "balance_loss_mlp": 1.02526748,
+      "epoch": 0.26814164612517283,
+      "flos": 22419427086720.0,
+      "grad_norm": 1.7334530115355395,
+      "language_loss": 0.88016117,
+      "learning_rate": 3.4341747693058254e-06,
+      "loss": 0.90263224,
+      "num_input_tokens_seen": 47861710,
+      "step": 2230,
+      "time_per_iteration": 3.6107335090637207
+    },
+    {
+      "auxiliary_loss_clip": 0.01253893,
+      "auxiliary_loss_mlp": 0.01039985,
+      "balance_loss_clip": 1.04847157,
+      "balance_loss_mlp": 1.03044784,
+      "epoch": 0.26826188901581194,
+      "flos": 35627371159680.0,
+      "grad_norm": 1.7302813357756432,
+      "language_loss": 0.76921201,
+      "learning_rate": 3.4336317303296916e-06,
+      "loss": 0.79215074,
+      "num_input_tokens_seen": 47882685,
+      "step": 2231,
+      "time_per_iteration": 3.1316630840301514
+    },
+    {
+      "auxiliary_loss_clip": 0.01212541,
+      "auxiliary_loss_mlp": 0.01030146,
+      "balance_loss_clip": 1.05815399,
+      "balance_loss_mlp": 1.02004266,
+      "epoch": 0.26838213190645105,
+      "flos": 17639788861440.0,
+      "grad_norm": 1.9336535108368937,
+      "language_loss": 0.7501725,
+      "learning_rate": 3.4330884738727635e-06,
+      "loss": 0.7725994,
+      "num_input_tokens_seen": 47900860,
+      "step": 2232,
+      "time_per_iteration": 2.9499638080596924
+    },
+    {
+      "auxiliary_loss_clip": 0.01227287,
+      "auxiliary_loss_mlp": 0.01028061,
+      "balance_loss_clip": 1.0520072,
+      "balance_loss_mlp": 1.01868558,
+      "epoch": 0.2685023747970901,
+      "flos": 22674823764480.0,
+      "grad_norm": 1.8847510728466983,
+      "language_loss": 0.70509893,
+      "learning_rate": 3.4325450000174535e-06,
+      "loss": 0.72765243,
+      "num_input_tokens_seen": 47917500,
+      "step": 2233,
+      "time_per_iteration": 2.8162424564361572
+    },
+    {
+      "auxiliary_loss_clip": 0.0123082,
+      "auxiliary_loss_mlp": 0.01037504,
+      "balance_loss_clip": 1.05201149,
+      "balance_loss_mlp": 1.02785444,
+      "epoch": 0.2686226176877292,
+      "flos": 20120533764480.0,
+      "grad_norm": 1.7502246659383478,
+      "language_loss": 0.74601918,
+      "learning_rate": 3.4320013088462067e-06,
+      "loss": 0.76870245,
+      "num_input_tokens_seen": 47934860,
+      "step": 2234,
+      "time_per_iteration": 2.904542922973633
+    },
+    {
+      "auxiliary_loss_clip": 0.01231451,
+      "auxiliary_loss_mlp": 0.01030613,
+      "balance_loss_clip": 1.05314589,
+      "balance_loss_mlp": 1.02115941,
+      "epoch": 0.2687428605783683,
+      "flos": 21872040750720.0,
+      "grad_norm": 2.052557923520032,
+      "language_loss": 0.81251782,
+      "learning_rate": 3.431457400441499e-06,
+      "loss": 0.83513844,
+      "num_input_tokens_seen": 47955255,
+      "step": 2235,
+      "time_per_iteration": 2.8207509517669678
+    },
+    {
+      "auxiliary_loss_clip": 0.01147782,
+      "auxiliary_loss_mlp": 0.01001085,
+      "balance_loss_clip": 1.02007365,
+      "balance_loss_mlp": 0.99907058,
+      "epoch": 0.2688631034690074,
+      "flos": 69943320766080.0,
+      "grad_norm": 0.9417848186705835,
+      "language_loss": 0.60914397,
+      "learning_rate": 3.4309132748858424e-06,
+      "loss": 0.63063264,
+      "num_input_tokens_seen": 48016245,
+      "step": 2236,
+      "time_per_iteration": 3.3416733741760254
+    },
+    {
+      "auxiliary_loss_clip": 0.01214198,
+      "auxiliary_loss_mlp": 0.01039569,
+      "balance_loss_clip": 1.06131995,
+      "balance_loss_mlp": 1.03012776,
+      "epoch": 0.2689833463596465,
+      "flos": 22856639431680.0,
+      "grad_norm": 1.5792926197653925,
+      "language_loss": 0.8354094,
+      "learning_rate": 3.430368932261779e-06,
+      "loss": 0.85794705,
+      "num_input_tokens_seen": 48036600,
+      "step": 2237,
+      "time_per_iteration": 2.6900312900543213
+    },
+    {
+      "auxiliary_loss_clip": 0.0122166,
+      "auxiliary_loss_mlp": 0.01030487,
+      "balance_loss_clip": 1.05768943,
+      "balance_loss_mlp": 1.02125978,
+      "epoch": 0.2691035892502856,
+      "flos": 17200242132480.0,
+      "grad_norm": 1.8813601677230776,
+      "language_loss": 0.74766016,
+      "learning_rate": 3.429824372651886e-06,
+      "loss": 0.77018166,
+      "num_input_tokens_seen": 48054750,
+      "step": 2238,
+      "time_per_iteration": 2.7075231075286865
+    },
+    {
+      "auxiliary_loss_clip": 0.01251439,
+      "auxiliary_loss_mlp": 0.01029858,
+      "balance_loss_clip": 1.05703259,
+      "balance_loss_mlp": 1.01986837,
+      "epoch": 0.26922383214092466,
+      "flos": 17747484814080.0,
+      "grad_norm": 2.0118684933918916,
+      "language_loss": 0.83677709,
+      "learning_rate": 3.4292795961387732e-06,
+      "loss": 0.85959011,
+      "num_input_tokens_seen": 48072650,
+      "step": 2239,
+      "time_per_iteration": 2.7277657985687256
+    },
+    {
+      "auxiliary_loss_clip": 0.01207416,
+      "auxiliary_loss_mlp": 0.01031562,
+      "balance_loss_clip": 1.05978048,
+      "balance_loss_mlp": 1.02187085,
+      "epoch": 0.26934407503156377,
+      "flos": 16173376122240.0,
+      "grad_norm": 2.1223755697928617,
+      "language_loss": 0.87406135,
+      "learning_rate": 3.4287346028050818e-06,
+      "loss": 0.89645112,
+      "num_input_tokens_seen": 48088720,
+      "step": 2240,
+      "time_per_iteration": 2.6661407947540283
+    },
+    {
+      "auxiliary_loss_clip": 0.01221284,
+      "auxiliary_loss_mlp": 0.01031816,
+      "balance_loss_clip": 1.05556488,
+      "balance_loss_mlp": 1.02331018,
+      "epoch": 0.2694643179222028,
+      "flos": 23732895715200.0,
+      "grad_norm": 1.464961558777702,
+      "language_loss": 0.7928009,
+      "learning_rate": 3.4281893927334866e-06,
+      "loss": 0.81533194,
+      "num_input_tokens_seen": 48108630,
+      "step": 2241,
+      "time_per_iteration": 2.6879358291625977
+    },
+    {
+      "auxiliary_loss_clip": 0.0121628,
+      "auxiliary_loss_mlp": 0.01029354,
+      "balance_loss_clip": 1.05984402,
+      "balance_loss_mlp": 1.0201447,
+      "epoch": 0.26958456081284193,
+      "flos": 24718140840960.0,
+      "grad_norm": 1.8252118112916393,
+      "language_loss": 0.75406432,
+      "learning_rate": 3.4276439660066963e-06,
+      "loss": 0.77652067,
+      "num_input_tokens_seen": 48128330,
+      "step": 2242,
+      "time_per_iteration": 2.7020914554595947
+    },
+    {
+      "auxiliary_loss_clip": 0.01204818,
+      "auxiliary_loss_mlp": 0.0103591,
+      "balance_loss_clip": 1.06049347,
+      "balance_loss_mlp": 1.02689171,
+      "epoch": 0.26970480370348104,
+      "flos": 18112588606080.0,
+      "grad_norm": 2.358869604437762,
+      "language_loss": 0.8413738,
+      "learning_rate": 3.427098322707452e-06,
+      "loss": 0.86378109,
+      "num_input_tokens_seen": 48144295,
+      "step": 2243,
+      "time_per_iteration": 2.5742690563201904
+    },
+    {
+      "auxiliary_loss_clip": 0.01217401,
+      "auxiliary_loss_mlp": 0.01042975,
+      "balance_loss_clip": 1.06401575,
+      "balance_loss_mlp": 1.03347397,
+      "epoch": 0.2698250465941201,
+      "flos": 10816546250880.0,
+      "grad_norm": 2.227851845339906,
+      "language_loss": 0.8974328,
+      "learning_rate": 3.426552462918526e-06,
+      "loss": 0.92003655,
+      "num_input_tokens_seen": 48162230,
+      "step": 2244,
+      "time_per_iteration": 2.6588292121887207
+    },
+    {
+      "auxiliary_loss_clip": 0.01207353,
+      "auxiliary_loss_mlp": 0.01041422,
+      "balance_loss_clip": 1.06364703,
+      "balance_loss_mlp": 1.03187954,
+      "epoch": 0.2699452894847592,
+      "flos": 17308117653120.0,
+      "grad_norm": 2.431832469679547,
+      "language_loss": 0.73144555,
+      "learning_rate": 3.426006386722726e-06,
+      "loss": 0.75393325,
+      "num_input_tokens_seen": 48180290,
+      "step": 2245,
+      "time_per_iteration": 2.992250680923462
+    },
+    {
+      "auxiliary_loss_clip": 0.01236187,
+      "auxiliary_loss_mlp": 0.01031364,
+      "balance_loss_clip": 1.06067121,
+      "balance_loss_mlp": 1.02205992,
+      "epoch": 0.2700655323753983,
+      "flos": 18078150441600.0,
+      "grad_norm": 2.14010540593459,
+      "language_loss": 0.9237746,
+      "learning_rate": 3.4254600942028914e-06,
+      "loss": 0.94645011,
+      "num_input_tokens_seen": 48198165,
+      "step": 2246,
+      "time_per_iteration": 2.7373545169830322
+    },
+    {
+      "auxiliary_loss_clip": 0.01222505,
+      "auxiliary_loss_mlp": 0.01032226,
+      "balance_loss_clip": 1.06106389,
+      "balance_loss_mlp": 1.02347052,
+      "epoch": 0.2701857752660374,
+      "flos": 18186636493440.0,
+      "grad_norm": 1.9564595619171876,
+      "language_loss": 0.82576668,
+      "learning_rate": 3.424913585441893e-06,
+      "loss": 0.84831405,
+      "num_input_tokens_seen": 48216000,
+      "step": 2247,
+      "time_per_iteration": 2.691000461578369
+    },
+    {
+      "auxiliary_loss_clip": 0.01210871,
+      "auxiliary_loss_mlp": 0.01032748,
+      "balance_loss_clip": 1.05920315,
+      "balance_loss_mlp": 1.02375412,
+      "epoch": 0.2703060181566765,
+      "flos": 16319496648960.0,
+      "grad_norm": 1.889941891612269,
+      "language_loss": 0.8720066,
+      "learning_rate": 3.4243668605226374e-06,
+      "loss": 0.89444274,
+      "num_input_tokens_seen": 48233025,
+      "step": 2248,
+      "time_per_iteration": 2.566197633743286
+    },
+    {
+      "auxiliary_loss_clip": 0.01231121,
+      "auxiliary_loss_mlp": 0.01033006,
+      "balance_loss_clip": 1.05776298,
+      "balance_loss_mlp": 1.02342772,
+      "epoch": 0.2704262610473156,
+      "flos": 19572357329280.0,
+      "grad_norm": 2.1012579998695,
+      "language_loss": 0.8278718,
+      "learning_rate": 3.423819919528061e-06,
+      "loss": 0.85051298,
+      "num_input_tokens_seen": 48251110,
+      "step": 2249,
+      "time_per_iteration": 2.780592203140259
+    },
+    {
+      "auxiliary_loss_clip": 0.01241265,
+      "auxiliary_loss_mlp": 0.01025653,
+      "balance_loss_clip": 1.05294478,
+      "balance_loss_mlp": 1.01697397,
+      "epoch": 0.27054650393795465,
+      "flos": 20740746925440.0,
+      "grad_norm": 1.8792710575876819,
+      "language_loss": 0.78463805,
+      "learning_rate": 3.4232727625411355e-06,
+      "loss": 0.80730718,
+      "num_input_tokens_seen": 48270215,
+      "step": 2250,
+      "time_per_iteration": 3.6373162269592285
+    },
+    {
+      "auxiliary_loss_clip": 0.01239689,
+      "auxiliary_loss_mlp": 0.01032802,
+      "balance_loss_clip": 1.05168581,
+      "balance_loss_mlp": 1.02411771,
+      "epoch": 0.27066674682859376,
+      "flos": 18658322916480.0,
+      "grad_norm": 1.644676930608436,
+      "language_loss": 0.86448383,
+      "learning_rate": 3.4227253896448626e-06,
+      "loss": 0.8872087,
+      "num_input_tokens_seen": 48288075,
+      "step": 2251,
+      "time_per_iteration": 3.715186357498169
+    },
+    {
+      "auxiliary_loss_clip": 0.01203489,
+      "auxiliary_loss_mlp": 0.01030339,
+      "balance_loss_clip": 1.05930865,
+      "balance_loss_mlp": 1.02196455,
+      "epoch": 0.2707869897192329,
+      "flos": 23002759958400.0,
+      "grad_norm": 2.8821365116848656,
+      "language_loss": 0.82100207,
+      "learning_rate": 3.42217780092228e-06,
+      "loss": 0.8433404,
+      "num_input_tokens_seen": 48306415,
+      "step": 2252,
+      "time_per_iteration": 3.692326545715332
+    },
+    {
+      "auxiliary_loss_clip": 0.01144674,
+      "auxiliary_loss_mlp": 0.01001986,
+      "balance_loss_clip": 1.02994144,
+      "balance_loss_mlp": 1.00015068,
+      "epoch": 0.27090723260987193,
+      "flos": 58323240293760.0,
+      "grad_norm": 0.7907987268918714,
+      "language_loss": 0.60326415,
+      "learning_rate": 3.421629996456456e-06,
+      "loss": 0.62473071,
+      "num_input_tokens_seen": 48365035,
+      "step": 2253,
+      "time_per_iteration": 3.2774696350097656
+    },
+    {
+      "auxiliary_loss_clip": 0.01209976,
+      "auxiliary_loss_mlp": 0.01029759,
+      "balance_loss_clip": 1.05851531,
+      "balance_loss_mlp": 1.02076435,
+      "epoch": 0.27102747550051104,
+      "flos": 11984540797440.0,
+      "grad_norm": 2.7614667327872495,
+      "language_loss": 0.82766324,
+      "learning_rate": 3.421081976330491e-06,
+      "loss": 0.85006058,
+      "num_input_tokens_seen": 48383550,
+      "step": 2254,
+      "time_per_iteration": 2.6459879875183105
+    },
+    {
+      "auxiliary_loss_clip": 0.0121845,
+      "auxiliary_loss_mlp": 0.01029651,
+      "balance_loss_clip": 1.05763245,
+      "balance_loss_mlp": 1.02136564,
+      "epoch": 0.27114771839115015,
+      "flos": 19900401264000.0,
+      "grad_norm": 1.8530566495870446,
+      "language_loss": 0.87811887,
+      "learning_rate": 3.4205337406275207e-06,
+      "loss": 0.9005999,
+      "num_input_tokens_seen": 48403670,
+      "step": 2255,
+      "time_per_iteration": 2.7682044506073
+    },
+    {
+      "auxiliary_loss_clip": 0.01204802,
+      "auxiliary_loss_mlp": 0.0103388,
+      "balance_loss_clip": 1.06001782,
+      "balance_loss_mlp": 1.02530289,
+      "epoch": 0.2712679612817892,
+      "flos": 18331966920960.0,
+      "grad_norm": 2.6975037343653834,
+      "language_loss": 0.75323999,
+      "learning_rate": 3.4199852894307114e-06,
+      "loss": 0.77562678,
+      "num_input_tokens_seen": 48420420,
+      "step": 2256,
+      "time_per_iteration": 3.5066821575164795
+    },
+    {
+      "auxiliary_loss_clip": 0.0124915,
+      "auxiliary_loss_mlp": 0.01037833,
+      "balance_loss_clip": 1.05493104,
+      "balance_loss_mlp": 1.02915478,
+      "epoch": 0.2713882041724283,
+      "flos": 24460302038400.0,
+      "grad_norm": 2.0941619096689994,
+      "language_loss": 0.78465557,
+      "learning_rate": 3.419436622823262e-06,
+      "loss": 0.8075254,
+      "num_input_tokens_seen": 48441140,
+      "step": 2257,
+      "time_per_iteration": 2.8758254051208496
+    },
+    {
+      "auxiliary_loss_clip": 0.01218794,
+      "auxiliary_loss_mlp": 0.01033135,
+      "balance_loss_clip": 1.05922818,
+      "balance_loss_mlp": 1.02464128,
+      "epoch": 0.27150844706306737,
+      "flos": 23039317025280.0,
+      "grad_norm": 1.5660919746839326,
+      "language_loss": 0.7419343,
+      "learning_rate": 3.4188877408884063e-06,
+      "loss": 0.76445353,
+      "num_input_tokens_seen": 48461845,
+      "step": 2258,
+      "time_per_iteration": 2.674694061279297
+    },
+    {
+      "auxiliary_loss_clip": 0.01211518,
+      "auxiliary_loss_mlp": 0.01035513,
+      "balance_loss_clip": 1.05341387,
+      "balance_loss_mlp": 1.02688813,
+      "epoch": 0.2716286899537065,
+      "flos": 22563644192640.0,
+      "grad_norm": 2.537541660354262,
+      "language_loss": 0.65613341,
+      "learning_rate": 3.4183386437094088e-06,
+      "loss": 0.67860377,
+      "num_input_tokens_seen": 48478510,
+      "step": 2259,
+      "time_per_iteration": 2.7007031440734863
+    },
+    {
+      "auxiliary_loss_clip": 0.01221728,
+      "auxiliary_loss_mlp": 0.01026546,
+      "balance_loss_clip": 1.05600893,
+      "balance_loss_mlp": 1.01770639,
+      "epoch": 0.2717489328443456,
+      "flos": 13115044523520.0,
+      "grad_norm": 2.653562272051674,
+      "language_loss": 0.82481122,
+      "learning_rate": 3.417789331369565e-06,
+      "loss": 0.84729397,
+      "num_input_tokens_seen": 48494300,
+      "step": 2260,
+      "time_per_iteration": 2.6517090797424316
+    },
+    {
+      "auxiliary_loss_clip": 0.01211384,
+      "auxiliary_loss_mlp": 0.01038033,
+      "balance_loss_clip": 1.06348968,
+      "balance_loss_mlp": 1.02886009,
+      "epoch": 0.27186917573498465,
+      "flos": 29278688060160.0,
+      "grad_norm": 1.9343294405934968,
+      "language_loss": 0.91107309,
+      "learning_rate": 3.4172398039522088e-06,
+      "loss": 0.93356729,
+      "num_input_tokens_seen": 48515585,
+      "step": 2261,
+      "time_per_iteration": 2.7302005290985107
+    },
+    {
+      "auxiliary_loss_clip": 0.01213039,
+      "auxiliary_loss_mlp": 0.01028317,
+      "balance_loss_clip": 1.05954683,
+      "balance_loss_mlp": 1.01858318,
+      "epoch": 0.27198941862562376,
+      "flos": 26032220000640.0,
+      "grad_norm": 1.705085727206724,
+      "language_loss": 0.79808784,
+      "learning_rate": 3.4166900615407e-06,
+      "loss": 0.82050145,
+      "num_input_tokens_seen": 48533500,
+      "step": 2262,
+      "time_per_iteration": 2.729484796524048
+    },
+    {
+      "auxiliary_loss_clip": 0.01214724,
+      "auxiliary_loss_mlp": 0.01031638,
+      "balance_loss_clip": 1.06161666,
+      "balance_loss_mlp": 1.02270877,
+      "epoch": 0.27210966151626287,
+      "flos": 32780983760640.0,
+      "grad_norm": 2.1051953476153367,
+      "language_loss": 0.75395441,
+      "learning_rate": 3.416140104218436e-06,
+      "loss": 0.77641809,
+      "num_input_tokens_seen": 48552865,
+      "step": 2263,
+      "time_per_iteration": 2.795398473739624
+    },
+    {
+      "auxiliary_loss_clip": 0.01121429,
+      "auxiliary_loss_mlp": 0.01375857,
+      "balance_loss_clip": 1.0249697,
+      "balance_loss_mlp": 1.00003326,
+      "epoch": 0.2722299044069019,
+      "flos": 65471043219840.0,
+      "grad_norm": 0.8385382019634542,
+      "language_loss": 0.69673157,
+      "learning_rate": 3.4155899320688437e-06,
+      "loss": 0.72170442,
+      "num_input_tokens_seen": 48618940,
+      "step": 2264,
+      "time_per_iteration": 3.3482749462127686
+    },
+    {
+      "auxiliary_loss_clip": 0.01250598,
+      "auxiliary_loss_mlp": 0.01031485,
+      "balance_loss_clip": 1.05550265,
+      "balance_loss_mlp": 1.02197766,
+      "epoch": 0.27235014729754103,
+      "flos": 15334143782400.0,
+      "grad_norm": 2.1126238200059713,
+      "language_loss": 0.73941195,
+      "learning_rate": 3.415039545175384e-06,
+      "loss": 0.76223278,
+      "num_input_tokens_seen": 48634665,
+      "step": 2265,
+      "time_per_iteration": 2.7339577674865723
+    },
+    {
+      "auxiliary_loss_clip": 0.01217331,
+      "auxiliary_loss_mlp": 0.01028393,
+      "balance_loss_clip": 1.06060982,
+      "balance_loss_mlp": 1.01920819,
+      "epoch": 0.27247039018818014,
+      "flos": 21872363973120.0,
+      "grad_norm": 2.0759934454698272,
+      "language_loss": 0.6512115,
+      "learning_rate": 3.414488943621551e-06,
+      "loss": 0.67366868,
+      "num_input_tokens_seen": 48653330,
+      "step": 2266,
+      "time_per_iteration": 2.6926589012145996
+    },
+    {
+      "auxiliary_loss_clip": 0.01211722,
+      "auxiliary_loss_mlp": 0.0103207,
+      "balance_loss_clip": 1.05998421,
+      "balance_loss_mlp": 1.02334356,
+      "epoch": 0.2725906330788192,
+      "flos": 18695490514560.0,
+      "grad_norm": 1.816087192598771,
+      "language_loss": 0.73705041,
+      "learning_rate": 3.41393812749087e-06,
+      "loss": 0.7594884,
+      "num_input_tokens_seen": 48671375,
+      "step": 2267,
+      "time_per_iteration": 2.6714141368865967
+    },
+    {
+      "auxiliary_loss_clip": 0.01218992,
+      "auxiliary_loss_mlp": 0.01026878,
+      "balance_loss_clip": 1.05876946,
+      "balance_loss_mlp": 1.0179497,
+      "epoch": 0.2727108759694583,
+      "flos": 17886099398400.0,
+      "grad_norm": 4.579735931280047,
+      "language_loss": 0.71678078,
+      "learning_rate": 3.4133870968668984e-06,
+      "loss": 0.73923945,
+      "num_input_tokens_seen": 48686175,
+      "step": 2268,
+      "time_per_iteration": 2.8589084148406982
+    },
+    {
+      "auxiliary_loss_clip": 0.01222122,
+      "auxiliary_loss_mlp": 0.01032589,
+      "balance_loss_clip": 1.05753696,
+      "balance_loss_mlp": 1.02348709,
+      "epoch": 0.2728311188600974,
+      "flos": 24461666755200.0,
+      "grad_norm": 3.0728424886742873,
+      "language_loss": 0.78489798,
+      "learning_rate": 3.412835851833229e-06,
+      "loss": 0.80744505,
+      "num_input_tokens_seen": 48708370,
+      "step": 2269,
+      "time_per_iteration": 2.764896869659424
+    },
+    {
+      "auxiliary_loss_clip": 0.01213012,
+      "auxiliary_loss_mlp": 0.01031864,
+      "balance_loss_clip": 1.06163502,
+      "balance_loss_mlp": 1.02315569,
+      "epoch": 0.2729513617507365,
+      "flos": 30993314757120.0,
+      "grad_norm": 1.7517853009206605,
+      "language_loss": 0.77975738,
+      "learning_rate": 3.4122843924734834e-06,
+      "loss": 0.80220616,
+      "num_input_tokens_seen": 48730670,
+      "step": 2270,
+      "time_per_iteration": 2.692556858062744
+    },
+    {
+      "auxiliary_loss_clip": 0.01216711,
+      "auxiliary_loss_mlp": 0.01035399,
+      "balance_loss_clip": 1.0555048,
+      "balance_loss_mlp": 1.02565324,
+      "epoch": 0.2730716046413756,
+      "flos": 19094637421440.0,
+      "grad_norm": 1.7409423146137089,
+      "language_loss": 0.87587607,
+      "learning_rate": 3.411732718871319e-06,
+      "loss": 0.89839721,
+      "num_input_tokens_seen": 48746510,
+      "step": 2271,
+      "time_per_iteration": 2.6947543621063232
+    },
+    {
+      "auxiliary_loss_clip": 0.01204161,
+      "auxiliary_loss_mlp": 0.01034722,
+      "balance_loss_clip": 1.06276095,
+      "balance_loss_mlp": 1.02658594,
+      "epoch": 0.27319184753201464,
+      "flos": 26944566474240.0,
+      "grad_norm": 1.5629743663411957,
+      "language_loss": 0.78659356,
+      "learning_rate": 3.4111808311104227e-06,
+      "loss": 0.80898237,
+      "num_input_tokens_seen": 48768825,
+      "step": 2272,
+      "time_per_iteration": 2.6975371837615967
+    },
+    {
+      "auxiliary_loss_clip": 0.01227769,
+      "auxiliary_loss_mlp": 0.01031691,
+      "balance_loss_clip": 1.05643463,
+      "balance_loss_mlp": 1.02204728,
+      "epoch": 0.27331209042265375,
+      "flos": 31759828012800.0,
+      "grad_norm": 1.7252150974139067,
+      "language_loss": 0.69475406,
+      "learning_rate": 3.410628729274517e-06,
+      "loss": 0.71734869,
+      "num_input_tokens_seen": 48790345,
+      "step": 2273,
+      "time_per_iteration": 2.935181140899658
+    },
+    {
+      "auxiliary_loss_clip": 0.01222022,
+      "auxiliary_loss_mlp": 0.01379945,
+      "balance_loss_clip": 1.0590049,
+      "balance_loss_mlp": 1.00003433,
+      "epoch": 0.27343233331329286,
+      "flos": 25739081107200.0,
+      "grad_norm": 1.8185359233623375,
+      "language_loss": 0.82533401,
+      "learning_rate": 3.4100764134473546e-06,
+      "loss": 0.85135365,
+      "num_input_tokens_seen": 48809630,
+      "step": 2274,
+      "time_per_iteration": 2.703814744949341
+    },
+    {
+      "auxiliary_loss_clip": 0.01204103,
+      "auxiliary_loss_mlp": 0.01035657,
+      "balance_loss_clip": 1.06128383,
+      "balance_loss_mlp": 1.02709222,
+      "epoch": 0.2735525762039319,
+      "flos": 24389414547840.0,
+      "grad_norm": 3.6128694891857367,
+      "language_loss": 0.8509599,
+      "learning_rate": 3.4095238837127215e-06,
+      "loss": 0.87335747,
+      "num_input_tokens_seen": 48828770,
+      "step": 2275,
+      "time_per_iteration": 2.6719319820404053
+    },
+    {
+      "auxiliary_loss_clip": 0.01224556,
+      "auxiliary_loss_mlp": 0.01033528,
+      "balance_loss_clip": 1.0545752,
+      "balance_loss_mlp": 1.02438426,
+      "epoch": 0.27367281909457103,
+      "flos": 14465357527680.0,
+      "grad_norm": 1.9498895731796055,
+      "language_loss": 0.7935527,
+      "learning_rate": 3.4089711401544355e-06,
+      "loss": 0.81613356,
+      "num_input_tokens_seen": 48846365,
+      "step": 2276,
+      "time_per_iteration": 3.7903552055358887
+    },
+    {
+      "auxiliary_loss_clip": 0.01209978,
+      "auxiliary_loss_mlp": 0.01031448,
+      "balance_loss_clip": 1.05546093,
+      "balance_loss_mlp": 1.02280545,
+      "epoch": 0.27379306198521014,
+      "flos": 23476996247040.0,
+      "grad_norm": 2.41488385653065,
+      "language_loss": 0.68025041,
+      "learning_rate": 3.4084181828563486e-06,
+      "loss": 0.70266461,
+      "num_input_tokens_seen": 48863085,
+      "step": 2277,
+      "time_per_iteration": 3.5428640842437744
+    },
+    {
+      "auxiliary_loss_clip": 0.01234585,
+      "auxiliary_loss_mlp": 0.01029527,
+      "balance_loss_clip": 1.05323541,
+      "balance_loss_mlp": 1.02033615,
+      "epoch": 0.2739133048758492,
+      "flos": 17458152762240.0,
+      "grad_norm": 1.727694624378308,
+      "language_loss": 0.70483822,
+      "learning_rate": 3.4078650119023428e-06,
+      "loss": 0.72747934,
+      "num_input_tokens_seen": 48881400,
+      "step": 2278,
+      "time_per_iteration": 3.6358816623687744
+    },
+    {
+      "auxiliary_loss_clip": 0.01244938,
+      "auxiliary_loss_mlp": 0.01031137,
+      "balance_loss_clip": 1.04917884,
+      "balance_loss_mlp": 1.02239323,
+      "epoch": 0.2740335477664883,
+      "flos": 19273113123840.0,
+      "grad_norm": 2.133537269361673,
+      "language_loss": 0.74310267,
+      "learning_rate": 3.4073116273763337e-06,
+      "loss": 0.76586342,
+      "num_input_tokens_seen": 48895845,
+      "step": 2279,
+      "time_per_iteration": 2.7917299270629883
+    },
+    {
+      "auxiliary_loss_clip": 0.01224334,
+      "auxiliary_loss_mlp": 0.01030719,
+      "balance_loss_clip": 1.05615163,
+      "balance_loss_mlp": 1.0211103,
+      "epoch": 0.2741537906571274,
+      "flos": 26104723603200.0,
+      "grad_norm": 2.246331476632679,
+      "language_loss": 0.8132956,
+      "learning_rate": 3.40675802936227e-06,
+      "loss": 0.83584613,
+      "num_input_tokens_seen": 48916630,
+      "step": 2280,
+      "time_per_iteration": 2.6846659183502197
+    },
+    {
+      "auxiliary_loss_clip": 0.0121158,
+      "auxiliary_loss_mlp": 0.01027936,
+      "balance_loss_clip": 1.0558033,
+      "balance_loss_mlp": 1.01871467,
+      "epoch": 0.27427403354776647,
+      "flos": 34164190644480.0,
+      "grad_norm": 1.9809046668136323,
+      "language_loss": 0.71751547,
+      "learning_rate": 3.4062042179441318e-06,
+      "loss": 0.73991066,
+      "num_input_tokens_seen": 48937100,
+      "step": 2281,
+      "time_per_iteration": 2.8321096897125244
+    },
+    {
+      "auxiliary_loss_clip": 0.01208001,
+      "auxiliary_loss_mlp": 0.0102946,
+      "balance_loss_clip": 1.05820894,
+      "balance_loss_mlp": 1.02081156,
+      "epoch": 0.2743942764384056,
+      "flos": 18766988536320.0,
+      "grad_norm": 1.8778471638758545,
+      "language_loss": 0.80292654,
+      "learning_rate": 3.4056501932059314e-06,
+      "loss": 0.82530117,
+      "num_input_tokens_seen": 48955175,
+      "step": 2282,
+      "time_per_iteration": 3.5506722927093506
+    },
+    {
+      "auxiliary_loss_clip": 0.01103221,
+      "auxiliary_loss_mlp": 0.01007706,
+      "balance_loss_clip": 1.02854335,
+      "balance_loss_mlp": 1.00579917,
+      "epoch": 0.2745145193290447,
+      "flos": 64904048058240.0,
+      "grad_norm": 0.7857021920005112,
+      "language_loss": 0.58154351,
+      "learning_rate": 3.405095955231715e-06,
+      "loss": 0.60265279,
+      "num_input_tokens_seen": 49006830,
+      "step": 2283,
+      "time_per_iteration": 3.156224012374878
+    },
+    {
+      "auxiliary_loss_clip": 0.01215738,
+      "auxiliary_loss_mlp": 0.0102544,
+      "balance_loss_clip": 1.05718148,
+      "balance_loss_mlp": 1.01671994,
+      "epoch": 0.27463476221968375,
+      "flos": 16136926796160.0,
+      "grad_norm": 2.473544597047052,
+      "language_loss": 0.94245934,
+      "learning_rate": 3.4045415041055585e-06,
+      "loss": 0.96487117,
+      "num_input_tokens_seen": 49022470,
+      "step": 2284,
+      "time_per_iteration": 2.646986484527588
+    },
+    {
+      "auxiliary_loss_clip": 0.01223965,
+      "auxiliary_loss_mlp": 0.01027971,
+      "balance_loss_clip": 1.05582058,
+      "balance_loss_mlp": 1.0184226,
+      "epoch": 0.27475500511032286,
+      "flos": 10376712213120.0,
+      "grad_norm": 2.157794048412802,
+      "language_loss": 0.78513455,
+      "learning_rate": 3.4039868399115728e-06,
+      "loss": 0.8076539,
+      "num_input_tokens_seen": 49037110,
+      "step": 2285,
+      "time_per_iteration": 2.656999111175537
+    },
+    {
+      "auxiliary_loss_clip": 0.01252005,
+      "auxiliary_loss_mlp": 0.0103784,
+      "balance_loss_clip": 1.05569315,
+      "balance_loss_mlp": 1.02907836,
+      "epoch": 0.27487524800096197,
+      "flos": 17311062568320.0,
+      "grad_norm": 1.738597873158568,
+      "language_loss": 0.80335307,
+      "learning_rate": 3.4034319627339003e-06,
+      "loss": 0.82625157,
+      "num_input_tokens_seen": 49053975,
+      "step": 2286,
+      "time_per_iteration": 2.7852394580841064
+    },
+    {
+      "auxiliary_loss_clip": 0.01221654,
+      "auxiliary_loss_mlp": 0.0103286,
+      "balance_loss_clip": 1.05759156,
+      "balance_loss_mlp": 1.02408671,
+      "epoch": 0.274995490891601,
+      "flos": 27120205002240.0,
+      "grad_norm": 2.6124741685747352,
+      "language_loss": 0.69467962,
+      "learning_rate": 3.402876872656715e-06,
+      "loss": 0.71722472,
+      "num_input_tokens_seen": 49072295,
+      "step": 2287,
+      "time_per_iteration": 2.7490487098693848
+    },
+    {
+      "auxiliary_loss_clip": 0.01221528,
+      "auxiliary_loss_mlp": 0.01031019,
+      "balance_loss_clip": 1.05983615,
+      "balance_loss_mlp": 1.02193499,
+      "epoch": 0.27511573378224013,
+      "flos": 23436093634560.0,
+      "grad_norm": 1.9373289538389182,
+      "language_loss": 0.89710641,
+      "learning_rate": 3.402321569764223e-06,
+      "loss": 0.91963184,
+      "num_input_tokens_seen": 49091600,
+      "step": 2288,
+      "time_per_iteration": 2.763437271118164
+    },
+    {
+      "auxiliary_loss_clip": 0.01239566,
+      "auxiliary_loss_mlp": 0.0138017,
+      "balance_loss_clip": 1.05405807,
+      "balance_loss_mlp": 1.00014329,
+      "epoch": 0.2752359766728792,
+      "flos": 16722019434240.0,
+      "grad_norm": 1.8201216090027366,
+      "language_loss": 0.83747292,
+      "learning_rate": 3.4017660541406635e-06,
+      "loss": 0.86367023,
+      "num_input_tokens_seen": 49107665,
+      "step": 2289,
+      "time_per_iteration": 2.8123505115509033
+    },
+    {
+      "auxiliary_loss_clip": 0.01226729,
+      "auxiliary_loss_mlp": 0.0102763,
+      "balance_loss_clip": 1.05585432,
+      "balance_loss_mlp": 1.01848102,
+      "epoch": 0.2753562195635183,
+      "flos": 25297738698240.0,
+      "grad_norm": 1.736765377686321,
+      "language_loss": 0.74167013,
+      "learning_rate": 3.4012103258703092e-06,
+      "loss": 0.76421368,
+      "num_input_tokens_seen": 49126420,
+      "step": 2290,
+      "time_per_iteration": 2.830854654312134
+    },
+    {
+      "auxiliary_loss_clip": 0.01232275,
+      "auxiliary_loss_mlp": 0.01035829,
+      "balance_loss_clip": 1.05748177,
+      "balance_loss_mlp": 1.02726936,
+      "epoch": 0.2754764624541574,
+      "flos": 27338972785920.0,
+      "grad_norm": 1.9121145424710027,
+      "language_loss": 0.82983291,
+      "learning_rate": 3.4006543850374616e-06,
+      "loss": 0.85251391,
+      "num_input_tokens_seen": 49141470,
+      "step": 2291,
+      "time_per_iteration": 2.7439889907836914
+    },
+    {
+      "auxiliary_loss_clip": 0.01215449,
+      "auxiliary_loss_mlp": 0.0103096,
+      "balance_loss_clip": 1.05887127,
+      "balance_loss_mlp": 1.0219003,
+      "epoch": 0.27559670534479647,
+      "flos": 17238379397760.0,
+      "grad_norm": 1.8489505578997543,
+      "language_loss": 0.74892044,
+      "learning_rate": 3.400098231726458e-06,
+      "loss": 0.77138448,
+      "num_input_tokens_seen": 49158570,
+      "step": 2292,
+      "time_per_iteration": 2.768815755844116
+    },
+    {
+      "auxiliary_loss_clip": 0.01232309,
+      "auxiliary_loss_mlp": 0.01031491,
+      "balance_loss_clip": 1.05343938,
+      "balance_loss_mlp": 1.02199554,
+      "epoch": 0.2757169482354356,
+      "flos": 21939085486080.0,
+      "grad_norm": 1.7462585414441902,
+      "language_loss": 0.86774313,
+      "learning_rate": 3.3995418660216657e-06,
+      "loss": 0.89038116,
+      "num_input_tokens_seen": 49176025,
+      "step": 2293,
+      "time_per_iteration": 2.840731143951416
+    },
+    {
+      "auxiliary_loss_clip": 0.01210843,
+      "auxiliary_loss_mlp": 0.0103411,
+      "balance_loss_clip": 1.06187153,
+      "balance_loss_mlp": 1.02382255,
+      "epoch": 0.2758371911260747,
+      "flos": 20850669521280.0,
+      "grad_norm": 2.955827654208705,
+      "language_loss": 0.80405891,
+      "learning_rate": 3.3989852880074848e-06,
+      "loss": 0.8265084,
+      "num_input_tokens_seen": 49197455,
+      "step": 2294,
+      "time_per_iteration": 2.810312271118164
+    },
+    {
+      "auxiliary_loss_clip": 0.01121558,
+      "auxiliary_loss_mlp": 0.01007616,
+      "balance_loss_clip": 1.02798271,
+      "balance_loss_mlp": 1.00555348,
+      "epoch": 0.27595743401671374,
+      "flos": 69269063592960.0,
+      "grad_norm": 0.7965437128027684,
+      "language_loss": 0.6067785,
+      "learning_rate": 3.398428497768348e-06,
+      "loss": 0.62807024,
+      "num_input_tokens_seen": 49262625,
+      "step": 2295,
+      "time_per_iteration": 3.37104868888855
+    },
+    {
+      "auxiliary_loss_clip": 0.01234196,
+      "auxiliary_loss_mlp": 0.01028573,
+      "balance_loss_clip": 1.05116773,
+      "balance_loss_mlp": 1.01987684,
+      "epoch": 0.27607767690735285,
+      "flos": 21215019127680.0,
+      "grad_norm": 1.7625445225951628,
+      "language_loss": 0.71952093,
+      "learning_rate": 3.3978714953887205e-06,
+      "loss": 0.74214864,
+      "num_input_tokens_seen": 49282380,
+      "step": 2296,
+      "time_per_iteration": 2.69154691696167
+    },
+    {
+      "auxiliary_loss_clip": 0.01221028,
+      "auxiliary_loss_mlp": 0.01030924,
+      "balance_loss_clip": 1.04914832,
+      "balance_loss_mlp": 1.02182209,
+      "epoch": 0.27619791979799196,
+      "flos": 24825334003200.0,
+      "grad_norm": 1.8252634828195549,
+      "language_loss": 0.85923374,
+      "learning_rate": 3.397314280953098e-06,
+      "loss": 0.88175321,
+      "num_input_tokens_seen": 49303205,
+      "step": 2297,
+      "time_per_iteration": 2.804431676864624
+    },
+    {
+      "auxiliary_loss_clip": 0.01213656,
+      "auxiliary_loss_mlp": 0.01036771,
+      "balance_loss_clip": 1.05629969,
+      "balance_loss_mlp": 1.02786624,
+      "epoch": 0.276318162688631,
+      "flos": 24753548672640.0,
+      "grad_norm": 2.020357335482745,
+      "language_loss": 0.80169976,
+      "learning_rate": 3.3967568545460108e-06,
+      "loss": 0.82420403,
+      "num_input_tokens_seen": 49322745,
+      "step": 2298,
+      "time_per_iteration": 2.753483295440674
+    },
+    {
+      "auxiliary_loss_clip": 0.01210587,
+      "auxiliary_loss_mlp": 0.01031775,
+      "balance_loss_clip": 1.05876243,
+      "balance_loss_mlp": 1.02265,
+      "epoch": 0.27643840557927013,
+      "flos": 18150007599360.0,
+      "grad_norm": 2.2602041346721076,
+      "language_loss": 0.80666828,
+      "learning_rate": 3.3961992162520185e-06,
+      "loss": 0.82909191,
+      "num_input_tokens_seen": 49341370,
+      "step": 2299,
+      "time_per_iteration": 2.7247157096862793
+    },
+    {
+      "auxiliary_loss_clip": 0.0121484,
+      "auxiliary_loss_mlp": 0.01032667,
+      "balance_loss_clip": 1.05935228,
+      "balance_loss_mlp": 1.02258146,
+      "epoch": 0.27655864846990924,
+      "flos": 24823933372800.0,
+      "grad_norm": 2.265945689655784,
+      "language_loss": 0.71892822,
+      "learning_rate": 3.3956413661557156e-06,
+      "loss": 0.74140334,
+      "num_input_tokens_seen": 49361545,
+      "step": 2300,
+      "time_per_iteration": 2.7083919048309326
+    },
+    {
+      "auxiliary_loss_clip": 0.01237327,
+      "auxiliary_loss_mlp": 0.01038034,
+      "balance_loss_clip": 1.05577087,
+      "balance_loss_mlp": 1.02922463,
+      "epoch": 0.2766788913605483,
+      "flos": 20266582464000.0,
+      "grad_norm": 2.902606956604757,
+      "language_loss": 0.65881652,
+      "learning_rate": 3.3950833043417273e-06,
+      "loss": 0.68157017,
+      "num_input_tokens_seen": 49379690,
+      "step": 2301,
+      "time_per_iteration": 2.7821900844573975
+    },
+    {
+      "auxiliary_loss_clip": 0.01216268,
+      "auxiliary_loss_mlp": 0.01031899,
+      "balance_loss_clip": 1.06039929,
+      "balance_loss_mlp": 1.02215338,
+      "epoch": 0.2767991342511874,
+      "flos": 21470272151040.0,
+      "grad_norm": 2.576787123353203,
+      "language_loss": 0.73837173,
+      "learning_rate": 3.3945250308947105e-06,
+      "loss": 0.76085341,
+      "num_input_tokens_seen": 49395995,
+      "step": 2302,
+      "time_per_iteration": 3.5615627765655518
+    },
+    {
+      "auxiliary_loss_clip": 0.01117075,
+      "auxiliary_loss_mlp": 0.01007383,
+      "balance_loss_clip": 1.02890849,
+      "balance_loss_mlp": 1.00512981,
+      "epoch": 0.2769193771418265,
+      "flos": 66002627571840.0,
+      "grad_norm": 1.2501680979281562,
+      "language_loss": 0.68377048,
+      "learning_rate": 3.3939665458993556e-06,
+      "loss": 0.70501506,
+      "num_input_tokens_seen": 49450415,
+      "step": 2303,
+      "time_per_iteration": 4.043716669082642
+    },
+    {
+      "auxiliary_loss_clip": 0.01233813,
+      "auxiliary_loss_mlp": 0.01034313,
+      "balance_loss_clip": 1.05251169,
+      "balance_loss_mlp": 1.0252527,
+      "epoch": 0.27703962003246557,
+      "flos": 20704441253760.0,
+      "grad_norm": 1.9716901452297064,
+      "language_loss": 0.76998949,
+      "learning_rate": 3.3934078494403843e-06,
+      "loss": 0.79267079,
+      "num_input_tokens_seen": 49469990,
+      "step": 2304,
+      "time_per_iteration": 3.6092042922973633
+    },
+    {
+      "auxiliary_loss_clip": 0.01250456,
+      "auxiliary_loss_mlp": 0.01380132,
+      "balance_loss_clip": 1.05164146,
+      "balance_loss_mlp": 1.0000968,
+      "epoch": 0.2771598629231047,
+      "flos": 22929897219840.0,
+      "grad_norm": 1.8472722693881725,
+      "language_loss": 0.80938268,
+      "learning_rate": 3.3928489416025495e-06,
+      "loss": 0.83568859,
+      "num_input_tokens_seen": 49490835,
+      "step": 2305,
+      "time_per_iteration": 3.011733055114746
+    },
+    {
+      "auxiliary_loss_clip": 0.01217372,
+      "auxiliary_loss_mlp": 0.01035416,
+      "balance_loss_clip": 1.05550885,
+      "balance_loss_mlp": 1.02574861,
+      "epoch": 0.27728010581374374,
+      "flos": 18369457741440.0,
+      "grad_norm": 2.4253355068363174,
+      "language_loss": 0.79026318,
+      "learning_rate": 3.392289822470638e-06,
+      "loss": 0.81279105,
+      "num_input_tokens_seen": 49508815,
+      "step": 2306,
+      "time_per_iteration": 3.1087934970855713
+    },
+    {
+      "auxiliary_loss_clip": 0.01218565,
+      "auxiliary_loss_mlp": 0.01034514,
+      "balance_loss_clip": 1.05501497,
+      "balance_loss_mlp": 1.02500725,
+      "epoch": 0.27740034870438285,
+      "flos": 19427637432960.0,
+      "grad_norm": 2.0772232339417838,
+      "language_loss": 0.76057863,
+      "learning_rate": 3.3917304921294674e-06,
+      "loss": 0.78310943,
+      "num_input_tokens_seen": 49526980,
+      "step": 2307,
+      "time_per_iteration": 2.6583311557769775
+    },
+    {
+      "auxiliary_loss_clip": 0.01212537,
+      "auxiliary_loss_mlp": 0.01029253,
+      "balance_loss_clip": 1.05589676,
+      "balance_loss_mlp": 1.01968682,
+      "epoch": 0.27752059159502196,
+      "flos": 21614776565760.0,
+      "grad_norm": 2.062515473977052,
+      "language_loss": 0.80698073,
+      "learning_rate": 3.3911709506638876e-06,
+      "loss": 0.82939863,
+      "num_input_tokens_seen": 49546290,
+      "step": 2308,
+      "time_per_iteration": 3.609266757965088
+    },
+    {
+      "auxiliary_loss_clip": 0.01216144,
+      "auxiliary_loss_mlp": 0.01380004,
+      "balance_loss_clip": 1.04968786,
+      "balance_loss_mlp": 1.00007725,
+      "epoch": 0.277640834485661,
+      "flos": 26608011016320.0,
+      "grad_norm": 2.571164402616193,
+      "language_loss": 0.80691469,
+      "learning_rate": 3.390611198158781e-06,
+      "loss": 0.83287621,
+      "num_input_tokens_seen": 49564165,
+      "step": 2309,
+      "time_per_iteration": 2.7433359622955322
+    },
+    {
+      "auxiliary_loss_clip": 0.01210571,
+      "auxiliary_loss_mlp": 0.01034241,
+      "balance_loss_clip": 1.06314695,
+      "balance_loss_mlp": 1.02514553,
+      "epoch": 0.2777610773763001,
+      "flos": 19492814661120.0,
+      "grad_norm": 2.0417909295064245,
+      "language_loss": 0.900958,
+      "learning_rate": 3.3900512346990612e-06,
+      "loss": 0.92340612,
+      "num_input_tokens_seen": 49580155,
+      "step": 2310,
+      "time_per_iteration": 2.635300397872925
+    },
+    {
+      "auxiliary_loss_clip": 0.01232496,
+      "auxiliary_loss_mlp": 0.01034435,
+      "balance_loss_clip": 1.04857814,
+      "balance_loss_mlp": 1.02525556,
+      "epoch": 0.27788132026693924,
+      "flos": 38290650001920.0,
+      "grad_norm": 1.868808929883222,
+      "language_loss": 0.65884972,
+      "learning_rate": 3.389491060369674e-06,
+      "loss": 0.68151903,
+      "num_input_tokens_seen": 49605830,
+      "step": 2311,
+      "time_per_iteration": 2.8728458881378174
+    },
+    {
+      "auxiliary_loss_clip": 0.01230094,
+      "auxiliary_loss_mlp": 0.01032419,
+      "balance_loss_clip": 1.05105543,
+      "balance_loss_mlp": 1.02318001,
+      "epoch": 0.2780015631575783,
+      "flos": 22382546797440.0,
+      "grad_norm": 2.031955788202339,
+      "language_loss": 0.89562213,
+      "learning_rate": 3.388930675255598e-06,
+      "loss": 0.91824722,
+      "num_input_tokens_seen": 49625680,
+      "step": 2312,
+      "time_per_iteration": 2.7731430530548096
+    },
+    {
+      "auxiliary_loss_clip": 0.01225655,
+      "auxiliary_loss_mlp": 0.0103115,
+      "balance_loss_clip": 1.05644155,
+      "balance_loss_mlp": 1.0212791,
+      "epoch": 0.2781218060482174,
+      "flos": 12203200840320.0,
+      "grad_norm": 2.242999477285709,
+      "language_loss": 0.79570079,
+      "learning_rate": 3.388370079441843e-06,
+      "loss": 0.81826878,
+      "num_input_tokens_seen": 49641195,
+      "step": 2313,
+      "time_per_iteration": 2.652651071548462
+    },
+    {
+      "auxiliary_loss_clip": 0.01230977,
+      "auxiliary_loss_mlp": 0.01029917,
+      "balance_loss_clip": 1.05810523,
+      "balance_loss_mlp": 1.0203805,
+      "epoch": 0.2782420489388565,
+      "flos": 18107632529280.0,
+      "grad_norm": 2.055029652350873,
+      "language_loss": 0.92519802,
+      "learning_rate": 3.3878092730134505e-06,
+      "loss": 0.94780695,
+      "num_input_tokens_seen": 49659180,
+      "step": 2314,
+      "time_per_iteration": 3.0184760093688965
+    },
+    {
+      "auxiliary_loss_clip": 0.01204641,
+      "auxiliary_loss_mlp": 0.01035946,
+      "balance_loss_clip": 1.05802119,
+      "balance_loss_mlp": 1.02624798,
+      "epoch": 0.27836229182949557,
+      "flos": 18514752255360.0,
+      "grad_norm": 1.4930426646923418,
+      "language_loss": 0.80579978,
+      "learning_rate": 3.3872482560554947e-06,
+      "loss": 0.82820565,
+      "num_input_tokens_seen": 49677955,
+      "step": 2315,
+      "time_per_iteration": 2.652627468109131
+    },
+    {
+      "auxiliary_loss_clip": 0.01116827,
+      "auxiliary_loss_mlp": 0.01002535,
+      "balance_loss_clip": 1.0299747,
+      "balance_loss_mlp": 1.00046086,
+      "epoch": 0.2784825347201347,
+      "flos": 67079230940160.0,
+      "grad_norm": 0.801790536329611,
+      "language_loss": 0.5693661,
+      "learning_rate": 3.386687028653082e-06,
+      "loss": 0.59055972,
+      "num_input_tokens_seen": 49740800,
+      "step": 2316,
+      "time_per_iteration": 3.199491024017334
+    },
+    {
+      "auxiliary_loss_clip": 0.01239183,
+      "auxiliary_loss_mlp": 0.01028667,
+      "balance_loss_clip": 1.05353165,
+      "balance_loss_mlp": 1.01929128,
+      "epoch": 0.2786027776107738,
+      "flos": 22631119891200.0,
+      "grad_norm": 5.442474292019069,
+      "language_loss": 0.84963435,
+      "learning_rate": 3.386125590891349e-06,
+      "loss": 0.87231284,
+      "num_input_tokens_seen": 49757675,
+      "step": 2317,
+      "time_per_iteration": 2.759061574935913
+    },
+    {
+      "auxiliary_loss_clip": 0.01205963,
+      "auxiliary_loss_mlp": 0.01032722,
+      "balance_loss_clip": 1.05194986,
+      "balance_loss_mlp": 1.02354288,
+      "epoch": 0.27872302050141284,
+      "flos": 15778826156160.0,
+      "grad_norm": 2.2481109805830877,
+      "language_loss": 0.83295691,
+      "learning_rate": 3.3855639428554657e-06,
+      "loss": 0.8553437,
+      "num_input_tokens_seen": 49775205,
+      "step": 2318,
+      "time_per_iteration": 2.607816219329834
+    },
+    {
+      "auxiliary_loss_clip": 0.01217425,
+      "auxiliary_loss_mlp": 0.01029058,
+      "balance_loss_clip": 1.05221891,
+      "balance_loss_mlp": 1.02038538,
+      "epoch": 0.27884326339205195,
+      "flos": 22126970551680.0,
+      "grad_norm": 1.8458070367580257,
+      "language_loss": 0.79919279,
+      "learning_rate": 3.385002084630635e-06,
+      "loss": 0.82165766,
+      "num_input_tokens_seen": 49794175,
+      "step": 2319,
+      "time_per_iteration": 2.699173927307129
+    },
+    {
+      "auxiliary_loss_clip": 0.01215707,
+      "auxiliary_loss_mlp": 0.01027724,
+      "balance_loss_clip": 1.05700541,
+      "balance_loss_mlp": 1.01851523,
+      "epoch": 0.278963506282691,
+      "flos": 20558715776640.0,
+      "grad_norm": 2.50216864949375,
+      "language_loss": 0.84952307,
+      "learning_rate": 3.384440016302088e-06,
+      "loss": 0.87195742,
+      "num_input_tokens_seen": 49812850,
+      "step": 2320,
+      "time_per_iteration": 2.6281192302703857
+    },
+    {
+      "auxiliary_loss_clip": 0.01209906,
+      "auxiliary_loss_mlp": 0.01025697,
+      "balance_loss_clip": 1.05648649,
+      "balance_loss_mlp": 1.01625609,
+      "epoch": 0.2790837491733301,
+      "flos": 21942928241280.0,
+      "grad_norm": 2.0700300450371523,
+      "language_loss": 0.62308902,
+      "learning_rate": 3.3838777379550923e-06,
+      "loss": 0.64544511,
+      "num_input_tokens_seen": 49832295,
+      "step": 2321,
+      "time_per_iteration": 2.671311140060425
+    },
+    {
+      "auxiliary_loss_clip": 0.01224704,
+      "auxiliary_loss_mlp": 0.01029402,
+      "balance_loss_clip": 1.05778408,
+      "balance_loss_mlp": 1.01947737,
+      "epoch": 0.27920399206396923,
+      "flos": 26286790665600.0,
+      "grad_norm": 2.1938047760100945,
+      "language_loss": 0.78425449,
+      "learning_rate": 3.383315249674944e-06,
+      "loss": 0.80679554,
+      "num_input_tokens_seen": 49850860,
+      "step": 2322,
+      "time_per_iteration": 2.7817273139953613
+    },
+    {
+      "auxiliary_loss_clip": 0.01232701,
+      "auxiliary_loss_mlp": 0.010398,
+      "balance_loss_clip": 1.05488849,
+      "balance_loss_mlp": 1.03094244,
+      "epoch": 0.2793242349546083,
+      "flos": 25400981364480.0,
+      "grad_norm": 2.012253950540485,
+      "language_loss": 0.86195892,
+      "learning_rate": 3.3827525515469715e-06,
+      "loss": 0.88468391,
+      "num_input_tokens_seen": 49865765,
+      "step": 2323,
+      "time_per_iteration": 2.700026512145996
+    },
+    {
+      "auxiliary_loss_clip": 0.01218561,
+      "auxiliary_loss_mlp": 0.01034172,
+      "balance_loss_clip": 1.05077755,
+      "balance_loss_mlp": 1.02383614,
+      "epoch": 0.2794444778452474,
+      "flos": 20850346298880.0,
+      "grad_norm": 2.2132914931704017,
+      "language_loss": 0.70464796,
+      "learning_rate": 3.3821896436565367e-06,
+      "loss": 0.7271753,
+      "num_input_tokens_seen": 49885425,
+      "step": 2324,
+      "time_per_iteration": 2.7599430084228516
+    },
+    {
+      "auxiliary_loss_clip": 0.01219304,
+      "auxiliary_loss_mlp": 0.01033645,
+      "balance_loss_clip": 1.06168199,
+      "balance_loss_mlp": 1.0239954,
+      "epoch": 0.2795647207358865,
+      "flos": 21576244250880.0,
+      "grad_norm": 1.6619666009899285,
+      "language_loss": 0.70320886,
+      "learning_rate": 3.381626526089032e-06,
+      "loss": 0.72573841,
+      "num_input_tokens_seen": 49904990,
+      "step": 2325,
+      "time_per_iteration": 2.672116279602051
+    },
+    {
+      "auxiliary_loss_clip": 0.01215602,
+      "auxiliary_loss_mlp": 0.01029183,
+      "balance_loss_clip": 1.05224729,
+      "balance_loss_mlp": 1.02007496,
+      "epoch": 0.27968496362652556,
+      "flos": 21471744608640.0,
+      "grad_norm": 2.458918904947792,
+      "language_loss": 0.78994811,
+      "learning_rate": 3.3810631989298815e-06,
+      "loss": 0.81239593,
+      "num_input_tokens_seen": 49924600,
+      "step": 2326,
+      "time_per_iteration": 2.8022398948669434
+    },
+    {
+      "auxiliary_loss_clip": 0.01244208,
+      "auxiliary_loss_mlp": 0.01031781,
+      "balance_loss_clip": 1.05392528,
+      "balance_loss_mlp": 1.02211928,
+      "epoch": 0.2798052065171647,
+      "flos": 23258695340160.0,
+      "grad_norm": 2.314491857076046,
+      "language_loss": 0.84251058,
+      "learning_rate": 3.3804996622645423e-06,
+      "loss": 0.8652705,
+      "num_input_tokens_seen": 49942600,
+      "step": 2327,
+      "time_per_iteration": 2.7431676387786865
+    },
+    {
+      "auxiliary_loss_clip": 0.01206133,
+      "auxiliary_loss_mlp": 0.01028042,
+      "balance_loss_clip": 1.06035304,
+      "balance_loss_mlp": 1.01861238,
+      "epoch": 0.2799254494078038,
+      "flos": 21539328048000.0,
+      "grad_norm": 1.7348493291203684,
+      "language_loss": 0.89593601,
+      "learning_rate": 3.3799359161785015e-06,
+      "loss": 0.91827774,
+      "num_input_tokens_seen": 49962250,
+      "step": 2328,
+      "time_per_iteration": 3.5567150115966797
+    },
+    {
+      "auxiliary_loss_clip": 0.01209009,
+      "auxiliary_loss_mlp": 0.01029771,
+      "balance_loss_clip": 1.05508351,
+      "balance_loss_mlp": 1.02031171,
+      "epoch": 0.28004569229844284,
+      "flos": 26393912000640.0,
+      "grad_norm": 3.38894702072747,
+      "language_loss": 0.85504252,
+      "learning_rate": 3.3793719607572798e-06,
+      "loss": 0.87743032,
+      "num_input_tokens_seen": 49983215,
+      "step": 2329,
+      "time_per_iteration": 4.485391616821289
+    },
+    {
+      "auxiliary_loss_clip": 0.01199088,
+      "auxiliary_loss_mlp": 0.01035566,
+      "balance_loss_clip": 1.0511626,
+      "balance_loss_mlp": 1.02676868,
+      "epoch": 0.28016593518908195,
+      "flos": 33547676584320.0,
+      "grad_norm": 2.6668071818570973,
+      "language_loss": 0.77228457,
+      "learning_rate": 3.378807796086428e-06,
+      "loss": 0.79463106,
+      "num_input_tokens_seen": 50006075,
+      "step": 2330,
+      "time_per_iteration": 2.748683214187622
+    },
+    {
+      "auxiliary_loss_clip": 0.01208275,
+      "auxiliary_loss_mlp": 0.01034407,
+      "balance_loss_clip": 1.06216943,
+      "balance_loss_mlp": 1.0246433,
+      "epoch": 0.28028617807972106,
+      "flos": 15340823712000.0,
+      "grad_norm": 1.9608700844504456,
+      "language_loss": 0.76916385,
+      "learning_rate": 3.37824342225153e-06,
+      "loss": 0.79159063,
+      "num_input_tokens_seen": 50022495,
+      "step": 2331,
+      "time_per_iteration": 2.6478493213653564
+    },
+    {
+      "auxiliary_loss_clip": 0.01238615,
+      "auxiliary_loss_mlp": 0.01033706,
+      "balance_loss_clip": 1.05326462,
+      "balance_loss_mlp": 1.02492046,
+      "epoch": 0.2804064209703601,
+      "flos": 25520277409920.0,
+      "grad_norm": 1.9920698930315375,
+      "language_loss": 0.77634323,
+      "learning_rate": 3.3776788393382006e-06,
+      "loss": 0.79906642,
+      "num_input_tokens_seen": 50041975,
+      "step": 2332,
+      "time_per_iteration": 2.7739858627319336
+    },
+    {
+      "auxiliary_loss_clip": 0.01206169,
+      "auxiliary_loss_mlp": 0.01028967,
+      "balance_loss_clip": 1.06021547,
+      "balance_loss_mlp": 1.01947832,
+      "epoch": 0.2805266638609992,
+      "flos": 29351766280320.0,
+      "grad_norm": 2.5062203220034607,
+      "language_loss": 0.76892459,
+      "learning_rate": 3.3771140474320872e-06,
+      "loss": 0.79127592,
+      "num_input_tokens_seen": 50061925,
+      "step": 2333,
+      "time_per_iteration": 2.7966437339782715
+    },
+    {
+      "auxiliary_loss_clip": 0.01236065,
+      "auxiliary_loss_mlp": 0.01032313,
+      "balance_loss_clip": 1.05457723,
+      "balance_loss_mlp": 1.02306831,
+      "epoch": 0.28064690675163834,
+      "flos": 21463735875840.0,
+      "grad_norm": 1.8968303039876893,
+      "language_loss": 0.792979,
+      "learning_rate": 3.3765490466188664e-06,
+      "loss": 0.81566274,
+      "num_input_tokens_seen": 50079325,
+      "step": 2334,
+      "time_per_iteration": 3.7056937217712402
+    },
+    {
+      "auxiliary_loss_clip": 0.0122733,
+      "auxiliary_loss_mlp": 0.01033843,
+      "balance_loss_clip": 1.05481958,
+      "balance_loss_mlp": 1.02424097,
+      "epoch": 0.2807671496422774,
+      "flos": 20995640812800.0,
+      "grad_norm": 2.4380540573199743,
+      "language_loss": 0.74002779,
+      "learning_rate": 3.3759838369842508e-06,
+      "loss": 0.76263952,
+      "num_input_tokens_seen": 50097400,
+      "step": 2335,
+      "time_per_iteration": 2.688199520111084
+    },
+    {
+      "auxiliary_loss_clip": 0.01229786,
+      "auxiliary_loss_mlp": 0.01033786,
+      "balance_loss_clip": 1.05478024,
+      "balance_loss_mlp": 1.02439213,
+      "epoch": 0.2808873925329165,
+      "flos": 21506577822720.0,
+      "grad_norm": 1.8216959050000416,
+      "language_loss": 0.73035097,
+      "learning_rate": 3.375418418613981e-06,
+      "loss": 0.75298667,
+      "num_input_tokens_seen": 50116425,
+      "step": 2336,
+      "time_per_iteration": 2.774513006210327
+    },
+    {
+      "auxiliary_loss_clip": 0.01221603,
+      "auxiliary_loss_mlp": 0.01033215,
+      "balance_loss_clip": 1.0565747,
+      "balance_loss_mlp": 1.02313614,
+      "epoch": 0.28100763542355556,
+      "flos": 16070815814400.0,
+      "grad_norm": 2.3719493451081495,
+      "language_loss": 0.83368206,
+      "learning_rate": 3.374852791593831e-06,
+      "loss": 0.8562302,
+      "num_input_tokens_seen": 50132625,
+      "step": 2337,
+      "time_per_iteration": 2.6544272899627686
+    },
+    {
+      "auxiliary_loss_clip": 0.01246957,
+      "auxiliary_loss_mlp": 0.01033365,
+      "balance_loss_clip": 1.05283165,
+      "balance_loss_mlp": 1.02277911,
+      "epoch": 0.28112787831419467,
+      "flos": 19062605468160.0,
+      "grad_norm": 14.790534690629919,
+      "language_loss": 0.54146677,
+      "learning_rate": 3.374286956009605e-06,
+      "loss": 0.56427002,
+      "num_input_tokens_seen": 50151190,
+      "step": 2338,
+      "time_per_iteration": 2.7874555587768555
+    },
+    {
+      "auxiliary_loss_clip": 0.01214227,
+      "auxiliary_loss_mlp": 0.01032963,
+      "balance_loss_clip": 1.06289148,
+      "balance_loss_mlp": 1.02370071,
+      "epoch": 0.2812481212048338,
+      "flos": 12823629482880.0,
+      "grad_norm": 4.968798997415987,
+      "language_loss": 0.75370783,
+      "learning_rate": 3.3737209119471405e-06,
+      "loss": 0.77617973,
+      "num_input_tokens_seen": 50167700,
+      "step": 2339,
+      "time_per_iteration": 2.6607003211975098
+    },
+    {
+      "auxiliary_loss_clip": 0.01220748,
+      "auxiliary_loss_mlp": 0.01038256,
+      "balance_loss_clip": 1.0597558,
+      "balance_loss_mlp": 1.02794993,
+      "epoch": 0.28136836409547283,
+      "flos": 15633064765440.0,
+      "grad_norm": 2.5508870925103544,
+      "language_loss": 0.64022887,
+      "learning_rate": 3.373154659492306e-06,
+      "loss": 0.66281897,
+      "num_input_tokens_seen": 50185840,
+      "step": 2340,
+      "time_per_iteration": 2.6232736110687256
+    },
+    {
+      "auxiliary_loss_clip": 0.01227434,
+      "auxiliary_loss_mlp": 0.01034117,
+      "balance_loss_clip": 1.05964303,
+      "balance_loss_mlp": 1.02438331,
+      "epoch": 0.28148860698611194,
+      "flos": 19933726106880.0,
+      "grad_norm": 2.15011983900978,
+      "language_loss": 0.85285336,
+      "learning_rate": 3.3725881987310016e-06,
+      "loss": 0.87546885,
+      "num_input_tokens_seen": 50203375,
+      "step": 2341,
+      "time_per_iteration": 2.678112268447876
+    },
+    {
+      "auxiliary_loss_clip": 0.01220238,
+      "auxiliary_loss_mlp": 0.01028043,
+      "balance_loss_clip": 1.05572534,
+      "balance_loss_mlp": 1.01883411,
+      "epoch": 0.28160884987675106,
+      "flos": 17457219008640.0,
+      "grad_norm": 2.8821654475169987,
+      "language_loss": 0.87307614,
+      "learning_rate": 3.372021529749159e-06,
+      "loss": 0.89555889,
+      "num_input_tokens_seen": 50222435,
+      "step": 2342,
+      "time_per_iteration": 2.6533751487731934
+    },
+    {
+      "auxiliary_loss_clip": 0.01248408,
+      "auxiliary_loss_mlp": 0.0103326,
+      "balance_loss_clip": 1.05446553,
+      "balance_loss_mlp": 1.02431917,
+      "epoch": 0.2817290927673901,
+      "flos": 16834743290880.0,
+      "grad_norm": 2.4822505186135975,
+      "language_loss": 0.92525351,
+      "learning_rate": 3.3714546526327405e-06,
+      "loss": 0.94807023,
+      "num_input_tokens_seen": 50240435,
+      "step": 2343,
+      "time_per_iteration": 2.7720916271209717
+    },
+    {
+      "auxiliary_loss_clip": 0.0123333,
+      "auxiliary_loss_mlp": 0.01028577,
+      "balance_loss_clip": 1.05486894,
+      "balance_loss_mlp": 1.01936841,
+      "epoch": 0.2818493356580292,
+      "flos": 15414081500160.0,
+      "grad_norm": 2.2367313023065063,
+      "language_loss": 0.87942624,
+      "learning_rate": 3.3708875674677423e-06,
+      "loss": 0.90204525,
+      "num_input_tokens_seen": 50258410,
+      "step": 2344,
+      "time_per_iteration": 2.7331817150115967
+    },
+    {
+      "auxiliary_loss_clip": 0.01231708,
+      "auxiliary_loss_mlp": 0.01034168,
+      "balance_loss_clip": 1.06037712,
+      "balance_loss_mlp": 1.02468467,
+      "epoch": 0.28196957854866833,
+      "flos": 20412451595520.0,
+      "grad_norm": 1.9851974524795906,
+      "language_loss": 0.83261144,
+      "learning_rate": 3.37032027434019e-06,
+      "loss": 0.85527015,
+      "num_input_tokens_seen": 50277930,
+      "step": 2345,
+      "time_per_iteration": 2.7090821266174316
+    },
+    {
+      "auxiliary_loss_clip": 0.01222809,
+      "auxiliary_loss_mlp": 0.01033868,
+      "balance_loss_clip": 1.05840433,
+      "balance_loss_mlp": 1.023592,
+      "epoch": 0.2820898214393074,
+      "flos": 19973120348160.0,
+      "grad_norm": 1.7506918683543233,
+      "language_loss": 0.83144259,
+      "learning_rate": 3.369752773336141e-06,
+      "loss": 0.85400939,
+      "num_input_tokens_seen": 50297410,
+      "step": 2346,
+      "time_per_iteration": 2.6668503284454346
+    },
+    {
+      "auxiliary_loss_clip": 0.01222455,
+      "auxiliary_loss_mlp": 0.01034745,
+      "balance_loss_clip": 1.0562675,
+      "balance_loss_mlp": 1.02463627,
+      "epoch": 0.2822100643299465,
+      "flos": 22528308188160.0,
+      "grad_norm": 2.4157597939876907,
+      "language_loss": 0.78226352,
+      "learning_rate": 3.3691850645416864e-06,
+      "loss": 0.80483544,
+      "num_input_tokens_seen": 50317120,
+      "step": 2347,
+      "time_per_iteration": 2.731656312942505
+    },
+    {
+      "auxiliary_loss_clip": 0.01218813,
+      "auxiliary_loss_mlp": 0.01035105,
+      "balance_loss_clip": 1.05950618,
+      "balance_loss_mlp": 1.0254972,
+      "epoch": 0.2823303072205856,
+      "flos": 11546682007680.0,
+      "grad_norm": 2.280426382993318,
+      "language_loss": 0.82997525,
+      "learning_rate": 3.368617148042945e-06,
+      "loss": 0.85251445,
+      "num_input_tokens_seen": 50334790,
+      "step": 2348,
+      "time_per_iteration": 2.59771466255188
+    },
+    {
+      "auxiliary_loss_clip": 0.01216243,
+      "auxiliary_loss_mlp": 0.01039825,
+      "balance_loss_clip": 1.05591202,
+      "balance_loss_mlp": 1.03051472,
+      "epoch": 0.28245055011122466,
+      "flos": 18259894281600.0,
+      "grad_norm": 1.6222683952262877,
+      "language_loss": 0.84284925,
+      "learning_rate": 3.368049023926071e-06,
+      "loss": 0.86540991,
+      "num_input_tokens_seen": 50353785,
+      "step": 2349,
+      "time_per_iteration": 2.667797327041626
+    },
+    {
+      "auxiliary_loss_clip": 0.0121594,
+      "auxiliary_loss_mlp": 0.01027954,
+      "balance_loss_clip": 1.06192625,
+      "balance_loss_mlp": 1.0189178,
+      "epoch": 0.2825707930018638,
+      "flos": 24608110504320.0,
+      "grad_norm": 1.7798233145776976,
+      "language_loss": 0.83439445,
+      "learning_rate": 3.3674806922772476e-06,
+      "loss": 0.85683346,
+      "num_input_tokens_seen": 50374670,
+      "step": 2350,
+      "time_per_iteration": 2.6699366569519043
+    },
+    {
+      "auxiliary_loss_clip": 0.01234071,
+      "auxiliary_loss_mlp": 0.01035102,
+      "balance_loss_clip": 1.05561435,
+      "balance_loss_mlp": 1.02588129,
+      "epoch": 0.28269103589250283,
+      "flos": 25226994862080.0,
+      "grad_norm": 2.2917625327982942,
+      "language_loss": 0.75038135,
+      "learning_rate": 3.3669121531826904e-06,
+      "loss": 0.77307314,
+      "num_input_tokens_seen": 50395650,
+      "step": 2351,
+      "time_per_iteration": 2.7907357215881348
+    },
+    {
+      "auxiliary_loss_clip": 0.01229386,
+      "auxiliary_loss_mlp": 0.01033811,
+      "balance_loss_clip": 1.06127357,
+      "balance_loss_mlp": 1.02408993,
+      "epoch": 0.28281127878314194,
+      "flos": 19281552819840.0,
+      "grad_norm": 2.771892648004035,
+      "language_loss": 0.82998246,
+      "learning_rate": 3.366343406728647e-06,
+      "loss": 0.8526144,
+      "num_input_tokens_seen": 50415100,
+      "step": 2352,
+      "time_per_iteration": 2.707109212875366
+    },
+    {
+      "auxiliary_loss_clip": 0.01206927,
+      "auxiliary_loss_mlp": 0.01030897,
+      "balance_loss_clip": 1.05695939,
+      "balance_loss_mlp": 1.02160454,
+      "epoch": 0.28293152167378105,
+      "flos": 23878405710720.0,
+      "grad_norm": 11.354858892523156,
+      "language_loss": 0.68170208,
+      "learning_rate": 3.3657744530013946e-06,
+      "loss": 0.70408034,
+      "num_input_tokens_seen": 50434335,
+      "step": 2353,
+      "time_per_iteration": 3.606046676635742
+    },
+    {
+      "auxiliary_loss_clip": 0.01219559,
+      "auxiliary_loss_mlp": 0.01032389,
+      "balance_loss_clip": 1.06044805,
+      "balance_loss_mlp": 1.02303708,
+      "epoch": 0.2830517645644201,
+      "flos": 43866965928960.0,
+      "grad_norm": 2.012528650258542,
+      "language_loss": 0.71485603,
+      "learning_rate": 3.3652052920872437e-06,
+      "loss": 0.7373755,
+      "num_input_tokens_seen": 50457200,
+      "step": 2354,
+      "time_per_iteration": 2.8588130474090576
+    },
+    {
+      "auxiliary_loss_clip": 0.01224866,
+      "auxiliary_loss_mlp": 0.01038762,
+      "balance_loss_clip": 1.05762744,
+      "balance_loss_mlp": 1.02895725,
+      "epoch": 0.2831720074550592,
+      "flos": 26651750803200.0,
+      "grad_norm": 2.134598054833611,
+      "language_loss": 0.85608864,
+      "learning_rate": 3.3646359240725355e-06,
+      "loss": 0.87872487,
+      "num_input_tokens_seen": 50476390,
+      "step": 2355,
+      "time_per_iteration": 3.6597249507904053
+    },
+    {
+      "auxiliary_loss_clip": 0.0120966,
+      "auxiliary_loss_mlp": 0.01380561,
+      "balance_loss_clip": 1.05926776,
+      "balance_loss_mlp": 1.00017965,
+      "epoch": 0.2832922503456983,
+      "flos": 31029979564800.0,
+      "grad_norm": 2.415371877684896,
+      "language_loss": 0.67181802,
+      "learning_rate": 3.364066349043643e-06,
+      "loss": 0.69772029,
+      "num_input_tokens_seen": 50497595,
+      "step": 2356,
+      "time_per_iteration": 2.717766761779785
+    },
+    {
+      "auxiliary_loss_clip": 0.01222658,
+      "auxiliary_loss_mlp": 0.01029693,
+      "balance_loss_clip": 1.05970275,
+      "balance_loss_mlp": 1.02088392,
+      "epoch": 0.2834124932363374,
+      "flos": 20405699838720.0,
+      "grad_norm": 2.423275798308675,
+      "language_loss": 0.82090718,
+      "learning_rate": 3.363496567086969e-06,
+      "loss": 0.84343064,
+      "num_input_tokens_seen": 50514690,
+      "step": 2357,
+      "time_per_iteration": 2.6528687477111816
+    },
+    {
+      "auxiliary_loss_clip": 0.01205122,
+      "auxiliary_loss_mlp": 0.01032488,
+      "balance_loss_clip": 1.05982435,
+      "balance_loss_mlp": 1.02307081,
+      "epoch": 0.2835327361269765,
+      "flos": 39384848056320.0,
+      "grad_norm": 1.9102232584170982,
+      "language_loss": 0.75752068,
+      "learning_rate": 3.3629265782889506e-06,
+      "loss": 0.7798968,
+      "num_input_tokens_seen": 50536515,
+      "step": 2358,
+      "time_per_iteration": 2.7209692001342773
+    },
+    {
+      "auxiliary_loss_clip": 0.0122244,
+      "auxiliary_loss_mlp": 0.01031988,
+      "balance_loss_clip": 1.05173886,
+      "balance_loss_mlp": 1.0219444,
+      "epoch": 0.2836529790176156,
+      "flos": 30261598801920.0,
+      "grad_norm": 2.3621820140610614,
+      "language_loss": 0.71806669,
+      "learning_rate": 3.362356382736054e-06,
+      "loss": 0.74061096,
+      "num_input_tokens_seen": 50557120,
+      "step": 2359,
+      "time_per_iteration": 2.781256914138794
+    },
+    {
+      "auxiliary_loss_clip": 0.01230909,
+      "auxiliary_loss_mlp": 0.01029211,
+      "balance_loss_clip": 1.05264354,
+      "balance_loss_mlp": 1.01975727,
+      "epoch": 0.28377322190825466,
+      "flos": 12677796264960.0,
+      "grad_norm": 2.040746365668196,
+      "language_loss": 0.9083901,
+      "learning_rate": 3.361785980514777e-06,
+      "loss": 0.93099129,
+      "num_input_tokens_seen": 50573320,
+      "step": 2360,
+      "time_per_iteration": 3.5499138832092285
+    },
+    {
+      "auxiliary_loss_clip": 0.01240559,
+      "auxiliary_loss_mlp": 0.01035441,
+      "balance_loss_clip": 1.05295813,
+      "balance_loss_mlp": 1.0256716,
+      "epoch": 0.28389346479889377,
+      "flos": 18296666830080.0,
+      "grad_norm": 1.6555045836858444,
+      "language_loss": 0.76424611,
+      "learning_rate": 3.361215371711649e-06,
+      "loss": 0.78700602,
+      "num_input_tokens_seen": 50592415,
+      "step": 2361,
+      "time_per_iteration": 2.753805160522461
+    },
+    {
+      "auxiliary_loss_clip": 0.01222569,
+      "auxiliary_loss_mlp": 0.0103243,
+      "balance_loss_clip": 1.0533464,
+      "balance_loss_mlp": 1.02274466,
+      "epoch": 0.2840137076895329,
+      "flos": 20406992728320.0,
+      "grad_norm": 1.800646032893291,
+      "language_loss": 0.833987,
+      "learning_rate": 3.3606445564132326e-06,
+      "loss": 0.85653704,
+      "num_input_tokens_seen": 50609710,
+      "step": 2362,
+      "time_per_iteration": 2.7320468425750732
+    },
+    {
+      "auxiliary_loss_clip": 0.01209368,
+      "auxiliary_loss_mlp": 0.01380067,
+      "balance_loss_clip": 1.06439769,
+      "balance_loss_mlp": 1.000036,
+      "epoch": 0.28413395058017193,
+      "flos": 20048030161920.0,
+      "grad_norm": 1.9271324919253492,
+      "language_loss": 0.82276958,
+      "learning_rate": 3.360073534706118e-06,
+      "loss": 0.84866393,
+      "num_input_tokens_seen": 50626865,
+      "step": 2363,
+      "time_per_iteration": 2.6140172481536865
+    },
+    {
+      "auxiliary_loss_clip": 0.01226395,
+      "auxiliary_loss_mlp": 0.01038969,
+      "balance_loss_clip": 1.05972993,
+      "balance_loss_mlp": 1.02945566,
+      "epoch": 0.28425419347081105,
+      "flos": 37663613256960.0,
+      "grad_norm": 2.43823565008204,
+      "language_loss": 0.75523281,
+      "learning_rate": 3.35950230667693e-06,
+      "loss": 0.77788645,
+      "num_input_tokens_seen": 50648560,
+      "step": 2364,
+      "time_per_iteration": 2.8373007774353027
+    },
+    {
+      "auxiliary_loss_clip": 0.01216737,
+      "auxiliary_loss_mlp": 0.01031962,
+      "balance_loss_clip": 1.05900288,
+      "balance_loss_mlp": 1.02259827,
+      "epoch": 0.28437443636145016,
+      "flos": 13845072539520.0,
+      "grad_norm": 2.1204171064678237,
+      "language_loss": 0.86160332,
+      "learning_rate": 3.358930872412323e-06,
+      "loss": 0.8840903,
+      "num_input_tokens_seen": 50665725,
+      "step": 2365,
+      "time_per_iteration": 2.612334728240967
+    },
+    {
+      "auxiliary_loss_clip": 0.01214238,
+      "auxiliary_loss_mlp": 0.01037096,
+      "balance_loss_clip": 1.06012273,
+      "balance_loss_mlp": 1.02875161,
+      "epoch": 0.2844946792520892,
+      "flos": 22747794243840.0,
+      "grad_norm": 1.5846261801429833,
+      "language_loss": 0.80776811,
+      "learning_rate": 3.3583592319989825e-06,
+      "loss": 0.83028144,
+      "num_input_tokens_seen": 50685095,
+      "step": 2366,
+      "time_per_iteration": 2.6957335472106934
+    },
+    {
+      "auxiliary_loss_clip": 0.01223029,
+      "auxiliary_loss_mlp": 0.01034429,
+      "balance_loss_clip": 1.06056654,
+      "balance_loss_mlp": 1.02421856,
+      "epoch": 0.2846149221427283,
+      "flos": 32415987709440.0,
+      "grad_norm": 2.393248713132126,
+      "language_loss": 0.6863783,
+      "learning_rate": 3.357787385523627e-06,
+      "loss": 0.70895284,
+      "num_input_tokens_seen": 50706500,
+      "step": 2367,
+      "time_per_iteration": 2.705846071243286
+    },
+    {
+      "auxiliary_loss_clip": 0.01256304,
+      "auxiliary_loss_mlp": 0.0103313,
+      "balance_loss_clip": 1.05255675,
+      "balance_loss_mlp": 1.02361691,
+      "epoch": 0.2847351650333674,
+      "flos": 28475976873600.0,
+      "grad_norm": 2.902204505822212,
+      "language_loss": 0.82617891,
+      "learning_rate": 3.3572153330730048e-06,
+      "loss": 0.84907317,
+      "num_input_tokens_seen": 50727595,
+      "step": 2368,
+      "time_per_iteration": 2.847848892211914
+    },
+    {
+      "auxiliary_loss_clip": 0.01138603,
+      "auxiliary_loss_mlp": 0.01003412,
+      "balance_loss_clip": 1.02612388,
+      "balance_loss_mlp": 1.00111163,
+      "epoch": 0.2848554079240065,
+      "flos": 55753399704960.0,
+      "grad_norm": 0.8319324792780064,
+      "language_loss": 0.64722049,
+      "learning_rate": 3.3566430747338956e-06,
+      "loss": 0.66864061,
+      "num_input_tokens_seen": 50782800,
+      "step": 2369,
+      "time_per_iteration": 3.097316026687622
+    },
+    {
+      "auxiliary_loss_clip": 0.0121715,
+      "auxiliary_loss_mlp": 0.01032041,
+      "balance_loss_clip": 1.05790997,
+      "balance_loss_mlp": 1.02298713,
+      "epoch": 0.2849756508146456,
+      "flos": 11836875985920.0,
+      "grad_norm": 2.078659937862253,
+      "language_loss": 0.86398441,
+      "learning_rate": 3.35607061059311e-06,
+      "loss": 0.88647634,
+      "num_input_tokens_seen": 50797730,
+      "step": 2370,
+      "time_per_iteration": 2.655349016189575
+    },
+    {
+      "auxiliary_loss_clip": 0.01204913,
+      "auxiliary_loss_mlp": 0.01028188,
+      "balance_loss_clip": 1.061795,
+      "balance_loss_mlp": 1.01885402,
+      "epoch": 0.28509589370528465,
+      "flos": 25155209531520.0,
+      "grad_norm": 1.8247850159218262,
+      "language_loss": 0.74997622,
+      "learning_rate": 3.3554979407374917e-06,
+      "loss": 0.77230728,
+      "num_input_tokens_seen": 50819840,
+      "step": 2371,
+      "time_per_iteration": 2.6444530487060547
+    },
+    {
+      "auxiliary_loss_clip": 0.01213485,
+      "auxiliary_loss_mlp": 0.01032095,
+      "balance_loss_clip": 1.05715823,
+      "balance_loss_mlp": 1.02301717,
+      "epoch": 0.28521613659592376,
+      "flos": 19974808287360.0,
+      "grad_norm": 1.5420202699423278,
+      "language_loss": 0.73441273,
+      "learning_rate": 3.3549250652539134e-06,
+      "loss": 0.75686854,
+      "num_input_tokens_seen": 50838935,
+      "step": 2372,
+      "time_per_iteration": 2.666677713394165
+    },
+    {
+      "auxiliary_loss_clip": 0.01220286,
+      "auxiliary_loss_mlp": 0.01034958,
+      "balance_loss_clip": 1.05426407,
+      "balance_loss_mlp": 1.02489662,
+      "epoch": 0.2853363794865629,
+      "flos": 23367971491200.0,
+      "grad_norm": 1.9547689809781412,
+      "language_loss": 0.81820965,
+      "learning_rate": 3.3543519842292794e-06,
+      "loss": 0.84076208,
+      "num_input_tokens_seen": 50858590,
+      "step": 2373,
+      "time_per_iteration": 2.749878168106079
+    },
+    {
+      "auxiliary_loss_clip": 0.01205296,
+      "auxiliary_loss_mlp": 0.01380055,
+      "balance_loss_clip": 1.06012106,
+      "balance_loss_mlp": 1.0001179,
+      "epoch": 0.28545662237720193,
+      "flos": 19861940776320.0,
+      "grad_norm": 2.4019401445000312,
+      "language_loss": 0.83595598,
+      "learning_rate": 3.353778697750527e-06,
+      "loss": 0.86180943,
+      "num_input_tokens_seen": 50876995,
+      "step": 2374,
+      "time_per_iteration": 2.5831334590911865
+    },
+    {
+      "auxiliary_loss_clip": 0.01213468,
+      "auxiliary_loss_mlp": 0.01029798,
+      "balance_loss_clip": 1.05514979,
+      "balance_loss_mlp": 1.01955831,
+      "epoch": 0.28557686526784104,
+      "flos": 23879016241920.0,
+      "grad_norm": 1.9691453086505577,
+      "language_loss": 0.89233273,
+      "learning_rate": 3.353205205904622e-06,
+      "loss": 0.91476542,
+      "num_input_tokens_seen": 50896105,
+      "step": 2375,
+      "time_per_iteration": 2.7195322513580322
+    },
+    {
+      "auxiliary_loss_clip": 0.0122118,
+      "auxiliary_loss_mlp": 0.01032175,
+      "balance_loss_clip": 1.05649018,
+      "balance_loss_mlp": 1.02269793,
+      "epoch": 0.28569710815848015,
+      "flos": 44890384233600.0,
+      "grad_norm": 1.9128719171031634,
+      "language_loss": 0.71895146,
+      "learning_rate": 3.3526315087785637e-06,
+      "loss": 0.74148512,
+      "num_input_tokens_seen": 50917220,
+      "step": 2376,
+      "time_per_iteration": 2.8252525329589844
+    },
+    {
+      "auxiliary_loss_clip": 0.01217387,
+      "auxiliary_loss_mlp": 0.0103083,
+      "balance_loss_clip": 1.05151629,
+      "balance_loss_mlp": 1.02120972,
+      "epoch": 0.2858173510491192,
+      "flos": 26829759628800.0,
+      "grad_norm": 1.5581993417525248,
+      "language_loss": 0.80911243,
+      "learning_rate": 3.3520576064593805e-06,
+      "loss": 0.83159459,
+      "num_input_tokens_seen": 50937175,
+      "step": 2377,
+      "time_per_iteration": 2.777764081954956
+    },
+    {
+      "auxiliary_loss_clip": 0.01218716,
+      "auxiliary_loss_mlp": 0.0103568,
+      "balance_loss_clip": 1.06020987,
+      "balance_loss_mlp": 1.02622032,
+      "epoch": 0.2859375939397583,
+      "flos": 23148916398720.0,
+      "grad_norm": 1.673828337163378,
+      "language_loss": 0.81472099,
+      "learning_rate": 3.3514834990341337e-06,
+      "loss": 0.8372649,
+      "num_input_tokens_seen": 50957500,
+      "step": 2378,
+      "time_per_iteration": 2.6961512565612793
+    },
+    {
+      "auxiliary_loss_clip": 0.01227603,
+      "auxiliary_loss_mlp": 0.01030481,
+      "balance_loss_clip": 1.0573113,
+      "balance_loss_mlp": 1.02192163,
+      "epoch": 0.2860578368303974,
+      "flos": 12129799397760.0,
+      "grad_norm": 3.150411132963878,
+      "language_loss": 0.92766213,
+      "learning_rate": 3.3509091865899144e-06,
+      "loss": 0.950243,
+      "num_input_tokens_seen": 50972690,
+      "step": 2379,
+      "time_per_iteration": 3.672611951828003
+    },
+    {
+      "auxiliary_loss_clip": 0.01205702,
+      "auxiliary_loss_mlp": 0.01032534,
+      "balance_loss_clip": 1.05949867,
+      "balance_loss_mlp": 1.02332509,
+      "epoch": 0.2861780797210365,
+      "flos": 19938035738880.0,
+      "grad_norm": 2.0258592617411795,
+      "language_loss": 0.70531082,
+      "learning_rate": 3.350334669213846e-06,
+      "loss": 0.7276932,
+      "num_input_tokens_seen": 50990095,
+      "step": 2380,
+      "time_per_iteration": 3.4919369220733643
+    },
+    {
+      "auxiliary_loss_clip": 0.01215171,
+      "auxiliary_loss_mlp": 0.01028587,
+      "balance_loss_clip": 1.0612551,
+      "balance_loss_mlp": 1.01949739,
+      "epoch": 0.2862983226116756,
+      "flos": 27563127609600.0,
+      "grad_norm": 3.9001212209711484,
+      "language_loss": 0.75642526,
+      "learning_rate": 3.3497599469930816e-06,
+      "loss": 0.77886283,
+      "num_input_tokens_seen": 51008305,
+      "step": 2381,
+      "time_per_iteration": 3.582291841506958
+    },
+    {
+      "auxiliary_loss_clip": 0.01206749,
+      "auxiliary_loss_mlp": 0.01031392,
+      "balance_loss_clip": 1.05907607,
+      "balance_loss_mlp": 1.02188468,
+      "epoch": 0.28641856550231465,
+      "flos": 22053964158720.0,
+      "grad_norm": 2.3462691724513527,
+      "language_loss": 0.83234316,
+      "learning_rate": 3.349185020014807e-06,
+      "loss": 0.85472459,
+      "num_input_tokens_seen": 51025570,
+      "step": 2382,
+      "time_per_iteration": 2.686267852783203
+    },
+    {
+      "auxiliary_loss_clip": 0.01213728,
+      "auxiliary_loss_mlp": 0.01038053,
+      "balance_loss_clip": 1.05678821,
+      "balance_loss_mlp": 1.02864766,
+      "epoch": 0.28653880839295376,
+      "flos": 22378775869440.0,
+      "grad_norm": 1.8013771772031417,
+      "language_loss": 0.74542189,
+      "learning_rate": 3.348609888366237e-06,
+      "loss": 0.76793975,
+      "num_input_tokens_seen": 51044585,
+      "step": 2383,
+      "time_per_iteration": 2.6826119422912598
+    },
+    {
+      "auxiliary_loss_clip": 0.01239877,
+      "auxiliary_loss_mlp": 0.01029805,
+      "balance_loss_clip": 1.05029047,
+      "balance_loss_mlp": 1.02086425,
+      "epoch": 0.28665905128359287,
+      "flos": 23367971491200.0,
+      "grad_norm": 2.295764284468142,
+      "language_loss": 0.62806195,
+      "learning_rate": 3.348034552134619e-06,
+      "loss": 0.65075874,
+      "num_input_tokens_seen": 51063990,
+      "step": 2384,
+      "time_per_iteration": 2.7770605087280273
+    },
+    {
+      "auxiliary_loss_clip": 0.01231907,
+      "auxiliary_loss_mlp": 0.01032092,
+      "balance_loss_clip": 1.05448127,
+      "balance_loss_mlp": 1.02271664,
+      "epoch": 0.2867792941742319,
+      "flos": 20881695893760.0,
+      "grad_norm": 2.7571849198004315,
+      "language_loss": 0.84471631,
+      "learning_rate": 3.3474590114072316e-06,
+      "loss": 0.8673563,
+      "num_input_tokens_seen": 51081990,
+      "step": 2385,
+      "time_per_iteration": 2.815758466720581
+    },
+    {
+      "auxiliary_loss_clip": 0.0122515,
+      "auxiliary_loss_mlp": 0.01031373,
+      "balance_loss_clip": 1.05493808,
+      "balance_loss_mlp": 1.02163935,
+      "epoch": 0.28689953706487104,
+      "flos": 20664005518080.0,
+      "grad_norm": 1.8575972726752232,
+      "language_loss": 0.8330242,
+      "learning_rate": 3.3468832662713836e-06,
+      "loss": 0.85558945,
+      "num_input_tokens_seen": 51100235,
+      "step": 2386,
+      "time_per_iteration": 3.6393048763275146
+    },
+    {
+      "auxiliary_loss_clip": 0.01229452,
+      "auxiliary_loss_mlp": 0.01029786,
+      "balance_loss_clip": 1.05740833,
+      "balance_loss_mlp": 1.02074945,
+      "epoch": 0.28701977995551015,
+      "flos": 12675533708160.0,
+      "grad_norm": 2.2284896176649114,
+      "language_loss": 0.84048867,
+      "learning_rate": 3.346307316814415e-06,
+      "loss": 0.8630811,
+      "num_input_tokens_seen": 51115405,
+      "step": 2387,
+      "time_per_iteration": 2.720770835876465
+    },
+    {
+      "auxiliary_loss_clip": 0.01214003,
+      "auxiliary_loss_mlp": 0.01029979,
+      "balance_loss_clip": 1.06097949,
+      "balance_loss_mlp": 1.02085972,
+      "epoch": 0.2871400228461492,
+      "flos": 21252366293760.0,
+      "grad_norm": 2.832086208679477,
+      "language_loss": 0.75687516,
+      "learning_rate": 3.3457311631236965e-06,
+      "loss": 0.77931494,
+      "num_input_tokens_seen": 51136390,
+      "step": 2388,
+      "time_per_iteration": 2.6624503135681152
+    },
+    {
+      "auxiliary_loss_clip": 0.01208104,
+      "auxiliary_loss_mlp": 0.01032625,
+      "balance_loss_clip": 1.05484736,
+      "balance_loss_mlp": 1.02264166,
+      "epoch": 0.2872602657367883,
+      "flos": 25119262995840.0,
+      "grad_norm": 1.816322089077284,
+      "language_loss": 0.8465482,
+      "learning_rate": 3.345154805286631e-06,
+      "loss": 0.86895555,
+      "num_input_tokens_seen": 51156650,
+      "step": 2389,
+      "time_per_iteration": 2.6940369606018066
+    },
+    {
+      "auxiliary_loss_clip": 0.01204469,
+      "auxiliary_loss_mlp": 0.01033743,
+      "balance_loss_clip": 1.05572128,
+      "balance_loss_mlp": 1.02416492,
+      "epoch": 0.2873805086274274,
+      "flos": 16646606830080.0,
+      "grad_norm": 2.430692164811192,
+      "language_loss": 0.7624647,
+      "learning_rate": 3.344578243390651e-06,
+      "loss": 0.78484678,
+      "num_input_tokens_seen": 51172210,
+      "step": 2390,
+      "time_per_iteration": 2.5523781776428223
+    },
+    {
+      "auxiliary_loss_clip": 0.01220081,
+      "auxiliary_loss_mlp": 0.01028051,
+      "balance_loss_clip": 1.05724633,
+      "balance_loss_mlp": 1.01901472,
+      "epoch": 0.2875007515180665,
+      "flos": 17420123237760.0,
+      "grad_norm": 2.0488560403071543,
+      "language_loss": 0.77997434,
+      "learning_rate": 3.3440014775232206e-06,
+      "loss": 0.80245566,
+      "num_input_tokens_seen": 51190265,
+      "step": 2391,
+      "time_per_iteration": 2.6645820140838623
+    },
+    {
+      "auxiliary_loss_clip": 0.01232088,
+      "auxiliary_loss_mlp": 0.01028117,
+      "balance_loss_clip": 1.05539131,
+      "balance_loss_mlp": 1.01874113,
+      "epoch": 0.2876209944087056,
+      "flos": 23434190213760.0,
+      "grad_norm": 1.895288333373904,
+      "language_loss": 0.71323943,
+      "learning_rate": 3.343424507771834e-06,
+      "loss": 0.73584151,
+      "num_input_tokens_seen": 51208475,
+      "step": 2392,
+      "time_per_iteration": 2.7121400833129883
+    },
+    {
+      "auxiliary_loss_clip": 0.01230531,
+      "auxiliary_loss_mlp": 0.01036451,
+      "balance_loss_clip": 1.05639625,
+      "balance_loss_mlp": 1.02731919,
+      "epoch": 0.2877412372993447,
+      "flos": 13735509079680.0,
+      "grad_norm": 1.76467506732025,
+      "language_loss": 0.86410391,
+      "learning_rate": 3.342847334224018e-06,
+      "loss": 0.88677371,
+      "num_input_tokens_seen": 51225875,
+      "step": 2393,
+      "time_per_iteration": 2.657792806625366
+    },
+    {
+      "auxiliary_loss_clip": 0.01117214,
+      "auxiliary_loss_mlp": 0.01003273,
+      "balance_loss_clip": 1.03016686,
+      "balance_loss_mlp": 1.00107956,
+      "epoch": 0.28786148018998375,
+      "flos": 58079695104000.0,
+      "grad_norm": 0.9501949188716489,
+      "language_loss": 0.62425488,
+      "learning_rate": 3.342269956967329e-06,
+      "loss": 0.64545971,
+      "num_input_tokens_seen": 51287780,
+      "step": 2394,
+      "time_per_iteration": 3.2834243774414062
+    },
+    {
+      "auxiliary_loss_clip": 0.01218141,
+      "auxiliary_loss_mlp": 0.0103846,
+      "balance_loss_clip": 1.06026924,
+      "balance_loss_mlp": 1.02835655,
+      "epoch": 0.28798172308062286,
+      "flos": 23435052140160.0,
+      "grad_norm": 3.0867639025209868,
+      "language_loss": 0.71682572,
+      "learning_rate": 3.341692376089355e-06,
+      "loss": 0.7393918,
+      "num_input_tokens_seen": 51303335,
+      "step": 2395,
+      "time_per_iteration": 2.7027153968811035
+    },
+    {
+      "auxiliary_loss_clip": 0.01208597,
+      "auxiliary_loss_mlp": 0.01028425,
+      "balance_loss_clip": 1.05697954,
+      "balance_loss_mlp": 1.01988411,
+      "epoch": 0.288101965971262,
+      "flos": 25110033200640.0,
+      "grad_norm": 2.8372787262771233,
+      "language_loss": 0.84106529,
+      "learning_rate": 3.3411145916777146e-06,
+      "loss": 0.86343551,
+      "num_input_tokens_seen": 51317495,
+      "step": 2396,
+      "time_per_iteration": 2.6953964233398438
+    },
+    {
+      "auxiliary_loss_clip": 0.01209512,
+      "auxiliary_loss_mlp": 0.01037596,
+      "balance_loss_clip": 1.05438101,
+      "balance_loss_mlp": 1.02793419,
+      "epoch": 0.28822220886190103,
+      "flos": 16252559654400.0,
+      "grad_norm": 2.131425976508854,
+      "language_loss": 0.90757358,
+      "learning_rate": 3.3405366038200566e-06,
+      "loss": 0.93004459,
+      "num_input_tokens_seen": 51336430,
+      "step": 2397,
+      "time_per_iteration": 2.650428533554077
+    },
+    {
+      "auxiliary_loss_clip": 0.01228834,
+      "auxiliary_loss_mlp": 0.01043184,
+      "balance_loss_clip": 1.0637784,
+      "balance_loss_mlp": 1.03340912,
+      "epoch": 0.28834245175254014,
+      "flos": 24535642815360.0,
+      "grad_norm": 2.291762257666975,
+      "language_loss": 0.84829807,
+      "learning_rate": 3.3399584126040617e-06,
+      "loss": 0.87101829,
+      "num_input_tokens_seen": 51355930,
+      "step": 2398,
+      "time_per_iteration": 2.898505210876465
+    },
+    {
+      "auxiliary_loss_clip": 0.01206215,
+      "auxiliary_loss_mlp": 0.01380039,
+      "balance_loss_clip": 1.06180263,
+      "balance_loss_mlp": 1.00002813,
+      "epoch": 0.2884626946431792,
+      "flos": 24571445696640.0,
+      "grad_norm": 1.875310941788629,
+      "language_loss": 0.90567338,
+      "learning_rate": 3.339380018117441e-06,
+      "loss": 0.93153596,
+      "num_input_tokens_seen": 51376765,
+      "step": 2399,
+      "time_per_iteration": 2.7224628925323486
+    },
+    {
+      "auxiliary_loss_clip": 0.01209598,
+      "auxiliary_loss_mlp": 0.01027058,
+      "balance_loss_clip": 1.05979323,
+      "balance_loss_mlp": 1.01775336,
+      "epoch": 0.2885829375338183,
+      "flos": 16544657053440.0,
+      "grad_norm": 2.843893576429507,
+      "language_loss": 0.7827,
+      "learning_rate": 3.3388014204479366e-06,
+      "loss": 0.80506659,
+      "num_input_tokens_seen": 51394570,
+      "step": 2400,
+      "time_per_iteration": 2.6412947177886963
+    },
+    {
+      "auxiliary_loss_clip": 0.01207986,
+      "auxiliary_loss_mlp": 0.01036022,
+      "balance_loss_clip": 1.06165099,
+      "balance_loss_mlp": 1.02615118,
+      "epoch": 0.2887031804244574,
+      "flos": 24061226958720.0,
+      "grad_norm": 1.9500336933166713,
+      "language_loss": 0.91454399,
+      "learning_rate": 3.338222619683321e-06,
+      "loss": 0.93698412,
+      "num_input_tokens_seen": 51414535,
+      "step": 2401,
+      "time_per_iteration": 2.653395652770996
+    },
+    {
+      "auxiliary_loss_clip": 0.01224241,
+      "auxiliary_loss_mlp": 0.01024488,
+      "balance_loss_clip": 1.058393,
+      "balance_loss_mlp": 1.01545238,
+      "epoch": 0.2888234233150965,
+      "flos": 23330696152320.0,
+      "grad_norm": 2.498055129211515,
+      "language_loss": 0.74116147,
+      "learning_rate": 3.337643615911398e-06,
+      "loss": 0.76364887,
+      "num_input_tokens_seen": 51434160,
+      "step": 2402,
+      "time_per_iteration": 2.7371368408203125
+    },
+    {
+      "auxiliary_loss_clip": 0.0121534,
+      "auxiliary_loss_mlp": 0.01025149,
+      "balance_loss_clip": 1.05842066,
+      "balance_loss_mlp": 1.01672709,
+      "epoch": 0.2889436662057356,
+      "flos": 22272767856000.0,
+      "grad_norm": 2.0668696771336967,
+      "language_loss": 0.78640544,
+      "learning_rate": 3.3370644092200026e-06,
+      "loss": 0.80881035,
+      "num_input_tokens_seen": 51451435,
+      "step": 2403,
+      "time_per_iteration": 2.715911388397217
+    },
+    {
+      "auxiliary_loss_clip": 0.01213234,
+      "auxiliary_loss_mlp": 0.01034546,
+      "balance_loss_clip": 1.05186224,
+      "balance_loss_mlp": 1.02548003,
+      "epoch": 0.2890639090963747,
+      "flos": 21616931381760.0,
+      "grad_norm": 2.3600460914611516,
+      "language_loss": 0.78328913,
+      "learning_rate": 3.3364849996969985e-06,
+      "loss": 0.80576694,
+      "num_input_tokens_seen": 51471455,
+      "step": 2404,
+      "time_per_iteration": 2.696101427078247
+    },
+    {
+      "auxiliary_loss_clip": 0.01211805,
+      "auxiliary_loss_mlp": 0.01034901,
+      "balance_loss_clip": 1.05943811,
+      "balance_loss_mlp": 1.02621651,
+      "epoch": 0.28918415198701375,
+      "flos": 28585540333440.0,
+      "grad_norm": 1.837447814127416,
+      "language_loss": 0.85664058,
+      "learning_rate": 3.335905387430283e-06,
+      "loss": 0.87910759,
+      "num_input_tokens_seen": 51492890,
+      "step": 2405,
+      "time_per_iteration": 3.5428707599639893
+    },
+    {
+      "auxiliary_loss_clip": 0.01225061,
+      "auxiliary_loss_mlp": 0.01030988,
+      "balance_loss_clip": 1.05547953,
+      "balance_loss_mlp": 1.02211833,
+      "epoch": 0.28930439487765286,
+      "flos": 21944688007680.0,
+      "grad_norm": 1.7297545300796917,
+      "language_loss": 0.83052957,
+      "learning_rate": 3.335325572507782e-06,
+      "loss": 0.85309005,
+      "num_input_tokens_seen": 51513390,
+      "step": 2406,
+      "time_per_iteration": 3.6179041862487793
+    },
+    {
+      "auxiliary_loss_clip": 0.01209258,
+      "auxiliary_loss_mlp": 0.01380169,
+      "balance_loss_clip": 1.06497228,
+      "balance_loss_mlp": 1.00018311,
+      "epoch": 0.28942463776829197,
+      "flos": 19281911955840.0,
+      "grad_norm": 1.736164628897546,
+      "language_loss": 0.7375679,
+      "learning_rate": 3.3347455550174537e-06,
+      "loss": 0.76346219,
+      "num_input_tokens_seen": 51532730,
+      "step": 2407,
+      "time_per_iteration": 3.5188801288604736
+    },
+    {
+      "auxiliary_loss_clip": 0.01223387,
+      "auxiliary_loss_mlp": 0.01027108,
+      "balance_loss_clip": 1.05168784,
+      "balance_loss_mlp": 1.01837587,
+      "epoch": 0.289544880658931,
+      "flos": 14645700737280.0,
+      "grad_norm": 1.874862999581222,
+      "language_loss": 0.68118495,
+      "learning_rate": 3.3341653350472864e-06,
+      "loss": 0.70368993,
+      "num_input_tokens_seen": 51549560,
+      "step": 2408,
+      "time_per_iteration": 2.7056663036346436
+    },
+    {
+      "auxiliary_loss_clip": 0.01212173,
+      "auxiliary_loss_mlp": 0.01035128,
+      "balance_loss_clip": 1.06095099,
+      "balance_loss_mlp": 1.0243156,
+      "epoch": 0.28966512354957014,
+      "flos": 28621881918720.0,
+      "grad_norm": 3.497410654486015,
+      "language_loss": 0.69123948,
+      "learning_rate": 3.333584912685298e-06,
+      "loss": 0.71371251,
+      "num_input_tokens_seen": 51568180,
+      "step": 2409,
+      "time_per_iteration": 2.68296480178833
+    },
+    {
+      "auxiliary_loss_clip": 0.01139491,
+      "auxiliary_loss_mlp": 0.01002158,
+      "balance_loss_clip": 1.0297519,
+      "balance_loss_mlp": 0.999798,
+      "epoch": 0.28978536644020925,
+      "flos": 64711784511360.0,
+      "grad_norm": 0.8840731022287995,
+      "language_loss": 0.55613959,
+      "learning_rate": 3.3330042880195385e-06,
+      "loss": 0.57755613,
+      "num_input_tokens_seen": 51622530,
+      "step": 2410,
+      "time_per_iteration": 3.245706081390381
+    },
+    {
+      "auxiliary_loss_clip": 0.0122098,
+      "auxiliary_loss_mlp": 0.01029359,
+      "balance_loss_clip": 1.05580258,
+      "balance_loss_mlp": 1.02042389,
+      "epoch": 0.2899056093308483,
+      "flos": 18624638937600.0,
+      "grad_norm": 2.37209632434107,
+      "language_loss": 0.78507888,
+      "learning_rate": 3.3324234611380888e-06,
+      "loss": 0.80758226,
+      "num_input_tokens_seen": 51641260,
+      "step": 2411,
+      "time_per_iteration": 2.7640485763549805
+    },
+    {
+      "auxiliary_loss_clip": 0.01222991,
+      "auxiliary_loss_mlp": 0.01034459,
+      "balance_loss_clip": 1.05584145,
+      "balance_loss_mlp": 1.0253098,
+      "epoch": 0.2900258522214874,
+      "flos": 22893735202560.0,
+      "grad_norm": 1.8163830464546888,
+      "language_loss": 0.82036686,
+      "learning_rate": 3.3318424321290596e-06,
+      "loss": 0.84294128,
+      "num_input_tokens_seen": 51660975,
+      "step": 2412,
+      "time_per_iteration": 3.649555206298828
+    },
+    {
+      "auxiliary_loss_clip": 0.01133513,
+      "auxiliary_loss_mlp": 0.01005751,
+      "balance_loss_clip": 1.02647066,
+      "balance_loss_mlp": 1.00360513,
+      "epoch": 0.2901460951121265,
+      "flos": 71106036013440.0,
+      "grad_norm": 0.8313801820391905,
+      "language_loss": 0.59951842,
+      "learning_rate": 3.3312612010805917e-06,
+      "loss": 0.62091112,
+      "num_input_tokens_seen": 51720550,
+      "step": 2413,
+      "time_per_iteration": 3.302919387817383
+    },
+    {
+      "auxiliary_loss_clip": 0.01208759,
+      "auxiliary_loss_mlp": 0.01030028,
+      "balance_loss_clip": 1.05674815,
+      "balance_loss_mlp": 1.02061021,
+      "epoch": 0.2902663380027656,
+      "flos": 32160986081280.0,
+      "grad_norm": 1.7005155613856369,
+      "language_loss": 0.7015599,
+      "learning_rate": 3.330679768080858e-06,
+      "loss": 0.72394776,
+      "num_input_tokens_seen": 51744435,
+      "step": 2414,
+      "time_per_iteration": 2.8127551078796387
+    },
+    {
+      "auxiliary_loss_clip": 0.01209971,
+      "auxiliary_loss_mlp": 0.01037719,
+      "balance_loss_clip": 1.05958557,
+      "balance_loss_mlp": 1.02888536,
+      "epoch": 0.2903865808934047,
+      "flos": 29351658539520.0,
+      "grad_norm": 2.1272960332310484,
+      "language_loss": 0.83077085,
+      "learning_rate": 3.3300981332180627e-06,
+      "loss": 0.8532477,
+      "num_input_tokens_seen": 51763640,
+      "step": 2415,
+      "time_per_iteration": 2.6869685649871826
+    },
+    {
+      "auxiliary_loss_clip": 0.0123711,
+      "auxiliary_loss_mlp": 0.01034133,
+      "balance_loss_clip": 1.05792785,
+      "balance_loss_mlp": 1.02492404,
+      "epoch": 0.29050682378404374,
+      "flos": 17089026647040.0,
+      "grad_norm": 1.9965812537101113,
+      "language_loss": 0.79963219,
+      "learning_rate": 3.3295162965804373e-06,
+      "loss": 0.8223446,
+      "num_input_tokens_seen": 51782135,
+      "step": 2416,
+      "time_per_iteration": 2.7649874687194824
+    },
+    {
+      "auxiliary_loss_clip": 0.01227126,
+      "auxiliary_loss_mlp": 0.01029067,
+      "balance_loss_clip": 1.05638397,
+      "balance_loss_mlp": 1.02034736,
+      "epoch": 0.29062706667468285,
+      "flos": 17858233422720.0,
+      "grad_norm": 2.864193625378686,
+      "language_loss": 0.78477824,
+      "learning_rate": 3.328934258256247e-06,
+      "loss": 0.80734015,
+      "num_input_tokens_seen": 51800200,
+      "step": 2417,
+      "time_per_iteration": 2.7022953033447266
+    },
+    {
+      "auxiliary_loss_clip": 0.01209609,
+      "auxiliary_loss_mlp": 0.0103243,
+      "balance_loss_clip": 1.05509472,
+      "balance_loss_mlp": 1.02310824,
+      "epoch": 0.29074730956532197,
+      "flos": 24279815174400.0,
+      "grad_norm": 2.284608658000821,
+      "language_loss": 0.67512894,
+      "learning_rate": 3.3283520183337856e-06,
+      "loss": 0.69754934,
+      "num_input_tokens_seen": 51819905,
+      "step": 2418,
+      "time_per_iteration": 2.6958203315734863
+    },
+    {
+      "auxiliary_loss_clip": 0.01215694,
+      "auxiliary_loss_mlp": 0.01032153,
+      "balance_loss_clip": 1.05387771,
+      "balance_loss_mlp": 1.0231111,
+      "epoch": 0.290867552455961,
+      "flos": 22340961826560.0,
+      "grad_norm": 1.695815746033169,
+      "language_loss": 0.69165051,
+      "learning_rate": 3.3277695769013797e-06,
+      "loss": 0.71412897,
+      "num_input_tokens_seen": 51839350,
+      "step": 2419,
+      "time_per_iteration": 2.6420066356658936
+    },
+    {
+      "auxiliary_loss_clip": 0.01214352,
+      "auxiliary_loss_mlp": 0.01030652,
+      "balance_loss_clip": 1.06088471,
+      "balance_loss_mlp": 1.02143741,
+      "epoch": 0.29098779534660013,
+      "flos": 23186155824000.0,
+      "grad_norm": 1.9112108137223451,
+      "language_loss": 0.77648813,
+      "learning_rate": 3.327186934047385e-06,
+      "loss": 0.79893816,
+      "num_input_tokens_seen": 51858045,
+      "step": 2420,
+      "time_per_iteration": 2.7145438194274902
+    },
+    {
+      "auxiliary_loss_clip": 0.01207375,
+      "auxiliary_loss_mlp": 0.01031828,
+      "balance_loss_clip": 1.05240965,
+      "balance_loss_mlp": 1.02329803,
+      "epoch": 0.29110803823723924,
+      "flos": 15304194817920.0,
+      "grad_norm": 2.119748557997067,
+      "language_loss": 0.6523295,
+      "learning_rate": 3.3266040898601877e-06,
+      "loss": 0.67472154,
+      "num_input_tokens_seen": 51875880,
+      "step": 2421,
+      "time_per_iteration": 2.6554315090179443
+    },
+    {
+      "auxiliary_loss_clip": 0.01228277,
+      "auxiliary_loss_mlp": 0.0103516,
+      "balance_loss_clip": 1.05051315,
+      "balance_loss_mlp": 1.02604699,
+      "epoch": 0.2912282811278783,
+      "flos": 22595352923520.0,
+      "grad_norm": 1.8748854033898488,
+      "language_loss": 0.78177857,
+      "learning_rate": 3.3260210444282045e-06,
+      "loss": 0.80441296,
+      "num_input_tokens_seen": 51893835,
+      "step": 2422,
+      "time_per_iteration": 2.9354188442230225
+    },
+    {
+      "auxiliary_loss_clip": 0.0120466,
+      "auxiliary_loss_mlp": 0.01034705,
+      "balance_loss_clip": 1.0559473,
+      "balance_loss_mlp": 1.02567458,
+      "epoch": 0.2913485240185174,
+      "flos": 24497900599680.0,
+      "grad_norm": 2.002949287828724,
+      "language_loss": 0.73203063,
+      "learning_rate": 3.325437797839883e-06,
+      "loss": 0.75442427,
+      "num_input_tokens_seen": 51912205,
+      "step": 2423,
+      "time_per_iteration": 2.6664352416992188
+    },
+    {
+      "auxiliary_loss_clip": 0.01203844,
+      "auxiliary_loss_mlp": 0.01032864,
+      "balance_loss_clip": 1.05888164,
+      "balance_loss_mlp": 1.02380466,
+      "epoch": 0.2914687669091565,
+      "flos": 17931024334080.0,
+      "grad_norm": 2.425699786709941,
+      "language_loss": 0.75166285,
+      "learning_rate": 3.3248543501837015e-06,
+      "loss": 0.77402991,
+      "num_input_tokens_seen": 51929410,
+      "step": 2424,
+      "time_per_iteration": 2.6882846355438232
+    },
+    {
+      "auxiliary_loss_clip": 0.01242149,
+      "auxiliary_loss_mlp": 0.01036687,
+      "balance_loss_clip": 1.0561558,
+      "balance_loss_mlp": 1.02721632,
+      "epoch": 0.2915890097997956,
+      "flos": 22529313768960.0,
+      "grad_norm": 1.9913424605743397,
+      "language_loss": 0.77277321,
+      "learning_rate": 3.3242707015481684e-06,
+      "loss": 0.79556155,
+      "num_input_tokens_seen": 51949345,
+      "step": 2425,
+      "time_per_iteration": 2.7978873252868652
+    },
+    {
+      "auxiliary_loss_clip": 0.01214218,
+      "auxiliary_loss_mlp": 0.01029884,
+      "balance_loss_clip": 1.05126882,
+      "balance_loss_mlp": 1.02148008,
+      "epoch": 0.2917092526904347,
+      "flos": 13845216193920.0,
+      "grad_norm": 10.057324004936287,
+      "language_loss": 0.8075695,
+      "learning_rate": 3.323686852021823e-06,
+      "loss": 0.83001053,
+      "num_input_tokens_seen": 51966855,
+      "step": 2426,
+      "time_per_iteration": 2.6303610801696777
+    },
+    {
+      "auxiliary_loss_clip": 0.01233399,
+      "auxiliary_loss_mlp": 0.01032921,
+      "balance_loss_clip": 1.05442023,
+      "balance_loss_mlp": 1.02338398,
+      "epoch": 0.2918294955810738,
+      "flos": 22674859678080.0,
+      "grad_norm": 1.8786335406817058,
+      "language_loss": 0.79517949,
+      "learning_rate": 3.323102801693235e-06,
+      "loss": 0.81784272,
+      "num_input_tokens_seen": 51985620,
+      "step": 2427,
+      "time_per_iteration": 2.7592716217041016
+    },
+    {
+      "auxiliary_loss_clip": 0.01204115,
+      "auxiliary_loss_mlp": 0.01032058,
+      "balance_loss_clip": 1.05615497,
+      "balance_loss_mlp": 1.02292025,
+      "epoch": 0.29194973847171285,
+      "flos": 23438284364160.0,
+      "grad_norm": 2.315705522621508,
+      "language_loss": 0.81051242,
+      "learning_rate": 3.322518550651003e-06,
+      "loss": 0.83287418,
+      "num_input_tokens_seen": 52004930,
+      "step": 2428,
+      "time_per_iteration": 2.6973695755004883
+    },
+    {
+      "auxiliary_loss_clip": 0.01224357,
+      "auxiliary_loss_mlp": 0.01033457,
+      "balance_loss_clip": 1.05484462,
+      "balance_loss_mlp": 1.02448058,
+      "epoch": 0.29206998136235196,
+      "flos": 21909064694400.0,
+      "grad_norm": 1.8353468118838805,
+      "language_loss": 0.81232607,
+      "learning_rate": 3.3219340989837586e-06,
+      "loss": 0.83490419,
+      "num_input_tokens_seen": 52024920,
+      "step": 2429,
+      "time_per_iteration": 2.7022111415863037
+    },
+    {
+      "auxiliary_loss_clip": 0.01219478,
+      "auxiliary_loss_mlp": 0.01031692,
+      "balance_loss_clip": 1.05713069,
+      "balance_loss_mlp": 1.0228827,
+      "epoch": 0.292190224252991,
+      "flos": 23215925220480.0,
+      "grad_norm": 1.7606065979960783,
+      "language_loss": 0.8046273,
+      "learning_rate": 3.3213494467801625e-06,
+      "loss": 0.8271389,
+      "num_input_tokens_seen": 52044095,
+      "step": 2430,
+      "time_per_iteration": 3.6297245025634766
+    },
+    {
+      "auxiliary_loss_clip": 0.01250499,
+      "auxiliary_loss_mlp": 0.01025844,
+      "balance_loss_clip": 1.04793286,
+      "balance_loss_mlp": 1.01727235,
+      "epoch": 0.2923104671436301,
+      "flos": 20740818752640.0,
+      "grad_norm": 2.0143309587752856,
+      "language_loss": 0.7123301,
+      "learning_rate": 3.3207645941289063e-06,
+      "loss": 0.73509347,
+      "num_input_tokens_seen": 52062440,
+      "step": 2431,
+      "time_per_iteration": 2.988915205001831
+    },
+    {
+      "auxiliary_loss_clip": 0.01210826,
+      "auxiliary_loss_mlp": 0.0137976,
+      "balance_loss_clip": 1.05866659,
+      "balance_loss_mlp": 0.99999106,
+      "epoch": 0.29243071003426924,
+      "flos": 35809114999680.0,
+      "grad_norm": 1.7714636907902594,
+      "language_loss": 0.80121601,
+      "learning_rate": 3.320179541118711e-06,
+      "loss": 0.82712185,
+      "num_input_tokens_seen": 52084940,
+      "step": 2432,
+      "time_per_iteration": 3.0306248664855957
+    },
+    {
+      "auxiliary_loss_clip": 0.01118295,
+      "auxiliary_loss_mlp": 0.01008056,
+      "balance_loss_clip": 1.03056312,
+      "balance_loss_mlp": 1.00571966,
+      "epoch": 0.2925509529249083,
+      "flos": 58081598524800.0,
+      "grad_norm": 0.9999367689279309,
+      "language_loss": 0.60296929,
+      "learning_rate": 3.3195942878383293e-06,
+      "loss": 0.62423283,
+      "num_input_tokens_seen": 52141040,
+      "step": 2433,
+      "time_per_iteration": 5.02247953414917
+    },
+    {
+      "auxiliary_loss_clip": 0.01213178,
+      "auxiliary_loss_mlp": 0.01027886,
+      "balance_loss_clip": 1.05847692,
+      "balance_loss_mlp": 1.01939881,
+      "epoch": 0.2926711958155474,
+      "flos": 21397122103680.0,
+      "grad_norm": 1.975089247291234,
+      "language_loss": 0.77946544,
+      "learning_rate": 3.319008834376543e-06,
+      "loss": 0.80187607,
+      "num_input_tokens_seen": 52160730,
+      "step": 2434,
+      "time_per_iteration": 2.69765043258667
+    },
+    {
+      "auxiliary_loss_clip": 0.01234292,
+      "auxiliary_loss_mlp": 0.01033331,
+      "balance_loss_clip": 1.05289125,
+      "balance_loss_mlp": 1.02411675,
+      "epoch": 0.2927914387061865,
+      "flos": 23185796688000.0,
+      "grad_norm": 2.857891434790069,
+      "language_loss": 0.88457912,
+      "learning_rate": 3.3184231808221654e-06,
+      "loss": 0.90725541,
+      "num_input_tokens_seen": 52175055,
+      "step": 2435,
+      "time_per_iteration": 2.7738730907440186
+    },
+    {
+      "auxiliary_loss_clip": 0.01231708,
+      "auxiliary_loss_mlp": 0.01039912,
+      "balance_loss_clip": 1.05606437,
+      "balance_loss_mlp": 1.03071463,
+      "epoch": 0.29291168159682557,
+      "flos": 22455553190400.0,
+      "grad_norm": 2.343232198092561,
+      "language_loss": 0.62885439,
+      "learning_rate": 3.3178373272640394e-06,
+      "loss": 0.65157056,
+      "num_input_tokens_seen": 52194150,
+      "step": 2436,
+      "time_per_iteration": 2.709099531173706
+    },
+    {
+      "auxiliary_loss_clip": 0.01203024,
+      "auxiliary_loss_mlp": 0.01026267,
+      "balance_loss_clip": 1.06076431,
+      "balance_loss_mlp": 1.01767802,
+      "epoch": 0.2930319244874647,
+      "flos": 21170632896000.0,
+      "grad_norm": 2.0404714771522383,
+      "language_loss": 0.84623986,
+      "learning_rate": 3.3172512737910387e-06,
+      "loss": 0.86853278,
+      "num_input_tokens_seen": 52211660,
+      "step": 2437,
+      "time_per_iteration": 2.685051918029785
+    },
+    {
+      "auxiliary_loss_clip": 0.01210906,
+      "auxiliary_loss_mlp": 0.01027848,
+      "balance_loss_clip": 1.0581162,
+      "balance_loss_mlp": 1.01892483,
+      "epoch": 0.2931521673781038,
+      "flos": 31357843931520.0,
+      "grad_norm": 2.218471350780363,
+      "language_loss": 0.88233638,
+      "learning_rate": 3.3166650204920674e-06,
+      "loss": 0.90472394,
+      "num_input_tokens_seen": 52232830,
+      "step": 2438,
+      "time_per_iteration": 3.65644907951355
+    },
+    {
+      "auxiliary_loss_clip": 0.01214608,
+      "auxiliary_loss_mlp": 0.01030814,
+      "balance_loss_clip": 1.06311488,
+      "balance_loss_mlp": 1.02106273,
+      "epoch": 0.29327241026874284,
+      "flos": 24200990778240.0,
+      "grad_norm": 1.669763251101543,
+      "language_loss": 0.8164711,
+      "learning_rate": 3.316078567456059e-06,
+      "loss": 0.83892536,
+      "num_input_tokens_seen": 52250670,
+      "step": 2439,
+      "time_per_iteration": 2.631990671157837
+    },
+    {
+      "auxiliary_loss_clip": 0.01250373,
+      "auxiliary_loss_mlp": 0.01033509,
+      "balance_loss_clip": 1.05281687,
+      "balance_loss_mlp": 1.02464581,
+      "epoch": 0.29339265315938196,
+      "flos": 24242611662720.0,
+      "grad_norm": 1.5809137399775508,
+      "language_loss": 0.75585067,
+      "learning_rate": 3.3154919147719786e-06,
+      "loss": 0.7786895,
+      "num_input_tokens_seen": 52271685,
+      "step": 2440,
+      "time_per_iteration": 2.8177683353424072
+    },
+    {
+      "auxiliary_loss_clip": 0.01210316,
+      "auxiliary_loss_mlp": 0.01030387,
+      "balance_loss_clip": 1.05738568,
+      "balance_loss_mlp": 1.02090383,
+      "epoch": 0.29351289605002107,
+      "flos": 16946641134720.0,
+      "grad_norm": 2.0254531790613957,
+      "language_loss": 0.86321849,
+      "learning_rate": 3.31490506252882e-06,
+      "loss": 0.88562554,
+      "num_input_tokens_seen": 52291065,
+      "step": 2441,
+      "time_per_iteration": 2.8643219470977783
+    },
+    {
+      "auxiliary_loss_clip": 0.0121595,
+      "auxiliary_loss_mlp": 0.01031103,
+      "balance_loss_clip": 1.05025625,
+      "balance_loss_mlp": 1.02224541,
+      "epoch": 0.2936331389406601,
+      "flos": 19829082810240.0,
+      "grad_norm": 1.843703671201291,
+      "language_loss": 0.84036541,
+      "learning_rate": 3.31431801081561e-06,
+      "loss": 0.862836,
+      "num_input_tokens_seen": 52310000,
+      "step": 2442,
+      "time_per_iteration": 2.7195632457733154
+    },
+    {
+      "auxiliary_loss_clip": 0.01121977,
+      "auxiliary_loss_mlp": 0.01002296,
+      "balance_loss_clip": 1.02911174,
+      "balance_loss_mlp": 1.00021005,
+      "epoch": 0.29375338183129923,
+      "flos": 71416844398080.0,
+      "grad_norm": 0.9068556192862038,
+      "language_loss": 0.67935568,
+      "learning_rate": 3.313730759721402e-06,
+      "loss": 0.70059842,
+      "num_input_tokens_seen": 52372930,
+      "step": 2443,
+      "time_per_iteration": 3.3580892086029053
+    },
+    {
+      "auxiliary_loss_clip": 0.01218386,
+      "auxiliary_loss_mlp": 0.01033499,
+      "balance_loss_clip": 1.057271,
+      "balance_loss_mlp": 1.02473748,
+      "epoch": 0.29387362472193834,
+      "flos": 22054502862720.0,
+      "grad_norm": 2.359811211649124,
+      "language_loss": 0.86325324,
+      "learning_rate": 3.313143309335282e-06,
+      "loss": 0.88577211,
+      "num_input_tokens_seen": 52391420,
+      "step": 2444,
+      "time_per_iteration": 2.781806230545044
+    },
+    {
+      "auxiliary_loss_clip": 0.01224144,
+      "auxiliary_loss_mlp": 0.01036044,
+      "balance_loss_clip": 1.05476117,
+      "balance_loss_mlp": 1.02756262,
+      "epoch": 0.2939938676125774,
+      "flos": 22966418373120.0,
+      "grad_norm": 2.679103682580223,
+      "language_loss": 0.84709895,
+      "learning_rate": 3.3125556597463665e-06,
+      "loss": 0.86970079,
+      "num_input_tokens_seen": 52410725,
+      "step": 2445,
+      "time_per_iteration": 2.7404913902282715
+    },
+    {
+      "auxiliary_loss_clip": 0.01212124,
+      "auxiliary_loss_mlp": 0.01030187,
+      "balance_loss_clip": 1.06066012,
+      "balance_loss_mlp": 1.02140152,
+      "epoch": 0.2941141105032165,
+      "flos": 31358705857920.0,
+      "grad_norm": 1.7260660843464888,
+      "language_loss": 0.66074532,
+      "learning_rate": 3.311967811043801e-06,
+      "loss": 0.68316841,
+      "num_input_tokens_seen": 52432645,
+      "step": 2446,
+      "time_per_iteration": 2.693917989730835
+    },
+    {
+      "auxiliary_loss_clip": 0.01209446,
+      "auxiliary_loss_mlp": 0.01030709,
+      "balance_loss_clip": 1.05774415,
+      "balance_loss_mlp": 1.02236462,
+      "epoch": 0.29423435339385556,
+      "flos": 23222138273280.0,
+      "grad_norm": 2.4532277459964926,
+      "language_loss": 0.81554055,
+      "learning_rate": 3.3113797633167617e-06,
+      "loss": 0.83794212,
+      "num_input_tokens_seen": 52450940,
+      "step": 2447,
+      "time_per_iteration": 2.70440411567688
+    },
+    {
+      "auxiliary_loss_clip": 0.01201192,
+      "auxiliary_loss_mlp": 0.01029142,
+      "balance_loss_clip": 1.05783153,
+      "balance_loss_mlp": 1.02030826,
+      "epoch": 0.2943545962844947,
+      "flos": 26864054138880.0,
+      "grad_norm": 2.4537019242520364,
+      "language_loss": 0.68684042,
+      "learning_rate": 3.310791516654455e-06,
+      "loss": 0.70914376,
+      "num_input_tokens_seen": 52468000,
+      "step": 2448,
+      "time_per_iteration": 2.6310291290283203
+    },
+    {
+      "auxiliary_loss_clip": 0.01229454,
+      "auxiliary_loss_mlp": 0.01027193,
+      "balance_loss_clip": 1.05152726,
+      "balance_loss_mlp": 1.01819241,
+      "epoch": 0.2944748391751338,
+      "flos": 20231677422720.0,
+      "grad_norm": 1.9404745383997837,
+      "language_loss": 0.79702508,
+      "learning_rate": 3.3102030711461177e-06,
+      "loss": 0.81959152,
+      "num_input_tokens_seen": 52487575,
+      "step": 2449,
+      "time_per_iteration": 2.74090838432312
+    },
+    {
+      "auxiliary_loss_clip": 0.01231486,
+      "auxiliary_loss_mlp": 0.01037267,
+      "balance_loss_clip": 1.05515957,
+      "balance_loss_mlp": 1.02818942,
+      "epoch": 0.29459508206577284,
+      "flos": 15960965045760.0,
+      "grad_norm": 2.3845237578961105,
+      "language_loss": 0.67938781,
+      "learning_rate": 3.3096144268810156e-06,
+      "loss": 0.70207536,
+      "num_input_tokens_seen": 52506335,
+      "step": 2450,
+      "time_per_iteration": 2.688969373703003
+    },
+    {
+      "auxiliary_loss_clip": 0.01196576,
+      "auxiliary_loss_mlp": 0.01034389,
+      "balance_loss_clip": 1.05334759,
+      "balance_loss_mlp": 1.02518046,
+      "epoch": 0.29471532495641195,
+      "flos": 20412882558720.0,
+      "grad_norm": 2.0733625259231285,
+      "language_loss": 0.73528552,
+      "learning_rate": 3.3090255839484462e-06,
+      "loss": 0.75759518,
+      "num_input_tokens_seen": 52524330,
+      "step": 2451,
+      "time_per_iteration": 2.717583417892456
+    },
+    {
+      "auxiliary_loss_clip": 0.01219234,
+      "auxiliary_loss_mlp": 0.01031628,
+      "balance_loss_clip": 1.05314338,
+      "balance_loss_mlp": 1.02258039,
+      "epoch": 0.29483556784705106,
+      "flos": 20376576887040.0,
+      "grad_norm": 2.378547304987405,
+      "language_loss": 0.85972309,
+      "learning_rate": 3.3084365424377366e-06,
+      "loss": 0.88223171,
+      "num_input_tokens_seen": 52543095,
+      "step": 2452,
+      "time_per_iteration": 2.6836588382720947
+    },
+    {
+      "auxiliary_loss_clip": 0.01146635,
+      "auxiliary_loss_mlp": 0.01015343,
+      "balance_loss_clip": 1.02666163,
+      "balance_loss_mlp": 1.01353121,
+      "epoch": 0.2949558107376901,
+      "flos": 68555660595840.0,
+      "grad_norm": 0.7262856586493552,
+      "language_loss": 0.55957353,
+      "learning_rate": 3.307847302438245e-06,
+      "loss": 0.58119333,
+      "num_input_tokens_seen": 52597075,
+      "step": 2453,
+      "time_per_iteration": 3.198324680328369
+    },
+    {
+      "auxiliary_loss_clip": 0.0121753,
+      "auxiliary_loss_mlp": 0.01037268,
+      "balance_loss_clip": 1.04776335,
+      "balance_loss_mlp": 1.02760637,
+      "epoch": 0.2950760536283292,
+      "flos": 16107085572480.0,
+      "grad_norm": 2.284077705764094,
+      "language_loss": 0.77890074,
+      "learning_rate": 3.3072578640393562e-06,
+      "loss": 0.8014487,
+      "num_input_tokens_seen": 52614410,
+      "step": 2454,
+      "time_per_iteration": 2.657956123352051
+    },
+    {
+      "auxiliary_loss_clip": 0.01218478,
+      "auxiliary_loss_mlp": 0.01029271,
+      "balance_loss_clip": 1.0553844,
+      "balance_loss_mlp": 1.01999092,
+      "epoch": 0.29519629651896834,
+      "flos": 20483626394880.0,
+      "grad_norm": 1.807414456814609,
+      "language_loss": 0.79527807,
+      "learning_rate": 3.3066682273304886e-06,
+      "loss": 0.81775558,
+      "num_input_tokens_seen": 52632055,
+      "step": 2455,
+      "time_per_iteration": 2.6951043605804443
+    },
+    {
+      "auxiliary_loss_clip": 0.01218765,
+      "auxiliary_loss_mlp": 0.01380526,
+      "balance_loss_clip": 1.05867314,
+      "balance_loss_mlp": 1.00006163,
+      "epoch": 0.2953165394096074,
+      "flos": 18916484941440.0,
+      "grad_norm": 2.7104917591656754,
+      "language_loss": 0.78937662,
+      "learning_rate": 3.3060783924010904e-06,
+      "loss": 0.81536955,
+      "num_input_tokens_seen": 52649980,
+      "step": 2456,
+      "time_per_iteration": 3.58481502532959
+    },
+    {
+      "auxiliary_loss_clip": 0.01226078,
+      "auxiliary_loss_mlp": 0.01035221,
+      "balance_loss_clip": 1.05389714,
+      "balance_loss_mlp": 1.02587473,
+      "epoch": 0.2954367823002465,
+      "flos": 20624467622400.0,
+      "grad_norm": 2.210100781905182,
+      "language_loss": 0.85125065,
+      "learning_rate": 3.3054883593406387e-06,
+      "loss": 0.87386358,
+      "num_input_tokens_seen": 52664730,
+      "step": 2457,
+      "time_per_iteration": 2.746699571609497
+    },
+    {
+      "auxiliary_loss_clip": 0.01219792,
+      "auxiliary_loss_mlp": 0.01035911,
+      "balance_loss_clip": 1.05377293,
+      "balance_loss_mlp": 1.0271256,
+      "epoch": 0.2955570251908856,
+      "flos": 31175525473920.0,
+      "grad_norm": 2.209411431112123,
+      "language_loss": 0.65105057,
+      "learning_rate": 3.3048981282386404e-06,
+      "loss": 0.67360753,
+      "num_input_tokens_seen": 52686040,
+      "step": 2458,
+      "time_per_iteration": 3.7138710021972656
+    },
+    {
+      "auxiliary_loss_clip": 0.01212396,
+      "auxiliary_loss_mlp": 0.01037645,
+      "balance_loss_clip": 1.05358458,
+      "balance_loss_mlp": 1.02856696,
+      "epoch": 0.29567726808152467,
+      "flos": 21650328051840.0,
+      "grad_norm": 3.384657440247524,
+      "language_loss": 0.82483846,
+      "learning_rate": 3.304307699184634e-06,
+      "loss": 0.84733886,
+      "num_input_tokens_seen": 52704630,
+      "step": 2459,
+      "time_per_iteration": 3.674903392791748
+    },
+    {
+      "auxiliary_loss_clip": 0.01224509,
+      "auxiliary_loss_mlp": 0.0103666,
+      "balance_loss_clip": 1.06042969,
+      "balance_loss_mlp": 1.02780867,
+      "epoch": 0.2957975109721638,
+      "flos": 24243868638720.0,
+      "grad_norm": 1.70124474359242,
+      "language_loss": 0.7877835,
+      "learning_rate": 3.3037170722681866e-06,
+      "loss": 0.81039524,
+      "num_input_tokens_seen": 52725465,
+      "step": 2460,
+      "time_per_iteration": 2.73710298538208
+    },
+    {
+      "auxiliary_loss_clip": 0.01217842,
+      "auxiliary_loss_mlp": 0.01031605,
+      "balance_loss_clip": 1.05470645,
+      "balance_loss_mlp": 1.02231908,
+      "epoch": 0.29591775386280283,
+      "flos": 13479717352320.0,
+      "grad_norm": 2.131203258878132,
+      "language_loss": 0.68274218,
+      "learning_rate": 3.3031262475788956e-06,
+      "loss": 0.70523667,
+      "num_input_tokens_seen": 52742405,
+      "step": 2461,
+      "time_per_iteration": 2.744605779647827
+    },
+    {
+      "auxiliary_loss_clip": 0.01212871,
+      "auxiliary_loss_mlp": 0.01033206,
+      "balance_loss_clip": 1.05238962,
+      "balance_loss_mlp": 1.02427125,
+      "epoch": 0.29603799675344195,
+      "flos": 17749783284480.0,
+      "grad_norm": 2.1060443378350224,
+      "language_loss": 0.73101616,
+      "learning_rate": 3.3025352252063897e-06,
+      "loss": 0.75347692,
+      "num_input_tokens_seen": 52761100,
+      "step": 2462,
+      "time_per_iteration": 2.6372525691986084
+    },
+    {
+      "auxiliary_loss_clip": 0.01210428,
+      "auxiliary_loss_mlp": 0.01034688,
+      "balance_loss_clip": 1.05975914,
+      "balance_loss_mlp": 1.02499032,
+      "epoch": 0.29615823964408106,
+      "flos": 22783920347520.0,
+      "grad_norm": 1.6645675348863598,
+      "language_loss": 0.74913961,
+      "learning_rate": 3.3019440052403252e-06,
+      "loss": 0.77159077,
+      "num_input_tokens_seen": 52780965,
+      "step": 2463,
+      "time_per_iteration": 2.7092883586883545
+    },
+    {
+      "auxiliary_loss_clip": 0.01220315,
+      "auxiliary_loss_mlp": 0.01031785,
+      "balance_loss_clip": 1.05557156,
+      "balance_loss_mlp": 1.02282619,
+      "epoch": 0.2962784825347201,
+      "flos": 23514199758720.0,
+      "grad_norm": 4.50921847397841,
+      "language_loss": 0.70748335,
+      "learning_rate": 3.30135258777039e-06,
+      "loss": 0.73000431,
+      "num_input_tokens_seen": 52800335,
+      "step": 2464,
+      "time_per_iteration": 3.6058261394500732
+    },
+    {
+      "auxiliary_loss_clip": 0.01212761,
+      "auxiliary_loss_mlp": 0.01379922,
+      "balance_loss_clip": 1.05495954,
+      "balance_loss_mlp": 1.0000453,
+      "epoch": 0.2963987254253592,
+      "flos": 16362769559040.0,
+      "grad_norm": 1.852181376747576,
+      "language_loss": 0.70496106,
+      "learning_rate": 3.3007609728863024e-06,
+      "loss": 0.73088789,
+      "num_input_tokens_seen": 52818425,
+      "step": 2465,
+      "time_per_iteration": 2.6391849517822266
+    },
+    {
+      "auxiliary_loss_clip": 0.01236805,
+      "auxiliary_loss_mlp": 0.0102652,
+      "balance_loss_clip": 1.05312669,
+      "balance_loss_mlp": 1.01729941,
+      "epoch": 0.29651896831599833,
+      "flos": 33472263980160.0,
+      "grad_norm": 1.743494772366078,
+      "language_loss": 0.73381162,
+      "learning_rate": 3.300169160677809e-06,
+      "loss": 0.75644493,
+      "num_input_tokens_seen": 52842340,
+      "step": 2466,
+      "time_per_iteration": 2.8674521446228027
+    },
+    {
+      "auxiliary_loss_clip": 0.01235902,
+      "auxiliary_loss_mlp": 0.01039021,
+      "balance_loss_clip": 1.05628502,
+      "balance_loss_mlp": 1.0292877,
+      "epoch": 0.2966392112066374,
+      "flos": 23805363404160.0,
+      "grad_norm": 2.6753292899104473,
+      "language_loss": 0.77581495,
+      "learning_rate": 3.2995771512346878e-06,
+      "loss": 0.7985642,
+      "num_input_tokens_seen": 52860690,
+      "step": 2467,
+      "time_per_iteration": 2.6436822414398193
+    },
+    {
+      "auxiliary_loss_clip": 0.01205573,
+      "auxiliary_loss_mlp": 0.0138006,
+      "balance_loss_clip": 1.060583,
+      "balance_loss_mlp": 1.00010276,
+      "epoch": 0.2967594540972765,
+      "flos": 19938466702080.0,
+      "grad_norm": 2.071601604562695,
+      "language_loss": 0.73039234,
+      "learning_rate": 3.298984944646746e-06,
+      "loss": 0.75624871,
+      "num_input_tokens_seen": 52879370,
+      "step": 2468,
+      "time_per_iteration": 2.5362823009490967
+    },
+    {
+      "auxiliary_loss_clip": 0.01217753,
+      "auxiliary_loss_mlp": 0.01379632,
+      "balance_loss_clip": 1.0629524,
+      "balance_loss_mlp": 1.00005889,
+      "epoch": 0.2968796969879156,
+      "flos": 23732823888000.0,
+      "grad_norm": 3.3213043980275585,
+      "language_loss": 0.8152923,
+      "learning_rate": 3.298392541003822e-06,
+      "loss": 0.84126616,
+      "num_input_tokens_seen": 52898775,
+      "step": 2469,
+      "time_per_iteration": 2.6370272636413574
+    },
+    {
+      "auxiliary_loss_clip": 0.01218273,
+      "auxiliary_loss_mlp": 0.01029965,
+      "balance_loss_clip": 1.05550349,
+      "balance_loss_mlp": 1.02098894,
+      "epoch": 0.29699993987855466,
+      "flos": 22893699288960.0,
+      "grad_norm": 1.9163638241648038,
+      "language_loss": 0.8997376,
+      "learning_rate": 3.2977999403957806e-06,
+      "loss": 0.92221999,
+      "num_input_tokens_seen": 52917535,
+      "step": 2470,
+      "time_per_iteration": 2.684574842453003
+    },
+    {
+      "auxiliary_loss_clip": 0.01202803,
+      "auxiliary_loss_mlp": 0.01033267,
+      "balance_loss_clip": 1.06032896,
+      "balance_loss_mlp": 1.0235393,
+      "epoch": 0.2971201827691938,
+      "flos": 33832555349760.0,
+      "grad_norm": 7.6458533944819616,
+      "language_loss": 0.67229986,
+      "learning_rate": 3.2972071429125207e-06,
+      "loss": 0.69466054,
+      "num_input_tokens_seen": 52938755,
+      "step": 2471,
+      "time_per_iteration": 2.6958255767822266
+    },
+    {
+      "auxiliary_loss_clip": 0.01223865,
+      "auxiliary_loss_mlp": 0.01031528,
+      "balance_loss_clip": 1.0547905,
+      "balance_loss_mlp": 1.02217007,
+      "epoch": 0.2972404256598329,
+      "flos": 22054359208320.0,
+      "grad_norm": 2.062942137757452,
+      "language_loss": 0.88275361,
+      "learning_rate": 3.2966141486439682e-06,
+      "loss": 0.90530747,
+      "num_input_tokens_seen": 52957945,
+      "step": 2472,
+      "time_per_iteration": 2.7460601329803467
+    },
+    {
+      "auxiliary_loss_clip": 0.01243412,
+      "auxiliary_loss_mlp": 0.01033857,
+      "balance_loss_clip": 1.04939711,
+      "balance_loss_mlp": 1.02451706,
+      "epoch": 0.29736066855047194,
+      "flos": 31978595796480.0,
+      "grad_norm": 2.949221893849347,
+      "language_loss": 0.64434034,
+      "learning_rate": 3.29602095768008e-06,
+      "loss": 0.66711307,
+      "num_input_tokens_seen": 52978460,
+      "step": 2473,
+      "time_per_iteration": 2.8135077953338623
+    },
+    {
+      "auxiliary_loss_clip": 0.01212827,
+      "auxiliary_loss_mlp": 0.01031062,
+      "balance_loss_clip": 1.05714774,
+      "balance_loss_mlp": 1.02214527,
+      "epoch": 0.29748091144111105,
+      "flos": 33510401245440.0,
+      "grad_norm": 1.9269300465318984,
+      "language_loss": 0.63657564,
+      "learning_rate": 3.2954275701108437e-06,
+      "loss": 0.65901452,
+      "num_input_tokens_seen": 52999640,
+      "step": 2474,
+      "time_per_iteration": 2.749992847442627
+    },
+    {
+      "auxiliary_loss_clip": 0.0123288,
+      "auxiliary_loss_mlp": 0.01035362,
+      "balance_loss_clip": 1.053195,
+      "balance_loss_mlp": 1.02577138,
+      "epoch": 0.29760115433175016,
+      "flos": 41283373409280.0,
+      "grad_norm": 1.9655205166703849,
+      "language_loss": 0.68870497,
+      "learning_rate": 3.294833986026275e-06,
+      "loss": 0.7113874,
+      "num_input_tokens_seen": 53022880,
+      "step": 2475,
+      "time_per_iteration": 2.9124903678894043
+    },
+    {
+      "auxiliary_loss_clip": 0.01224053,
+      "auxiliary_loss_mlp": 0.01036285,
+      "balance_loss_clip": 1.056288,
+      "balance_loss_mlp": 1.02761865,
+      "epoch": 0.2977213972223892,
+      "flos": 24493339572480.0,
+      "grad_norm": 1.9020884723716964,
+      "language_loss": 0.85318494,
+      "learning_rate": 3.29424020551642e-06,
+      "loss": 0.87578833,
+      "num_input_tokens_seen": 53041515,
+      "step": 2476,
+      "time_per_iteration": 2.7448134422302246
+    },
+    {
+      "auxiliary_loss_clip": 0.01209252,
+      "auxiliary_loss_mlp": 0.0104139,
+      "balance_loss_clip": 1.0633297,
+      "balance_loss_mlp": 1.03193665,
+      "epoch": 0.2978416401130283,
+      "flos": 21285116519040.0,
+      "grad_norm": 2.284183761059837,
+      "language_loss": 0.72071576,
+      "learning_rate": 3.2936462286713546e-06,
+      "loss": 0.74322218,
+      "num_input_tokens_seen": 53059865,
+      "step": 2477,
+      "time_per_iteration": 2.5983593463897705
+    },
+    {
+      "auxiliary_loss_clip": 0.01212992,
+      "auxiliary_loss_mlp": 0.01031164,
+      "balance_loss_clip": 1.05935705,
+      "balance_loss_mlp": 1.02180648,
+      "epoch": 0.2979618830036674,
+      "flos": 25772154554880.0,
+      "grad_norm": 1.8912574334219188,
+      "language_loss": 0.7722367,
+      "learning_rate": 3.2930520555811846e-06,
+      "loss": 0.79467827,
+      "num_input_tokens_seen": 53079490,
+      "step": 2478,
+      "time_per_iteration": 2.6733498573303223
+    },
+    {
+      "auxiliary_loss_clip": 0.01227491,
+      "auxiliary_loss_mlp": 0.0138037,
+      "balance_loss_clip": 1.04645479,
+      "balance_loss_mlp": 1.00003934,
+      "epoch": 0.2980821258943065,
+      "flos": 23476996247040.0,
+      "grad_norm": 1.878689969527119,
+      "language_loss": 0.80277884,
+      "learning_rate": 3.292457686336046e-06,
+      "loss": 0.82885742,
+      "num_input_tokens_seen": 53098810,
+      "step": 2479,
+      "time_per_iteration": 2.9046051502227783
+    },
+    {
+      "auxiliary_loss_clip": 0.01135262,
+      "auxiliary_loss_mlp": 0.01006755,
+      "balance_loss_clip": 1.03504133,
+      "balance_loss_mlp": 1.00457382,
+      "epoch": 0.2982023687849456,
+      "flos": 69752314195200.0,
+      "grad_norm": 0.8641097136367936,
+      "language_loss": 0.61241555,
+      "learning_rate": 3.291863121026105e-06,
+      "loss": 0.63383573,
+      "num_input_tokens_seen": 53162590,
+      "step": 2480,
+      "time_per_iteration": 3.4919204711914062
+    },
+    {
+      "auxiliary_loss_clip": 0.01215815,
+      "auxiliary_loss_mlp": 0.01038956,
+      "balance_loss_clip": 1.06114745,
+      "balance_loss_mlp": 1.02953875,
+      "epoch": 0.29832261167558466,
+      "flos": 29825930741760.0,
+      "grad_norm": 2.4134012109660223,
+      "language_loss": 0.7709614,
+      "learning_rate": 3.2912683597415547e-06,
+      "loss": 0.79350919,
+      "num_input_tokens_seen": 53186675,
+      "step": 2481,
+      "time_per_iteration": 2.757460832595825
+    },
+    {
+      "auxiliary_loss_clip": 0.01231857,
+      "auxiliary_loss_mlp": 0.01029918,
+      "balance_loss_clip": 1.05757427,
+      "balance_loss_mlp": 1.02110243,
+      "epoch": 0.29844285456622377,
+      "flos": 33910158683520.0,
+      "grad_norm": 1.9972446822227905,
+      "language_loss": 0.78255451,
+      "learning_rate": 3.2906734025726213e-06,
+      "loss": 0.80517232,
+      "num_input_tokens_seen": 53205940,
+      "step": 2482,
+      "time_per_iteration": 3.7284090518951416
+    },
+    {
+      "auxiliary_loss_clip": 0.01218673,
+      "auxiliary_loss_mlp": 0.01030266,
+      "balance_loss_clip": 1.06174481,
+      "balance_loss_mlp": 1.0196867,
+      "epoch": 0.2985630974568629,
+      "flos": 23876933253120.0,
+      "grad_norm": 1.9561153811917176,
+      "language_loss": 0.87941802,
+      "learning_rate": 3.290078249609559e-06,
+      "loss": 0.90190744,
+      "num_input_tokens_seen": 53225360,
+      "step": 2483,
+      "time_per_iteration": 2.644796133041382
+    },
+    {
+      "auxiliary_loss_clip": 0.01213556,
+      "auxiliary_loss_mlp": 0.01038331,
+      "balance_loss_clip": 1.06315732,
+      "balance_loss_mlp": 1.02945566,
+      "epoch": 0.29868334034750194,
+      "flos": 21799106184960.0,
+      "grad_norm": 1.9847465249713352,
+      "language_loss": 0.87847161,
+      "learning_rate": 3.2894829009426514e-06,
+      "loss": 0.90099049,
+      "num_input_tokens_seen": 53243195,
+      "step": 2484,
+      "time_per_iteration": 3.5639820098876953
+    },
+    {
+      "auxiliary_loss_clip": 0.01212282,
+      "auxiliary_loss_mlp": 0.01027716,
+      "balance_loss_clip": 1.06135798,
+      "balance_loss_mlp": 1.01894808,
+      "epoch": 0.29880358323814105,
+      "flos": 25666649331840.0,
+      "grad_norm": 1.972495446239297,
+      "language_loss": 0.77761352,
+      "learning_rate": 3.288887356662213e-06,
+      "loss": 0.80001342,
+      "num_input_tokens_seen": 53264530,
+      "step": 2485,
+      "time_per_iteration": 2.717129945755005
+    },
+    {
+      "auxiliary_loss_clip": 0.01116731,
+      "auxiliary_loss_mlp": 0.01002109,
+      "balance_loss_clip": 1.03457499,
+      "balance_loss_mlp": 0.99995154,
+      "epoch": 0.29892382612878016,
+      "flos": 71005846003200.0,
+      "grad_norm": 0.772299289089044,
+      "language_loss": 0.59691155,
+      "learning_rate": 3.288291616858588e-06,
+      "loss": 0.61809993,
+      "num_input_tokens_seen": 53319920,
+      "step": 2486,
+      "time_per_iteration": 3.0943639278411865
+    },
+    {
+      "auxiliary_loss_clip": 0.01233586,
+      "auxiliary_loss_mlp": 0.01034773,
+      "balance_loss_clip": 1.05752814,
+      "balance_loss_mlp": 1.02640486,
+      "epoch": 0.2990440690194192,
+      "flos": 25481134563840.0,
+      "grad_norm": 1.7706889874262783,
+      "language_loss": 0.76888466,
+      "learning_rate": 3.287695681622149e-06,
+      "loss": 0.79156828,
+      "num_input_tokens_seen": 53339270,
+      "step": 2487,
+      "time_per_iteration": 2.985262155532837
+    },
+    {
+      "auxiliary_loss_clip": 0.01228762,
+      "auxiliary_loss_mlp": 0.01027771,
+      "balance_loss_clip": 1.06058669,
+      "balance_loss_mlp": 1.01936102,
+      "epoch": 0.2991643119100583,
+      "flos": 23732357011200.0,
+      "grad_norm": 1.8083072243924003,
+      "language_loss": 0.80817378,
+      "learning_rate": 3.2870995510432982e-06,
+      "loss": 0.83073914,
+      "num_input_tokens_seen": 53357750,
+      "step": 2488,
+      "time_per_iteration": 2.7861900329589844
+    },
+    {
+      "auxiliary_loss_clip": 0.01204204,
+      "auxiliary_loss_mlp": 0.01031456,
+      "balance_loss_clip": 1.05896759,
+      "balance_loss_mlp": 1.02248514,
+      "epoch": 0.29928455480069743,
+      "flos": 27417545786880.0,
+      "grad_norm": 1.7749849701174993,
+      "language_loss": 0.76538169,
+      "learning_rate": 3.2865032252124697e-06,
+      "loss": 0.78773832,
+      "num_input_tokens_seen": 53378265,
+      "step": 2489,
+      "time_per_iteration": 2.6855616569519043
+    },
+    {
+      "auxiliary_loss_clip": 0.01217776,
+      "auxiliary_loss_mlp": 0.01032818,
+      "balance_loss_clip": 1.0575105,
+      "balance_loss_mlp": 1.02470005,
+      "epoch": 0.2994047976913365,
+      "flos": 33692935184640.0,
+      "grad_norm": 2.2702197402473776,
+      "language_loss": 0.77372992,
+      "learning_rate": 3.2859067042201243e-06,
+      "loss": 0.79623586,
+      "num_input_tokens_seen": 53400305,
+      "step": 2490,
+      "time_per_iteration": 3.6433932781219482
+    },
+    {
+      "auxiliary_loss_clip": 0.01219781,
+      "auxiliary_loss_mlp": 0.01025546,
+      "balance_loss_clip": 1.05005932,
+      "balance_loss_mlp": 1.01708817,
+      "epoch": 0.2995250405819756,
+      "flos": 16763963541120.0,
+      "grad_norm": 1.9659575323099951,
+      "language_loss": 0.778036,
+      "learning_rate": 3.2853099881567544e-06,
+      "loss": 0.80048925,
+      "num_input_tokens_seen": 53418705,
+      "step": 2491,
+      "time_per_iteration": 2.7573671340942383
+    },
+    {
+      "auxiliary_loss_clip": 0.01202349,
+      "auxiliary_loss_mlp": 0.01027162,
+      "balance_loss_clip": 1.06284022,
+      "balance_loss_mlp": 1.01857877,
+      "epoch": 0.29964528347261465,
+      "flos": 22963976248320.0,
+      "grad_norm": 2.674893458355977,
+      "language_loss": 0.79472649,
+      "learning_rate": 3.284713077112881e-06,
+      "loss": 0.81702155,
+      "num_input_tokens_seen": 53438135,
+      "step": 2492,
+      "time_per_iteration": 2.6841835975646973
+    },
+    {
+      "auxiliary_loss_clip": 0.01237975,
+      "auxiliary_loss_mlp": 0.01030281,
+      "balance_loss_clip": 1.06137478,
+      "balance_loss_mlp": 1.02083397,
+      "epoch": 0.29976552636325376,
+      "flos": 16938021870720.0,
+      "grad_norm": 3.0026408165505414,
+      "language_loss": 0.86560059,
+      "learning_rate": 3.284115971179056e-06,
+      "loss": 0.88828313,
+      "num_input_tokens_seen": 53452165,
+      "step": 2493,
+      "time_per_iteration": 2.679147958755493
+    },
+    {
+      "auxiliary_loss_clip": 0.01248514,
+      "auxiliary_loss_mlp": 0.0102799,
+      "balance_loss_clip": 1.05515885,
+      "balance_loss_mlp": 1.01925755,
+      "epoch": 0.2998857692538929,
+      "flos": 17056455989760.0,
+      "grad_norm": 1.8867608330976178,
+      "language_loss": 0.78543186,
+      "learning_rate": 3.283518670445859e-06,
+      "loss": 0.8081969,
+      "num_input_tokens_seen": 53470075,
+      "step": 2494,
+      "time_per_iteration": 2.806652784347534
+    },
+    {
+      "auxiliary_loss_clip": 0.01120277,
+      "auxiliary_loss_mlp": 0.01375218,
+      "balance_loss_clip": 1.02976418,
+      "balance_loss_mlp": 0.9998011,
+      "epoch": 0.30000601214453193,
+      "flos": 68831528025600.0,
+      "grad_norm": 0.7227835387638678,
+      "language_loss": 0.54306728,
+      "learning_rate": 3.2829211750038995e-06,
+      "loss": 0.56802225,
+      "num_input_tokens_seen": 53538705,
+      "step": 2495,
+      "time_per_iteration": 3.2909882068634033
+    },
+    {
+      "auxiliary_loss_clip": 0.01221299,
+      "auxiliary_loss_mlp": 0.01031109,
+      "balance_loss_clip": 1.05305958,
+      "balance_loss_mlp": 1.0224781,
+      "epoch": 0.30012625503517104,
+      "flos": 17603267708160.0,
+      "grad_norm": 3.214666206923121,
+      "language_loss": 0.89048803,
+      "learning_rate": 3.2823234849438183e-06,
+      "loss": 0.91301215,
+      "num_input_tokens_seen": 53556740,
+      "step": 2496,
+      "time_per_iteration": 2.6771655082702637
+    },
+    {
+      "auxiliary_loss_clip": 0.01226518,
+      "auxiliary_loss_mlp": 0.01025861,
+      "balance_loss_clip": 1.06132078,
+      "balance_loss_mlp": 1.01697421,
+      "epoch": 0.30024649792581015,
+      "flos": 21252581775360.0,
+      "grad_norm": 2.565178589269314,
+      "language_loss": 0.75540721,
+      "learning_rate": 3.2817256003562836e-06,
+      "loss": 0.77793097,
+      "num_input_tokens_seen": 53577115,
+      "step": 2497,
+      "time_per_iteration": 2.699556589126587
+    },
+    {
+      "auxiliary_loss_clip": 0.01247186,
+      "auxiliary_loss_mlp": 0.01028545,
+      "balance_loss_clip": 1.05353558,
+      "balance_loss_mlp": 1.01993227,
+      "epoch": 0.3003667408164492,
+      "flos": 23003262748800.0,
+      "grad_norm": 1.7344409423958744,
+      "language_loss": 0.65975571,
+      "learning_rate": 3.281127521331995e-06,
+      "loss": 0.682513,
+      "num_input_tokens_seen": 53598295,
+      "step": 2498,
+      "time_per_iteration": 2.814861297607422
+    },
+    {
+      "auxiliary_loss_clip": 0.01105016,
+      "auxiliary_loss_mlp": 0.01009629,
+      "balance_loss_clip": 1.03243041,
+      "balance_loss_mlp": 1.00757813,
+      "epoch": 0.3004869837070883,
+      "flos": 64232340750720.0,
+      "grad_norm": 0.8830431842828873,
+      "language_loss": 0.60672915,
+      "learning_rate": 3.2805292479616798e-06,
+      "loss": 0.62787563,
+      "num_input_tokens_seen": 53657160,
+      "step": 2499,
+      "time_per_iteration": 3.151538372039795
+    },
+    {
+      "auxiliary_loss_clip": 0.01222458,
+      "auxiliary_loss_mlp": 0.01034145,
+      "balance_loss_clip": 1.05974865,
+      "balance_loss_mlp": 1.02532363,
+      "epoch": 0.30060722659772743,
+      "flos": 26248653400320.0,
+      "grad_norm": 2.5939974267371313,
+      "language_loss": 0.92108124,
+      "learning_rate": 3.2799307803360955e-06,
+      "loss": 0.94364727,
+      "num_input_tokens_seen": 53673090,
+      "step": 2500,
+      "time_per_iteration": 2.6779556274414062
+    },
+    {
+      "auxiliary_loss_clip": 0.01199807,
+      "auxiliary_loss_mlp": 0.01026878,
+      "balance_loss_clip": 1.06071067,
+      "balance_loss_mlp": 1.01834822,
+      "epoch": 0.3007274694883665,
+      "flos": 24970879912320.0,
+      "grad_norm": 1.4072846161446702,
+      "language_loss": 0.81421149,
+      "learning_rate": 3.27933211854603e-06,
+      "loss": 0.83647835,
+      "num_input_tokens_seen": 53692145,
+      "step": 2501,
+      "time_per_iteration": 2.654597759246826
+    },
+    {
+      "auxiliary_loss_clip": 0.01222863,
+      "auxiliary_loss_mlp": 0.01033176,
+      "balance_loss_clip": 1.06052065,
+      "balance_loss_mlp": 1.02419996,
+      "epoch": 0.3008477123790056,
+      "flos": 17055845458560.0,
+      "grad_norm": 1.605236383211186,
+      "language_loss": 0.86683404,
+      "learning_rate": 3.278733262682299e-06,
+      "loss": 0.88939452,
+      "num_input_tokens_seen": 53710000,
+      "step": 2502,
+      "time_per_iteration": 2.587254047393799
+    },
+    {
+      "auxiliary_loss_clip": 0.0120162,
+      "auxiliary_loss_mlp": 0.01026506,
+      "balance_loss_clip": 1.05867147,
+      "balance_loss_mlp": 1.01813745,
+      "epoch": 0.3009679552696447,
+      "flos": 21506398254720.0,
+      "grad_norm": 2.359402702316474,
+      "language_loss": 0.82610464,
+      "learning_rate": 3.2781342128357484e-06,
+      "loss": 0.84838593,
+      "num_input_tokens_seen": 53729355,
+      "step": 2503,
+      "time_per_iteration": 2.607727289199829
+    },
+    {
+      "auxiliary_loss_clip": 0.01225674,
+      "auxiliary_loss_mlp": 0.01028063,
+      "balance_loss_clip": 1.05382991,
+      "balance_loss_mlp": 1.01959276,
+      "epoch": 0.30108819816028376,
+      "flos": 21134004001920.0,
+      "grad_norm": 2.3237249805348896,
+      "language_loss": 0.8055625,
+      "learning_rate": 3.2775349690972547e-06,
+      "loss": 0.82809985,
+      "num_input_tokens_seen": 53743505,
+      "step": 2504,
+      "time_per_iteration": 2.65681529045105
+    },
+    {
+      "auxiliary_loss_clip": 0.01108522,
+      "auxiliary_loss_mlp": 0.01002179,
+      "balance_loss_clip": 1.0286442,
+      "balance_loss_mlp": 1.00017631,
+      "epoch": 0.30120844105092287,
+      "flos": 71126434938240.0,
+      "grad_norm": 0.7761315199020282,
+      "language_loss": 0.51867783,
+      "learning_rate": 3.276935531557722e-06,
+      "loss": 0.53978485,
+      "num_input_tokens_seen": 53808725,
+      "step": 2505,
+      "time_per_iteration": 3.26265811920166
+    },
+    {
+      "auxiliary_loss_clip": 0.01240331,
+      "auxiliary_loss_mlp": 0.01026368,
+      "balance_loss_clip": 1.0554378,
+      "balance_loss_mlp": 1.01733232,
+      "epoch": 0.301328683941562,
+      "flos": 20264571302400.0,
+      "grad_norm": 2.1457171792717533,
+      "language_loss": 0.79357266,
+      "learning_rate": 3.2763359003080837e-06,
+      "loss": 0.81623971,
+      "num_input_tokens_seen": 53825680,
+      "step": 2506,
+      "time_per_iteration": 2.730485439300537
+    },
+    {
+      "auxiliary_loss_clip": 0.01126456,
+      "auxiliary_loss_mlp": 0.0100433,
+      "balance_loss_clip": 1.02858233,
+      "balance_loss_mlp": 1.00227928,
+      "epoch": 0.30144892683220104,
+      "flos": 70648212240000.0,
+      "grad_norm": 0.8013330160700936,
+      "language_loss": 0.62464476,
+      "learning_rate": 3.2757360754393047e-06,
+      "loss": 0.64595264,
+      "num_input_tokens_seen": 53889750,
+      "step": 2507,
+      "time_per_iteration": 3.283052444458008
+    },
+    {
+      "auxiliary_loss_clip": 0.01210142,
+      "auxiliary_loss_mlp": 0.01024788,
+      "balance_loss_clip": 1.05959809,
+      "balance_loss_mlp": 1.01617527,
+      "epoch": 0.30156916972284015,
+      "flos": 22820549241600.0,
+      "grad_norm": 3.381230222181369,
+      "language_loss": 0.63548142,
+      "learning_rate": 3.2751360570423767e-06,
+      "loss": 0.65783072,
+      "num_input_tokens_seen": 53908135,
+      "step": 2508,
+      "time_per_iteration": 3.6357476711273193
+    },
+    {
+      "auxiliary_loss_clip": 0.01217043,
+      "auxiliary_loss_mlp": 0.01033374,
+      "balance_loss_clip": 1.05717194,
+      "balance_loss_mlp": 1.02446866,
+      "epoch": 0.3016894126134792,
+      "flos": 29899188529920.0,
+      "grad_norm": 2.1759909497932104,
+      "language_loss": 0.75948954,
+      "learning_rate": 3.2745358452083236e-06,
+      "loss": 0.78199363,
+      "num_input_tokens_seen": 53931035,
+      "step": 2509,
+      "time_per_iteration": 2.7086408138275146
+    },
+    {
+      "auxiliary_loss_clip": 0.01212011,
+      "auxiliary_loss_mlp": 0.01033645,
+      "balance_loss_clip": 1.05974007,
+      "balance_loss_mlp": 1.02537799,
+      "epoch": 0.3018096555041183,
+      "flos": 21546331200000.0,
+      "grad_norm": 1.431392809881689,
+      "language_loss": 0.82326353,
+      "learning_rate": 3.2739354400281955e-06,
+      "loss": 0.84572017,
+      "num_input_tokens_seen": 53952255,
+      "step": 2510,
+      "time_per_iteration": 3.615422248840332
+    },
+    {
+      "auxiliary_loss_clip": 0.01133422,
+      "auxiliary_loss_mlp": 0.01375298,
+      "balance_loss_clip": 1.02478337,
+      "balance_loss_mlp": 0.99981374,
+      "epoch": 0.3019298983947574,
+      "flos": 59136294597120.0,
+      "grad_norm": 0.8859019930585876,
+      "language_loss": 0.63688493,
+      "learning_rate": 3.2733348415930744e-06,
+      "loss": 0.66197217,
+      "num_input_tokens_seen": 54014125,
+      "step": 2511,
+      "time_per_iteration": 3.300745964050293
+    },
+    {
+      "auxiliary_loss_clip": 0.01223605,
+      "auxiliary_loss_mlp": 0.01026162,
+      "balance_loss_clip": 1.05582142,
+      "balance_loss_mlp": 1.01799572,
+      "epoch": 0.3020501412853965,
+      "flos": 34423070941440.0,
+      "grad_norm": 3.7300352030480193,
+      "language_loss": 0.80488288,
+      "learning_rate": 3.27273404999407e-06,
+      "loss": 0.82738054,
+      "num_input_tokens_seen": 54036345,
+      "step": 2512,
+      "time_per_iteration": 2.7873520851135254
+    },
+    {
+      "auxiliary_loss_clip": 0.01122881,
+      "auxiliary_loss_mlp": 0.01000228,
+      "balance_loss_clip": 1.02574229,
+      "balance_loss_mlp": 0.99823725,
+      "epoch": 0.3021703841760356,
+      "flos": 71008288128000.0,
+      "grad_norm": 0.8079357419291955,
+      "language_loss": 0.60508943,
+      "learning_rate": 3.272133065322322e-06,
+      "loss": 0.62632048,
+      "num_input_tokens_seen": 54094615,
+      "step": 2513,
+      "time_per_iteration": 3.2163193225860596
+    },
+    {
+      "auxiliary_loss_clip": 0.01195737,
+      "auxiliary_loss_mlp": 0.01032622,
+      "balance_loss_clip": 1.05603051,
+      "balance_loss_mlp": 1.02383602,
+      "epoch": 0.3022906270666747,
+      "flos": 21510528318720.0,
+      "grad_norm": 1.7119293942288878,
+      "language_loss": 0.79250634,
+      "learning_rate": 3.271531887669e-06,
+      "loss": 0.81478989,
+      "num_input_tokens_seen": 54114675,
+      "step": 2514,
+      "time_per_iteration": 2.6433675289154053
+    },
+    {
+      "auxiliary_loss_clip": 0.01238913,
+      "auxiliary_loss_mlp": 0.0102566,
+      "balance_loss_clip": 1.051579,
+      "balance_loss_mlp": 1.01632547,
+      "epoch": 0.30241086995731375,
+      "flos": 31132001168640.0,
+      "grad_norm": 2.229888572555217,
+      "language_loss": 0.62984252,
+      "learning_rate": 3.2709305171253015e-06,
+      "loss": 0.65248823,
+      "num_input_tokens_seen": 54134795,
+      "step": 2515,
+      "time_per_iteration": 3.690758466720581
+    },
+    {
+      "auxiliary_loss_clip": 0.01209138,
+      "auxiliary_loss_mlp": 0.01034903,
+      "balance_loss_clip": 1.05952656,
+      "balance_loss_mlp": 1.02617049,
+      "epoch": 0.30253111284795287,
+      "flos": 23511542152320.0,
+      "grad_norm": 1.9610276644444053,
+      "language_loss": 0.77757037,
+      "learning_rate": 3.2703289537824536e-06,
+      "loss": 0.80001068,
+      "num_input_tokens_seen": 54154595,
+      "step": 2516,
+      "time_per_iteration": 2.6826701164245605
+    },
+    {
+      "auxiliary_loss_clip": 0.01233338,
+      "auxiliary_loss_mlp": 0.01032747,
+      "balance_loss_clip": 1.0499177,
+      "balance_loss_mlp": 1.02399683,
+      "epoch": 0.302651355738592,
+      "flos": 18725367651840.0,
+      "grad_norm": 2.790861640384183,
+      "language_loss": 0.78055,
+      "learning_rate": 3.269727197731714e-06,
+      "loss": 0.80321085,
+      "num_input_tokens_seen": 54167360,
+      "step": 2517,
+      "time_per_iteration": 2.667639970779419
+    },
+    {
+      "auxiliary_loss_clip": 0.01225172,
+      "auxiliary_loss_mlp": 0.01026926,
+      "balance_loss_clip": 1.05227685,
+      "balance_loss_mlp": 1.01806831,
+      "epoch": 0.30277159862923103,
+      "flos": 22418888382720.0,
+      "grad_norm": 1.6857493856142947,
+      "language_loss": 0.77875459,
+      "learning_rate": 3.269125249064367e-06,
+      "loss": 0.80127561,
+      "num_input_tokens_seen": 54187055,
+      "step": 2518,
+      "time_per_iteration": 2.750701904296875
+    },
+    {
+      "auxiliary_loss_clip": 0.0120446,
+      "auxiliary_loss_mlp": 0.01028848,
+      "balance_loss_clip": 1.06000757,
+      "balance_loss_mlp": 1.0194068,
+      "epoch": 0.30289184151987014,
+      "flos": 22273126992000.0,
+      "grad_norm": 1.6373143431311363,
+      "language_loss": 0.83202946,
+      "learning_rate": 3.2685231078717297e-06,
+      "loss": 0.85436261,
+      "num_input_tokens_seen": 54207245,
+      "step": 2519,
+      "time_per_iteration": 2.5966691970825195
+    },
+    {
+      "auxiliary_loss_clip": 0.01216552,
+      "auxiliary_loss_mlp": 0.01379864,
+      "balance_loss_clip": 1.05404627,
+      "balance_loss_mlp": 1.00003421,
+      "epoch": 0.30301208441050925,
+      "flos": 25225594231680.0,
+      "grad_norm": 3.6854539208179196,
+      "language_loss": 0.75619566,
+      "learning_rate": 3.267920774245145e-06,
+      "loss": 0.78215981,
+      "num_input_tokens_seen": 54226650,
+      "step": 2520,
+      "time_per_iteration": 2.884669780731201
+    },
+    {
+      "auxiliary_loss_clip": 0.01211608,
+      "auxiliary_loss_mlp": 0.01033941,
+      "balance_loss_clip": 1.06085777,
+      "balance_loss_mlp": 1.02445805,
+      "epoch": 0.3031323273011483,
+      "flos": 23039245198080.0,
+      "grad_norm": 1.712914277731595,
+      "language_loss": 0.8433429,
+      "learning_rate": 3.2673182482759876e-06,
+      "loss": 0.86579835,
+      "num_input_tokens_seen": 54245765,
+      "step": 2521,
+      "time_per_iteration": 2.711239814758301
+    },
+    {
+      "auxiliary_loss_clip": 0.01211523,
+      "auxiliary_loss_mlp": 0.010362,
+      "balance_loss_clip": 1.06019044,
+      "balance_loss_mlp": 1.02731884,
+      "epoch": 0.3032525701917874,
+      "flos": 18876695650560.0,
+      "grad_norm": 1.7741927837009388,
+      "language_loss": 0.66231918,
+      "learning_rate": 3.266715530055659e-06,
+      "loss": 0.68479633,
+      "num_input_tokens_seen": 54263915,
+      "step": 2522,
+      "time_per_iteration": 2.695819854736328
+    },
+    {
+      "auxiliary_loss_clip": 0.01195474,
+      "auxiliary_loss_mlp": 0.01026347,
+      "balance_loss_clip": 1.05412042,
+      "balance_loss_mlp": 1.01738286,
+      "epoch": 0.30337281308242653,
+      "flos": 17782641250560.0,
+      "grad_norm": 1.6369372453008475,
+      "language_loss": 0.80659503,
+      "learning_rate": 3.2661126196755927e-06,
+      "loss": 0.82881325,
+      "num_input_tokens_seen": 54283025,
+      "step": 2523,
+      "time_per_iteration": 2.62471866607666
+    },
+    {
+      "auxiliary_loss_clip": 0.01097061,
+      "auxiliary_loss_mlp": 0.01004609,
+      "balance_loss_clip": 1.02449512,
+      "balance_loss_mlp": 1.00251055,
+      "epoch": 0.3034930559730656,
+      "flos": 57824298426240.0,
+      "grad_norm": 0.7773054726721672,
+      "language_loss": 0.55934751,
+      "learning_rate": 3.265509517227248e-06,
+      "loss": 0.58036423,
+      "num_input_tokens_seen": 54339840,
+      "step": 2524,
+      "time_per_iteration": 3.2297523021698
+    },
+    {
+      "auxiliary_loss_clip": 0.01212657,
+      "auxiliary_loss_mlp": 0.01031615,
+      "balance_loss_clip": 1.05079842,
+      "balance_loss_mlp": 1.02306128,
+      "epoch": 0.3036132988637047,
+      "flos": 14755587419520.0,
+      "grad_norm": 3.3815907498192117,
+      "language_loss": 0.81363416,
+      "learning_rate": 3.264906222802115e-06,
+      "loss": 0.83607686,
+      "num_input_tokens_seen": 54357690,
+      "step": 2525,
+      "time_per_iteration": 2.670013427734375
+    },
+    {
+      "auxiliary_loss_clip": 0.01202245,
+      "auxiliary_loss_mlp": 0.01034796,
+      "balance_loss_clip": 1.05860496,
+      "balance_loss_mlp": 1.02556336,
+      "epoch": 0.30373354175434375,
+      "flos": 21033203460480.0,
+      "grad_norm": 2.7458873118899234,
+      "language_loss": 0.78474468,
+      "learning_rate": 3.264302736491715e-06,
+      "loss": 0.80711508,
+      "num_input_tokens_seen": 54377810,
+      "step": 2526,
+      "time_per_iteration": 2.633845090866089
+    },
+    {
+      "auxiliary_loss_clip": 0.01201193,
+      "auxiliary_loss_mlp": 0.010282,
+      "balance_loss_clip": 1.05500317,
+      "balance_loss_mlp": 1.0192709,
+      "epoch": 0.30385378464498286,
+      "flos": 21143233797120.0,
+      "grad_norm": 1.972625926736232,
+      "language_loss": 0.87589455,
+      "learning_rate": 3.263699058387594e-06,
+      "loss": 0.89818847,
+      "num_input_tokens_seen": 54395245,
+      "step": 2527,
+      "time_per_iteration": 2.6265475749969482
+    },
+    {
+      "auxiliary_loss_clip": 0.01217823,
+      "auxiliary_loss_mlp": 0.01034835,
+      "balance_loss_clip": 1.05038869,
+      "balance_loss_mlp": 1.0255363,
+      "epoch": 0.30397402753562197,
+      "flos": 20629244131200.0,
+      "grad_norm": 4.554473303256122,
+      "language_loss": 0.90163386,
+      "learning_rate": 3.2630951885813315e-06,
+      "loss": 0.92416042,
+      "num_input_tokens_seen": 54412640,
+      "step": 2528,
+      "time_per_iteration": 2.653531074523926
+    },
+    {
+      "auxiliary_loss_clip": 0.01217869,
+      "auxiliary_loss_mlp": 0.01034633,
+      "balance_loss_clip": 1.05335474,
+      "balance_loss_mlp": 1.02628255,
+      "epoch": 0.304094270426261,
+      "flos": 15085678429440.0,
+      "grad_norm": 2.004306966631651,
+      "language_loss": 0.78362072,
+      "learning_rate": 3.262491127164533e-06,
+      "loss": 0.80614567,
+      "num_input_tokens_seen": 54431455,
+      "step": 2529,
+      "time_per_iteration": 2.65470814704895
+    },
+    {
+      "auxiliary_loss_clip": 0.01222046,
+      "auxiliary_loss_mlp": 0.01379897,
+      "balance_loss_clip": 1.05396056,
+      "balance_loss_mlp": 1.0001092,
+      "epoch": 0.30421451331690014,
+      "flos": 13845216193920.0,
+      "grad_norm": 16.327430208113412,
+      "language_loss": 0.80293053,
+      "learning_rate": 3.2618868742288337e-06,
+      "loss": 0.82894993,
+      "num_input_tokens_seen": 54448380,
+      "step": 2530,
+      "time_per_iteration": 2.638547420501709
+    },
+    {
+      "auxiliary_loss_clip": 0.01208696,
+      "auxiliary_loss_mlp": 0.01022976,
+      "balance_loss_clip": 1.05765665,
+      "balance_loss_mlp": 1.01455998,
+      "epoch": 0.30433475620753925,
+      "flos": 17384212615680.0,
+      "grad_norm": 1.809136095988698,
+      "language_loss": 0.72818995,
+      "learning_rate": 3.261282429865899e-06,
+      "loss": 0.75050664,
+      "num_input_tokens_seen": 54466385,
+      "step": 2531,
+      "time_per_iteration": 2.587249994277954
+    },
+    {
+      "auxiliary_loss_clip": 0.01221085,
+      "auxiliary_loss_mlp": 0.01379351,
+      "balance_loss_clip": 1.05679417,
+      "balance_loss_mlp": 1.00002599,
+      "epoch": 0.3044549990981783,
+      "flos": 18916951818240.0,
+      "grad_norm": 1.6412833742231971,
+      "language_loss": 0.72445893,
+      "learning_rate": 3.2606777941674225e-06,
+      "loss": 0.75046325,
+      "num_input_tokens_seen": 54485040,
+      "step": 2532,
+      "time_per_iteration": 2.6883935928344727
+    },
+    {
+      "auxiliary_loss_clip": 0.01223228,
+      "auxiliary_loss_mlp": 0.01026611,
+      "balance_loss_clip": 1.0512588,
+      "balance_loss_mlp": 1.01786113,
+      "epoch": 0.3045752419888174,
+      "flos": 21068431724160.0,
+      "grad_norm": 2.102175215552908,
+      "language_loss": 0.84572184,
+      "learning_rate": 3.2600729672251276e-06,
+      "loss": 0.86822021,
+      "num_input_tokens_seen": 54502755,
+      "step": 2533,
+      "time_per_iteration": 2.8050618171691895
+    },
+    {
+      "auxiliary_loss_clip": 0.01200511,
+      "auxiliary_loss_mlp": 0.01379307,
+      "balance_loss_clip": 1.05950797,
+      "balance_loss_mlp": 1.00003362,
+      "epoch": 0.3046954848794565,
+      "flos": 29096405516160.0,
+      "grad_norm": 2.1621126325845768,
+      "language_loss": 0.65733886,
+      "learning_rate": 3.259467949130765e-06,
+      "loss": 0.683137,
+      "num_input_tokens_seen": 54524165,
+      "step": 2534,
+      "time_per_iteration": 3.5475363731384277
+    },
+    {
+      "auxiliary_loss_clip": 0.01218695,
+      "auxiliary_loss_mlp": 0.01025216,
+      "balance_loss_clip": 1.05657387,
+      "balance_loss_mlp": 1.01632905,
+      "epoch": 0.3048157277700956,
+      "flos": 20295346279680.0,
+      "grad_norm": 2.3252199465892383,
+      "language_loss": 0.82486796,
+      "learning_rate": 3.2588627399761164e-06,
+      "loss": 0.84730709,
+      "num_input_tokens_seen": 54540160,
+      "step": 2535,
+      "time_per_iteration": 2.654892683029175
+    },
+    {
+      "auxiliary_loss_clip": 0.01212991,
+      "auxiliary_loss_mlp": 0.01029659,
+      "balance_loss_clip": 1.05360615,
+      "balance_loss_mlp": 1.02173162,
+      "epoch": 0.3049359706607347,
+      "flos": 22739929165440.0,
+      "grad_norm": 1.7112686888613076,
+      "language_loss": 0.70776975,
+      "learning_rate": 3.2582573398529903e-06,
+      "loss": 0.7301963,
+      "num_input_tokens_seen": 54557515,
+      "step": 2536,
+      "time_per_iteration": 4.512095212936401
+    },
+    {
+      "auxiliary_loss_clip": 0.01222985,
+      "auxiliary_loss_mlp": 0.01038247,
+      "balance_loss_clip": 1.05366707,
+      "balance_loss_mlp": 1.02934194,
+      "epoch": 0.3050562135513738,
+      "flos": 18434634969600.0,
+      "grad_norm": 6.5250700156815515,
+      "language_loss": 0.74399889,
+      "learning_rate": 3.2576517488532265e-06,
+      "loss": 0.76661122,
+      "num_input_tokens_seen": 54573865,
+      "step": 2537,
+      "time_per_iteration": 2.730543851852417
+    },
+    {
+      "auxiliary_loss_clip": 0.01205881,
+      "auxiliary_loss_mlp": 0.01033568,
+      "balance_loss_clip": 1.05486727,
+      "balance_loss_mlp": 1.02517009,
+      "epoch": 0.30517645644201286,
+      "flos": 20370327920640.0,
+      "grad_norm": 2.1532246486823343,
+      "language_loss": 0.87518758,
+      "learning_rate": 3.257045967068692e-06,
+      "loss": 0.89758205,
+      "num_input_tokens_seen": 54593120,
+      "step": 2538,
+      "time_per_iteration": 2.585540533065796
+    },
+    {
+      "auxiliary_loss_clip": 0.01202503,
+      "auxiliary_loss_mlp": 0.01028592,
+      "balance_loss_clip": 1.06024361,
+      "balance_loss_mlp": 1.02013373,
+      "epoch": 0.30529669933265197,
+      "flos": 21945118970880.0,
+      "grad_norm": 1.5370070370213105,
+      "language_loss": 0.81865859,
+      "learning_rate": 3.2564399945912848e-06,
+      "loss": 0.84096956,
+      "num_input_tokens_seen": 54612910,
+      "step": 2539,
+      "time_per_iteration": 2.5983388423919678
+    },
+    {
+      "auxiliary_loss_clip": 0.01234978,
+      "auxiliary_loss_mlp": 0.01032567,
+      "balance_loss_clip": 1.05089295,
+      "balance_loss_mlp": 1.02443683,
+      "epoch": 0.305416942223291,
+      "flos": 21835411856640.0,
+      "grad_norm": 2.1890457597766884,
+      "language_loss": 0.82190096,
+      "learning_rate": 3.2558338315129287e-06,
+      "loss": 0.84457642,
+      "num_input_tokens_seen": 54631055,
+      "step": 2540,
+      "time_per_iteration": 2.716942310333252
+    },
+    {
+      "auxiliary_loss_clip": 0.0120243,
+      "auxiliary_loss_mlp": 0.01038753,
+      "balance_loss_clip": 1.05652118,
+      "balance_loss_mlp": 1.02938342,
+      "epoch": 0.30553718511393013,
+      "flos": 33911810709120.0,
+      "grad_norm": 2.453617797313978,
+      "language_loss": 0.7598837,
+      "learning_rate": 3.2552274779255785e-06,
+      "loss": 0.78229553,
+      "num_input_tokens_seen": 54651985,
+      "step": 2541,
+      "time_per_iteration": 3.5765438079833984
+    },
+    {
+      "auxiliary_loss_clip": 0.01205599,
+      "auxiliary_loss_mlp": 0.01027095,
+      "balance_loss_clip": 1.05658817,
+      "balance_loss_mlp": 1.0180707,
+      "epoch": 0.30565742800456924,
+      "flos": 22268530051200.0,
+      "grad_norm": 2.117220401373692,
+      "language_loss": 0.76892948,
+      "learning_rate": 3.2546209339212184e-06,
+      "loss": 0.79125643,
+      "num_input_tokens_seen": 54671005,
+      "step": 2542,
+      "time_per_iteration": 2.6427860260009766
+    },
+    {
+      "auxiliary_loss_clip": 0.0121631,
+      "auxiliary_loss_mlp": 0.01026558,
+      "balance_loss_clip": 1.05376267,
+      "balance_loss_mlp": 1.01857138,
+      "epoch": 0.3057776708952083,
+      "flos": 22565044823040.0,
+      "grad_norm": 1.639700399558147,
+      "language_loss": 0.77596557,
+      "learning_rate": 3.25401419959186e-06,
+      "loss": 0.7983942,
+      "num_input_tokens_seen": 54691615,
+      "step": 2543,
+      "time_per_iteration": 2.7306833267211914
+    },
+    {
+      "auxiliary_loss_clip": 0.01229257,
+      "auxiliary_loss_mlp": 0.01032516,
+      "balance_loss_clip": 1.06058371,
+      "balance_loss_mlp": 1.02463579,
+      "epoch": 0.3058979137858474,
+      "flos": 21799213925760.0,
+      "grad_norm": 1.7480123651220734,
+      "language_loss": 0.75645626,
+      "learning_rate": 3.253407275029545e-06,
+      "loss": 0.77907401,
+      "num_input_tokens_seen": 54710520,
+      "step": 2544,
+      "time_per_iteration": 2.7539401054382324
+    },
+    {
+      "auxiliary_loss_clip": 0.01233276,
+      "auxiliary_loss_mlp": 0.01036251,
+      "balance_loss_clip": 1.05877805,
+      "balance_loss_mlp": 1.02704191,
+      "epoch": 0.3060181566764865,
+      "flos": 26979435601920.0,
+      "grad_norm": 1.7428599280547996,
+      "language_loss": 0.80700731,
+      "learning_rate": 3.2528001603263425e-06,
+      "loss": 0.82970262,
+      "num_input_tokens_seen": 54732590,
+      "step": 2545,
+      "time_per_iteration": 2.7275609970092773
+    },
+    {
+      "auxiliary_loss_clip": 0.01208663,
+      "auxiliary_loss_mlp": 0.0103274,
+      "balance_loss_clip": 1.05847621,
+      "balance_loss_mlp": 1.02381158,
+      "epoch": 0.3061383995671256,
+      "flos": 19865101173120.0,
+      "grad_norm": 1.8479946228730884,
+      "language_loss": 0.8129341,
+      "learning_rate": 3.2521928555743514e-06,
+      "loss": 0.83534813,
+      "num_input_tokens_seen": 54749935,
+      "step": 2546,
+      "time_per_iteration": 2.6298320293426514
+    },
+    {
+      "auxiliary_loss_clip": 0.01211588,
+      "auxiliary_loss_mlp": 0.01379671,
+      "balance_loss_clip": 1.05485392,
+      "balance_loss_mlp": 1.00000405,
+      "epoch": 0.3062586424577647,
+      "flos": 22127509255680.0,
+      "grad_norm": 2.3451404491578183,
+      "language_loss": 0.67380714,
+      "learning_rate": 3.2515853608657e-06,
+      "loss": 0.69971967,
+      "num_input_tokens_seen": 54767935,
+      "step": 2547,
+      "time_per_iteration": 2.6485326290130615
+    },
+    {
+      "auxiliary_loss_clip": 0.01204342,
+      "auxiliary_loss_mlp": 0.01030592,
+      "balance_loss_clip": 1.05723512,
+      "balance_loss_mlp": 1.02144289,
+      "epoch": 0.3063788853484038,
+      "flos": 20845497962880.0,
+      "grad_norm": 2.5711473301223,
+      "language_loss": 0.74381554,
+      "learning_rate": 3.250977676292545e-06,
+      "loss": 0.7661649,
+      "num_input_tokens_seen": 54786175,
+      "step": 2548,
+      "time_per_iteration": 2.767514944076538
+    },
+    {
+      "auxiliary_loss_clip": 0.01219022,
+      "auxiliary_loss_mlp": 0.01031209,
+      "balance_loss_clip": 1.05655909,
+      "balance_loss_mlp": 1.02244675,
+      "epoch": 0.30649912823904285,
+      "flos": 16209717707520.0,
+      "grad_norm": 2.0638103085842467,
+      "language_loss": 0.79524708,
+      "learning_rate": 3.2503698019470712e-06,
+      "loss": 0.81774938,
+      "num_input_tokens_seen": 54801945,
+      "step": 2549,
+      "time_per_iteration": 2.6119346618652344
+    },
+    {
+      "auxiliary_loss_clip": 0.01206349,
+      "auxiliary_loss_mlp": 0.01028246,
+      "balance_loss_clip": 1.05441654,
+      "balance_loss_mlp": 1.02002621,
+      "epoch": 0.30661937112968196,
+      "flos": 18617815353600.0,
+      "grad_norm": 2.419348361355445,
+      "language_loss": 0.7815367,
+      "learning_rate": 3.249761737921492e-06,
+      "loss": 0.80388266,
+      "num_input_tokens_seen": 54818475,
+      "step": 2550,
+      "time_per_iteration": 2.6873910427093506
+    },
+    {
+      "auxiliary_loss_clip": 0.01215178,
+      "auxiliary_loss_mlp": 0.01028783,
+      "balance_loss_clip": 1.05667591,
+      "balance_loss_mlp": 1.02070081,
+      "epoch": 0.30673961402032107,
+      "flos": 31390809638400.0,
+      "grad_norm": 2.3357635703360082,
+      "language_loss": 0.7459743,
+      "learning_rate": 3.249153484308051e-06,
+      "loss": 0.7684139,
+      "num_input_tokens_seen": 54837090,
+      "step": 2551,
+      "time_per_iteration": 2.7863638401031494
+    },
+    {
+      "auxiliary_loss_clip": 0.0122131,
+      "auxiliary_loss_mlp": 0.01029221,
+      "balance_loss_clip": 1.05019915,
+      "balance_loss_mlp": 1.02026868,
+      "epoch": 0.3068598569109601,
+      "flos": 20229809915520.0,
+      "grad_norm": 1.8352785731077292,
+      "language_loss": 0.77874494,
+      "learning_rate": 3.2485450411990194e-06,
+      "loss": 0.80125022,
+      "num_input_tokens_seen": 54856445,
+      "step": 2552,
+      "time_per_iteration": 2.7447235584259033
+    },
+    {
+      "auxiliary_loss_clip": 0.01198686,
+      "auxiliary_loss_mlp": 0.01030021,
+      "balance_loss_clip": 1.05573165,
+      "balance_loss_mlp": 1.02090704,
+      "epoch": 0.30698009980159924,
+      "flos": 29601991399680.0,
+      "grad_norm": 1.7000982156780038,
+      "language_loss": 0.8215158,
+      "learning_rate": 3.2479364086866983e-06,
+      "loss": 0.84380293,
+      "num_input_tokens_seen": 54876700,
+      "step": 2553,
+      "time_per_iteration": 2.6598031520843506
+    },
+    {
+      "auxiliary_loss_clip": 0.01219117,
+      "auxiliary_loss_mlp": 0.0137969,
+      "balance_loss_clip": 1.05928838,
+      "balance_loss_mlp": 1.00009918,
+      "epoch": 0.30710034269223835,
+      "flos": 23842423261440.0,
+      "grad_norm": 1.774207324605309,
+      "language_loss": 0.81503785,
+      "learning_rate": 3.247327586863416e-06,
+      "loss": 0.84102589,
+      "num_input_tokens_seen": 54897580,
+      "step": 2554,
+      "time_per_iteration": 2.6963882446289062
+    },
+    {
+      "auxiliary_loss_clip": 0.01227229,
+      "auxiliary_loss_mlp": 0.01030196,
+      "balance_loss_clip": 1.05214024,
+      "balance_loss_mlp": 1.0216012,
+      "epoch": 0.3072205855828774,
+      "flos": 25884986152320.0,
+      "grad_norm": 2.0313482610685245,
+      "language_loss": 0.77025837,
+      "learning_rate": 3.2467185758215304e-06,
+      "loss": 0.79283261,
+      "num_input_tokens_seen": 54917320,
+      "step": 2555,
+      "time_per_iteration": 2.7917027473449707
+    },
+    {
+      "auxiliary_loss_clip": 0.01228731,
+      "auxiliary_loss_mlp": 0.01379499,
+      "balance_loss_clip": 1.05484009,
+      "balance_loss_mlp": 1.0001018,
+      "epoch": 0.3073408284735165,
+      "flos": 22236390357120.0,
+      "grad_norm": 2.387132093202862,
+      "language_loss": 0.85657346,
+      "learning_rate": 3.246109375653428e-06,
+      "loss": 0.88265574,
+      "num_input_tokens_seen": 54934085,
+      "step": 2556,
+      "time_per_iteration": 2.741791248321533
+    },
+    {
+      "auxiliary_loss_clip": 0.01197668,
+      "auxiliary_loss_mlp": 0.01029511,
+      "balance_loss_clip": 1.05783105,
+      "balance_loss_mlp": 1.02064192,
+      "epoch": 0.30746107136415557,
+      "flos": 19500284689920.0,
+      "grad_norm": 2.020207938899999,
+      "language_loss": 0.78547812,
+      "learning_rate": 3.2454999864515243e-06,
+      "loss": 0.80774993,
+      "num_input_tokens_seen": 54953460,
+      "step": 2557,
+      "time_per_iteration": 2.5967578887939453
+    },
+    {
+      "auxiliary_loss_clip": 0.01208916,
+      "auxiliary_loss_mlp": 0.01379357,
+      "balance_loss_clip": 1.05411935,
+      "balance_loss_mlp": 1.00006938,
+      "epoch": 0.3075813142547947,
+      "flos": 21724806902400.0,
+      "grad_norm": 1.705107457466735,
+      "language_loss": 0.69439495,
+      "learning_rate": 3.244890408308263e-06,
+      "loss": 0.72027767,
+      "num_input_tokens_seen": 54974165,
+      "step": 2558,
+      "time_per_iteration": 2.6910555362701416
+    },
+    {
+      "auxiliary_loss_clip": 0.012316,
+      "auxiliary_loss_mlp": 0.01025306,
+      "balance_loss_clip": 1.04962111,
+      "balance_loss_mlp": 1.01669335,
+      "epoch": 0.3077015571454338,
+      "flos": 24097963593600.0,
+      "grad_norm": 2.4679955434397516,
+      "language_loss": 0.61046273,
+      "learning_rate": 3.2442806413161165e-06,
+      "loss": 0.63303185,
+      "num_input_tokens_seen": 54993810,
+      "step": 2559,
+      "time_per_iteration": 2.7885842323303223
+    },
+    {
+      "auxiliary_loss_clip": 0.01232785,
+      "auxiliary_loss_mlp": 0.01037615,
+      "balance_loss_clip": 1.04931974,
+      "balance_loss_mlp": 1.02856135,
+      "epoch": 0.30782180003607285,
+      "flos": 18405476104320.0,
+      "grad_norm": 1.9528041138980452,
+      "language_loss": 0.75804925,
+      "learning_rate": 3.243670685567586e-06,
+      "loss": 0.78075325,
+      "num_input_tokens_seen": 55011210,
+      "step": 2560,
+      "time_per_iteration": 3.6002118587493896
+    },
+    {
+      "auxiliary_loss_clip": 0.0121563,
+      "auxiliary_loss_mlp": 0.0137943,
+      "balance_loss_clip": 1.05448198,
+      "balance_loss_mlp": 1.00010324,
+      "epoch": 0.30794204292671196,
+      "flos": 23878549365120.0,
+      "grad_norm": 2.296988189627587,
+      "language_loss": 0.80333513,
+      "learning_rate": 3.2430605411552012e-06,
+      "loss": 0.82928574,
+      "num_input_tokens_seen": 55031325,
+      "step": 2561,
+      "time_per_iteration": 2.709308385848999
+    },
+    {
+      "auxiliary_loss_clip": 0.01139569,
+      "auxiliary_loss_mlp": 0.0100746,
+      "balance_loss_clip": 1.02761769,
+      "balance_loss_mlp": 1.00539768,
+      "epoch": 0.30806228581735107,
+      "flos": 67927800816000.0,
+      "grad_norm": 0.9002051547286404,
+      "language_loss": 0.70617008,
+      "learning_rate": 3.2424502081715205e-06,
+      "loss": 0.72764039,
+      "num_input_tokens_seen": 55094440,
+      "step": 2562,
+      "time_per_iteration": 5.1435136795043945
+    },
+    {
+      "auxiliary_loss_clip": 0.01220371,
+      "auxiliary_loss_mlp": 0.01029704,
+      "balance_loss_clip": 1.05639672,
+      "balance_loss_mlp": 1.02065563,
+      "epoch": 0.3081825287079901,
+      "flos": 23843213360640.0,
+      "grad_norm": 1.652228021888808,
+      "language_loss": 0.77957332,
+      "learning_rate": 3.241839686709132e-06,
+      "loss": 0.80207407,
+      "num_input_tokens_seen": 55115375,
+      "step": 2563,
+      "time_per_iteration": 2.753427505493164
+    },
+    {
+      "auxiliary_loss_clip": 0.01204462,
+      "auxiliary_loss_mlp": 0.01036455,
+      "balance_loss_clip": 1.05446696,
+      "balance_loss_mlp": 1.02728176,
+      "epoch": 0.30830277159862923,
+      "flos": 16209969102720.0,
+      "grad_norm": 2.482540490182887,
+      "language_loss": 0.81544816,
+      "learning_rate": 3.2412289768606495e-06,
+      "loss": 0.83785737,
+      "num_input_tokens_seen": 55131945,
+      "step": 2564,
+      "time_per_iteration": 2.6044108867645264
+    },
+    {
+      "auxiliary_loss_clip": 0.01210973,
+      "auxiliary_loss_mlp": 0.01039095,
+      "balance_loss_clip": 1.05851626,
+      "balance_loss_mlp": 1.03004146,
+      "epoch": 0.30842301448926834,
+      "flos": 29349503723520.0,
+      "grad_norm": 1.9665680159776109,
+      "language_loss": 0.83050156,
+      "learning_rate": 3.240618078718718e-06,
+      "loss": 0.85300225,
+      "num_input_tokens_seen": 55153405,
+      "step": 2565,
+      "time_per_iteration": 2.745103597640991
+    },
+    {
+      "auxiliary_loss_clip": 0.01217609,
+      "auxiliary_loss_mlp": 0.01032275,
+      "balance_loss_clip": 1.0500524,
+      "balance_loss_mlp": 1.02287531,
+      "epoch": 0.3085432573799074,
+      "flos": 21945190798080.0,
+      "grad_norm": 1.9555778087908176,
+      "language_loss": 0.73977911,
+      "learning_rate": 3.240006992376011e-06,
+      "loss": 0.76227796,
+      "num_input_tokens_seen": 55173030,
+      "step": 2566,
+      "time_per_iteration": 2.7309553623199463
+    },
+    {
+      "auxiliary_loss_clip": 0.01219089,
+      "auxiliary_loss_mlp": 0.01030153,
+      "balance_loss_clip": 1.05515313,
+      "balance_loss_mlp": 1.02197504,
+      "epoch": 0.3086635002705465,
+      "flos": 22054718344320.0,
+      "grad_norm": 2.263247877749846,
+      "language_loss": 0.76260316,
+      "learning_rate": 3.2393957179252284e-06,
+      "loss": 0.78509557,
+      "num_input_tokens_seen": 55189565,
+      "step": 2567,
+      "time_per_iteration": 3.5804443359375
+    },
+    {
+      "auxiliary_loss_clip": 0.01205717,
+      "auxiliary_loss_mlp": 0.01031631,
+      "balance_loss_clip": 1.06207943,
+      "balance_loss_mlp": 1.02265418,
+      "epoch": 0.3087837431611856,
+      "flos": 32665925520000.0,
+      "grad_norm": 2.0271978522011938,
+      "language_loss": 0.8074615,
+      "learning_rate": 3.2387842554591016e-06,
+      "loss": 0.82983494,
+      "num_input_tokens_seen": 55210380,
+      "step": 2568,
+      "time_per_iteration": 2.6937592029571533
+    },
+    {
+      "auxiliary_loss_clip": 0.01202838,
+      "auxiliary_loss_mlp": 0.01024407,
+      "balance_loss_clip": 1.0599227,
+      "balance_loss_mlp": 1.01555538,
+      "epoch": 0.3089039860518247,
+      "flos": 17599245384960.0,
+      "grad_norm": 2.053802747620043,
+      "language_loss": 0.87533939,
+      "learning_rate": 3.238172605070388e-06,
+      "loss": 0.89761186,
+      "num_input_tokens_seen": 55225795,
+      "step": 2569,
+      "time_per_iteration": 2.574364185333252
+    },
+    {
+      "auxiliary_loss_clip": 0.01206013,
+      "auxiliary_loss_mlp": 0.01379615,
+      "balance_loss_clip": 1.05648661,
+      "balance_loss_mlp": 1.0001049,
+      "epoch": 0.3090242289424638,
+      "flos": 14383839611520.0,
+      "grad_norm": 2.861075097813381,
+      "language_loss": 0.78530198,
+      "learning_rate": 3.2375607668518745e-06,
+      "loss": 0.8111583,
+      "num_input_tokens_seen": 55238830,
+      "step": 2570,
+      "time_per_iteration": 2.6369731426239014
+    },
+    {
+      "auxiliary_loss_clip": 0.0120443,
+      "auxiliary_loss_mlp": 0.0103202,
+      "balance_loss_clip": 1.05218041,
+      "balance_loss_mlp": 1.02256083,
+      "epoch": 0.30914447183310284,
+      "flos": 16068625084800.0,
+      "grad_norm": 2.1541490681298923,
+      "language_loss": 0.89524412,
+      "learning_rate": 3.236948740896377e-06,
+      "loss": 0.91760862,
+      "num_input_tokens_seen": 55253630,
+      "step": 2571,
+      "time_per_iteration": 2.623579502105713
+    },
+    {
+      "auxiliary_loss_clip": 0.01208279,
+      "auxiliary_loss_mlp": 0.01034972,
+      "balance_loss_clip": 1.05728495,
+      "balance_loss_mlp": 1.02548337,
+      "epoch": 0.30926471472374195,
+      "flos": 32230221546240.0,
+      "grad_norm": 1.4373360358155516,
+      "language_loss": 0.84369123,
+      "learning_rate": 3.2363365272967384e-06,
+      "loss": 0.86612374,
+      "num_input_tokens_seen": 55276200,
+      "step": 2572,
+      "time_per_iteration": 2.7373008728027344
+    },
+    {
+      "auxiliary_loss_clip": 0.01208933,
+      "auxiliary_loss_mlp": 0.01029901,
+      "balance_loss_clip": 1.05871272,
+      "balance_loss_mlp": 1.02036428,
+      "epoch": 0.30938495761438106,
+      "flos": 20370722970240.0,
+      "grad_norm": 1.91829770374152,
+      "language_loss": 0.81674773,
+      "learning_rate": 3.235724126145832e-06,
+      "loss": 0.83913612,
+      "num_input_tokens_seen": 55292235,
+      "step": 2573,
+      "time_per_iteration": 2.5993049144744873
+    },
+    {
+      "auxiliary_loss_clip": 0.01196007,
+      "auxiliary_loss_mlp": 0.01034392,
+      "balance_loss_clip": 1.05390131,
+      "balance_loss_mlp": 1.02548146,
+      "epoch": 0.3095052005050201,
+      "flos": 24061155131520.0,
+      "grad_norm": 1.8257483054285564,
+      "language_loss": 0.77652395,
+      "learning_rate": 3.235111537536558e-06,
+      "loss": 0.79882801,
+      "num_input_tokens_seen": 55313050,
+      "step": 2574,
+      "time_per_iteration": 2.676602602005005
+    },
+    {
+      "auxiliary_loss_clip": 0.01210507,
+      "auxiliary_loss_mlp": 0.01027983,
+      "balance_loss_clip": 1.05747235,
+      "balance_loss_mlp": 1.01917958,
+      "epoch": 0.30962544339565923,
+      "flos": 23401547729280.0,
+      "grad_norm": 2.66424774302518,
+      "language_loss": 0.82470047,
+      "learning_rate": 3.2344987615618456e-06,
+      "loss": 0.84708542,
+      "num_input_tokens_seen": 55332885,
+      "step": 2575,
+      "time_per_iteration": 2.637422800064087
+    },
+    {
+      "auxiliary_loss_clip": 0.01225985,
+      "auxiliary_loss_mlp": 0.01034665,
+      "balance_loss_clip": 1.05722094,
+      "balance_loss_mlp": 1.0253613,
+      "epoch": 0.30974568628629834,
+      "flos": 33799984692480.0,
+      "grad_norm": 1.7515036487579938,
+      "language_loss": 0.78550982,
+      "learning_rate": 3.2338857983146533e-06,
+      "loss": 0.80811632,
+      "num_input_tokens_seen": 55354385,
+      "step": 2576,
+      "time_per_iteration": 2.855494499206543
+    },
+    {
+      "auxiliary_loss_clip": 0.01203814,
+      "auxiliary_loss_mlp": 0.01031546,
+      "balance_loss_clip": 1.05410409,
+      "balance_loss_mlp": 1.0220871,
+      "epoch": 0.3098659291769374,
+      "flos": 20229594433920.0,
+      "grad_norm": 2.5824011379560887,
+      "language_loss": 0.7656225,
+      "learning_rate": 3.233272647887966e-06,
+      "loss": 0.78797615,
+      "num_input_tokens_seen": 55373275,
+      "step": 2577,
+      "time_per_iteration": 2.6915788650512695
+    },
+    {
+      "auxiliary_loss_clip": 0.01205012,
+      "auxiliary_loss_mlp": 0.01034684,
+      "balance_loss_clip": 1.06166315,
+      "balance_loss_mlp": 1.02584505,
+      "epoch": 0.3099861720675765,
+      "flos": 24748556682240.0,
+      "grad_norm": 1.6812947887263214,
+      "language_loss": 0.90110165,
+      "learning_rate": 3.2326593103747985e-06,
+      "loss": 0.92349863,
+      "num_input_tokens_seen": 55392290,
+      "step": 2578,
+      "time_per_iteration": 2.657541036605835
+    },
+    {
+      "auxiliary_loss_clip": 0.01209354,
+      "auxiliary_loss_mlp": 0.01034312,
+      "balance_loss_clip": 1.05918384,
+      "balance_loss_mlp": 1.02503133,
+      "epoch": 0.3101064149582156,
+      "flos": 11765485704960.0,
+      "grad_norm": 2.4924872487155163,
+      "language_loss": 0.85130358,
+      "learning_rate": 3.2320457858681936e-06,
+      "loss": 0.8737402,
+      "num_input_tokens_seen": 55410680,
+      "step": 2579,
+      "time_per_iteration": 2.7020630836486816
+    },
+    {
+      "auxiliary_loss_clip": 0.01216068,
+      "auxiliary_loss_mlp": 0.0103068,
+      "balance_loss_clip": 1.05511165,
+      "balance_loss_mlp": 1.02209115,
+      "epoch": 0.31022665784885467,
+      "flos": 23033247626880.0,
+      "grad_norm": 2.552775222702522,
+      "language_loss": 0.85322922,
+      "learning_rate": 3.2314320744612228e-06,
+      "loss": 0.87569672,
+      "num_input_tokens_seen": 55425980,
+      "step": 2580,
+      "time_per_iteration": 2.7214009761810303
+    },
+    {
+      "auxiliary_loss_clip": 0.0120846,
+      "auxiliary_loss_mlp": 0.0103258,
+      "balance_loss_clip": 1.05986547,
+      "balance_loss_mlp": 1.02409816,
+      "epoch": 0.3103469007394938,
+      "flos": 16289188548480.0,
+      "grad_norm": 1.8566202862462935,
+      "language_loss": 0.76398945,
+      "learning_rate": 3.2308181762469854e-06,
+      "loss": 0.78639984,
+      "num_input_tokens_seen": 55443925,
+      "step": 2581,
+      "time_per_iteration": 2.5908315181732178
+    },
+    {
+      "auxiliary_loss_clip": 0.01206076,
+      "auxiliary_loss_mlp": 0.01031484,
+      "balance_loss_clip": 1.05981112,
+      "balance_loss_mlp": 1.02141726,
+      "epoch": 0.3104671436301329,
+      "flos": 30515271626880.0,
+      "grad_norm": 1.9328236462776263,
+      "language_loss": 0.77730137,
+      "learning_rate": 3.230204091318609e-06,
+      "loss": 0.79967701,
+      "num_input_tokens_seen": 55464465,
+      "step": 2582,
+      "time_per_iteration": 2.7420971393585205
+    },
+    {
+      "auxiliary_loss_clip": 0.01199771,
+      "auxiliary_loss_mlp": 0.01379674,
+      "balance_loss_clip": 1.05677772,
+      "balance_loss_mlp": 1.00010407,
+      "epoch": 0.31058738652077195,
+      "flos": 20047240062720.0,
+      "grad_norm": 1.8993287956871174,
+      "language_loss": 0.847157,
+      "learning_rate": 3.2295898197692503e-06,
+      "loss": 0.87295139,
+      "num_input_tokens_seen": 55483425,
+      "step": 2583,
+      "time_per_iteration": 2.5790090560913086
+    },
+    {
+      "auxiliary_loss_clip": 0.0120074,
+      "auxiliary_loss_mlp": 0.01033436,
+      "balance_loss_clip": 1.05864334,
+      "balance_loss_mlp": 1.02491236,
+      "epoch": 0.31070762941141106,
+      "flos": 28074639237120.0,
+      "grad_norm": 1.6444421964742673,
+      "language_loss": 0.79364681,
+      "learning_rate": 3.228975361692094e-06,
+      "loss": 0.81598866,
+      "num_input_tokens_seen": 55504445,
+      "step": 2584,
+      "time_per_iteration": 2.5941712856292725
+    },
+    {
+      "auxiliary_loss_clip": 0.01214086,
+      "auxiliary_loss_mlp": 0.01380211,
+      "balance_loss_clip": 1.05562603,
+      "balance_loss_mlp": 1.00022936,
+      "epoch": 0.31082787230205017,
+      "flos": 20521907314560.0,
+      "grad_norm": 2.140608724370487,
+      "language_loss": 0.80385947,
+      "learning_rate": 3.228360717180352e-06,
+      "loss": 0.82980239,
+      "num_input_tokens_seen": 55521970,
+      "step": 2585,
+      "time_per_iteration": 2.610684871673584
+    },
+    {
+      "auxiliary_loss_clip": 0.01102987,
+      "auxiliary_loss_mlp": 0.0137557,
+      "balance_loss_clip": 1.02991486,
+      "balance_loss_mlp": 1.00015533,
+      "epoch": 0.3109481151926892,
+      "flos": 62445928723200.0,
+      "grad_norm": 0.8215025336224717,
+      "language_loss": 0.59404659,
+      "learning_rate": 3.227745886327266e-06,
+      "loss": 0.61883217,
+      "num_input_tokens_seen": 55580665,
+      "step": 2586,
+      "time_per_iteration": 4.041039228439331
+    },
+    {
+      "auxiliary_loss_clip": 0.01101723,
+      "auxiliary_loss_mlp": 0.0100246,
+      "balance_loss_clip": 1.02922094,
+      "balance_loss_mlp": 1.00030196,
+      "epoch": 0.31106835808332833,
+      "flos": 44746744723200.0,
+      "grad_norm": 0.8047779732343593,
+      "language_loss": 0.55866957,
+      "learning_rate": 3.227130869226105e-06,
+      "loss": 0.57971132,
+      "num_input_tokens_seen": 55637825,
+      "step": 2587,
+      "time_per_iteration": 3.146965503692627
+    },
+    {
+      "auxiliary_loss_clip": 0.01213038,
+      "auxiliary_loss_mlp": 0.01027464,
+      "balance_loss_clip": 1.05789256,
+      "balance_loss_mlp": 1.01829135,
+      "epoch": 0.3111886009739674,
+      "flos": 23403056100480.0,
+      "grad_norm": 2.6482152560664227,
+      "language_loss": 0.82379019,
+      "learning_rate": 3.226515665970167e-06,
+      "loss": 0.84619522,
+      "num_input_tokens_seen": 55655365,
+      "step": 2588,
+      "time_per_iteration": 4.4080705642700195
+    },
+    {
+      "auxiliary_loss_clip": 0.01207639,
+      "auxiliary_loss_mlp": 0.01033264,
+      "balance_loss_clip": 1.05631328,
+      "balance_loss_mlp": 1.02312565,
+      "epoch": 0.3113088438646065,
+      "flos": 17530728192000.0,
+      "grad_norm": 2.5800358008541355,
+      "language_loss": 0.86075932,
+      "learning_rate": 3.225900276652777e-06,
+      "loss": 0.88316834,
+      "num_input_tokens_seen": 55672140,
+      "step": 2589,
+      "time_per_iteration": 2.57928729057312
+    },
+    {
+      "auxiliary_loss_clip": 0.01224809,
+      "auxiliary_loss_mlp": 0.01029978,
+      "balance_loss_clip": 1.05650258,
+      "balance_loss_mlp": 1.02143121,
+      "epoch": 0.3114290867552456,
+      "flos": 28365802882560.0,
+      "grad_norm": 1.5486629908832579,
+      "language_loss": 0.75634706,
+      "learning_rate": 3.2252847013672906e-06,
+      "loss": 0.7788949,
+      "num_input_tokens_seen": 55694800,
+      "step": 2590,
+      "time_per_iteration": 2.7492055892944336
+    },
+    {
+      "auxiliary_loss_clip": 0.0121777,
+      "auxiliary_loss_mlp": 0.0103074,
+      "balance_loss_clip": 1.05212069,
+      "balance_loss_mlp": 1.0216862,
+      "epoch": 0.31154932964588467,
+      "flos": 27379157126400.0,
+      "grad_norm": 2.2620812648716937,
+      "language_loss": 0.76312494,
+      "learning_rate": 3.224668940207089e-06,
+      "loss": 0.78561008,
+      "num_input_tokens_seen": 55713785,
+      "step": 2591,
+      "time_per_iteration": 2.7629168033599854
+    },
+    {
+      "auxiliary_loss_clip": 0.01223197,
+      "auxiliary_loss_mlp": 0.01026789,
+      "balance_loss_clip": 1.04964757,
+      "balance_loss_mlp": 1.01709127,
+      "epoch": 0.3116695725365238,
+      "flos": 26541864120960.0,
+      "grad_norm": 2.278460204213002,
+      "language_loss": 0.86480951,
+      "learning_rate": 3.2240529932655828e-06,
+      "loss": 0.88730937,
+      "num_input_tokens_seen": 55733050,
+      "step": 2592,
+      "time_per_iteration": 2.7364296913146973
+    },
+    {
+      "auxiliary_loss_clip": 0.01216241,
+      "auxiliary_loss_mlp": 0.01029801,
+      "balance_loss_clip": 1.05686212,
+      "balance_loss_mlp": 1.02021706,
+      "epoch": 0.3117898154271629,
+      "flos": 21177600134400.0,
+      "grad_norm": 2.49090018306171,
+      "language_loss": 0.88487554,
+      "learning_rate": 3.223436860636211e-06,
+      "loss": 0.90733594,
+      "num_input_tokens_seen": 55748685,
+      "step": 2593,
+      "time_per_iteration": 3.561450958251953
+    },
+    {
+      "auxiliary_loss_clip": 0.01201522,
+      "auxiliary_loss_mlp": 0.01033272,
+      "balance_loss_clip": 1.05824554,
+      "balance_loss_mlp": 1.02409303,
+      "epoch": 0.31191005831780194,
+      "flos": 27272430840960.0,
+      "grad_norm": 1.6072763706555002,
+      "language_loss": 0.73938203,
+      "learning_rate": 3.2228205424124403e-06,
+      "loss": 0.76172996,
+      "num_input_tokens_seen": 55771840,
+      "step": 2594,
+      "time_per_iteration": 2.6471364498138428
+    },
+    {
+      "auxiliary_loss_clip": 0.01202447,
+      "auxiliary_loss_mlp": 0.01027021,
+      "balance_loss_clip": 1.05270672,
+      "balance_loss_mlp": 1.01858056,
+      "epoch": 0.31203030120844105,
+      "flos": 12963501043200.0,
+      "grad_norm": 2.301937420712949,
+      "language_loss": 0.74716604,
+      "learning_rate": 3.222204038687765e-06,
+      "loss": 0.76946068,
+      "num_input_tokens_seen": 55784975,
+      "step": 2595,
+      "time_per_iteration": 2.6434342861175537
+    },
+    {
+      "auxiliary_loss_clip": 0.01205625,
+      "auxiliary_loss_mlp": 0.01034017,
+      "balance_loss_clip": 1.05671966,
+      "balance_loss_mlp": 1.02506495,
+      "epoch": 0.31215054409908016,
+      "flos": 27562014288000.0,
+      "grad_norm": 1.6044452500082458,
+      "language_loss": 0.87716854,
+      "learning_rate": 3.221587349555709e-06,
+      "loss": 0.89956498,
+      "num_input_tokens_seen": 55805235,
+      "step": 2596,
+      "time_per_iteration": 2.6637680530548096
+    },
+    {
+      "auxiliary_loss_clip": 0.01220165,
+      "auxiliary_loss_mlp": 0.01033322,
+      "balance_loss_clip": 1.05504918,
+      "balance_loss_mlp": 1.02442908,
+      "epoch": 0.3122707869897192,
+      "flos": 21506326427520.0,
+      "grad_norm": 1.7217010971991606,
+      "language_loss": 0.69456041,
+      "learning_rate": 3.2209704751098236e-06,
+      "loss": 0.71709526,
+      "num_input_tokens_seen": 55824265,
+      "step": 2597,
+      "time_per_iteration": 2.686795234680176
+    },
+    {
+      "auxiliary_loss_clip": 0.01223487,
+      "auxiliary_loss_mlp": 0.01034089,
+      "balance_loss_clip": 1.05770206,
+      "balance_loss_mlp": 1.02460027,
+      "epoch": 0.31239102988035833,
+      "flos": 15187017674880.0,
+      "grad_norm": 2.0659115140099384,
+      "language_loss": 0.82854718,
+      "learning_rate": 3.2203534154436875e-06,
+      "loss": 0.85112298,
+      "num_input_tokens_seen": 55838620,
+      "step": 2598,
+      "time_per_iteration": 2.626469612121582
+    },
+    {
+      "auxiliary_loss_clip": 0.01238747,
+      "auxiliary_loss_mlp": 0.01029678,
+      "balance_loss_clip": 1.04805589,
+      "balance_loss_mlp": 1.02032042,
+      "epoch": 0.31251127277099744,
+      "flos": 22053712763520.0,
+      "grad_norm": 1.9493858153123607,
+      "language_loss": 0.75812232,
+      "learning_rate": 3.2197361706509084e-06,
+      "loss": 0.7808066,
+      "num_input_tokens_seen": 55859375,
+      "step": 2599,
+      "time_per_iteration": 2.843463897705078
+    },
+    {
+      "auxiliary_loss_clip": 0.01202579,
+      "auxiliary_loss_mlp": 0.01032889,
+      "balance_loss_clip": 1.0578872,
+      "balance_loss_mlp": 1.02310801,
+      "epoch": 0.3126315156616365,
+      "flos": 15193984913280.0,
+      "grad_norm": 2.695537010363691,
+      "language_loss": 0.83232969,
+      "learning_rate": 3.2191187408251228e-06,
+      "loss": 0.85468435,
+      "num_input_tokens_seen": 55876535,
+      "step": 2600,
+      "time_per_iteration": 2.552968740463257
+    },
+    {
+      "auxiliary_loss_clip": 0.01217152,
+      "auxiliary_loss_mlp": 0.01036305,
+      "balance_loss_clip": 1.05712688,
+      "balance_loss_mlp": 1.02657175,
+      "epoch": 0.3127517585522756,
+      "flos": 18145338831360.0,
+      "grad_norm": 2.468941853856935,
+      "language_loss": 0.78717315,
+      "learning_rate": 3.218501126059993e-06,
+      "loss": 0.80970776,
+      "num_input_tokens_seen": 55891930,
+      "step": 2601,
+      "time_per_iteration": 2.5776922702789307
+    },
+    {
+      "auxiliary_loss_clip": 0.0120796,
+      "auxiliary_loss_mlp": 0.01033,
+      "balance_loss_clip": 1.05358326,
+      "balance_loss_mlp": 1.02377295,
+      "epoch": 0.31287200144291466,
+      "flos": 21908633731200.0,
+      "grad_norm": 1.8199759082850946,
+      "language_loss": 0.81289971,
+      "learning_rate": 3.2178833264492116e-06,
+      "loss": 0.83530933,
+      "num_input_tokens_seen": 55910635,
+      "step": 2602,
+      "time_per_iteration": 2.6831281185150146
+    },
+    {
+      "auxiliary_loss_clip": 0.01217256,
+      "auxiliary_loss_mlp": 0.0104204,
+      "balance_loss_clip": 1.05908477,
+      "balance_loss_mlp": 1.03234875,
+      "epoch": 0.31299224433355377,
+      "flos": 29896997800320.0,
+      "grad_norm": 3.786201839426547,
+      "language_loss": 0.76534688,
+      "learning_rate": 3.217265342086498e-06,
+      "loss": 0.78793979,
+      "num_input_tokens_seen": 55931125,
+      "step": 2603,
+      "time_per_iteration": 2.6939547061920166
+    },
+    {
+      "auxiliary_loss_clip": 0.01231246,
+      "auxiliary_loss_mlp": 0.01380411,
+      "balance_loss_clip": 1.05481541,
+      "balance_loss_mlp": 1.00029218,
+      "epoch": 0.3131124872241929,
+      "flos": 11655886331520.0,
+      "grad_norm": 2.0386061763346763,
+      "language_loss": 0.73199767,
+      "learning_rate": 3.216647173065599e-06,
+      "loss": 0.75811422,
+      "num_input_tokens_seen": 55946590,
+      "step": 2604,
+      "time_per_iteration": 2.7390291690826416
+    },
+    {
+      "auxiliary_loss_clip": 0.0121714,
+      "auxiliary_loss_mlp": 0.01030986,
+      "balance_loss_clip": 1.0574162,
+      "balance_loss_mlp": 1.02211666,
+      "epoch": 0.31323273011483194,
+      "flos": 49848785470080.0,
+      "grad_norm": 1.916379673844605,
+      "language_loss": 0.73757285,
+      "learning_rate": 3.216028819480292e-06,
+      "loss": 0.76005411,
+      "num_input_tokens_seen": 55967930,
+      "step": 2605,
+      "time_per_iteration": 2.9129061698913574
+    },
+    {
+      "auxiliary_loss_clip": 0.0120444,
+      "auxiliary_loss_mlp": 0.01026839,
+      "balance_loss_clip": 1.05436611,
+      "balance_loss_mlp": 1.01826751,
+      "epoch": 0.31335297300547105,
+      "flos": 22601278667520.0,
+      "grad_norm": 1.935249924767552,
+      "language_loss": 0.75919259,
+      "learning_rate": 3.2154102814243793e-06,
+      "loss": 0.78150535,
+      "num_input_tokens_seen": 55987070,
+      "step": 2606,
+      "time_per_iteration": 2.735849142074585
+    },
+    {
+      "auxiliary_loss_clip": 0.01230936,
+      "auxiliary_loss_mlp": 0.01035299,
+      "balance_loss_clip": 1.05449843,
+      "balance_loss_mlp": 1.02653718,
+      "epoch": 0.31347321589611016,
+      "flos": 34710858708480.0,
+      "grad_norm": 2.1855973836737057,
+      "language_loss": 0.67184979,
+      "learning_rate": 3.2147915589916937e-06,
+      "loss": 0.69451213,
+      "num_input_tokens_seen": 56008630,
+      "step": 2607,
+      "time_per_iteration": 2.8345518112182617
+    },
+    {
+      "auxiliary_loss_clip": 0.0120737,
+      "auxiliary_loss_mlp": 0.01034084,
+      "balance_loss_clip": 1.05253506,
+      "balance_loss_mlp": 1.02489293,
+      "epoch": 0.3135934587867492,
+      "flos": 19755789108480.0,
+      "grad_norm": 7.5469667419875845,
+      "language_loss": 0.82583565,
+      "learning_rate": 3.2141726522760938e-06,
+      "loss": 0.84825015,
+      "num_input_tokens_seen": 56026690,
+      "step": 2608,
+      "time_per_iteration": 2.6805386543273926
+    },
+    {
+      "auxiliary_loss_clip": 0.01109583,
+      "auxiliary_loss_mlp": 0.01002786,
+      "balance_loss_clip": 1.02581656,
+      "balance_loss_mlp": 1.00059271,
+      "epoch": 0.3137137016773883,
+      "flos": 65815535583360.0,
+      "grad_norm": 0.7001121695674196,
+      "language_loss": 0.5263527,
+      "learning_rate": 3.213553561371469e-06,
+      "loss": 0.54747641,
+      "num_input_tokens_seen": 56090425,
+      "step": 2609,
+      "time_per_iteration": 3.314582347869873
+    },
+    {
+      "auxiliary_loss_clip": 0.01238386,
+      "auxiliary_loss_mlp": 0.01035037,
+      "balance_loss_clip": 1.05675936,
+      "balance_loss_mlp": 1.02645421,
+      "epoch": 0.31383394456802743,
+      "flos": 16252739222400.0,
+      "grad_norm": 2.086069570261416,
+      "language_loss": 0.95932651,
+      "learning_rate": 3.212934286371733e-06,
+      "loss": 0.98206079,
+      "num_input_tokens_seen": 56107135,
+      "step": 2610,
+      "time_per_iteration": 2.7197866439819336
+    },
+    {
+      "auxiliary_loss_clip": 0.0120921,
+      "auxiliary_loss_mlp": 0.01032483,
+      "balance_loss_clip": 1.05771482,
+      "balance_loss_mlp": 1.0227735,
+      "epoch": 0.3139541874586665,
+      "flos": 38795517613440.0,
+      "grad_norm": 2.272787567879851,
+      "language_loss": 0.8295275,
+      "learning_rate": 3.2123148273708304e-06,
+      "loss": 0.85194445,
+      "num_input_tokens_seen": 56127325,
+      "step": 2611,
+      "time_per_iteration": 2.8066909313201904
+    },
+    {
+      "auxiliary_loss_clip": 0.01202706,
+      "auxiliary_loss_mlp": 0.01035126,
+      "balance_loss_clip": 1.06101894,
+      "balance_loss_mlp": 1.02578056,
+      "epoch": 0.3140744303493056,
+      "flos": 25046328430080.0,
+      "grad_norm": 2.053169019987239,
+      "language_loss": 0.76734024,
+      "learning_rate": 3.211695184462733e-06,
+      "loss": 0.78971857,
+      "num_input_tokens_seen": 56148500,
+      "step": 2612,
+      "time_per_iteration": 3.579976797103882
+    },
+    {
+      "auxiliary_loss_clip": 0.01131412,
+      "auxiliary_loss_mlp": 0.01002325,
+      "balance_loss_clip": 1.02256405,
+      "balance_loss_mlp": 1.00019169,
+      "epoch": 0.3141946732399447,
+      "flos": 72504254782080.0,
+      "grad_norm": 0.8842622011306873,
+      "language_loss": 0.60485369,
+      "learning_rate": 3.2110753577414383e-06,
+      "loss": 0.62619102,
+      "num_input_tokens_seen": 56210080,
+      "step": 2613,
+      "time_per_iteration": 4.170072317123413
+    },
+    {
+      "auxiliary_loss_clip": 0.01222833,
+      "auxiliary_loss_mlp": 0.01030079,
+      "balance_loss_clip": 1.05630422,
+      "balance_loss_mlp": 1.02060819,
+      "epoch": 0.31431491613058377,
+      "flos": 19239788280960.0,
+      "grad_norm": 1.7676710845779906,
+      "language_loss": 0.79077387,
+      "learning_rate": 3.2104553473009757e-06,
+      "loss": 0.81330299,
+      "num_input_tokens_seen": 56228200,
+      "step": 2614,
+      "time_per_iteration": 3.5293519496917725
+    },
+    {
+      "auxiliary_loss_clip": 0.01233008,
+      "auxiliary_loss_mlp": 0.01028054,
+      "balance_loss_clip": 1.05278182,
+      "balance_loss_mlp": 1.01840985,
+      "epoch": 0.3144351590212229,
+      "flos": 36210596290560.0,
+      "grad_norm": 1.82546710198772,
+      "language_loss": 0.67628306,
+      "learning_rate": 3.209835153235399e-06,
+      "loss": 0.69889367,
+      "num_input_tokens_seen": 56249755,
+      "step": 2615,
+      "time_per_iteration": 2.8105220794677734
+    },
+    {
+      "auxiliary_loss_clip": 0.01212969,
+      "auxiliary_loss_mlp": 0.01029463,
+      "balance_loss_clip": 1.05210638,
+      "balance_loss_mlp": 1.02000356,
+      "epoch": 0.314555401911862,
+      "flos": 18551740285440.0,
+      "grad_norm": 1.9270186700233978,
+      "language_loss": 0.6814943,
+      "learning_rate": 3.2092147756387916e-06,
+      "loss": 0.70391858,
+      "num_input_tokens_seen": 56270080,
+      "step": 2616,
+      "time_per_iteration": 2.7639989852905273
+    },
+    {
+      "auxiliary_loss_clip": 0.01209952,
+      "auxiliary_loss_mlp": 0.0103179,
+      "balance_loss_clip": 1.05311465,
+      "balance_loss_mlp": 1.02273035,
+      "epoch": 0.31467564480250104,
+      "flos": 16362877299840.0,
+      "grad_norm": 2.6367142992696406,
+      "language_loss": 0.83206928,
+      "learning_rate": 3.208594214605264e-06,
+      "loss": 0.8544867,
+      "num_input_tokens_seen": 56288625,
+      "step": 2617,
+      "time_per_iteration": 2.698126792907715
+    },
+    {
+      "auxiliary_loss_clip": 0.0120614,
+      "auxiliary_loss_mlp": 0.01027716,
+      "balance_loss_clip": 1.05384564,
+      "balance_loss_mlp": 1.01888847,
+      "epoch": 0.31479588769314015,
+      "flos": 21652375127040.0,
+      "grad_norm": 2.2686383162399846,
+      "language_loss": 0.77292013,
+      "learning_rate": 3.2079734702289553e-06,
+      "loss": 0.7952587,
+      "num_input_tokens_seen": 56307520,
+      "step": 2618,
+      "time_per_iteration": 2.6815884113311768
+    },
+    {
+      "auxiliary_loss_clip": 0.0110253,
+      "auxiliary_loss_mlp": 0.01375598,
+      "balance_loss_clip": 1.0222249,
+      "balance_loss_mlp": 1.00018013,
+      "epoch": 0.3149161305837792,
+      "flos": 66051072040320.0,
+      "grad_norm": 0.807845405496995,
+      "language_loss": 0.6046803,
+      "learning_rate": 3.207352542604031e-06,
+      "loss": 0.62946153,
+      "num_input_tokens_seen": 56369855,
+      "step": 2619,
+      "time_per_iteration": 4.162853002548218
+    },
+    {
+      "auxiliary_loss_clip": 0.01212569,
+      "auxiliary_loss_mlp": 0.0102918,
+      "balance_loss_clip": 1.05075276,
+      "balance_loss_mlp": 1.02060246,
+      "epoch": 0.3150363734744183,
+      "flos": 28987201192320.0,
+      "grad_norm": 1.5852335430660496,
+      "language_loss": 0.78495693,
+      "learning_rate": 3.2067314318246864e-06,
+      "loss": 0.80737436,
+      "num_input_tokens_seen": 56390570,
+      "step": 2620,
+      "time_per_iteration": 2.7606773376464844
+    },
+    {
+      "auxiliary_loss_clip": 0.0122635,
+      "auxiliary_loss_mlp": 0.01033229,
+      "balance_loss_clip": 1.05564785,
+      "balance_loss_mlp": 1.02391875,
+      "epoch": 0.31515661636505743,
+      "flos": 27636600879360.0,
+      "grad_norm": 1.8393626087479193,
+      "language_loss": 0.77394009,
+      "learning_rate": 3.206110137985143e-06,
+      "loss": 0.79653585,
+      "num_input_tokens_seen": 56410775,
+      "step": 2621,
+      "time_per_iteration": 2.7334351539611816
+    },
+    {
+      "auxiliary_loss_clip": 0.01211966,
+      "auxiliary_loss_mlp": 0.01035113,
+      "balance_loss_clip": 1.05099726,
+      "balance_loss_mlp": 1.0258919,
+      "epoch": 0.3152768592556965,
+      "flos": 24605632465920.0,
+      "grad_norm": 1.897511382311803,
+      "language_loss": 0.92431897,
+      "learning_rate": 3.2054886611796505e-06,
+      "loss": 0.94678974,
+      "num_input_tokens_seen": 56429770,
+      "step": 2622,
+      "time_per_iteration": 2.8340442180633545
+    },
+    {
+      "auxiliary_loss_clip": 0.01095209,
+      "auxiliary_loss_mlp": 0.01006973,
+      "balance_loss_clip": 1.02455056,
+      "balance_loss_mlp": 1.00482738,
+      "epoch": 0.3153971021463356,
+      "flos": 68476908026880.0,
+      "grad_norm": 0.8831720207858502,
+      "language_loss": 0.63589573,
+      "learning_rate": 3.204867001502487e-06,
+      "loss": 0.65691757,
+      "num_input_tokens_seen": 56488425,
+      "step": 2623,
+      "time_per_iteration": 3.1527199745178223
+    },
+    {
+      "auxiliary_loss_clip": 0.01201772,
+      "auxiliary_loss_mlp": 0.01031784,
+      "balance_loss_clip": 1.05962181,
+      "balance_loss_mlp": 1.02255082,
+      "epoch": 0.3155173450369747,
+      "flos": 25593714766080.0,
+      "grad_norm": 2.0197743073716303,
+      "language_loss": 0.80451709,
+      "learning_rate": 3.2042451590479567e-06,
+      "loss": 0.82685256,
+      "num_input_tokens_seen": 56508940,
+      "step": 2624,
+      "time_per_iteration": 2.7017157077789307
+    },
+    {
+      "auxiliary_loss_clip": 0.0120221,
+      "auxiliary_loss_mlp": 0.01030159,
+      "balance_loss_clip": 1.06123877,
+      "balance_loss_mlp": 1.0211345,
+      "epoch": 0.31563758792761376,
+      "flos": 24309333175680.0,
+      "grad_norm": 1.7465499328079095,
+      "language_loss": 0.86821669,
+      "learning_rate": 3.203623133910394e-06,
+      "loss": 0.89054042,
+      "num_input_tokens_seen": 56527245,
+      "step": 2625,
+      "time_per_iteration": 2.6447553634643555
+    },
+    {
+      "auxiliary_loss_clip": 0.01246417,
+      "auxiliary_loss_mlp": 0.0102702,
+      "balance_loss_clip": 1.05096674,
+      "balance_loss_mlp": 1.01766205,
+      "epoch": 0.31575783081825287,
+      "flos": 31903865550720.0,
+      "grad_norm": 2.598107793865589,
+      "language_loss": 0.77455449,
+      "learning_rate": 3.203000926184158e-06,
+      "loss": 0.79728889,
+      "num_input_tokens_seen": 56546170,
+      "step": 2626,
+      "time_per_iteration": 2.8976783752441406
+    },
+    {
+      "auxiliary_loss_clip": 0.01200282,
+      "auxiliary_loss_mlp": 0.01029174,
+      "balance_loss_clip": 1.05954504,
+      "balance_loss_mlp": 1.02095461,
+      "epoch": 0.315878073708892,
+      "flos": 30810960385920.0,
+      "grad_norm": 1.74054333200614,
+      "language_loss": 0.77521342,
+      "learning_rate": 3.202378535963639e-06,
+      "loss": 0.797508,
+      "num_input_tokens_seen": 56567085,
+      "step": 2627,
+      "time_per_iteration": 2.637019395828247
+    },
+    {
+      "auxiliary_loss_clip": 0.01205768,
+      "auxiliary_loss_mlp": 0.01380229,
+      "balance_loss_clip": 1.05286646,
+      "balance_loss_mlp": 1.00023603,
+      "epoch": 0.31599831659953104,
+      "flos": 22200264253440.0,
+      "grad_norm": 1.7881865087895568,
+      "language_loss": 0.83479047,
+      "learning_rate": 3.2017559633432516e-06,
+      "loss": 0.86065042,
+      "num_input_tokens_seen": 56586715,
+      "step": 2628,
+      "time_per_iteration": 2.7229204177856445
+    },
+    {
+      "auxiliary_loss_clip": 0.01226422,
+      "auxiliary_loss_mlp": 0.01033227,
+      "balance_loss_clip": 1.05715454,
+      "balance_loss_mlp": 1.02348733,
+      "epoch": 0.31611855949017015,
+      "flos": 25593463370880.0,
+      "grad_norm": 1.9428609151005563,
+      "language_loss": 0.66081244,
+      "learning_rate": 3.2011332084174398e-06,
+      "loss": 0.68340892,
+      "num_input_tokens_seen": 56607585,
+      "step": 2629,
+      "time_per_iteration": 2.6577529907226562
+    },
+    {
+      "auxiliary_loss_clip": 0.01210389,
+      "auxiliary_loss_mlp": 0.01034244,
+      "balance_loss_clip": 1.05985928,
+      "balance_loss_mlp": 1.02482605,
+      "epoch": 0.31623880238080926,
+      "flos": 20594087694720.0,
+      "grad_norm": 1.7734638485656633,
+      "language_loss": 0.8932054,
+      "learning_rate": 3.2005102712806756e-06,
+      "loss": 0.91565174,
+      "num_input_tokens_seen": 56626415,
+      "step": 2630,
+      "time_per_iteration": 2.6961119174957275
+    },
+    {
+      "auxiliary_loss_clip": 0.01217008,
+      "auxiliary_loss_mlp": 0.0103131,
+      "balance_loss_clip": 1.06029344,
+      "balance_loss_mlp": 1.02154124,
+      "epoch": 0.3163590452714483,
+      "flos": 12784917600000.0,
+      "grad_norm": 2.016804630195112,
+      "language_loss": 0.73072779,
+      "learning_rate": 3.1998871520274575e-06,
+      "loss": 0.75321102,
+      "num_input_tokens_seen": 56641750,
+      "step": 2631,
+      "time_per_iteration": 2.7197606563568115
+    },
+    {
+      "auxiliary_loss_clip": 0.01214297,
+      "auxiliary_loss_mlp": 0.01032585,
+      "balance_loss_clip": 1.05216944,
+      "balance_loss_mlp": 1.02329278,
+      "epoch": 0.3164792881620874,
+      "flos": 23041292273280.0,
+      "grad_norm": 1.658102025435322,
+      "language_loss": 0.85035694,
+      "learning_rate": 3.199263850752312e-06,
+      "loss": 0.87282574,
+      "num_input_tokens_seen": 56662585,
+      "step": 2632,
+      "time_per_iteration": 2.6777100563049316
+    },
+    {
+      "auxiliary_loss_clip": 0.01213204,
+      "auxiliary_loss_mlp": 0.01033578,
+      "balance_loss_clip": 1.05858409,
+      "balance_loss_mlp": 1.0248518,
+      "epoch": 0.31659953105272653,
+      "flos": 18296271780480.0,
+      "grad_norm": 2.443093821303859,
+      "language_loss": 0.85042566,
+      "learning_rate": 3.198640367549795e-06,
+      "loss": 0.87289345,
+      "num_input_tokens_seen": 56681480,
+      "step": 2633,
+      "time_per_iteration": 2.6756591796875
+    },
+    {
+      "auxiliary_loss_clip": 0.0121085,
+      "auxiliary_loss_mlp": 0.01379585,
+      "balance_loss_clip": 1.05645466,
+      "balance_loss_mlp": 1.00018287,
+      "epoch": 0.3167197739433656,
+      "flos": 25703421880320.0,
+      "grad_norm": 1.6815996061091838,
+      "language_loss": 0.85829943,
+      "learning_rate": 3.198016702514487e-06,
+      "loss": 0.88420379,
+      "num_input_tokens_seen": 56701760,
+      "step": 2634,
+      "time_per_iteration": 2.7108500003814697
+    },
+    {
+      "auxiliary_loss_clip": 0.01201321,
+      "auxiliary_loss_mlp": 0.0103299,
+      "balance_loss_clip": 1.05978978,
+      "balance_loss_mlp": 1.02429342,
+      "epoch": 0.3168400168340047,
+      "flos": 23546016230400.0,
+      "grad_norm": 1.656485086430437,
+      "language_loss": 0.84395397,
+      "learning_rate": 3.1973928557409972e-06,
+      "loss": 0.86629707,
+      "num_input_tokens_seen": 56719800,
+      "step": 2635,
+      "time_per_iteration": 2.66949725151062
+    },
+    {
+      "auxiliary_loss_clip": 0.0119911,
+      "auxiliary_loss_mlp": 0.0103347,
+      "balance_loss_clip": 1.05912852,
+      "balance_loss_mlp": 1.02508974,
+      "epoch": 0.31696025972464376,
+      "flos": 28366449327360.0,
+      "grad_norm": 2.10245841250099,
+      "language_loss": 0.71504223,
+      "learning_rate": 3.1967688273239636e-06,
+      "loss": 0.73736805,
+      "num_input_tokens_seen": 56739605,
+      "step": 2636,
+      "time_per_iteration": 2.645500659942627
+    },
+    {
+      "auxiliary_loss_clip": 0.01224961,
+      "auxiliary_loss_mlp": 0.01029104,
+      "balance_loss_clip": 1.05456388,
+      "balance_loss_mlp": 1.02015734,
+      "epoch": 0.31708050261528287,
+      "flos": 16399111144320.0,
+      "grad_norm": 1.7179115535211793,
+      "language_loss": 0.82274473,
+      "learning_rate": 3.1961446173580503e-06,
+      "loss": 0.84528542,
+      "num_input_tokens_seen": 56756545,
+      "step": 2637,
+      "time_per_iteration": 2.7697694301605225
+    },
+    {
+      "auxiliary_loss_clip": 0.01215514,
+      "auxiliary_loss_mlp": 0.01032143,
+      "balance_loss_clip": 1.05745506,
+      "balance_loss_mlp": 1.02295828,
+      "epoch": 0.317200745505922,
+      "flos": 26212347728640.0,
+      "grad_norm": 1.6425834300353908,
+      "language_loss": 0.77553231,
+      "learning_rate": 3.1955202259379502e-06,
+      "loss": 0.79800892,
+      "num_input_tokens_seen": 56778275,
+      "step": 2638,
+      "time_per_iteration": 2.7267417907714844
+    },
+    {
+      "auxiliary_loss_clip": 0.01204028,
+      "auxiliary_loss_mlp": 0.01032195,
+      "balance_loss_clip": 1.05502343,
+      "balance_loss_mlp": 1.02320623,
+      "epoch": 0.31732098839656103,
+      "flos": 31350876693120.0,
+      "grad_norm": 1.6932266829198575,
+      "language_loss": 0.83064055,
+      "learning_rate": 3.194895653158381e-06,
+      "loss": 0.85300279,
+      "num_input_tokens_seen": 56797215,
+      "step": 2639,
+      "time_per_iteration": 5.799081325531006
+    },
+    {
+      "auxiliary_loss_clip": 0.01090848,
+      "auxiliary_loss_mlp": 0.01003139,
+      "balance_loss_clip": 1.02125931,
+      "balance_loss_mlp": 1.00105274,
+      "epoch": 0.31744123128720014,
+      "flos": 58989024835200.0,
+      "grad_norm": 0.767031082318444,
+      "language_loss": 0.55536866,
+      "learning_rate": 3.194270899114093e-06,
+      "loss": 0.57630861,
+      "num_input_tokens_seen": 56863010,
+      "step": 2640,
+      "time_per_iteration": 3.2995851039886475
+    },
+    {
+      "auxiliary_loss_clip": 0.01213999,
+      "auxiliary_loss_mlp": 0.01034589,
+      "balance_loss_clip": 1.05779386,
+      "balance_loss_mlp": 1.02463555,
+      "epoch": 0.31756147417783925,
+      "flos": 17417573372160.0,
+      "grad_norm": 1.8093158075804179,
+      "language_loss": 0.82247925,
+      "learning_rate": 3.193645963899858e-06,
+      "loss": 0.8449651,
+      "num_input_tokens_seen": 56880625,
+      "step": 2641,
+      "time_per_iteration": 2.6724536418914795
+    },
+    {
+      "auxiliary_loss_clip": 0.01210104,
+      "auxiliary_loss_mlp": 0.01031754,
+      "balance_loss_clip": 1.05518794,
+      "balance_loss_mlp": 1.02247345,
+      "epoch": 0.3176817170684783,
+      "flos": 25481673267840.0,
+      "grad_norm": 1.823445003887561,
+      "language_loss": 0.84120291,
+      "learning_rate": 3.193020847610479e-06,
+      "loss": 0.86362147,
+      "num_input_tokens_seen": 56900945,
+      "step": 2642,
+      "time_per_iteration": 2.6846184730529785
+    },
+    {
+      "auxiliary_loss_clip": 0.01210727,
+      "auxiliary_loss_mlp": 0.01040263,
+      "balance_loss_clip": 1.05720377,
+      "balance_loss_mlp": 1.03011882,
+      "epoch": 0.3178019599591174,
+      "flos": 24972603765120.0,
+      "grad_norm": 2.730742309175087,
+      "language_loss": 0.71246403,
+      "learning_rate": 3.192395550340787e-06,
+      "loss": 0.73497391,
+      "num_input_tokens_seen": 56918895,
+      "step": 2643,
+      "time_per_iteration": 2.666456699371338
+    },
+    {
+      "auxiliary_loss_clip": 0.01206388,
+      "auxiliary_loss_mlp": 0.01033456,
+      "balance_loss_clip": 1.05717015,
+      "balance_loss_mlp": 1.02438974,
+      "epoch": 0.31792220284975653,
+      "flos": 12422220019200.0,
+      "grad_norm": 2.1175203284935566,
+      "language_loss": 0.77279115,
+      "learning_rate": 3.191770072185638e-06,
+      "loss": 0.79518962,
+      "num_input_tokens_seen": 56935890,
+      "step": 2644,
+      "time_per_iteration": 3.4645445346832275
+    },
+    {
+      "auxiliary_loss_clip": 0.01206062,
+      "auxiliary_loss_mlp": 0.0103083,
+      "balance_loss_clip": 1.05707693,
+      "balance_loss_mlp": 1.02242017,
+      "epoch": 0.3180424457403956,
+      "flos": 15485759089920.0,
+      "grad_norm": 2.9069581822306185,
+      "language_loss": 0.72586894,
+      "learning_rate": 3.191144413239916e-06,
+      "loss": 0.74823785,
+      "num_input_tokens_seen": 56952460,
+      "step": 2645,
+      "time_per_iteration": 2.6227097511291504
+    },
+    {
+      "auxiliary_loss_clip": 0.01218023,
+      "auxiliary_loss_mlp": 0.01034167,
+      "balance_loss_clip": 1.05668056,
+      "balance_loss_mlp": 1.02519083,
+      "epoch": 0.3181626886310347,
+      "flos": 26174964648960.0,
+      "grad_norm": 2.251501080056513,
+      "language_loss": 0.88178623,
+      "learning_rate": 3.190518573598534e-06,
+      "loss": 0.90430814,
+      "num_input_tokens_seen": 56969065,
+      "step": 2646,
+      "time_per_iteration": 2.7080023288726807
+    },
+    {
+      "auxiliary_loss_clip": 0.01229579,
+      "auxiliary_loss_mlp": 0.01037045,
+      "balance_loss_clip": 1.0529964,
+      "balance_loss_mlp": 1.02791953,
+      "epoch": 0.3182829315216738,
+      "flos": 25483109811840.0,
+      "grad_norm": 1.4314170134488031,
+      "language_loss": 0.7747224,
+      "learning_rate": 3.1898925533564308e-06,
+      "loss": 0.79738861,
+      "num_input_tokens_seen": 56990535,
+      "step": 2647,
+      "time_per_iteration": 2.7703826427459717
+    },
+    {
+      "auxiliary_loss_clip": 0.01212734,
+      "auxiliary_loss_mlp": 0.01035824,
+      "balance_loss_clip": 1.05217969,
+      "balance_loss_mlp": 1.0269196,
+      "epoch": 0.31840317441231286,
+      "flos": 18113701927680.0,
+      "grad_norm": 1.9435497007760945,
+      "language_loss": 0.63769782,
+      "learning_rate": 3.1892663526085733e-06,
+      "loss": 0.66018337,
+      "num_input_tokens_seen": 57008910,
+      "step": 2648,
+      "time_per_iteration": 2.770443916320801
+    },
+    {
+      "auxiliary_loss_clip": 0.01089107,
+      "auxiliary_loss_mlp": 0.00999046,
+      "balance_loss_clip": 1.01981068,
+      "balance_loss_mlp": 0.99704379,
+      "epoch": 0.31852341730295197,
+      "flos": 64741948957440.0,
+      "grad_norm": 0.750290127016887,
+      "language_loss": 0.56919992,
+      "learning_rate": 3.188639971449956e-06,
+      "loss": 0.59008145,
+      "num_input_tokens_seen": 57074960,
+      "step": 2649,
+      "time_per_iteration": 3.185398817062378
+    },
+    {
+      "auxiliary_loss_clip": 0.01203362,
+      "auxiliary_loss_mlp": 0.01029542,
+      "balance_loss_clip": 1.0606029,
+      "balance_loss_mlp": 1.02035689,
+      "epoch": 0.318643660193591,
+      "flos": 20668135582080.0,
+      "grad_norm": 2.2732695817296436,
+      "language_loss": 0.72481191,
+      "learning_rate": 3.1880134099756e-06,
+      "loss": 0.747141,
+      "num_input_tokens_seen": 57094595,
+      "step": 2650,
+      "time_per_iteration": 2.656658172607422
+    },
+    {
+      "auxiliary_loss_clip": 0.01204106,
+      "auxiliary_loss_mlp": 0.01035229,
+      "balance_loss_clip": 1.05411887,
+      "balance_loss_mlp": 1.02647352,
+      "epoch": 0.31876390308423014,
+      "flos": 26943345411840.0,
+      "grad_norm": 1.7345738188907802,
+      "language_loss": 0.69541323,
+      "learning_rate": 3.1873866682805535e-06,
+      "loss": 0.71780658,
+      "num_input_tokens_seen": 57115290,
+      "step": 2651,
+      "time_per_iteration": 2.6791272163391113
+    },
+    {
+      "auxiliary_loss_clip": 0.01220158,
+      "auxiliary_loss_mlp": 0.01031053,
+      "balance_loss_clip": 1.05472362,
+      "balance_loss_mlp": 1.02148676,
+      "epoch": 0.31888414597486925,
+      "flos": 18041916597120.0,
+      "grad_norm": 1.8309139712465359,
+      "language_loss": 0.88751811,
+      "learning_rate": 3.186759746459894e-06,
+      "loss": 0.91003025,
+      "num_input_tokens_seen": 57134400,
+      "step": 2652,
+      "time_per_iteration": 2.7693748474121094
+    },
+    {
+      "auxiliary_loss_clip": 0.01214246,
+      "auxiliary_loss_mlp": 0.01028588,
+      "balance_loss_clip": 1.05390251,
+      "balance_loss_mlp": 1.01993978,
+      "epoch": 0.3190043888655083,
+      "flos": 25149319701120.0,
+      "grad_norm": 1.7276389830993057,
+      "language_loss": 0.79253078,
+      "learning_rate": 3.1861326446087246e-06,
+      "loss": 0.81495917,
+      "num_input_tokens_seen": 57153140,
+      "step": 2653,
+      "time_per_iteration": 2.674635410308838
+    },
+    {
+      "auxiliary_loss_clip": 0.01213471,
+      "auxiliary_loss_mlp": 0.01036728,
+      "balance_loss_clip": 1.05788898,
+      "balance_loss_mlp": 1.02704835,
+      "epoch": 0.3191246317561474,
+      "flos": 22053892331520.0,
+      "grad_norm": 2.5592035949429692,
+      "language_loss": 0.71609169,
+      "learning_rate": 3.1855053628221763e-06,
+      "loss": 0.7385937,
+      "num_input_tokens_seen": 57172395,
+      "step": 2654,
+      "time_per_iteration": 2.6342642307281494
+    },
+    {
+      "auxiliary_loss_clip": 0.01212276,
+      "auxiliary_loss_mlp": 0.01035133,
+      "balance_loss_clip": 1.04987383,
+      "balance_loss_mlp": 1.02551901,
+      "epoch": 0.3192448746467865,
+      "flos": 14901815687040.0,
+      "grad_norm": 2.8831623105121014,
+      "language_loss": 0.90098548,
+      "learning_rate": 3.184877901195407e-06,
+      "loss": 0.92345953,
+      "num_input_tokens_seen": 57189090,
+      "step": 2655,
+      "time_per_iteration": 2.6442697048187256
+    },
+    {
+      "auxiliary_loss_clip": 0.01122523,
+      "auxiliary_loss_mlp": 0.0100535,
+      "balance_loss_clip": 1.03352523,
+      "balance_loss_mlp": 1.0037291,
+      "epoch": 0.3193651175374256,
+      "flos": 67234832657280.0,
+      "grad_norm": 0.8876539511067907,
+      "language_loss": 0.62773597,
+      "learning_rate": 3.184250259823602e-06,
+      "loss": 0.64901471,
+      "num_input_tokens_seen": 57251620,
+      "step": 2656,
+      "time_per_iteration": 3.323624610900879
+    },
+    {
+      "auxiliary_loss_clip": 0.01229536,
+      "auxiliary_loss_mlp": 0.01035984,
+      "balance_loss_clip": 1.05662024,
+      "balance_loss_mlp": 1.02607775,
+      "epoch": 0.3194853604280647,
+      "flos": 12233077977600.0,
+      "grad_norm": 2.3036548469891063,
+      "language_loss": 0.82336175,
+      "learning_rate": 3.183622438801974e-06,
+      "loss": 0.84601694,
+      "num_input_tokens_seen": 57266910,
+      "step": 2657,
+      "time_per_iteration": 2.7602076530456543
+    },
+    {
+      "auxiliary_loss_clip": 0.01204177,
+      "auxiliary_loss_mlp": 0.01032175,
+      "balance_loss_clip": 1.06345618,
+      "balance_loss_mlp": 1.02299023,
+      "epoch": 0.3196056033187038,
+      "flos": 14939917038720.0,
+      "grad_norm": 1.7166173689267423,
+      "language_loss": 0.75279123,
+      "learning_rate": 3.1829944382257637e-06,
+      "loss": 0.77515477,
+      "num_input_tokens_seen": 57285040,
+      "step": 2658,
+      "time_per_iteration": 2.5716419219970703
+    },
+    {
+      "auxiliary_loss_clip": 0.01207478,
+      "auxiliary_loss_mlp": 0.01031677,
+      "balance_loss_clip": 1.0592258,
+      "balance_loss_mlp": 1.02324891,
+      "epoch": 0.31972584620934286,
+      "flos": 23768878164480.0,
+      "grad_norm": 2.234588531213843,
+      "language_loss": 0.81506014,
+      "learning_rate": 3.1823662581902373e-06,
+      "loss": 0.8374517,
+      "num_input_tokens_seen": 57302725,
+      "step": 2659,
+      "time_per_iteration": 2.6786935329437256
+    },
+    {
+      "auxiliary_loss_clip": 0.01208355,
+      "auxiliary_loss_mlp": 0.01033869,
+      "balance_loss_clip": 1.04970503,
+      "balance_loss_mlp": 1.02486324,
+      "epoch": 0.31984608909998197,
+      "flos": 21251540280960.0,
+      "grad_norm": 4.583995479813596,
+      "language_loss": 0.7485714,
+      "learning_rate": 3.1817378987906896e-06,
+      "loss": 0.77099365,
+      "num_input_tokens_seen": 57322230,
+      "step": 2660,
+      "time_per_iteration": 2.7028541564941406
+    },
+    {
+      "auxiliary_loss_clip": 0.01227589,
+      "auxiliary_loss_mlp": 0.01031468,
+      "balance_loss_clip": 1.05420709,
+      "balance_loss_mlp": 1.02191329,
+      "epoch": 0.3199663319906211,
+      "flos": 18296235866880.0,
+      "grad_norm": 2.049079708621194,
+      "language_loss": 0.79619396,
+      "learning_rate": 3.181109360122442e-06,
+      "loss": 0.81878459,
+      "num_input_tokens_seen": 57339820,
+      "step": 2661,
+      "time_per_iteration": 2.7935941219329834
+    },
+    {
+      "auxiliary_loss_clip": 0.01220981,
+      "auxiliary_loss_mlp": 0.0103128,
+      "balance_loss_clip": 1.05123079,
+      "balance_loss_mlp": 1.02219021,
+      "epoch": 0.32008657488126013,
+      "flos": 18733627779840.0,
+      "grad_norm": 2.228445738772542,
+      "language_loss": 0.78198838,
+      "learning_rate": 3.1804806422808445e-06,
+      "loss": 0.80451095,
+      "num_input_tokens_seen": 57356955,
+      "step": 2662,
+      "time_per_iteration": 2.6412177085876465
+    },
+    {
+      "auxiliary_loss_clip": 0.01207004,
+      "auxiliary_loss_mlp": 0.01035784,
+      "balance_loss_clip": 1.0541358,
+      "balance_loss_mlp": 1.02649212,
+      "epoch": 0.32020681777189924,
+      "flos": 20595344670720.0,
+      "grad_norm": 1.5713846699962173,
+      "language_loss": 0.73036021,
+      "learning_rate": 3.1798517453612714e-06,
+      "loss": 0.75278807,
+      "num_input_tokens_seen": 57376760,
+      "step": 2663,
+      "time_per_iteration": 2.718282699584961
+    },
+    {
+      "auxiliary_loss_clip": 0.01209194,
+      "auxiliary_loss_mlp": 0.01038885,
+      "balance_loss_clip": 1.06058371,
+      "balance_loss_mlp": 1.03009927,
+      "epoch": 0.32032706066253835,
+      "flos": 35261692750080.0,
+      "grad_norm": 1.6352164097528306,
+      "language_loss": 0.7501545,
+      "learning_rate": 3.1792226694591265e-06,
+      "loss": 0.77263522,
+      "num_input_tokens_seen": 57398145,
+      "step": 2664,
+      "time_per_iteration": 3.742324113845825
+    },
+    {
+      "auxiliary_loss_clip": 0.01221741,
+      "auxiliary_loss_mlp": 0.01037531,
+      "balance_loss_clip": 1.05372143,
+      "balance_loss_mlp": 1.02813172,
+      "epoch": 0.3204473035531774,
+      "flos": 15304230731520.0,
+      "grad_norm": 1.8356078527986548,
+      "language_loss": 0.80061388,
+      "learning_rate": 3.178593414669841e-06,
+      "loss": 0.82320654,
+      "num_input_tokens_seen": 57416730,
+      "step": 2665,
+      "time_per_iteration": 4.528234243392944
+    },
+    {
+      "auxiliary_loss_clip": 0.01213608,
+      "auxiliary_loss_mlp": 0.01030924,
+      "balance_loss_clip": 1.0607059,
+      "balance_loss_mlp": 1.02181041,
+      "epoch": 0.3205675464438165,
+      "flos": 24462564595200.0,
+      "grad_norm": 2.1350411010945476,
+      "language_loss": 0.70966649,
+      "learning_rate": 3.1779639810888707e-06,
+      "loss": 0.73211181,
+      "num_input_tokens_seen": 57436325,
+      "step": 2666,
+      "time_per_iteration": 2.6200153827667236
+    },
+    {
+      "auxiliary_loss_clip": 0.01207863,
+      "auxiliary_loss_mlp": 0.01033853,
+      "balance_loss_clip": 1.06034756,
+      "balance_loss_mlp": 1.02494824,
+      "epoch": 0.3206877893344556,
+      "flos": 22456235548800.0,
+      "grad_norm": 1.9088754389624256,
+      "language_loss": 0.76428246,
+      "learning_rate": 3.1773343688117013e-06,
+      "loss": 0.78669965,
+      "num_input_tokens_seen": 57457235,
+      "step": 2667,
+      "time_per_iteration": 2.666962146759033
+    },
+    {
+      "auxiliary_loss_clip": 0.01217015,
+      "auxiliary_loss_mlp": 0.01379906,
+      "balance_loss_clip": 1.0548352,
+      "balance_loss_mlp": 1.00038302,
+      "epoch": 0.3208080322250947,
+      "flos": 20412236113920.0,
+      "grad_norm": 3.0168892276250165,
+      "language_loss": 0.8388623,
+      "learning_rate": 3.1767045779338445e-06,
+      "loss": 0.86483151,
+      "num_input_tokens_seen": 57474895,
+      "step": 2668,
+      "time_per_iteration": 2.675658941268921
+    },
+    {
+      "auxiliary_loss_clip": 0.01206714,
+      "auxiliary_loss_mlp": 0.01027253,
+      "balance_loss_clip": 1.05637264,
+      "balance_loss_mlp": 1.01889634,
+      "epoch": 0.3209282751157338,
+      "flos": 21762118154880.0,
+      "grad_norm": 4.362797181395253,
+      "language_loss": 0.91182959,
+      "learning_rate": 3.176074608550839e-06,
+      "loss": 0.93416929,
+      "num_input_tokens_seen": 57490715,
+      "step": 2669,
+      "time_per_iteration": 2.6522724628448486
+    },
+    {
+      "auxiliary_loss_clip": 0.01241573,
+      "auxiliary_loss_mlp": 0.01034312,
+      "balance_loss_clip": 1.05242658,
+      "balance_loss_mlp": 1.02504349,
+      "epoch": 0.32104851800637285,
+      "flos": 22055041566720.0,
+      "grad_norm": 2.3650125788626424,
+      "language_loss": 0.82139295,
+      "learning_rate": 3.17544446075825e-06,
+      "loss": 0.84415179,
+      "num_input_tokens_seen": 57509880,
+      "step": 2670,
+      "time_per_iteration": 3.662062168121338
+    },
+    {
+      "auxiliary_loss_clip": 0.01224336,
+      "auxiliary_loss_mlp": 0.01035162,
+      "balance_loss_clip": 1.05733776,
+      "balance_loss_mlp": 1.02690125,
+      "epoch": 0.32116876089701196,
+      "flos": 37012301896320.0,
+      "grad_norm": 1.5777867031442492,
+      "language_loss": 0.7090292,
+      "learning_rate": 3.174814134651671e-06,
+      "loss": 0.73162425,
+      "num_input_tokens_seen": 57532430,
+      "step": 2671,
+      "time_per_iteration": 2.774160623550415
+    },
+    {
+      "auxiliary_loss_clip": 0.01198556,
+      "auxiliary_loss_mlp": 0.0103027,
+      "balance_loss_clip": 1.05957639,
+      "balance_loss_mlp": 1.02134693,
+      "epoch": 0.3212890037876511,
+      "flos": 21979233912960.0,
+      "grad_norm": 1.7521158447058442,
+      "language_loss": 0.80381709,
+      "learning_rate": 3.1741836303267215e-06,
+      "loss": 0.82610536,
+      "num_input_tokens_seen": 57551965,
+      "step": 2672,
+      "time_per_iteration": 2.652170181274414
+    },
+    {
+      "auxiliary_loss_clip": 0.01198124,
+      "auxiliary_loss_mlp": 0.0103331,
+      "balance_loss_clip": 1.0599823,
+      "balance_loss_mlp": 1.0240947,
+      "epoch": 0.32140924667829013,
+      "flos": 10342345875840.0,
+      "grad_norm": 1.9028267017627796,
+      "language_loss": 0.75355905,
+      "learning_rate": 3.1735529478790496e-06,
+      "loss": 0.77587336,
+      "num_input_tokens_seen": 57569955,
+      "step": 2673,
+      "time_per_iteration": 2.5874037742614746
+    },
+    {
+      "auxiliary_loss_clip": 0.0121283,
+      "auxiliary_loss_mlp": 0.0103297,
+      "balance_loss_clip": 1.06093407,
+      "balance_loss_mlp": 1.02385688,
+      "epoch": 0.32152948956892924,
+      "flos": 50798910072960.0,
+      "grad_norm": 1.949648172801611,
+      "language_loss": 0.79936403,
+      "learning_rate": 3.172922087404328e-06,
+      "loss": 0.82182205,
+      "num_input_tokens_seen": 57592215,
+      "step": 2674,
+      "time_per_iteration": 2.971597194671631
+    },
+    {
+      "auxiliary_loss_clip": 0.01092635,
+      "auxiliary_loss_mlp": 0.01006274,
+      "balance_loss_clip": 1.02334428,
+      "balance_loss_mlp": 1.00447416,
+      "epoch": 0.32164973245956835,
+      "flos": 63863250549120.0,
+      "grad_norm": 0.76701660997881,
+      "language_loss": 0.55241692,
+      "learning_rate": 3.1722910489982586e-06,
+      "loss": 0.57340598,
+      "num_input_tokens_seen": 57652575,
+      "step": 2675,
+      "time_per_iteration": 3.2499163150787354
+    },
+    {
+      "auxiliary_loss_clip": 0.01209446,
+      "auxiliary_loss_mlp": 0.01034893,
+      "balance_loss_clip": 1.05565941,
+      "balance_loss_mlp": 1.02587509,
+      "epoch": 0.3217699753502074,
+      "flos": 23513948363520.0,
+      "grad_norm": 1.5575577917286076,
+      "language_loss": 0.80073047,
+      "learning_rate": 3.1716598327565694e-06,
+      "loss": 0.82317388,
+      "num_input_tokens_seen": 57672215,
+      "step": 2676,
+      "time_per_iteration": 2.7638208866119385
+    },
+    {
+      "auxiliary_loss_clip": 0.01200327,
+      "auxiliary_loss_mlp": 0.01028284,
+      "balance_loss_clip": 1.06037974,
+      "balance_loss_mlp": 1.01989806,
+      "epoch": 0.3218902182408465,
+      "flos": 19062533640960.0,
+      "grad_norm": 1.5454066765349839,
+      "language_loss": 0.8383159,
+      "learning_rate": 3.171028438775015e-06,
+      "loss": 0.86060202,
+      "num_input_tokens_seen": 57691410,
+      "step": 2677,
+      "time_per_iteration": 2.650782585144043
+    },
+    {
+      "auxiliary_loss_clip": 0.01197484,
+      "auxiliary_loss_mlp": 0.01032296,
+      "balance_loss_clip": 1.05809164,
+      "balance_loss_mlp": 1.02352202,
+      "epoch": 0.3220104611314856,
+      "flos": 20375571306240.0,
+      "grad_norm": 1.9097213240560482,
+      "language_loss": 0.83812261,
+      "learning_rate": 3.170396867149377e-06,
+      "loss": 0.86042041,
+      "num_input_tokens_seen": 57709415,
+      "step": 2678,
+      "time_per_iteration": 2.6275620460510254
+    },
+    {
+      "auxiliary_loss_clip": 0.01226366,
+      "auxiliary_loss_mlp": 0.01032421,
+      "balance_loss_clip": 1.05254471,
+      "balance_loss_mlp": 1.02334917,
+      "epoch": 0.3221307040221247,
+      "flos": 20117014231680.0,
+      "grad_norm": 1.8349248086907717,
+      "language_loss": 0.86511171,
+      "learning_rate": 3.1697651179754653e-06,
+      "loss": 0.8876996,
+      "num_input_tokens_seen": 57728075,
+      "step": 2679,
+      "time_per_iteration": 2.7016539573669434
+    },
+    {
+      "auxiliary_loss_clip": 0.01232525,
+      "auxiliary_loss_mlp": 0.01033259,
+      "balance_loss_clip": 1.06077313,
+      "balance_loss_mlp": 1.02378178,
+      "epoch": 0.3222509469127638,
+      "flos": 23987789602560.0,
+      "grad_norm": 1.7586010178054454,
+      "language_loss": 0.72841156,
+      "learning_rate": 3.1691331913491153e-06,
+      "loss": 0.75106943,
+      "num_input_tokens_seen": 57750645,
+      "step": 2680,
+      "time_per_iteration": 2.859776020050049
+    },
+    {
+      "auxiliary_loss_clip": 0.01203149,
+      "auxiliary_loss_mlp": 0.01029941,
+      "balance_loss_clip": 1.06045508,
+      "balance_loss_mlp": 1.02160847,
+      "epoch": 0.32237118980340285,
+      "flos": 17675735397120.0,
+      "grad_norm": 1.9620219766538598,
+      "language_loss": 0.84519434,
+      "learning_rate": 3.1685010873661898e-06,
+      "loss": 0.86752522,
+      "num_input_tokens_seen": 57769820,
+      "step": 2681,
+      "time_per_iteration": 2.5790603160858154
+    },
+    {
+      "auxiliary_loss_clip": 0.01204948,
+      "auxiliary_loss_mlp": 0.01027579,
+      "balance_loss_clip": 1.05782735,
+      "balance_loss_mlp": 1.01782775,
+      "epoch": 0.32249143269404196,
+      "flos": 23147982645120.0,
+      "grad_norm": 2.26570186176679,
+      "language_loss": 0.79428434,
+      "learning_rate": 3.167868806122578e-06,
+      "loss": 0.81660962,
+      "num_input_tokens_seen": 57788870,
+      "step": 2682,
+      "time_per_iteration": 2.707307815551758
+    },
+    {
+      "auxiliary_loss_clip": 0.01225687,
+      "auxiliary_loss_mlp": 0.01038063,
+      "balance_loss_clip": 1.06097031,
+      "balance_loss_mlp": 1.02896118,
+      "epoch": 0.32261167558468107,
+      "flos": 24422308427520.0,
+      "grad_norm": 1.944872426243691,
+      "language_loss": 0.65974724,
+      "learning_rate": 3.1672363477141968e-06,
+      "loss": 0.68238473,
+      "num_input_tokens_seen": 57808165,
+      "step": 2683,
+      "time_per_iteration": 2.7196366786956787
+    },
+    {
+      "auxiliary_loss_clip": 0.01223277,
+      "auxiliary_loss_mlp": 0.01031965,
+      "balance_loss_clip": 1.05829287,
+      "balance_loss_mlp": 1.02244592,
+      "epoch": 0.3227319184753201,
+      "flos": 30367175852160.0,
+      "grad_norm": 1.9493172010621196,
+      "language_loss": 0.85005319,
+      "learning_rate": 3.1666037122369903e-06,
+      "loss": 0.87260556,
+      "num_input_tokens_seen": 57828825,
+      "step": 2684,
+      "time_per_iteration": 2.703307867050171
+    },
+    {
+      "auxiliary_loss_clip": 0.01204607,
+      "auxiliary_loss_mlp": 0.01029514,
+      "balance_loss_clip": 1.05541539,
+      "balance_loss_mlp": 1.02010846,
+      "epoch": 0.32285216136595923,
+      "flos": 16946174257920.0,
+      "grad_norm": 2.402173398488981,
+      "language_loss": 0.86993712,
+      "learning_rate": 3.165970899786928e-06,
+      "loss": 0.89227831,
+      "num_input_tokens_seen": 57846740,
+      "step": 2685,
+      "time_per_iteration": 2.6289618015289307
+    },
+    {
+      "auxiliary_loss_clip": 0.01235238,
+      "auxiliary_loss_mlp": 0.01027172,
+      "balance_loss_clip": 1.05833459,
+      "balance_loss_mlp": 1.0180409,
+      "epoch": 0.32297240425659834,
+      "flos": 21981532383360.0,
+      "grad_norm": 1.910962346581801,
+      "language_loss": 0.75479633,
+      "learning_rate": 3.1653379104600067e-06,
+      "loss": 0.7774204,
+      "num_input_tokens_seen": 57866885,
+      "step": 2686,
+      "time_per_iteration": 2.7883570194244385
+    },
+    {
+      "auxiliary_loss_clip": 0.01208299,
+      "auxiliary_loss_mlp": 0.01034708,
+      "balance_loss_clip": 1.05725873,
+      "balance_loss_mlp": 1.02613091,
+      "epoch": 0.3230926471472374,
+      "flos": 22748045639040.0,
+      "grad_norm": 1.7275781939522408,
+      "language_loss": 0.69644409,
+      "learning_rate": 3.164704744352251e-06,
+      "loss": 0.7188741,
+      "num_input_tokens_seen": 57887690,
+      "step": 2687,
+      "time_per_iteration": 2.690736770629883
+    },
+    {
+      "auxiliary_loss_clip": 0.01206303,
+      "auxiliary_loss_mlp": 0.01030211,
+      "balance_loss_clip": 1.0561471,
+      "balance_loss_mlp": 1.0213542,
+      "epoch": 0.3232128900378765,
+      "flos": 16942977947520.0,
+      "grad_norm": 1.7546574650105442,
+      "language_loss": 0.81099856,
+      "learning_rate": 3.164071401559713e-06,
+      "loss": 0.83336365,
+      "num_input_tokens_seen": 57905090,
+      "step": 2688,
+      "time_per_iteration": 2.598273515701294
+    },
+    {
+      "auxiliary_loss_clip": 0.01219585,
+      "auxiliary_loss_mlp": 0.01034218,
+      "balance_loss_clip": 1.05787671,
+      "balance_loss_mlp": 1.02531934,
+      "epoch": 0.3233331329285156,
+      "flos": 24023736138240.0,
+      "grad_norm": 2.1251819318226746,
+      "language_loss": 0.71380448,
+      "learning_rate": 3.1634378821784674e-06,
+      "loss": 0.73634249,
+      "num_input_tokens_seen": 57925305,
+      "step": 2689,
+      "time_per_iteration": 2.745732307434082
+    },
+    {
+      "auxiliary_loss_clip": 0.012288,
+      "auxiliary_loss_mlp": 0.01032724,
+      "balance_loss_clip": 1.05617881,
+      "balance_loss_mlp": 1.02319908,
+      "epoch": 0.3234533758191547,
+      "flos": 18113845582080.0,
+      "grad_norm": 2.3657067344954847,
+      "language_loss": 0.74091101,
+      "learning_rate": 3.1628041863046208e-06,
+      "loss": 0.76352626,
+      "num_input_tokens_seen": 57942720,
+      "step": 2690,
+      "time_per_iteration": 3.6363625526428223
+    },
+    {
+      "auxiliary_loss_clip": 0.01203322,
+      "auxiliary_loss_mlp": 0.0103066,
+      "balance_loss_clip": 1.05792189,
+      "balance_loss_mlp": 1.02128398,
+      "epoch": 0.3235736187097938,
+      "flos": 16946138344320.0,
+      "grad_norm": 2.70298099095619,
+      "language_loss": 0.91184545,
+      "learning_rate": 3.162170314034304e-06,
+      "loss": 0.93418527,
+      "num_input_tokens_seen": 57960135,
+      "step": 2691,
+      "time_per_iteration": 4.31362509727478
+    },
+    {
+      "auxiliary_loss_clip": 0.01203408,
+      "auxiliary_loss_mlp": 0.01038416,
+      "balance_loss_clip": 1.05938315,
+      "balance_loss_mlp": 1.02826548,
+      "epoch": 0.3236938616004329,
+      "flos": 22127150119680.0,
+      "grad_norm": 1.516434311872386,
+      "language_loss": 0.80813378,
+      "learning_rate": 3.1615362654636738e-06,
+      "loss": 0.83055204,
+      "num_input_tokens_seen": 57980875,
+      "step": 2692,
+      "time_per_iteration": 2.6981866359710693
+    },
+    {
+      "auxiliary_loss_clip": 0.01223924,
+      "auxiliary_loss_mlp": 0.01033023,
+      "balance_loss_clip": 1.06013596,
+      "balance_loss_mlp": 1.02445173,
+      "epoch": 0.32381410449107195,
+      "flos": 17164618819200.0,
+      "grad_norm": 1.9255065708517032,
+      "language_loss": 0.87091041,
+      "learning_rate": 3.1609020406889163e-06,
+      "loss": 0.89347994,
+      "num_input_tokens_seen": 57998310,
+      "step": 2693,
+      "time_per_iteration": 2.691805362701416
+    },
+    {
+      "auxiliary_loss_clip": 0.01215325,
+      "auxiliary_loss_mlp": 0.01034323,
+      "balance_loss_clip": 1.05463576,
+      "balance_loss_mlp": 1.02421403,
+      "epoch": 0.32393434738171106,
+      "flos": 16578125550720.0,
+      "grad_norm": 1.7074549296633288,
+      "language_loss": 0.85014671,
+      "learning_rate": 3.1602676398062416e-06,
+      "loss": 0.87264323,
+      "num_input_tokens_seen": 58017220,
+      "step": 2694,
+      "time_per_iteration": 2.680070638656616
+    },
+    {
+      "auxiliary_loss_clip": 0.01209562,
+      "auxiliary_loss_mlp": 0.01031791,
+      "balance_loss_clip": 1.05968237,
+      "balance_loss_mlp": 1.02258193,
+      "epoch": 0.3240545902723502,
+      "flos": 25483612602240.0,
+      "grad_norm": 2.127709133673669,
+      "language_loss": 0.61776316,
+      "learning_rate": 3.1596330629118886e-06,
+      "loss": 0.64017671,
+      "num_input_tokens_seen": 58037190,
+      "step": 2695,
+      "time_per_iteration": 2.6943063735961914
+    },
+    {
+      "auxiliary_loss_clip": 0.0122693,
+      "auxiliary_loss_mlp": 0.01037944,
+      "balance_loss_clip": 1.05256045,
+      "balance_loss_mlp": 1.02833021,
+      "epoch": 0.32417483316298923,
+      "flos": 35845851634560.0,
+      "grad_norm": 2.0926441833255,
+      "language_loss": 0.73109496,
+      "learning_rate": 3.1589983101021223e-06,
+      "loss": 0.75374371,
+      "num_input_tokens_seen": 58055820,
+      "step": 2696,
+      "time_per_iteration": 2.905855655670166
+    },
+    {
+      "auxiliary_loss_clip": 0.01222933,
+      "auxiliary_loss_mlp": 0.01032958,
+      "balance_loss_clip": 1.05858517,
+      "balance_loss_mlp": 1.02428269,
+      "epoch": 0.32429507605362834,
+      "flos": 30080501406720.0,
+      "grad_norm": 2.096802981335645,
+      "language_loss": 0.84501338,
+      "learning_rate": 3.1583633814732337e-06,
+      "loss": 0.86757231,
+      "num_input_tokens_seen": 58075340,
+      "step": 2697,
+      "time_per_iteration": 3.63531756401062
+    },
+    {
+      "auxiliary_loss_clip": 0.01200669,
+      "auxiliary_loss_mlp": 0.01029429,
+      "balance_loss_clip": 1.05686092,
+      "balance_loss_mlp": 1.02014899,
+      "epoch": 0.3244153189442674,
+      "flos": 18223265387520.0,
+      "grad_norm": 2.8391263401752505,
+      "language_loss": 0.71889943,
+      "learning_rate": 3.157728277121541e-06,
+      "loss": 0.74120045,
+      "num_input_tokens_seen": 58093515,
+      "step": 2698,
+      "time_per_iteration": 2.6074490547180176
+    },
+    {
+      "auxiliary_loss_clip": 0.01200631,
+      "auxiliary_loss_mlp": 0.01032386,
+      "balance_loss_clip": 1.05706394,
+      "balance_loss_mlp": 1.02318263,
+      "epoch": 0.3245355618349065,
+      "flos": 17710317216000.0,
+      "grad_norm": 2.359876683346954,
+      "language_loss": 0.78737497,
+      "learning_rate": 3.1570929971433897e-06,
+      "loss": 0.80970514,
+      "num_input_tokens_seen": 58109300,
+      "step": 2699,
+      "time_per_iteration": 2.5909390449523926
+    },
+    {
+      "auxiliary_loss_clip": 0.01211484,
+      "auxiliary_loss_mlp": 0.01038806,
+      "balance_loss_clip": 1.06069708,
+      "balance_loss_mlp": 1.03005552,
+      "epoch": 0.3246558047255456,
+      "flos": 23440798316160.0,
+      "grad_norm": 1.8142388543908625,
+      "language_loss": 0.83690071,
+      "learning_rate": 3.1564575416351504e-06,
+      "loss": 0.85940361,
+      "num_input_tokens_seen": 58128000,
+      "step": 2700,
+      "time_per_iteration": 2.635230779647827
+    },
+    {
+      "auxiliary_loss_clip": 0.01202577,
+      "auxiliary_loss_mlp": 0.01033542,
+      "balance_loss_clip": 1.06135082,
+      "balance_loss_mlp": 1.02446389,
+      "epoch": 0.32477604761618467,
+      "flos": 21760861178880.0,
+      "grad_norm": 1.7271821459727166,
+      "language_loss": 0.74312723,
+      "learning_rate": 3.155821910693221e-06,
+      "loss": 0.76548845,
+      "num_input_tokens_seen": 58147415,
+      "step": 2701,
+      "time_per_iteration": 2.602280378341675
+    },
+    {
+      "auxiliary_loss_clip": 0.01214717,
+      "auxiliary_loss_mlp": 0.01034156,
+      "balance_loss_clip": 1.05451083,
+      "balance_loss_mlp": 1.0245533,
+      "epoch": 0.3248962905068238,
+      "flos": 19828328624640.0,
+      "grad_norm": 1.6628551082775496,
+      "language_loss": 0.85932195,
+      "learning_rate": 3.1551861044140275e-06,
+      "loss": 0.88181067,
+      "num_input_tokens_seen": 58167050,
+      "step": 2702,
+      "time_per_iteration": 2.677027463912964
+    },
+    {
+      "auxiliary_loss_clip": 0.01228106,
+      "auxiliary_loss_mlp": 0.0103673,
+      "balance_loss_clip": 1.05713677,
+      "balance_loss_mlp": 1.02752721,
+      "epoch": 0.3250165333974629,
+      "flos": 23948215793280.0,
+      "grad_norm": 1.6678779812131352,
+      "language_loss": 0.77506602,
+      "learning_rate": 3.15455012289402e-06,
+      "loss": 0.79771447,
+      "num_input_tokens_seen": 58186695,
+      "step": 2703,
+      "time_per_iteration": 2.808863401412964
+    },
+    {
+      "auxiliary_loss_clip": 0.01211711,
+      "auxiliary_loss_mlp": 0.01030964,
+      "balance_loss_clip": 1.05991721,
+      "balance_loss_mlp": 1.02140355,
+      "epoch": 0.32513677628810195,
+      "flos": 23989333887360.0,
+      "grad_norm": 1.7917341762391288,
+      "language_loss": 0.83881986,
+      "learning_rate": 3.153913966229677e-06,
+      "loss": 0.86124659,
+      "num_input_tokens_seen": 58205815,
+      "step": 2704,
+      "time_per_iteration": 2.727860689163208
+    },
+    {
+      "auxiliary_loss_clip": 0.01100309,
+      "auxiliary_loss_mlp": 0.01000556,
+      "balance_loss_clip": 1.01781821,
+      "balance_loss_mlp": 0.99879134,
+      "epoch": 0.32525701917874106,
+      "flos": 70655790009600.0,
+      "grad_norm": 0.6797710722341073,
+      "language_loss": 0.50271779,
+      "learning_rate": 3.1532776345175027e-06,
+      "loss": 0.52372646,
+      "num_input_tokens_seen": 58270960,
+      "step": 2705,
+      "time_per_iteration": 3.1929333209991455
+    },
+    {
+      "auxiliary_loss_clip": 0.01198007,
+      "auxiliary_loss_mlp": 0.01034606,
+      "balance_loss_clip": 1.05776191,
+      "balance_loss_mlp": 1.0253849,
+      "epoch": 0.32537726206938017,
+      "flos": 19682639061120.0,
+      "grad_norm": 1.9277147881969603,
+      "language_loss": 0.78749537,
+      "learning_rate": 3.1526411278540285e-06,
+      "loss": 0.80982149,
+      "num_input_tokens_seen": 58289390,
+      "step": 2706,
+      "time_per_iteration": 2.7264490127563477
+    },
+    {
+      "auxiliary_loss_clip": 0.01222305,
+      "auxiliary_loss_mlp": 0.01033823,
+      "balance_loss_clip": 1.05538726,
+      "balance_loss_mlp": 1.02486408,
+      "epoch": 0.3254975049600192,
+      "flos": 28760999293440.0,
+      "grad_norm": 2.709032185760867,
+      "language_loss": 0.81468546,
+      "learning_rate": 3.1520044463358116e-06,
+      "loss": 0.83724678,
+      "num_input_tokens_seen": 58306120,
+      "step": 2707,
+      "time_per_iteration": 2.748154878616333
+    },
+    {
+      "auxiliary_loss_clip": 0.01211064,
+      "auxiliary_loss_mlp": 0.01028675,
+      "balance_loss_clip": 1.0596323,
+      "balance_loss_mlp": 1.02001488,
+      "epoch": 0.32561774785065833,
+      "flos": 18877378008960.0,
+      "grad_norm": 1.4715978856890088,
+      "language_loss": 0.79965192,
+      "learning_rate": 3.151367590059436e-06,
+      "loss": 0.82204932,
+      "num_input_tokens_seen": 58324545,
+      "step": 2708,
+      "time_per_iteration": 2.667694330215454
+    },
+    {
+      "auxiliary_loss_clip": 0.01204008,
+      "auxiliary_loss_mlp": 0.01380407,
+      "balance_loss_clip": 1.06045365,
+      "balance_loss_mlp": 1.00048196,
+      "epoch": 0.32573799074129745,
+      "flos": 23112107936640.0,
+      "grad_norm": 2.063362878743879,
+      "language_loss": 0.8672663,
+      "learning_rate": 3.1507305591215117e-06,
+      "loss": 0.89311051,
+      "num_input_tokens_seen": 58342455,
+      "step": 2709,
+      "time_per_iteration": 2.6575026512145996
+    },
+    {
+      "auxiliary_loss_clip": 0.01099904,
+      "auxiliary_loss_mlp": 0.01004176,
+      "balance_loss_clip": 1.01831818,
+      "balance_loss_mlp": 1.00232816,
+      "epoch": 0.3258582336319365,
+      "flos": 71237650423680.0,
+      "grad_norm": 0.6721860578437736,
+      "language_loss": 0.55746591,
+      "learning_rate": 3.150093353618677e-06,
+      "loss": 0.57850671,
+      "num_input_tokens_seen": 58407185,
+      "step": 2710,
+      "time_per_iteration": 3.2393405437469482
+    },
+    {
+      "auxiliary_loss_clip": 0.01214157,
+      "auxiliary_loss_mlp": 0.01034222,
+      "balance_loss_clip": 1.05774808,
+      "balance_loss_mlp": 1.02479303,
+      "epoch": 0.3259784765225756,
+      "flos": 22456020067200.0,
+      "grad_norm": 2.6541483817951455,
+      "language_loss": 0.88298959,
+      "learning_rate": 3.149455973647596e-06,
+      "loss": 0.90547341,
+      "num_input_tokens_seen": 58425245,
+      "step": 2711,
+      "time_per_iteration": 2.639453887939453
+    },
+    {
+      "auxiliary_loss_clip": 0.0121642,
+      "auxiliary_loss_mlp": 0.01032588,
+      "balance_loss_clip": 1.04991317,
+      "balance_loss_mlp": 1.02262759,
+      "epoch": 0.32609871941321467,
+      "flos": 20484811543680.0,
+      "grad_norm": 1.941656803353848,
+      "language_loss": 0.76873469,
+      "learning_rate": 3.1488184193049563e-06,
+      "loss": 0.79122478,
+      "num_input_tokens_seen": 58444780,
+      "step": 2712,
+      "time_per_iteration": 2.6895668506622314
+    },
+    {
+      "auxiliary_loss_clip": 0.01201624,
+      "auxiliary_loss_mlp": 0.01029444,
+      "balance_loss_clip": 1.06047046,
+      "balance_loss_mlp": 1.02078319,
+      "epoch": 0.3262189623038538,
+      "flos": 22416805393920.0,
+      "grad_norm": 1.5367594371598132,
+      "language_loss": 0.72212565,
+      "learning_rate": 3.1481806906874767e-06,
+      "loss": 0.74443626,
+      "num_input_tokens_seen": 58466090,
+      "step": 2713,
+      "time_per_iteration": 2.650221586227417
+    },
+    {
+      "auxiliary_loss_clip": 0.01201056,
+      "auxiliary_loss_mlp": 0.0103596,
+      "balance_loss_clip": 1.06028461,
+      "balance_loss_mlp": 1.02679265,
+      "epoch": 0.3263392051944929,
+      "flos": 20923496346240.0,
+      "grad_norm": 1.5807006878861518,
+      "language_loss": 0.87390649,
+      "learning_rate": 3.147542787891899e-06,
+      "loss": 0.89627665,
+      "num_input_tokens_seen": 58485435,
+      "step": 2714,
+      "time_per_iteration": 2.6016170978546143
+    },
+    {
+      "auxiliary_loss_clip": 0.01220803,
+      "auxiliary_loss_mlp": 0.01031992,
+      "balance_loss_clip": 1.0584147,
+      "balance_loss_mlp": 1.0230093,
+      "epoch": 0.32645944808513194,
+      "flos": 24025172682240.0,
+      "grad_norm": 4.929728460730992,
+      "language_loss": 0.75233251,
+      "learning_rate": 3.1469047110149926e-06,
+      "loss": 0.7748605,
+      "num_input_tokens_seen": 58504175,
+      "step": 2715,
+      "time_per_iteration": 2.735809326171875
+    },
+    {
+      "auxiliary_loss_clip": 0.01230971,
+      "auxiliary_loss_mlp": 0.01034622,
+      "balance_loss_clip": 1.05595827,
+      "balance_loss_mlp": 1.02459645,
+      "epoch": 0.32657969097577105,
+      "flos": 21032413361280.0,
+      "grad_norm": 2.1594877357560427,
+      "language_loss": 0.85460889,
+      "learning_rate": 3.146266460153554e-06,
+      "loss": 0.8772648,
+      "num_input_tokens_seen": 58523885,
+      "step": 2716,
+      "time_per_iteration": 4.607028245925903
+    },
+    {
+      "auxiliary_loss_clip": 0.0121586,
+      "auxiliary_loss_mlp": 0.01380494,
+      "balance_loss_clip": 1.05664158,
+      "balance_loss_mlp": 1.00053835,
+      "epoch": 0.32669993386641016,
+      "flos": 22710267509760.0,
+      "grad_norm": 4.546305293211612,
+      "language_loss": 0.79991567,
+      "learning_rate": 3.145628035404404e-06,
+      "loss": 0.82587922,
+      "num_input_tokens_seen": 58543085,
+      "step": 2717,
+      "time_per_iteration": 3.682678699493408
+    },
+    {
+      "auxiliary_loss_clip": 0.01101919,
+      "auxiliary_loss_mlp": 0.01004026,
+      "balance_loss_clip": 1.0220902,
+      "balance_loss_mlp": 1.00210714,
+      "epoch": 0.3268201767570492,
+      "flos": 72105718406400.0,
+      "grad_norm": 0.9188517064682178,
+      "language_loss": 0.5745796,
+      "learning_rate": 3.1449894368643922e-06,
+      "loss": 0.59563899,
+      "num_input_tokens_seen": 58605400,
+      "step": 2718,
+      "time_per_iteration": 3.2877914905548096
+    },
+    {
+      "auxiliary_loss_clip": 0.01231675,
+      "auxiliary_loss_mlp": 0.01034333,
+      "balance_loss_clip": 1.06171072,
+      "balance_loss_mlp": 1.02588677,
+      "epoch": 0.32694041964768833,
+      "flos": 24535175938560.0,
+      "grad_norm": 1.576344038766578,
+      "language_loss": 0.71467352,
+      "learning_rate": 3.1443506646303934e-06,
+      "loss": 0.73733354,
+      "num_input_tokens_seen": 58626700,
+      "step": 2719,
+      "time_per_iteration": 2.7871735095977783
+    },
+    {
+      "auxiliary_loss_clip": 0.01212481,
+      "auxiliary_loss_mlp": 0.01032185,
+      "balance_loss_clip": 1.05812538,
+      "balance_loss_mlp": 1.02226663,
+      "epoch": 0.32706066253832744,
+      "flos": 33183003755520.0,
+      "grad_norm": 2.1911088695378385,
+      "language_loss": 0.67143047,
+      "learning_rate": 3.1437117187993086e-06,
+      "loss": 0.6938771,
+      "num_input_tokens_seen": 58649020,
+      "step": 2720,
+      "time_per_iteration": 2.7522776126861572
+    },
+    {
+      "auxiliary_loss_clip": 0.01218555,
+      "auxiliary_loss_mlp": 0.01041053,
+      "balance_loss_clip": 1.05244136,
+      "balance_loss_mlp": 1.03108704,
+      "epoch": 0.3271809054289665,
+      "flos": 24061622008320.0,
+      "grad_norm": 1.5441423919882196,
+      "language_loss": 0.7988053,
+      "learning_rate": 3.143072599468065e-06,
+      "loss": 0.82140136,
+      "num_input_tokens_seen": 58668845,
+      "step": 2721,
+      "time_per_iteration": 2.7973766326904297
+    },
+    {
+      "auxiliary_loss_clip": 0.01219213,
+      "auxiliary_loss_mlp": 0.01031636,
+      "balance_loss_clip": 1.05910659,
+      "balance_loss_mlp": 1.02208173,
+      "epoch": 0.3273011483196056,
+      "flos": 38253769712640.0,
+      "grad_norm": 1.5606096286185607,
+      "language_loss": 0.7568565,
+      "learning_rate": 3.1424333067336174e-06,
+      "loss": 0.779365,
+      "num_input_tokens_seen": 58691610,
+      "step": 2722,
+      "time_per_iteration": 2.8443288803100586
+    },
+    {
+      "auxiliary_loss_clip": 0.0121606,
+      "auxiliary_loss_mlp": 0.01033672,
+      "balance_loss_clip": 1.0589242,
+      "balance_loss_mlp": 1.02437401,
+      "epoch": 0.3274213912102447,
+      "flos": 29054389582080.0,
+      "grad_norm": 1.7378008076866975,
+      "language_loss": 0.7811625,
+      "learning_rate": 3.141793840692945e-06,
+      "loss": 0.80365986,
+      "num_input_tokens_seen": 58712360,
+      "step": 2723,
+      "time_per_iteration": 3.6050336360931396
+    },
+    {
+      "auxiliary_loss_clip": 0.01208606,
+      "auxiliary_loss_mlp": 0.0103173,
+      "balance_loss_clip": 1.05693507,
+      "balance_loss_mlp": 1.02259231,
+      "epoch": 0.32754163410088377,
+      "flos": 29133249891840.0,
+      "grad_norm": 2.2677455605727586,
+      "language_loss": 0.61048138,
+      "learning_rate": 3.1411542014430553e-06,
+      "loss": 0.63288474,
+      "num_input_tokens_seen": 58733440,
+      "step": 2724,
+      "time_per_iteration": 2.772723913192749
+    },
+    {
+      "auxiliary_loss_clip": 0.01221507,
+      "auxiliary_loss_mlp": 0.01027292,
+      "balance_loss_clip": 1.04999256,
+      "balance_loss_mlp": 1.0189234,
+      "epoch": 0.3276618769915229,
+      "flos": 20631075724800.0,
+      "grad_norm": 1.6521493691268418,
+      "language_loss": 0.82014757,
+      "learning_rate": 3.1405143890809804e-06,
+      "loss": 0.84263557,
+      "num_input_tokens_seen": 58752735,
+      "step": 2725,
+      "time_per_iteration": 2.6824657917022705
+    },
+    {
+      "auxiliary_loss_clip": 0.0121509,
+      "auxiliary_loss_mlp": 0.01027754,
+      "balance_loss_clip": 1.05768895,
+      "balance_loss_mlp": 1.01954031,
+      "epoch": 0.327782119882162,
+      "flos": 18657425076480.0,
+      "grad_norm": 1.8440541609571615,
+      "language_loss": 0.69742602,
+      "learning_rate": 3.1398744037037796e-06,
+      "loss": 0.71985447,
+      "num_input_tokens_seen": 58772070,
+      "step": 2726,
+      "time_per_iteration": 2.7143921852111816
+    },
+    {
+      "auxiliary_loss_clip": 0.01220865,
+      "auxiliary_loss_mlp": 0.0103057,
+      "balance_loss_clip": 1.06001019,
+      "balance_loss_mlp": 1.0217247,
+      "epoch": 0.32790236277280105,
+      "flos": 21795802133760.0,
+      "grad_norm": 2.1609762170302753,
+      "language_loss": 0.84434021,
+      "learning_rate": 3.139234245408538e-06,
+      "loss": 0.86685461,
+      "num_input_tokens_seen": 58790950,
+      "step": 2727,
+      "time_per_iteration": 2.6614110469818115
+    },
+    {
+      "auxiliary_loss_clip": 0.01225743,
+      "auxiliary_loss_mlp": 0.01380128,
+      "balance_loss_clip": 1.05592132,
+      "balance_loss_mlp": 1.00049257,
+      "epoch": 0.32802260566344016,
+      "flos": 23331414424320.0,
+      "grad_norm": 1.916142487484874,
+      "language_loss": 0.7625953,
+      "learning_rate": 3.1385939142923666e-06,
+      "loss": 0.78865409,
+      "num_input_tokens_seen": 58813340,
+      "step": 2728,
+      "time_per_iteration": 2.751753330230713
+    },
+    {
+      "auxiliary_loss_clip": 0.01218483,
+      "auxiliary_loss_mlp": 0.01028306,
+      "balance_loss_clip": 1.05671263,
+      "balance_loss_mlp": 1.01861989,
+      "epoch": 0.3281428485540792,
+      "flos": 24206988349440.0,
+      "grad_norm": 2.279338277958731,
+      "language_loss": 0.77692986,
+      "learning_rate": 3.137953410452405e-06,
+      "loss": 0.79939777,
+      "num_input_tokens_seen": 58833610,
+      "step": 2729,
+      "time_per_iteration": 2.6992669105529785
+    },
+    {
+      "auxiliary_loss_clip": 0.01214982,
+      "auxiliary_loss_mlp": 0.01037263,
+      "balance_loss_clip": 1.05582833,
+      "balance_loss_mlp": 1.02742267,
+      "epoch": 0.3282630914447183,
+      "flos": 34128962380800.0,
+      "grad_norm": 1.7978727863959285,
+      "language_loss": 0.74589938,
+      "learning_rate": 3.1373127339858146e-06,
+      "loss": 0.76842177,
+      "num_input_tokens_seen": 58856210,
+      "step": 2730,
+      "time_per_iteration": 2.8558542728424072
+    },
+    {
+      "auxiliary_loss_clip": 0.01220761,
+      "auxiliary_loss_mlp": 0.01030093,
+      "balance_loss_clip": 1.05405283,
+      "balance_loss_mlp": 1.021981,
+      "epoch": 0.32838333433535744,
+      "flos": 27600726170880.0,
+      "grad_norm": 1.7295927017501254,
+      "language_loss": 0.74638736,
+      "learning_rate": 3.136671884989787e-06,
+      "loss": 0.76889586,
+      "num_input_tokens_seen": 58876120,
+      "step": 2731,
+      "time_per_iteration": 2.7670536041259766
+    },
+    {
+      "auxiliary_loss_clip": 0.01245528,
+      "auxiliary_loss_mlp": 0.01039792,
+      "balance_loss_clip": 1.05288529,
+      "balance_loss_mlp": 1.0307498,
+      "epoch": 0.3285035772259965,
+      "flos": 12349500935040.0,
+      "grad_norm": 2.437520283382197,
+      "language_loss": 0.87041509,
+      "learning_rate": 3.1360308635615383e-06,
+      "loss": 0.89326829,
+      "num_input_tokens_seen": 58894660,
+      "step": 2732,
+      "time_per_iteration": 2.900879383087158
+    },
+    {
+      "auxiliary_loss_clip": 0.01231428,
+      "auxiliary_loss_mlp": 0.01039975,
+      "balance_loss_clip": 1.06318653,
+      "balance_loss_mlp": 1.03044426,
+      "epoch": 0.3286238201166356,
+      "flos": 24316084932480.0,
+      "grad_norm": 1.8344758878577854,
+      "language_loss": 0.78396791,
+      "learning_rate": 3.135389669798311e-06,
+      "loss": 0.80668193,
+      "num_input_tokens_seen": 58912720,
+      "step": 2733,
+      "time_per_iteration": 2.8507537841796875
+    },
+    {
+      "auxiliary_loss_clip": 0.01210033,
+      "auxiliary_loss_mlp": 0.01380362,
+      "balance_loss_clip": 1.05859184,
+      "balance_loss_mlp": 1.00049651,
+      "epoch": 0.3287440630072747,
+      "flos": 21392812471680.0,
+      "grad_norm": 2.250248539006235,
+      "language_loss": 0.79867351,
+      "learning_rate": 3.134748303797373e-06,
+      "loss": 0.82457745,
+      "num_input_tokens_seen": 58930090,
+      "step": 2734,
+      "time_per_iteration": 2.6858503818511963
+    },
+    {
+      "auxiliary_loss_clip": 0.01235526,
+      "auxiliary_loss_mlp": 0.01032596,
+      "balance_loss_clip": 1.0546062,
+      "balance_loss_mlp": 1.02249873,
+      "epoch": 0.32886430589791377,
+      "flos": 23732536579200.0,
+      "grad_norm": 2.628087426633902,
+      "language_loss": 0.811795,
+      "learning_rate": 3.1341067656560203e-06,
+      "loss": 0.83447623,
+      "num_input_tokens_seen": 58947935,
+      "step": 2735,
+      "time_per_iteration": 2.825038194656372
+    },
+    {
+      "auxiliary_loss_clip": 0.01227539,
+      "auxiliary_loss_mlp": 0.01037431,
+      "balance_loss_clip": 1.05805182,
+      "balance_loss_mlp": 1.02829313,
+      "epoch": 0.3289845487885529,
+      "flos": 22418708814720.0,
+      "grad_norm": 2.145156672667493,
+      "language_loss": 0.86371362,
+      "learning_rate": 3.133465055471572e-06,
+      "loss": 0.88636327,
+      "num_input_tokens_seen": 58967720,
+      "step": 2736,
+      "time_per_iteration": 2.7159857749938965
+    },
+    {
+      "auxiliary_loss_clip": 0.01220882,
+      "auxiliary_loss_mlp": 0.01026064,
+      "balance_loss_clip": 1.05483651,
+      "balance_loss_mlp": 1.01689696,
+      "epoch": 0.329104791679192,
+      "flos": 19682603147520.0,
+      "grad_norm": 2.363185729445902,
+      "language_loss": 0.66282511,
+      "learning_rate": 3.1328231733413767e-06,
+      "loss": 0.68529451,
+      "num_input_tokens_seen": 58984360,
+      "step": 2737,
+      "time_per_iteration": 2.722405433654785
+    },
+    {
+      "auxiliary_loss_clip": 0.01204067,
+      "auxiliary_loss_mlp": 0.01035563,
+      "balance_loss_clip": 1.05834401,
+      "balance_loss_mlp": 1.02603233,
+      "epoch": 0.32922503456983104,
+      "flos": 15997234803840.0,
+      "grad_norm": 2.165296246544036,
+      "language_loss": 0.90612781,
+      "learning_rate": 3.1321811193628067e-06,
+      "loss": 0.92852402,
+      "num_input_tokens_seen": 59002505,
+      "step": 2738,
+      "time_per_iteration": 2.710050582885742
+    },
+    {
+      "auxiliary_loss_clip": 0.01211582,
+      "auxiliary_loss_mlp": 0.01380786,
+      "balance_loss_clip": 1.06075084,
+      "balance_loss_mlp": 1.000597,
+      "epoch": 0.32934527746047015,
+      "flos": 26834069260800.0,
+      "grad_norm": 1.9955811520412958,
+      "language_loss": 0.70053446,
+      "learning_rate": 3.131538893633261e-06,
+      "loss": 0.72645819,
+      "num_input_tokens_seen": 59022065,
+      "step": 2739,
+      "time_per_iteration": 2.718442916870117
+    },
+    {
+      "auxiliary_loss_clip": 0.01203155,
+      "auxiliary_loss_mlp": 0.01033226,
+      "balance_loss_clip": 1.06154323,
+      "balance_loss_mlp": 1.02372539,
+      "epoch": 0.32946552035110926,
+      "flos": 23403774372480.0,
+      "grad_norm": 2.0901910165945523,
+      "language_loss": 0.78471339,
+      "learning_rate": 3.130896496250165e-06,
+      "loss": 0.80707717,
+      "num_input_tokens_seen": 59041890,
+      "step": 2740,
+      "time_per_iteration": 2.6197702884674072
+    },
+    {
+      "auxiliary_loss_clip": 0.01204349,
+      "auxiliary_loss_mlp": 0.01031775,
+      "balance_loss_clip": 1.0606401,
+      "balance_loss_mlp": 1.02280474,
+      "epoch": 0.3295857632417483,
+      "flos": 14172470029440.0,
+      "grad_norm": 2.157531493650716,
+      "language_loss": 0.86474097,
+      "learning_rate": 3.1302539273109693e-06,
+      "loss": 0.88710219,
+      "num_input_tokens_seen": 59058715,
+      "step": 2741,
+      "time_per_iteration": 2.687347888946533
+    },
+    {
+      "auxiliary_loss_clip": 0.01209167,
+      "auxiliary_loss_mlp": 0.01037462,
+      "balance_loss_clip": 1.05776548,
+      "balance_loss_mlp": 1.02781248,
+      "epoch": 0.32970600613238743,
+      "flos": 22196708807040.0,
+      "grad_norm": 1.6863589040621578,
+      "language_loss": 0.80610049,
+      "learning_rate": 3.1296111869131513e-06,
+      "loss": 0.82856679,
+      "num_input_tokens_seen": 59076140,
+      "step": 2742,
+      "time_per_iteration": 3.6359782218933105
+    },
+    {
+      "auxiliary_loss_clip": 0.01201941,
+      "auxiliary_loss_mlp": 0.01027726,
+      "balance_loss_clip": 1.06023228,
+      "balance_loss_mlp": 1.01868367,
+      "epoch": 0.32982624902302654,
+      "flos": 22053784590720.0,
+      "grad_norm": 1.8129924020880808,
+      "language_loss": 0.86124218,
+      "learning_rate": 3.1289682751542153e-06,
+      "loss": 0.88353884,
+      "num_input_tokens_seen": 59095700,
+      "step": 2743,
+      "time_per_iteration": 3.5249381065368652
+    },
+    {
+      "auxiliary_loss_clip": 0.01205776,
+      "auxiliary_loss_mlp": 0.01032384,
+      "balance_loss_clip": 1.0578115,
+      "balance_loss_mlp": 1.02381301,
+      "epoch": 0.3299464919136656,
+      "flos": 18661626967680.0,
+      "grad_norm": 2.1921577230423677,
+      "language_loss": 0.71160507,
+      "learning_rate": 3.1283251921316883e-06,
+      "loss": 0.73398668,
+      "num_input_tokens_seen": 59113445,
+      "step": 2744,
+      "time_per_iteration": 2.672847032546997
+    },
+    {
+      "auxiliary_loss_clip": 0.01234806,
+      "auxiliary_loss_mlp": 0.01039598,
+      "balance_loss_clip": 1.05646813,
+      "balance_loss_mlp": 1.03066921,
+      "epoch": 0.3300667348043047,
+      "flos": 13407357404160.0,
+      "grad_norm": 2.098903030749304,
+      "language_loss": 0.80846351,
+      "learning_rate": 3.1276819379431277e-06,
+      "loss": 0.83120757,
+      "num_input_tokens_seen": 59131535,
+      "step": 2745,
+      "time_per_iteration": 2.7309072017669678
+    },
+    {
+      "auxiliary_loss_clip": 0.01227504,
+      "auxiliary_loss_mlp": 0.01380384,
+      "balance_loss_clip": 1.05866051,
+      "balance_loss_mlp": 1.00036252,
+      "epoch": 0.33018697769494376,
+      "flos": 15742556398080.0,
+      "grad_norm": 1.9237048547184132,
+      "language_loss": 0.7510289,
+      "learning_rate": 3.1270385126861134e-06,
+      "loss": 0.77710772,
+      "num_input_tokens_seen": 59149520,
+      "step": 2746,
+      "time_per_iteration": 2.696871519088745
+    },
+    {
+      "auxiliary_loss_clip": 0.01208427,
+      "auxiliary_loss_mlp": 0.01029618,
+      "balance_loss_clip": 1.06447363,
+      "balance_loss_mlp": 1.02025461,
+      "epoch": 0.3303072205855829,
+      "flos": 18258601392000.0,
+      "grad_norm": 1.9010624368417623,
+      "language_loss": 0.81870586,
+      "learning_rate": 3.1263949164582533e-06,
+      "loss": 0.84108627,
+      "num_input_tokens_seen": 59169170,
+      "step": 2747,
+      "time_per_iteration": 2.6279356479644775
+    },
+    {
+      "auxiliary_loss_clip": 0.01204127,
+      "auxiliary_loss_mlp": 0.01030989,
+      "balance_loss_clip": 1.06032205,
+      "balance_loss_mlp": 1.02166724,
+      "epoch": 0.330427463476222,
+      "flos": 17749424148480.0,
+      "grad_norm": 9.271291848743413,
+      "language_loss": 0.78435874,
+      "learning_rate": 3.1257511493571797e-06,
+      "loss": 0.80670989,
+      "num_input_tokens_seen": 59187675,
+      "step": 2748,
+      "time_per_iteration": 2.6926281452178955
+    },
+    {
+      "auxiliary_loss_clip": 0.0122752,
+      "auxiliary_loss_mlp": 0.01026933,
+      "balance_loss_clip": 1.05504704,
+      "balance_loss_mlp": 1.01845741,
+      "epoch": 0.33054770636686104,
+      "flos": 27162580072320.0,
+      "grad_norm": 1.7787681097566177,
+      "language_loss": 0.78550768,
+      "learning_rate": 3.125107211480552e-06,
+      "loss": 0.80805224,
+      "num_input_tokens_seen": 59207610,
+      "step": 2749,
+      "time_per_iteration": 3.679558038711548
+    },
+    {
+      "auxiliary_loss_clip": 0.0124111,
+      "auxiliary_loss_mlp": 0.01034516,
+      "balance_loss_clip": 1.05113721,
+      "balance_loss_mlp": 1.02560496,
+      "epoch": 0.33066794925750015,
+      "flos": 20117193799680.0,
+      "grad_norm": 1.5751272931663585,
+      "language_loss": 0.79641306,
+      "learning_rate": 3.124463102926054e-06,
+      "loss": 0.81916928,
+      "num_input_tokens_seen": 59226945,
+      "step": 2750,
+      "time_per_iteration": 2.775938034057617
+    },
+    {
+      "auxiliary_loss_clip": 0.01106312,
+      "auxiliary_loss_mlp": 0.01004039,
+      "balance_loss_clip": 1.03090787,
+      "balance_loss_mlp": 1.00233448,
+      "epoch": 0.33078819214813926,
+      "flos": 70642609718400.0,
+      "grad_norm": 0.7627139715115135,
+      "language_loss": 0.61592615,
+      "learning_rate": 3.1238188237913984e-06,
+      "loss": 0.63702965,
+      "num_input_tokens_seen": 59291485,
+      "step": 2751,
+      "time_per_iteration": 3.4008257389068604
+    },
+    {
+      "auxiliary_loss_clip": 0.01211932,
+      "auxiliary_loss_mlp": 0.01033623,
+      "balance_loss_clip": 1.06540847,
+      "balance_loss_mlp": 1.02409196,
+      "epoch": 0.3309084350387783,
+      "flos": 21141940907520.0,
+      "grad_norm": 2.439265668328458,
+      "language_loss": 0.76679701,
+      "learning_rate": 3.1231743741743202e-06,
+      "loss": 0.78925258,
+      "num_input_tokens_seen": 59310990,
+      "step": 2752,
+      "time_per_iteration": 2.5255537033081055
+    },
+    {
+      "auxiliary_loss_clip": 0.01202356,
+      "auxiliary_loss_mlp": 0.01027781,
+      "balance_loss_clip": 1.05481887,
+      "balance_loss_mlp": 1.01796401,
+      "epoch": 0.3310286779294174,
+      "flos": 14209350318720.0,
+      "grad_norm": 2.2273910461951214,
+      "language_loss": 0.83732402,
+      "learning_rate": 3.122529754172582e-06,
+      "loss": 0.8596254,
+      "num_input_tokens_seen": 59327875,
+      "step": 2753,
+      "time_per_iteration": 2.621816396713257
+    },
+    {
+      "auxiliary_loss_clip": 0.0121074,
+      "auxiliary_loss_mlp": 0.01036822,
+      "balance_loss_clip": 1.0611043,
+      "balance_loss_mlp": 1.02773833,
+      "epoch": 0.33114892082005654,
+      "flos": 20778130005120.0,
+      "grad_norm": 1.9406254042813074,
+      "language_loss": 0.72443509,
+      "learning_rate": 3.1218849638839736e-06,
+      "loss": 0.74691069,
+      "num_input_tokens_seen": 59347135,
+      "step": 2754,
+      "time_per_iteration": 2.676518678665161
+    },
+    {
+      "auxiliary_loss_clip": 0.01209561,
+      "auxiliary_loss_mlp": 0.01032427,
+      "balance_loss_clip": 1.05081487,
+      "balance_loss_mlp": 1.02277672,
+      "epoch": 0.3312691637106956,
+      "flos": 17090750499840.0,
+      "grad_norm": 1.9523476983794548,
+      "language_loss": 0.78574896,
+      "learning_rate": 3.121240003406307e-06,
+      "loss": 0.80816877,
+      "num_input_tokens_seen": 59365985,
+      "step": 2755,
+      "time_per_iteration": 2.6883299350738525
+    },
+    {
+      "auxiliary_loss_clip": 0.01231457,
+      "auxiliary_loss_mlp": 0.01032769,
+      "balance_loss_clip": 1.05834877,
+      "balance_loss_mlp": 1.02282059,
+      "epoch": 0.3313894066013347,
+      "flos": 29456230008960.0,
+      "grad_norm": 2.3354103060298077,
+      "language_loss": 0.72619671,
+      "learning_rate": 3.120594872837425e-06,
+      "loss": 0.74883896,
+      "num_input_tokens_seen": 59384655,
+      "step": 2756,
+      "time_per_iteration": 2.802762508392334
+    },
+    {
+      "auxiliary_loss_clip": 0.01104083,
+      "auxiliary_loss_mlp": 0.01376348,
+      "balance_loss_clip": 1.02335846,
+      "balance_loss_mlp": 1.00084877,
+      "epoch": 0.3315096494919738,
+      "flos": 61419242280960.0,
+      "grad_norm": 0.8289771117082071,
+      "language_loss": 0.62356663,
+      "learning_rate": 3.1199495722751906e-06,
+      "loss": 0.64837086,
+      "num_input_tokens_seen": 59444185,
+      "step": 2757,
+      "time_per_iteration": 3.2169015407562256
+    },
+    {
+      "auxiliary_loss_clip": 0.01236939,
+      "auxiliary_loss_mlp": 0.0102727,
+      "balance_loss_clip": 1.05424452,
+      "balance_loss_mlp": 1.01793551,
+      "epoch": 0.33162989238261287,
+      "flos": 21653057485440.0,
+      "grad_norm": 2.311195471249982,
+      "language_loss": 0.83949536,
+      "learning_rate": 3.1193041018174972e-06,
+      "loss": 0.86213744,
+      "num_input_tokens_seen": 59464900,
+      "step": 2758,
+      "time_per_iteration": 2.7725863456726074
+    },
+    {
+      "auxiliary_loss_clip": 0.01216937,
+      "auxiliary_loss_mlp": 0.01036481,
+      "balance_loss_clip": 1.06116104,
+      "balance_loss_mlp": 1.02714741,
+      "epoch": 0.331750135273252,
+      "flos": 22674787850880.0,
+      "grad_norm": 2.108401127670268,
+      "language_loss": 0.94456911,
+      "learning_rate": 3.118658461562261e-06,
+      "loss": 0.96710324,
+      "num_input_tokens_seen": 59481000,
+      "step": 2759,
+      "time_per_iteration": 2.6332600116729736
+    },
+    {
+      "auxiliary_loss_clip": 0.01220155,
+      "auxiliary_loss_mlp": 0.01035444,
+      "balance_loss_clip": 1.05973601,
+      "balance_loss_mlp": 1.02708137,
+      "epoch": 0.33187037816389103,
+      "flos": 22746896403840.0,
+      "grad_norm": 1.400645532172676,
+      "language_loss": 0.85022271,
+      "learning_rate": 3.118012651607426e-06,
+      "loss": 0.87277871,
+      "num_input_tokens_seen": 59502605,
+      "step": 2760,
+      "time_per_iteration": 2.7824482917785645
+    },
+    {
+      "auxiliary_loss_clip": 0.01207768,
+      "auxiliary_loss_mlp": 0.01033143,
+      "balance_loss_clip": 1.06559038,
+      "balance_loss_mlp": 1.02427399,
+      "epoch": 0.33199062105453014,
+      "flos": 19203769918080.0,
+      "grad_norm": 2.361765362229825,
+      "language_loss": 0.83147687,
+      "learning_rate": 3.1173666720509603e-06,
+      "loss": 0.85388595,
+      "num_input_tokens_seen": 59519540,
+      "step": 2761,
+      "time_per_iteration": 2.6694679260253906
+    },
+    {
+      "auxiliary_loss_clip": 0.01225188,
+      "auxiliary_loss_mlp": 0.01028612,
+      "balance_loss_clip": 1.05944109,
+      "balance_loss_mlp": 1.01937914,
+      "epoch": 0.33211086394516925,
+      "flos": 31577006764800.0,
+      "grad_norm": 2.5053527552443295,
+      "language_loss": 0.67854238,
+      "learning_rate": 3.116720522990859e-06,
+      "loss": 0.70108032,
+      "num_input_tokens_seen": 59540415,
+      "step": 2762,
+      "time_per_iteration": 2.816758155822754
+    },
+    {
+      "auxiliary_loss_clip": 0.0124728,
+      "auxiliary_loss_mlp": 0.01035744,
+      "balance_loss_clip": 1.05483913,
+      "balance_loss_mlp": 1.0266664,
+      "epoch": 0.3322311068358083,
+      "flos": 17932496791680.0,
+      "grad_norm": 1.9308647274865252,
+      "language_loss": 0.62201607,
+      "learning_rate": 3.116074204525142e-06,
+      "loss": 0.64484632,
+      "num_input_tokens_seen": 59558590,
+      "step": 2763,
+      "time_per_iteration": 2.882687568664551
+    },
+    {
+      "auxiliary_loss_clip": 0.01199357,
+      "auxiliary_loss_mlp": 0.01029267,
+      "balance_loss_clip": 1.05803919,
+      "balance_loss_mlp": 1.02031446,
+      "epoch": 0.3323513497264474,
+      "flos": 32269831269120.0,
+      "grad_norm": 1.495312558894397,
+      "language_loss": 0.83532625,
+      "learning_rate": 3.1154277167518553e-06,
+      "loss": 0.85761249,
+      "num_input_tokens_seen": 59580205,
+      "step": 2764,
+      "time_per_iteration": 2.76686954498291
+    },
+    {
+      "auxiliary_loss_clip": 0.01109392,
+      "auxiliary_loss_mlp": 0.01001134,
+      "balance_loss_clip": 1.02006376,
+      "balance_loss_mlp": 0.99929804,
+      "epoch": 0.33247159261708653,
+      "flos": 52668674588160.0,
+      "grad_norm": 0.778637237423169,
+      "language_loss": 0.59470713,
+      "learning_rate": 3.114781059769072e-06,
+      "loss": 0.6158123,
+      "num_input_tokens_seen": 59631530,
+      "step": 2765,
+      "time_per_iteration": 3.0966005325317383
+    },
+    {
+      "auxiliary_loss_clip": 0.0121634,
+      "auxiliary_loss_mlp": 0.01029282,
+      "balance_loss_clip": 1.05570686,
+      "balance_loss_mlp": 1.02022755,
+      "epoch": 0.3325918355077256,
+      "flos": 27125232906240.0,
+      "grad_norm": 2.7761478368482826,
+      "language_loss": 0.67541516,
+      "learning_rate": 3.1141342336748874e-06,
+      "loss": 0.69787139,
+      "num_input_tokens_seen": 59651090,
+      "step": 2766,
+      "time_per_iteration": 2.720442056655884
+    },
+    {
+      "auxiliary_loss_clip": 0.01210106,
+      "auxiliary_loss_mlp": 0.01030668,
+      "balance_loss_clip": 1.06243324,
+      "balance_loss_mlp": 1.02237701,
+      "epoch": 0.3327120783983647,
+      "flos": 23664414435840.0,
+      "grad_norm": 1.3990912422085604,
+      "language_loss": 0.82126594,
+      "learning_rate": 3.1134872385674253e-06,
+      "loss": 0.84367365,
+      "num_input_tokens_seen": 59675245,
+      "step": 2767,
+      "time_per_iteration": 2.7241177558898926
+    },
+    {
+      "auxiliary_loss_clip": 0.01223084,
+      "auxiliary_loss_mlp": 0.01031457,
+      "balance_loss_clip": 1.05537605,
+      "balance_loss_mlp": 1.02233744,
+      "epoch": 0.3328323212890038,
+      "flos": 19171378828800.0,
+      "grad_norm": 1.6700207172272092,
+      "language_loss": 0.8542527,
+      "learning_rate": 3.1128400745448353e-06,
+      "loss": 0.87679809,
+      "num_input_tokens_seen": 59694625,
+      "step": 2768,
+      "time_per_iteration": 3.6058506965637207
+    },
+    {
+      "auxiliary_loss_clip": 0.0121672,
+      "auxiliary_loss_mlp": 0.01038599,
+      "balance_loss_clip": 1.06244028,
+      "balance_loss_mlp": 1.02955103,
+      "epoch": 0.33295256417964286,
+      "flos": 37706347463040.0,
+      "grad_norm": 1.934565686087957,
+      "language_loss": 0.63006365,
+      "learning_rate": 3.11219274170529e-06,
+      "loss": 0.65261686,
+      "num_input_tokens_seen": 59716435,
+      "step": 2769,
+      "time_per_iteration": 4.573383808135986
+    },
+    {
+      "auxiliary_loss_clip": 0.01211737,
+      "auxiliary_loss_mlp": 0.01030257,
+      "balance_loss_clip": 1.05558503,
+      "balance_loss_mlp": 1.02131593,
+      "epoch": 0.333072807070282,
+      "flos": 26505989412480.0,
+      "grad_norm": 1.8270048779062342,
+      "language_loss": 0.81627041,
+      "learning_rate": 3.1115452401469903e-06,
+      "loss": 0.83869034,
+      "num_input_tokens_seen": 59736835,
+      "step": 2770,
+      "time_per_iteration": 2.7712576389312744
+    },
+    {
+      "auxiliary_loss_clip": 0.01223121,
+      "auxiliary_loss_mlp": 0.01032331,
+      "balance_loss_clip": 1.05092239,
+      "balance_loss_mlp": 1.02378941,
+      "epoch": 0.3331930499609211,
+      "flos": 21430913823360.0,
+      "grad_norm": 1.881154673124408,
+      "language_loss": 0.86770535,
+      "learning_rate": 3.1108975699681613e-06,
+      "loss": 0.89025986,
+      "num_input_tokens_seen": 59754230,
+      "step": 2771,
+      "time_per_iteration": 2.733732223510742
+    },
+    {
+      "auxiliary_loss_clip": 0.01227655,
+      "auxiliary_loss_mlp": 0.01033999,
+      "balance_loss_clip": 1.05744672,
+      "balance_loss_mlp": 1.02563095,
+      "epoch": 0.33331329285156014,
+      "flos": 20659947281280.0,
+      "grad_norm": 1.8044940053708904,
+      "language_loss": 0.71747822,
+      "learning_rate": 3.1102497312670542e-06,
+      "loss": 0.74009478,
+      "num_input_tokens_seen": 59772235,
+      "step": 2772,
+      "time_per_iteration": 2.7585973739624023
+    },
+    {
+      "auxiliary_loss_clip": 0.01206541,
+      "auxiliary_loss_mlp": 0.01034033,
+      "balance_loss_clip": 1.05591977,
+      "balance_loss_mlp": 1.02463937,
+      "epoch": 0.33343353574219925,
+      "flos": 28001596930560.0,
+      "grad_norm": 2.95375546331026,
+      "language_loss": 0.80231202,
+      "learning_rate": 3.109601724141946e-06,
+      "loss": 0.82471782,
+      "num_input_tokens_seen": 59791230,
+      "step": 2773,
+      "time_per_iteration": 2.8011386394500732
+    },
+    {
+      "auxiliary_loss_clip": 0.0121308,
+      "auxiliary_loss_mlp": 0.01029445,
+      "balance_loss_clip": 1.05714345,
+      "balance_loss_mlp": 1.02024806,
+      "epoch": 0.33355377863283836,
+      "flos": 23764963582080.0,
+      "grad_norm": 1.9952621628255602,
+      "language_loss": 0.68166262,
+      "learning_rate": 3.108953548691138e-06,
+      "loss": 0.70408785,
+      "num_input_tokens_seen": 59811315,
+      "step": 2774,
+      "time_per_iteration": 2.863060474395752
+    },
+    {
+      "auxiliary_loss_clip": 0.01201249,
+      "auxiliary_loss_mlp": 0.01032058,
+      "balance_loss_clip": 1.05900764,
+      "balance_loss_mlp": 1.02302206,
+      "epoch": 0.3336740215234774,
+      "flos": 37779677078400.0,
+      "grad_norm": 4.137056765663017,
+      "language_loss": 0.73032236,
+      "learning_rate": 3.108305205012959e-06,
+      "loss": 0.75265539,
+      "num_input_tokens_seen": 59832010,
+      "step": 2775,
+      "time_per_iteration": 3.675976514816284
+    },
+    {
+      "auxiliary_loss_clip": 0.01215771,
+      "auxiliary_loss_mlp": 0.01036157,
+      "balance_loss_clip": 1.05593419,
+      "balance_loss_mlp": 1.02698946,
+      "epoch": 0.3337942644141165,
+      "flos": 25519056347520.0,
+      "grad_norm": 2.32274215721062,
+      "language_loss": 0.86995292,
+      "learning_rate": 3.107656693205761e-06,
+      "loss": 0.89247227,
+      "num_input_tokens_seen": 59851450,
+      "step": 2776,
+      "time_per_iteration": 2.7344484329223633
+    },
+    {
+      "auxiliary_loss_clip": 0.01207309,
+      "auxiliary_loss_mlp": 0.01033575,
+      "balance_loss_clip": 1.06052065,
+      "balance_loss_mlp": 1.02251863,
+      "epoch": 0.3339145073047556,
+      "flos": 25989844930560.0,
+      "grad_norm": 2.605519257272306,
+      "language_loss": 0.70296341,
+      "learning_rate": 3.107008013367924e-06,
+      "loss": 0.72537225,
+      "num_input_tokens_seen": 59870245,
+      "step": 2777,
+      "time_per_iteration": 2.668959856033325
+    },
+    {
+      "auxiliary_loss_clip": 0.01221144,
+      "auxiliary_loss_mlp": 0.0103174,
+      "balance_loss_clip": 1.05430365,
+      "balance_loss_mlp": 1.0224359,
+      "epoch": 0.3340347501953947,
+      "flos": 19062569554560.0,
+      "grad_norm": 2.0701621565051935,
+      "language_loss": 0.86836338,
+      "learning_rate": 3.1063591655978507e-06,
+      "loss": 0.89089227,
+      "num_input_tokens_seen": 59886195,
+      "step": 2778,
+      "time_per_iteration": 2.694918155670166
+    },
+    {
+      "auxiliary_loss_clip": 0.01216767,
+      "auxiliary_loss_mlp": 0.0103491,
+      "balance_loss_clip": 1.04906726,
+      "balance_loss_mlp": 1.02594519,
+      "epoch": 0.3341549930860338,
+      "flos": 18109715518080.0,
+      "grad_norm": 1.858098693186922,
+      "language_loss": 0.79823399,
+      "learning_rate": 3.105710149993972e-06,
+      "loss": 0.82075077,
+      "num_input_tokens_seen": 59905525,
+      "step": 2779,
+      "time_per_iteration": 2.7474021911621094
+    },
+    {
+      "auxiliary_loss_clip": 0.01203398,
+      "auxiliary_loss_mlp": 0.01035096,
+      "balance_loss_clip": 1.06004953,
+      "balance_loss_mlp": 1.02560067,
+      "epoch": 0.33427523597667286,
+      "flos": 22674967418880.0,
+      "grad_norm": 1.8655612102643933,
+      "language_loss": 0.85433686,
+      "learning_rate": 3.1050609666547427e-06,
+      "loss": 0.8767218,
+      "num_input_tokens_seen": 59925085,
+      "step": 2780,
+      "time_per_iteration": 2.611330986022949
+    },
+    {
+      "auxiliary_loss_clip": 0.01232937,
+      "auxiliary_loss_mlp": 0.01033666,
+      "balance_loss_clip": 1.05645108,
+      "balance_loss_mlp": 1.02504086,
+      "epoch": 0.33439547886731197,
+      "flos": 22638338524800.0,
+      "grad_norm": 3.541162887224132,
+      "language_loss": 0.77037084,
+      "learning_rate": 3.104411615678644e-06,
+      "loss": 0.79303682,
+      "num_input_tokens_seen": 59943935,
+      "step": 2781,
+      "time_per_iteration": 2.7429678440093994
+    },
+    {
+      "auxiliary_loss_clip": 0.0121178,
+      "auxiliary_loss_mlp": 0.01032167,
+      "balance_loss_clip": 1.05628395,
+      "balance_loss_mlp": 1.0221653,
+      "epoch": 0.3345157217579511,
+      "flos": 24096383395200.0,
+      "grad_norm": 2.1644551943263495,
+      "language_loss": 0.74039853,
+      "learning_rate": 3.1037620971641803e-06,
+      "loss": 0.76283801,
+      "num_input_tokens_seen": 59963725,
+      "step": 2782,
+      "time_per_iteration": 2.6945552825927734
+    },
+    {
+      "auxiliary_loss_clip": 0.01202241,
+      "auxiliary_loss_mlp": 0.01032173,
+      "balance_loss_clip": 1.06002975,
+      "balance_loss_mlp": 1.02271366,
+      "epoch": 0.33463596464859013,
+      "flos": 18989491334400.0,
+      "grad_norm": 2.9168633350436175,
+      "language_loss": 0.64886498,
+      "learning_rate": 3.1031124112098844e-06,
+      "loss": 0.6712091,
+      "num_input_tokens_seen": 59981935,
+      "step": 2783,
+      "time_per_iteration": 2.568804979324341
+    },
+    {
+      "auxiliary_loss_clip": 0.01221199,
+      "auxiliary_loss_mlp": 0.01036754,
+      "balance_loss_clip": 1.05831552,
+      "balance_loss_mlp": 1.02796841,
+      "epoch": 0.33475620753922924,
+      "flos": 20375607219840.0,
+      "grad_norm": 1.8348267015004485,
+      "language_loss": 0.72466803,
+      "learning_rate": 3.1024625579143127e-06,
+      "loss": 0.74724758,
+      "num_input_tokens_seen": 59999455,
+      "step": 2784,
+      "time_per_iteration": 2.7728681564331055
+    },
+    {
+      "auxiliary_loss_clip": 0.01203376,
+      "auxiliary_loss_mlp": 0.01031763,
+      "balance_loss_clip": 1.06121862,
+      "balance_loss_mlp": 1.02216101,
+      "epoch": 0.33487645042986836,
+      "flos": 18182578256640.0,
+      "grad_norm": 2.133140038379456,
+      "language_loss": 0.7276212,
+      "learning_rate": 3.101812537376048e-06,
+      "loss": 0.74997258,
+      "num_input_tokens_seen": 60018475,
+      "step": 2785,
+      "time_per_iteration": 2.6171674728393555
+    },
+    {
+      "auxiliary_loss_clip": 0.01207942,
+      "auxiliary_loss_mlp": 0.01380471,
+      "balance_loss_clip": 1.05384207,
+      "balance_loss_mlp": 1.00069916,
+      "epoch": 0.3349966933205074,
+      "flos": 25848824135040.0,
+      "grad_norm": 2.3314870905669878,
+      "language_loss": 0.83972025,
+      "learning_rate": 3.1011623496936973e-06,
+      "loss": 0.86560434,
+      "num_input_tokens_seen": 60036770,
+      "step": 2786,
+      "time_per_iteration": 2.73211669921875
+    },
+    {
+      "auxiliary_loss_clip": 0.01203039,
+      "auxiliary_loss_mlp": 0.01028904,
+      "balance_loss_clip": 1.06223452,
+      "balance_loss_mlp": 1.01926613,
+      "epoch": 0.3351169362111465,
+      "flos": 28111447699200.0,
+      "grad_norm": 1.7461764949704206,
+      "language_loss": 0.69191635,
+      "learning_rate": 3.100511994965893e-06,
+      "loss": 0.71423578,
+      "num_input_tokens_seen": 60056725,
+      "step": 2787,
+      "time_per_iteration": 2.698880195617676
+    },
+    {
+      "auxiliary_loss_clip": 0.01202877,
+      "auxiliary_loss_mlp": 0.01031134,
+      "balance_loss_clip": 1.05798829,
+      "balance_loss_mlp": 1.0217998,
+      "epoch": 0.33523717910178563,
+      "flos": 22673315393280.0,
+      "grad_norm": 1.5907998294783912,
+      "language_loss": 0.84338242,
+      "learning_rate": 3.0998614732912947e-06,
+      "loss": 0.86572254,
+      "num_input_tokens_seen": 60076100,
+      "step": 2788,
+      "time_per_iteration": 2.702061891555786
+    },
+    {
+      "auxiliary_loss_clip": 0.01210427,
+      "auxiliary_loss_mlp": 0.01031536,
+      "balance_loss_clip": 1.06131768,
+      "balance_loss_mlp": 1.02230906,
+      "epoch": 0.3353574219924247,
+      "flos": 15669801400320.0,
+      "grad_norm": 1.9064195563413286,
+      "language_loss": 0.67964125,
+      "learning_rate": 3.0992107847685855e-06,
+      "loss": 0.70206088,
+      "num_input_tokens_seen": 60093815,
+      "step": 2789,
+      "time_per_iteration": 2.6655378341674805
+    },
+    {
+      "auxiliary_loss_clip": 0.01219295,
+      "auxiliary_loss_mlp": 0.01037076,
+      "balance_loss_clip": 1.05986941,
+      "balance_loss_mlp": 1.02780199,
+      "epoch": 0.3354776648830638,
+      "flos": 24790644443520.0,
+      "grad_norm": 1.7122878906266439,
+      "language_loss": 0.78946871,
+      "learning_rate": 3.0985599294964736e-06,
+      "loss": 0.81203246,
+      "num_input_tokens_seen": 60113370,
+      "step": 2790,
+      "time_per_iteration": 2.675440549850464
+    },
+    {
+      "auxiliary_loss_clip": 0.01238172,
+      "auxiliary_loss_mlp": 0.01039445,
+      "balance_loss_clip": 1.05633998,
+      "balance_loss_mlp": 1.03015852,
+      "epoch": 0.33559790777370285,
+      "flos": 28694852398080.0,
+      "grad_norm": 2.209820567136946,
+      "language_loss": 0.69714898,
+      "learning_rate": 3.097908907573695e-06,
+      "loss": 0.71992517,
+      "num_input_tokens_seen": 60131350,
+      "step": 2791,
+      "time_per_iteration": 2.7715747356414795
+    },
+    {
+      "auxiliary_loss_clip": 0.01247678,
+      "auxiliary_loss_mlp": 0.01030508,
+      "balance_loss_clip": 1.05800486,
+      "balance_loss_mlp": 1.02190673,
+      "epoch": 0.33571815066434196,
+      "flos": 22235779825920.0,
+      "grad_norm": 1.9575279993342132,
+      "language_loss": 0.8921411,
+      "learning_rate": 3.0972577190990067e-06,
+      "loss": 0.91492295,
+      "num_input_tokens_seen": 60149830,
+      "step": 2792,
+      "time_per_iteration": 2.7597644329071045
+    },
+    {
+      "auxiliary_loss_clip": 0.01232778,
+      "auxiliary_loss_mlp": 0.01029147,
+      "balance_loss_clip": 1.05691028,
+      "balance_loss_mlp": 1.02011108,
+      "epoch": 0.3358383935549811,
+      "flos": 23842279607040.0,
+      "grad_norm": 1.8111626304631634,
+      "language_loss": 0.80092716,
+      "learning_rate": 3.096606364171196e-06,
+      "loss": 0.82354641,
+      "num_input_tokens_seen": 60169620,
+      "step": 2793,
+      "time_per_iteration": 2.7237801551818848
+    },
+    {
+      "auxiliary_loss_clip": 0.01207864,
+      "auxiliary_loss_mlp": 0.01033902,
+      "balance_loss_clip": 1.05129647,
+      "balance_loss_mlp": 1.02462125,
+      "epoch": 0.33595863644562013,
+      "flos": 22267308988800.0,
+      "grad_norm": 1.9776982169084258,
+      "language_loss": 0.85288256,
+      "learning_rate": 3.0959548428890703e-06,
+      "loss": 0.87530029,
+      "num_input_tokens_seen": 60188490,
+      "step": 2794,
+      "time_per_iteration": 3.545255184173584
+    },
+    {
+      "auxiliary_loss_clip": 0.01207046,
+      "auxiliary_loss_mlp": 0.01033896,
+      "balance_loss_clip": 1.06011677,
+      "balance_loss_mlp": 1.02519345,
+      "epoch": 0.33607887933625924,
+      "flos": 20119779578880.0,
+      "grad_norm": 4.746149305439764,
+      "language_loss": 0.83999944,
+      "learning_rate": 3.095303155351468e-06,
+      "loss": 0.86240888,
+      "num_input_tokens_seen": 60208695,
+      "step": 2795,
+      "time_per_iteration": 4.5328452587127686
+    },
+    {
+      "auxiliary_loss_clip": 0.01225318,
+      "auxiliary_loss_mlp": 0.01034466,
+      "balance_loss_clip": 1.05266261,
+      "balance_loss_mlp": 1.02568603,
+      "epoch": 0.33619912222689835,
+      "flos": 19318109886720.0,
+      "grad_norm": 2.2906606860892365,
+      "language_loss": 0.79546368,
+      "learning_rate": 3.0946513016572464e-06,
+      "loss": 0.81806153,
+      "num_input_tokens_seen": 60227600,
+      "step": 2796,
+      "time_per_iteration": 2.8185696601867676
+    },
+    {
+      "auxiliary_loss_clip": 0.0121194,
+      "auxiliary_loss_mlp": 0.01033794,
+      "balance_loss_clip": 1.05859566,
+      "balance_loss_mlp": 1.02403069,
+      "epoch": 0.3363193651175374,
+      "flos": 16800664262400.0,
+      "grad_norm": 1.9794457110188641,
+      "language_loss": 0.76986492,
+      "learning_rate": 3.0939992819052938e-06,
+      "loss": 0.79232228,
+      "num_input_tokens_seen": 60245110,
+      "step": 2797,
+      "time_per_iteration": 2.607442617416382
+    },
+    {
+      "auxiliary_loss_clip": 0.01220677,
+      "auxiliary_loss_mlp": 0.01031836,
+      "balance_loss_clip": 1.05967426,
+      "balance_loss_mlp": 1.02291942,
+      "epoch": 0.3364396080081765,
+      "flos": 23550289948800.0,
+      "grad_norm": 2.3206832236340995,
+      "language_loss": 0.81104052,
+      "learning_rate": 3.0933470961945193e-06,
+      "loss": 0.83356565,
+      "num_input_tokens_seen": 60263405,
+      "step": 2798,
+      "time_per_iteration": 2.752535343170166
+    },
+    {
+      "auxiliary_loss_clip": 0.01214663,
+      "auxiliary_loss_mlp": 0.01033824,
+      "balance_loss_clip": 1.05852175,
+      "balance_loss_mlp": 1.02494931,
+      "epoch": 0.3365598508988156,
+      "flos": 28037902602240.0,
+      "grad_norm": 2.691320746363802,
+      "language_loss": 0.68532741,
+      "learning_rate": 3.0926947446238597e-06,
+      "loss": 0.70781225,
+      "num_input_tokens_seen": 60282975,
+      "step": 2799,
+      "time_per_iteration": 2.7561769485473633
+    },
+    {
+      "auxiliary_loss_clip": 0.01210763,
+      "auxiliary_loss_mlp": 0.01028961,
+      "balance_loss_clip": 1.05489647,
+      "balance_loss_mlp": 1.0191443,
+      "epoch": 0.3366800937894547,
+      "flos": 16982767238400.0,
+      "grad_norm": 48.931702753660886,
+      "language_loss": 0.82666779,
+      "learning_rate": 3.092042227292276e-06,
+      "loss": 0.84906501,
+      "num_input_tokens_seen": 60299810,
+      "step": 2800,
+      "time_per_iteration": 2.5850372314453125
+    },
+    {
+      "auxiliary_loss_clip": 0.01198259,
+      "auxiliary_loss_mlp": 0.01030802,
+      "balance_loss_clip": 1.06024384,
+      "balance_loss_mlp": 1.02196836,
+      "epoch": 0.3368003366800938,
+      "flos": 23915321913600.0,
+      "grad_norm": 1.5727591178346845,
+      "language_loss": 0.88006777,
+      "learning_rate": 3.0913895442987557e-06,
+      "loss": 0.90235841,
+      "num_input_tokens_seen": 60320775,
+      "step": 2801,
+      "time_per_iteration": 2.6872053146362305
+    },
+    {
+      "auxiliary_loss_clip": 0.0122424,
+      "auxiliary_loss_mlp": 0.01380401,
+      "balance_loss_clip": 1.05677032,
+      "balance_loss_mlp": 1.00065279,
+      "epoch": 0.3369205795707329,
+      "flos": 24791219061120.0,
+      "grad_norm": 1.6392985531523931,
+      "language_loss": 0.85775805,
+      "learning_rate": 3.090736695742308e-06,
+      "loss": 0.88380444,
+      "num_input_tokens_seen": 60341905,
+      "step": 2802,
+      "time_per_iteration": 3.6395318508148193
+    },
+    {
+      "auxiliary_loss_clip": 0.01225469,
+      "auxiliary_loss_mlp": 0.01028215,
+      "balance_loss_clip": 1.05207849,
+      "balance_loss_mlp": 1.01899433,
+      "epoch": 0.33704082246137196,
+      "flos": 17931096161280.0,
+      "grad_norm": 3.484855342770534,
+      "language_loss": 0.52401495,
+      "learning_rate": 3.0900836817219713e-06,
+      "loss": 0.54655176,
+      "num_input_tokens_seen": 60358335,
+      "step": 2803,
+      "time_per_iteration": 2.7782363891601562
+    },
+    {
+      "auxiliary_loss_clip": 0.01199375,
+      "auxiliary_loss_mlp": 0.01026943,
+      "balance_loss_clip": 1.05915225,
+      "balance_loss_mlp": 1.01790738,
+      "epoch": 0.33716106535201107,
+      "flos": 21286517149440.0,
+      "grad_norm": 1.7211173084147433,
+      "language_loss": 0.83430552,
+      "learning_rate": 3.089430502336807e-06,
+      "loss": 0.85656875,
+      "num_input_tokens_seen": 60378305,
+      "step": 2804,
+      "time_per_iteration": 2.681867837905884
+    },
+    {
+      "auxiliary_loss_clip": 0.012116,
+      "auxiliary_loss_mlp": 0.0102556,
+      "balance_loss_clip": 1.05854285,
+      "balance_loss_mlp": 1.01591575,
+      "epoch": 0.3372813082426502,
+      "flos": 18402962152320.0,
+      "grad_norm": 3.9078676201689055,
+      "language_loss": 0.90124607,
+      "learning_rate": 3.088777157685902e-06,
+      "loss": 0.9236176,
+      "num_input_tokens_seen": 60393895,
+      "step": 2805,
+      "time_per_iteration": 2.602215051651001
+    },
+    {
+      "auxiliary_loss_clip": 0.01215497,
+      "auxiliary_loss_mlp": 0.0102851,
+      "balance_loss_clip": 1.05859387,
+      "balance_loss_mlp": 1.01976585,
+      "epoch": 0.33740155113328923,
+      "flos": 17201391367680.0,
+      "grad_norm": 2.070825550671347,
+      "language_loss": 0.86204147,
+      "learning_rate": 3.088123647868367e-06,
+      "loss": 0.88448155,
+      "num_input_tokens_seen": 60410445,
+      "step": 2806,
+      "time_per_iteration": 2.639455795288086
+    },
+    {
+      "auxiliary_loss_clip": 0.01208996,
+      "auxiliary_loss_mlp": 0.01031205,
+      "balance_loss_clip": 1.05708337,
+      "balance_loss_mlp": 1.02187085,
+      "epoch": 0.33752179402392835,
+      "flos": 29058950609280.0,
+      "grad_norm": 2.0367245607130946,
+      "language_loss": 0.81393319,
+      "learning_rate": 3.0874699729833405e-06,
+      "loss": 0.83633518,
+      "num_input_tokens_seen": 60431815,
+      "step": 2807,
+      "time_per_iteration": 2.750744342803955
+    },
+    {
+      "auxiliary_loss_clip": 0.01208865,
+      "auxiliary_loss_mlp": 0.01030583,
+      "balance_loss_clip": 1.05414641,
+      "balance_loss_mlp": 1.02198195,
+      "epoch": 0.3376420369145674,
+      "flos": 25080730680960.0,
+      "grad_norm": 1.811048346377354,
+      "language_loss": 0.7943396,
+      "learning_rate": 3.086816133129983e-06,
+      "loss": 0.81673408,
+      "num_input_tokens_seen": 60452075,
+      "step": 2808,
+      "time_per_iteration": 2.6557304859161377
+    },
+    {
+      "auxiliary_loss_clip": 0.01204692,
+      "auxiliary_loss_mlp": 0.01031894,
+      "balance_loss_clip": 1.06408119,
+      "balance_loss_mlp": 1.02338231,
+      "epoch": 0.3377622798052065,
+      "flos": 27490624007040.0,
+      "grad_norm": 2.271647973329316,
+      "language_loss": 0.76065695,
+      "learning_rate": 3.0861621284074826e-06,
+      "loss": 0.78302276,
+      "num_input_tokens_seen": 60472600,
+      "step": 2809,
+      "time_per_iteration": 2.8796279430389404
+    },
+    {
+      "auxiliary_loss_clip": 0.01225113,
+      "auxiliary_loss_mlp": 0.01034263,
+      "balance_loss_clip": 1.05985391,
+      "balance_loss_mlp": 1.02616286,
+      "epoch": 0.3378825226958456,
+      "flos": 21975211589760.0,
+      "grad_norm": 1.4864699606618277,
+      "language_loss": 0.73207468,
+      "learning_rate": 3.085507958915051e-06,
+      "loss": 0.75466847,
+      "num_input_tokens_seen": 60491030,
+      "step": 2810,
+      "time_per_iteration": 2.7229909896850586
+    },
+    {
+      "auxiliary_loss_clip": 0.01214296,
+      "auxiliary_loss_mlp": 0.01030035,
+      "balance_loss_clip": 1.05669308,
+      "balance_loss_mlp": 1.02065933,
+      "epoch": 0.3380027655864847,
+      "flos": 42523189200000.0,
+      "grad_norm": 1.8101164606882134,
+      "language_loss": 0.71384555,
+      "learning_rate": 3.084853624751925e-06,
+      "loss": 0.73628891,
+      "num_input_tokens_seen": 60512615,
+      "step": 2811,
+      "time_per_iteration": 2.8370797634124756
+    },
+    {
+      "auxiliary_loss_clip": 0.01227444,
+      "auxiliary_loss_mlp": 0.01027574,
+      "balance_loss_clip": 1.05681074,
+      "balance_loss_mlp": 1.01848459,
+      "epoch": 0.3381230084771238,
+      "flos": 26725080418560.0,
+      "grad_norm": 1.9097403504272203,
+      "language_loss": 0.85903299,
+      "learning_rate": 3.0841991260173668e-06,
+      "loss": 0.88158315,
+      "num_input_tokens_seen": 60532520,
+      "step": 2812,
+      "time_per_iteration": 2.7847611904144287
+    },
+    {
+      "auxiliary_loss_clip": 0.01201769,
+      "auxiliary_loss_mlp": 0.01033058,
+      "balance_loss_clip": 1.06086922,
+      "balance_loss_mlp": 1.02433228,
+      "epoch": 0.3382432513677629,
+      "flos": 22710375250560.0,
+      "grad_norm": 1.837595465642499,
+      "language_loss": 0.80556977,
+      "learning_rate": 3.0835444628106634e-06,
+      "loss": 0.82791805,
+      "num_input_tokens_seen": 60551500,
+      "step": 2813,
+      "time_per_iteration": 2.553905725479126
+    },
+    {
+      "auxiliary_loss_clip": 0.01202343,
+      "auxiliary_loss_mlp": 0.01380825,
+      "balance_loss_clip": 1.06213009,
+      "balance_loss_mlp": 1.00089383,
+      "epoch": 0.33836349425840195,
+      "flos": 22122409524480.0,
+      "grad_norm": 4.238202742579538,
+      "language_loss": 0.82972944,
+      "learning_rate": 3.082889635231126e-06,
+      "loss": 0.85556108,
+      "num_input_tokens_seen": 60570160,
+      "step": 2814,
+      "time_per_iteration": 2.646627902984619
+    },
+    {
+      "auxiliary_loss_clip": 0.01217765,
+      "auxiliary_loss_mlp": 0.01035571,
+      "balance_loss_clip": 1.05587029,
+      "balance_loss_mlp": 1.02574778,
+      "epoch": 0.33848373714904106,
+      "flos": 27308090067840.0,
+      "grad_norm": 2.851295110765566,
+      "language_loss": 0.76280499,
+      "learning_rate": 3.0822346433780925e-06,
+      "loss": 0.78533828,
+      "num_input_tokens_seen": 60590885,
+      "step": 2815,
+      "time_per_iteration": 2.6815123558044434
+    },
+    {
+      "auxiliary_loss_clip": 0.01208987,
+      "auxiliary_loss_mlp": 0.01032128,
+      "balance_loss_clip": 1.05648267,
+      "balance_loss_mlp": 1.02306771,
+      "epoch": 0.3386039800396802,
+      "flos": 25848716394240.0,
+      "grad_norm": 2.0198981787270047,
+      "language_loss": 0.86992854,
+      "learning_rate": 3.0815794873509237e-06,
+      "loss": 0.89233971,
+      "num_input_tokens_seen": 60609170,
+      "step": 2816,
+      "time_per_iteration": 2.703941822052002
+    },
+    {
+      "auxiliary_loss_clip": 0.01201289,
+      "auxiliary_loss_mlp": 0.01029741,
+      "balance_loss_clip": 1.05914497,
+      "balance_loss_mlp": 1.02089536,
+      "epoch": 0.33872422293031923,
+      "flos": 18880646146560.0,
+      "grad_norm": 1.9399938008717854,
+      "language_loss": 0.72756124,
+      "learning_rate": 3.0809241672490066e-06,
+      "loss": 0.74987149,
+      "num_input_tokens_seen": 60627340,
+      "step": 2817,
+      "time_per_iteration": 2.616055965423584
+    },
+    {
+      "auxiliary_loss_clip": 0.01219324,
+      "auxiliary_loss_mlp": 0.01034215,
+      "balance_loss_clip": 1.0575397,
+      "balance_loss_mlp": 1.02575707,
+      "epoch": 0.33884446582095834,
+      "flos": 23146977064320.0,
+      "grad_norm": 2.000196588894164,
+      "language_loss": 0.84864384,
+      "learning_rate": 3.080268683171753e-06,
+      "loss": 0.87117922,
+      "num_input_tokens_seen": 60647630,
+      "step": 2818,
+      "time_per_iteration": 2.747812032699585
+    },
+    {
+      "auxiliary_loss_clip": 0.01208606,
+      "auxiliary_loss_mlp": 0.0102837,
+      "balance_loss_clip": 1.05678737,
+      "balance_loss_mlp": 1.01994848,
+      "epoch": 0.33896470871159745,
+      "flos": 15997342544640.0,
+      "grad_norm": 2.512946808371963,
+      "language_loss": 0.89321309,
+      "learning_rate": 3.0796130352185985e-06,
+      "loss": 0.91558284,
+      "num_input_tokens_seen": 60664485,
+      "step": 2819,
+      "time_per_iteration": 2.6303858757019043
+    },
+    {
+      "auxiliary_loss_clip": 0.01200616,
+      "auxiliary_loss_mlp": 0.01381241,
+      "balance_loss_clip": 1.05195761,
+      "balance_loss_mlp": 1.00109792,
+      "epoch": 0.3390849516022365,
+      "flos": 34495754112000.0,
+      "grad_norm": 1.9387690601918306,
+      "language_loss": 0.66428185,
+      "learning_rate": 3.0789572234890057e-06,
+      "loss": 0.69010043,
+      "num_input_tokens_seen": 60686125,
+      "step": 2820,
+      "time_per_iteration": 3.604227066040039
+    },
+    {
+      "auxiliary_loss_clip": 0.01220263,
+      "auxiliary_loss_mlp": 0.01030505,
+      "balance_loss_clip": 1.06028461,
+      "balance_loss_mlp": 1.02152824,
+      "epoch": 0.3392051944928756,
+      "flos": 16180307447040.0,
+      "grad_norm": 1.6132361571955254,
+      "language_loss": 0.77379084,
+      "learning_rate": 3.0783012480824596e-06,
+      "loss": 0.79629844,
+      "num_input_tokens_seen": 60705270,
+      "step": 2821,
+      "time_per_iteration": 4.534826040267944
+    },
+    {
+      "auxiliary_loss_clip": 0.01201301,
+      "auxiliary_loss_mlp": 0.01035692,
+      "balance_loss_clip": 1.06017089,
+      "balance_loss_mlp": 1.02587509,
+      "epoch": 0.33932543738351467,
+      "flos": 17086656349440.0,
+      "grad_norm": 2.104071620219608,
+      "language_loss": 0.74019271,
+      "learning_rate": 3.077645109098471e-06,
+      "loss": 0.76256263,
+      "num_input_tokens_seen": 60721540,
+      "step": 2822,
+      "time_per_iteration": 2.6257359981536865
+    },
+    {
+      "auxiliary_loss_clip": 0.01208407,
+      "auxiliary_loss_mlp": 0.01030688,
+      "balance_loss_clip": 1.05207324,
+      "balance_loss_mlp": 1.02148545,
+      "epoch": 0.3394456802741538,
+      "flos": 22126970551680.0,
+      "grad_norm": 1.8624399794336717,
+      "language_loss": 0.71979308,
+      "learning_rate": 3.076988806636577e-06,
+      "loss": 0.74218404,
+      "num_input_tokens_seen": 60739300,
+      "step": 2823,
+      "time_per_iteration": 2.6629438400268555
+    },
+    {
+      "auxiliary_loss_clip": 0.01221815,
+      "auxiliary_loss_mlp": 0.01381169,
+      "balance_loss_clip": 1.0579412,
+      "balance_loss_mlp": 1.00093055,
+      "epoch": 0.3395659231647929,
+      "flos": 25226887121280.0,
+      "grad_norm": 1.833290166544764,
+      "language_loss": 0.8872667,
+      "learning_rate": 3.0763323407963377e-06,
+      "loss": 0.91329658,
+      "num_input_tokens_seen": 60758910,
+      "step": 2824,
+      "time_per_iteration": 2.729215383529663
+    },
+    {
+      "auxiliary_loss_clip": 0.01206283,
+      "auxiliary_loss_mlp": 0.01033231,
+      "balance_loss_clip": 1.05552125,
+      "balance_loss_mlp": 1.02395678,
+      "epoch": 0.33968616605543195,
+      "flos": 29096477343360.0,
+      "grad_norm": 1.8375428602546633,
+      "language_loss": 0.79838306,
+      "learning_rate": 3.075675711677337e-06,
+      "loss": 0.82077819,
+      "num_input_tokens_seen": 60779005,
+      "step": 2825,
+      "time_per_iteration": 2.7154741287231445
+    },
+    {
+      "auxiliary_loss_clip": 0.01210392,
+      "auxiliary_loss_mlp": 0.0104387,
+      "balance_loss_clip": 1.05695176,
+      "balance_loss_mlp": 1.03461361,
+      "epoch": 0.33980640894607106,
+      "flos": 21433966479360.0,
+      "grad_norm": 1.838244282882707,
+      "language_loss": 0.78108639,
+      "learning_rate": 3.0750189193791865e-06,
+      "loss": 0.80362904,
+      "num_input_tokens_seen": 60798590,
+      "step": 2826,
+      "time_per_iteration": 2.683284282684326
+    },
+    {
+      "auxiliary_loss_clip": 0.01202851,
+      "auxiliary_loss_mlp": 0.01030207,
+      "balance_loss_clip": 1.0558598,
+      "balance_loss_mlp": 1.02121305,
+      "epoch": 0.33992665183671017,
+      "flos": 32490035596800.0,
+      "grad_norm": 1.9585331449922287,
+      "language_loss": 0.70226926,
+      "learning_rate": 3.0743619640015203e-06,
+      "loss": 0.72459984,
+      "num_input_tokens_seen": 60818840,
+      "step": 2827,
+      "time_per_iteration": 3.6357150077819824
+    },
+    {
+      "auxiliary_loss_clip": 0.01220291,
+      "auxiliary_loss_mlp": 0.01035487,
+      "balance_loss_clip": 1.05435991,
+      "balance_loss_mlp": 1.02642155,
+      "epoch": 0.3400468947273492,
+      "flos": 17055414495360.0,
+      "grad_norm": 1.9679812316887315,
+      "language_loss": 0.92604184,
+      "learning_rate": 3.073704845643999e-06,
+      "loss": 0.94859958,
+      "num_input_tokens_seen": 60835965,
+      "step": 2828,
+      "time_per_iteration": 2.6581544876098633
+    },
+    {
+      "auxiliary_loss_clip": 0.01212152,
+      "auxiliary_loss_mlp": 0.01032738,
+      "balance_loss_clip": 1.05784547,
+      "balance_loss_mlp": 1.02372599,
+      "epoch": 0.34016713761798834,
+      "flos": 16872988296960.0,
+      "grad_norm": 3.9111917392764344,
+      "language_loss": 0.77536952,
+      "learning_rate": 3.0730475644063063e-06,
+      "loss": 0.79781842,
+      "num_input_tokens_seen": 60851065,
+      "step": 2829,
+      "time_per_iteration": 2.696131944656372
+    },
+    {
+      "auxiliary_loss_clip": 0.01206839,
+      "auxiliary_loss_mlp": 0.01380447,
+      "balance_loss_clip": 1.05390835,
+      "balance_loss_mlp": 1.00087452,
+      "epoch": 0.34028738050862745,
+      "flos": 21907161273600.0,
+      "grad_norm": 1.6953724560271861,
+      "language_loss": 0.64803195,
+      "learning_rate": 3.072390120388151e-06,
+      "loss": 0.6739049,
+      "num_input_tokens_seen": 60869390,
+      "step": 2830,
+      "time_per_iteration": 2.7391886711120605
+    },
+    {
+      "auxiliary_loss_clip": 0.01210109,
+      "auxiliary_loss_mlp": 0.01035262,
+      "balance_loss_clip": 1.05902576,
+      "balance_loss_mlp": 1.02572536,
+      "epoch": 0.3404076233992665,
+      "flos": 22746034477440.0,
+      "grad_norm": 3.0760360607272164,
+      "language_loss": 0.71209854,
+      "learning_rate": 3.071732513689267e-06,
+      "loss": 0.73455226,
+      "num_input_tokens_seen": 60887925,
+      "step": 2831,
+      "time_per_iteration": 2.6834840774536133
+    },
+    {
+      "auxiliary_loss_clip": 0.0121301,
+      "auxiliary_loss_mlp": 0.01034762,
+      "balance_loss_clip": 1.0616107,
+      "balance_loss_mlp": 1.0255115,
+      "epoch": 0.3405278662899056,
+      "flos": 17052361839360.0,
+      "grad_norm": 2.5240864276044253,
+      "language_loss": 0.6764552,
+      "learning_rate": 3.0710747444094134e-06,
+      "loss": 0.69893289,
+      "num_input_tokens_seen": 60905955,
+      "step": 2832,
+      "time_per_iteration": 2.652759313583374
+    },
+    {
+      "auxiliary_loss_clip": 0.01223958,
+      "auxiliary_loss_mlp": 0.01033393,
+      "balance_loss_clip": 1.06164765,
+      "balance_loss_mlp": 1.02366567,
+      "epoch": 0.3406481091805447,
+      "flos": 42813131783040.0,
+      "grad_norm": 2.1810178544433803,
+      "language_loss": 0.64956105,
+      "learning_rate": 3.070416812648372e-06,
+      "loss": 0.67213458,
+      "num_input_tokens_seen": 60929405,
+      "step": 2833,
+      "time_per_iteration": 2.9355831146240234
+    },
+    {
+      "auxiliary_loss_clip": 0.01219005,
+      "auxiliary_loss_mlp": 0.01031797,
+      "balance_loss_clip": 1.05090642,
+      "balance_loss_mlp": 1.02268958,
+      "epoch": 0.3407683520711838,
+      "flos": 26761457917440.0,
+      "grad_norm": 2.4020472039288316,
+      "language_loss": 0.6530025,
+      "learning_rate": 3.069758718505951e-06,
+      "loss": 0.67551053,
+      "num_input_tokens_seen": 60951145,
+      "step": 2834,
+      "time_per_iteration": 2.7768821716308594
+    },
+    {
+      "auxiliary_loss_clip": 0.01204083,
+      "auxiliary_loss_mlp": 0.01035355,
+      "balance_loss_clip": 1.06327176,
+      "balance_loss_mlp": 1.02606845,
+      "epoch": 0.3408885949618229,
+      "flos": 28767643309440.0,
+      "grad_norm": 1.7922696844696775,
+      "language_loss": 0.80142331,
+      "learning_rate": 3.0691004620819836e-06,
+      "loss": 0.82381773,
+      "num_input_tokens_seen": 60971275,
+      "step": 2835,
+      "time_per_iteration": 2.6620898246765137
+    },
+    {
+      "auxiliary_loss_clip": 0.01137835,
+      "auxiliary_loss_mlp": 0.01006489,
+      "balance_loss_clip": 1.02324092,
+      "balance_loss_mlp": 1.00478423,
+      "epoch": 0.341008837852462,
+      "flos": 63576252881280.0,
+      "grad_norm": 0.8151842082874787,
+      "language_loss": 0.60215521,
+      "learning_rate": 3.0684420434763254e-06,
+      "loss": 0.62359846,
+      "num_input_tokens_seen": 61037460,
+      "step": 2836,
+      "time_per_iteration": 3.3493101596832275
+    },
+    {
+      "auxiliary_loss_clip": 0.01216134,
+      "auxiliary_loss_mlp": 0.01034415,
+      "balance_loss_clip": 1.05562496,
+      "balance_loss_mlp": 1.02528369,
+      "epoch": 0.34112908074310105,
+      "flos": 20812173120000.0,
+      "grad_norm": 2.142824033318834,
+      "language_loss": 0.76836866,
+      "learning_rate": 3.06778346278886e-06,
+      "loss": 0.79087418,
+      "num_input_tokens_seen": 61056295,
+      "step": 2837,
+      "time_per_iteration": 2.6648740768432617
+    },
+    {
+      "auxiliary_loss_clip": 0.01203449,
+      "auxiliary_loss_mlp": 0.01033882,
+      "balance_loss_clip": 1.0633744,
+      "balance_loss_mlp": 1.02377284,
+      "epoch": 0.34124932363374016,
+      "flos": 24976446520320.0,
+      "grad_norm": 1.8268368997488806,
+      "language_loss": 0.78928328,
+      "learning_rate": 3.0671247201194906e-06,
+      "loss": 0.81165659,
+      "num_input_tokens_seen": 61078430,
+      "step": 2838,
+      "time_per_iteration": 2.684248447418213
+    },
+    {
+      "auxiliary_loss_clip": 0.01225887,
+      "auxiliary_loss_mlp": 0.01036422,
+      "balance_loss_clip": 1.052912,
+      "balance_loss_mlp": 1.02634919,
+      "epoch": 0.3413695665243792,
+      "flos": 28402970480640.0,
+      "grad_norm": 1.6875188774600407,
+      "language_loss": 0.75866777,
+      "learning_rate": 3.066465815568151e-06,
+      "loss": 0.78129083,
+      "num_input_tokens_seen": 61099260,
+      "step": 2839,
+      "time_per_iteration": 2.732173442840576
+    },
+    {
+      "auxiliary_loss_clip": 0.01208285,
+      "auxiliary_loss_mlp": 0.01030021,
+      "balance_loss_clip": 1.0557996,
+      "balance_loss_mlp": 1.02075839,
+      "epoch": 0.34148980941501833,
+      "flos": 25302012416640.0,
+      "grad_norm": 1.745942391143093,
+      "language_loss": 0.68889886,
+      "learning_rate": 3.0658067492347947e-06,
+      "loss": 0.7112819,
+      "num_input_tokens_seen": 61121900,
+      "step": 2840,
+      "time_per_iteration": 2.77624249458313
+    },
+    {
+      "auxiliary_loss_clip": 0.01243778,
+      "auxiliary_loss_mlp": 0.01032041,
+      "balance_loss_clip": 1.05018997,
+      "balance_loss_mlp": 1.02302909,
+      "epoch": 0.34161005230565744,
+      "flos": 17530081747200.0,
+      "grad_norm": 1.9133155060408147,
+      "language_loss": 0.66843045,
+      "learning_rate": 3.065147521219402e-06,
+      "loss": 0.69118869,
+      "num_input_tokens_seen": 61141155,
+      "step": 2841,
+      "time_per_iteration": 3.083209276199341
+    },
+    {
+      "auxiliary_loss_clip": 0.01210433,
+      "auxiliary_loss_mlp": 0.01029929,
+      "balance_loss_clip": 1.05867255,
+      "balance_loss_mlp": 1.02048194,
+      "epoch": 0.3417302951962965,
+      "flos": 43650101566080.0,
+      "grad_norm": 1.5264558268149189,
+      "language_loss": 0.74437737,
+      "learning_rate": 3.064488131621977e-06,
+      "loss": 0.76678103,
+      "num_input_tokens_seen": 61164480,
+      "step": 2842,
+      "time_per_iteration": 3.0671515464782715
+    },
+    {
+      "auxiliary_loss_clip": 0.01201409,
+      "auxiliary_loss_mlp": 0.01032302,
+      "balance_loss_clip": 1.05692041,
+      "balance_loss_mlp": 1.02358139,
+      "epoch": 0.3418505380869356,
+      "flos": 30882207012480.0,
+      "grad_norm": 1.7337838929783982,
+      "language_loss": 0.73901349,
+      "learning_rate": 3.063828580542549e-06,
+      "loss": 0.76135063,
+      "num_input_tokens_seen": 61185675,
+      "step": 2843,
+      "time_per_iteration": 2.6601874828338623
+    },
+    {
+      "auxiliary_loss_clip": 0.01216384,
+      "auxiliary_loss_mlp": 0.01030559,
+      "balance_loss_clip": 1.05573773,
+      "balance_loss_mlp": 1.02193975,
+      "epoch": 0.3419707809775747,
+      "flos": 19463871277440.0,
+      "grad_norm": 1.88712866041291,
+      "language_loss": 0.73341036,
+      "learning_rate": 3.0631688680811706e-06,
+      "loss": 0.75587976,
+      "num_input_tokens_seen": 61205300,
+      "step": 2844,
+      "time_per_iteration": 2.696699619293213
+    },
+    {
+      "auxiliary_loss_clip": 0.01202311,
+      "auxiliary_loss_mlp": 0.01032838,
+      "balance_loss_clip": 1.05982792,
+      "balance_loss_mlp": 1.02361131,
+      "epoch": 0.3420910238682138,
+      "flos": 28727818104960.0,
+      "grad_norm": 1.8745053351960692,
+      "language_loss": 0.75482452,
+      "learning_rate": 3.062508994337921e-06,
+      "loss": 0.77717602,
+      "num_input_tokens_seen": 61224905,
+      "step": 2845,
+      "time_per_iteration": 2.692234992980957
+    },
+    {
+      "auxiliary_loss_clip": 0.01207525,
+      "auxiliary_loss_mlp": 0.01031716,
+      "balance_loss_clip": 1.05519557,
+      "balance_loss_mlp": 1.02099895,
+      "epoch": 0.3422112667588529,
+      "flos": 21397265758080.0,
+      "grad_norm": 1.957258798666713,
+      "language_loss": 0.78988087,
+      "learning_rate": 3.0618489594129013e-06,
+      "loss": 0.81227332,
+      "num_input_tokens_seen": 61243045,
+      "step": 2846,
+      "time_per_iteration": 3.5836386680603027
+    },
+    {
+      "auxiliary_loss_clip": 0.0123113,
+      "auxiliary_loss_mlp": 0.01031236,
+      "balance_loss_clip": 1.05609989,
+      "balance_loss_mlp": 1.02129436,
+      "epoch": 0.342331509649492,
+      "flos": 13881450038400.0,
+      "grad_norm": 2.1230398351697133,
+      "language_loss": 0.71304512,
+      "learning_rate": 3.061188763406239e-06,
+      "loss": 0.73566878,
+      "num_input_tokens_seen": 61259190,
+      "step": 2847,
+      "time_per_iteration": 3.7608678340911865
+    },
+    {
+      "auxiliary_loss_clip": 0.01213466,
+      "auxiliary_loss_mlp": 0.01031227,
+      "balance_loss_clip": 1.05622363,
+      "balance_loss_mlp": 1.02177966,
+      "epoch": 0.34245175254013105,
+      "flos": 28621450955520.0,
+      "grad_norm": 2.2245542707566948,
+      "language_loss": 0.82281649,
+      "learning_rate": 3.060528406418085e-06,
+      "loss": 0.84526342,
+      "num_input_tokens_seen": 61279040,
+      "step": 2848,
+      "time_per_iteration": 2.7732222080230713
+    },
+    {
+      "auxiliary_loss_clip": 0.01209099,
+      "auxiliary_loss_mlp": 0.01031188,
+      "balance_loss_clip": 1.05575979,
+      "balance_loss_mlp": 1.02245557,
+      "epoch": 0.34257199543077016,
+      "flos": 34127058960000.0,
+      "grad_norm": 1.624495398764279,
+      "language_loss": 0.6197924,
+      "learning_rate": 3.0598678885486145e-06,
+      "loss": 0.64219528,
+      "num_input_tokens_seen": 61301580,
+      "step": 2849,
+      "time_per_iteration": 2.7623627185821533
+    },
+    {
+      "auxiliary_loss_clip": 0.01223382,
+      "auxiliary_loss_mlp": 0.01380427,
+      "balance_loss_clip": 1.05063176,
+      "balance_loss_mlp": 1.00055134,
+      "epoch": 0.34269223832140927,
+      "flos": 19974018188160.0,
+      "grad_norm": 1.836551757366374,
+      "language_loss": 0.74283391,
+      "learning_rate": 3.0592072098980282e-06,
+      "loss": 0.76887202,
+      "num_input_tokens_seen": 61321240,
+      "step": 2850,
+      "time_per_iteration": 2.752863883972168
+    },
+    {
+      "auxiliary_loss_clip": 0.01213316,
+      "auxiliary_loss_mlp": 0.01035602,
+      "balance_loss_clip": 1.05682111,
+      "balance_loss_mlp": 1.0261786,
+      "epoch": 0.3428124812120483,
+      "flos": 27235658292480.0,
+      "grad_norm": 2.0539687364898427,
+      "language_loss": 0.73037291,
+      "learning_rate": 3.0585463705665514e-06,
+      "loss": 0.7528621,
+      "num_input_tokens_seen": 61341615,
+      "step": 2851,
+      "time_per_iteration": 2.773071765899658
+    },
+    {
+      "auxiliary_loss_clip": 0.01222257,
+      "auxiliary_loss_mlp": 0.01031873,
+      "balance_loss_clip": 1.05278492,
+      "balance_loss_mlp": 1.02242529,
+      "epoch": 0.34293272410268744,
+      "flos": 24570871079040.0,
+      "grad_norm": 2.1243950763194634,
+      "language_loss": 0.70820606,
+      "learning_rate": 3.0578853706544304e-06,
+      "loss": 0.73074734,
+      "num_input_tokens_seen": 61359005,
+      "step": 2852,
+      "time_per_iteration": 2.805356502532959
+    },
+    {
+      "auxiliary_loss_clip": 0.01225998,
+      "auxiliary_loss_mlp": 0.01380849,
+      "balance_loss_clip": 1.05428815,
+      "balance_loss_mlp": 1.00069332,
+      "epoch": 0.34305296699332655,
+      "flos": 21506865131520.0,
+      "grad_norm": 1.9448493083280518,
+      "language_loss": 0.6544044,
+      "learning_rate": 3.0572242102619404e-06,
+      "loss": 0.68047291,
+      "num_input_tokens_seen": 61376160,
+      "step": 2853,
+      "time_per_iteration": 2.6994411945343018
+    },
+    {
+      "auxiliary_loss_clip": 0.01218509,
+      "auxiliary_loss_mlp": 0.01038366,
+      "balance_loss_clip": 1.05917764,
+      "balance_loss_mlp": 1.02992547,
+      "epoch": 0.3431732098839656,
+      "flos": 24056665931520.0,
+      "grad_norm": 1.931192014600705,
+      "language_loss": 0.8022368,
+      "learning_rate": 3.0565628894893784e-06,
+      "loss": 0.8248055,
+      "num_input_tokens_seen": 61396795,
+      "step": 2854,
+      "time_per_iteration": 4.012827634811401
+    },
+    {
+      "auxiliary_loss_clip": 0.01199465,
+      "auxiliary_loss_mlp": 0.01037878,
+      "balance_loss_clip": 1.05818772,
+      "balance_loss_mlp": 1.02911592,
+      "epoch": 0.3432934527746047,
+      "flos": 16800879744000.0,
+      "grad_norm": 1.819241844876398,
+      "language_loss": 0.74878782,
+      "learning_rate": 3.0559014084370655e-06,
+      "loss": 0.7711612,
+      "num_input_tokens_seen": 61415320,
+      "step": 2855,
+      "time_per_iteration": 2.672077178955078
+    },
+    {
+      "auxiliary_loss_clip": 0.01225111,
+      "auxiliary_loss_mlp": 0.01033558,
+      "balance_loss_clip": 1.05745029,
+      "balance_loss_mlp": 1.02329993,
+      "epoch": 0.34341369566524377,
+      "flos": 23439720908160.0,
+      "grad_norm": 1.7602047627983517,
+      "language_loss": 0.79069668,
+      "learning_rate": 3.055239767205349e-06,
+      "loss": 0.81328332,
+      "num_input_tokens_seen": 61437070,
+      "step": 2856,
+      "time_per_iteration": 2.779927968978882
+    },
+    {
+      "auxiliary_loss_clip": 0.01207772,
+      "auxiliary_loss_mlp": 0.0103696,
+      "balance_loss_clip": 1.05997062,
+      "balance_loss_mlp": 1.0278163,
+      "epoch": 0.3435339385558829,
+      "flos": 17267466435840.0,
+      "grad_norm": 1.7983037874974659,
+      "language_loss": 0.77953815,
+      "learning_rate": 3.054577965894599e-06,
+      "loss": 0.8019855,
+      "num_input_tokens_seen": 61453215,
+      "step": 2857,
+      "time_per_iteration": 2.6166257858276367
+    },
+    {
+      "auxiliary_loss_clip": 0.01223787,
+      "auxiliary_loss_mlp": 0.01028871,
+      "balance_loss_clip": 1.05860782,
+      "balance_loss_mlp": 1.01978087,
+      "epoch": 0.343654181446522,
+      "flos": 22199366413440.0,
+      "grad_norm": 2.4663100548149988,
+      "language_loss": 0.70414472,
+      "learning_rate": 3.0539160046052094e-06,
+      "loss": 0.72667134,
+      "num_input_tokens_seen": 61472915,
+      "step": 2858,
+      "time_per_iteration": 2.6930108070373535
+    },
+    {
+      "auxiliary_loss_clip": 0.01206635,
+      "auxiliary_loss_mlp": 0.01033317,
+      "balance_loss_clip": 1.05427456,
+      "balance_loss_mlp": 1.02304745,
+      "epoch": 0.34377442433716104,
+      "flos": 19901801894400.0,
+      "grad_norm": 5.29501335192862,
+      "language_loss": 0.70789665,
+      "learning_rate": 3.0532538834376003e-06,
+      "loss": 0.73029613,
+      "num_input_tokens_seen": 61492475,
+      "step": 2859,
+      "time_per_iteration": 2.7386057376861572
+    },
+    {
+      "auxiliary_loss_clip": 0.01213522,
+      "auxiliary_loss_mlp": 0.01035216,
+      "balance_loss_clip": 1.05801272,
+      "balance_loss_mlp": 1.02584577,
+      "epoch": 0.34389466722780015,
+      "flos": 22197678474240.0,
+      "grad_norm": 1.786786771596825,
+      "language_loss": 0.78044331,
+      "learning_rate": 3.0525916024922143e-06,
+      "loss": 0.80293065,
+      "num_input_tokens_seen": 61511660,
+      "step": 2860,
+      "time_per_iteration": 2.653886556625366
+    },
+    {
+      "auxiliary_loss_clip": 0.01213646,
+      "auxiliary_loss_mlp": 0.01033889,
+      "balance_loss_clip": 1.05498958,
+      "balance_loss_mlp": 1.02462626,
+      "epoch": 0.34401491011843927,
+      "flos": 18624567110400.0,
+      "grad_norm": 2.752642306361512,
+      "language_loss": 0.84162474,
+      "learning_rate": 3.0519291618695193e-06,
+      "loss": 0.8641001,
+      "num_input_tokens_seen": 61529060,
+      "step": 2861,
+      "time_per_iteration": 2.72263240814209
+    },
+    {
+      "auxiliary_loss_clip": 0.01214133,
+      "auxiliary_loss_mlp": 0.01031549,
+      "balance_loss_clip": 1.05017614,
+      "balance_loss_mlp": 1.02206016,
+      "epoch": 0.3441351530090783,
+      "flos": 17858197509120.0,
+      "grad_norm": 1.645118785336507,
+      "language_loss": 0.76175451,
+      "learning_rate": 3.0512665616700065e-06,
+      "loss": 0.78421134,
+      "num_input_tokens_seen": 61548125,
+      "step": 2862,
+      "time_per_iteration": 2.842089891433716
+    },
+    {
+      "auxiliary_loss_clip": 0.01221088,
+      "auxiliary_loss_mlp": 0.0103749,
+      "balance_loss_clip": 1.04856861,
+      "balance_loss_mlp": 1.02816176,
+      "epoch": 0.34425539589971743,
+      "flos": 23112754381440.0,
+      "grad_norm": 1.9700858197231637,
+      "language_loss": 0.89197117,
+      "learning_rate": 3.0506038019941933e-06,
+      "loss": 0.91455698,
+      "num_input_tokens_seen": 61568135,
+      "step": 2863,
+      "time_per_iteration": 2.7425289154052734
+    },
+    {
+      "auxiliary_loss_clip": 0.01226238,
+      "auxiliary_loss_mlp": 0.01037983,
+      "balance_loss_clip": 1.05616295,
+      "balance_loss_mlp": 1.02895904,
+      "epoch": 0.34437563879035654,
+      "flos": 21907699977600.0,
+      "grad_norm": 2.554541329613842,
+      "language_loss": 0.68019581,
+      "learning_rate": 3.049940882942617e-06,
+      "loss": 0.70283806,
+      "num_input_tokens_seen": 61586920,
+      "step": 2864,
+      "time_per_iteration": 2.6961886882781982
+    },
+    {
+      "auxiliary_loss_clip": 0.01201492,
+      "auxiliary_loss_mlp": 0.01031788,
+      "balance_loss_clip": 1.05967402,
+      "balance_loss_mlp": 1.02237666,
+      "epoch": 0.3444958816809956,
+      "flos": 23076915586560.0,
+      "grad_norm": 2.9521039180006525,
+      "language_loss": 0.80363721,
+      "learning_rate": 3.0492778046158448e-06,
+      "loss": 0.82597005,
+      "num_input_tokens_seen": 61608340,
+      "step": 2865,
+      "time_per_iteration": 2.6128525733947754
+    },
+    {
+      "auxiliary_loss_clip": 0.01210044,
+      "auxiliary_loss_mlp": 0.01041462,
+      "balance_loss_clip": 1.06312907,
+      "balance_loss_mlp": 1.03202057,
+      "epoch": 0.3446161245716347,
+      "flos": 21908633731200.0,
+      "grad_norm": 4.906994115207194,
+      "language_loss": 0.76970792,
+      "learning_rate": 3.0486145671144633e-06,
+      "loss": 0.79222298,
+      "num_input_tokens_seen": 61628130,
+      "step": 2866,
+      "time_per_iteration": 2.6448745727539062
+    },
+    {
+      "auxiliary_loss_clip": 0.01219406,
+      "auxiliary_loss_mlp": 0.01036132,
+      "balance_loss_clip": 1.0479182,
+      "balance_loss_mlp": 1.02662504,
+      "epoch": 0.3447363674622738,
+      "flos": 25112834461440.0,
+      "grad_norm": 2.6558857139376935,
+      "language_loss": 0.76604247,
+      "learning_rate": 3.047951170539086e-06,
+      "loss": 0.78859782,
+      "num_input_tokens_seen": 61647755,
+      "step": 2867,
+      "time_per_iteration": 2.850127935409546
+    },
+    {
+      "auxiliary_loss_clip": 0.01228064,
+      "auxiliary_loss_mlp": 0.01034889,
+      "balance_loss_clip": 1.05911839,
+      "balance_loss_mlp": 1.02644312,
+      "epoch": 0.3448566103529129,
+      "flos": 11984684451840.0,
+      "grad_norm": 2.116227428695121,
+      "language_loss": 0.84125811,
+      "learning_rate": 3.047287614990349e-06,
+      "loss": 0.86388767,
+      "num_input_tokens_seen": 61665675,
+      "step": 2868,
+      "time_per_iteration": 2.86226487159729
+    },
+    {
+      "auxiliary_loss_clip": 0.01207211,
+      "auxiliary_loss_mlp": 0.01028465,
+      "balance_loss_clip": 1.0565207,
+      "balance_loss_mlp": 1.01904202,
+      "epoch": 0.344976853243552,
+      "flos": 40187882465280.0,
+      "grad_norm": 2.9356713464704365,
+      "language_loss": 0.62009025,
+      "learning_rate": 3.046623900568914e-06,
+      "loss": 0.64244699,
+      "num_input_tokens_seen": 61688240,
+      "step": 2869,
+      "time_per_iteration": 2.7639758586883545
+    },
+    {
+      "auxiliary_loss_clip": 0.01213964,
+      "auxiliary_loss_mlp": 0.01034896,
+      "balance_loss_clip": 1.05574656,
+      "balance_loss_mlp": 1.02460206,
+      "epoch": 0.34509709613419104,
+      "flos": 28723652127360.0,
+      "grad_norm": 2.470427915710714,
+      "language_loss": 0.69993103,
+      "learning_rate": 3.045960027375465e-06,
+      "loss": 0.72241962,
+      "num_input_tokens_seen": 61706075,
+      "step": 2870,
+      "time_per_iteration": 2.71817684173584
+    },
+    {
+      "auxiliary_loss_clip": 0.01211746,
+      "auxiliary_loss_mlp": 0.01030915,
+      "balance_loss_clip": 1.05613422,
+      "balance_loss_mlp": 1.02053237,
+      "epoch": 0.34521733902483015,
+      "flos": 29967597982080.0,
+      "grad_norm": 2.688062526060621,
+      "language_loss": 0.8279438,
+      "learning_rate": 3.045295995510711e-06,
+      "loss": 0.85037041,
+      "num_input_tokens_seen": 61723045,
+      "step": 2871,
+      "time_per_iteration": 2.69704532623291
+    },
+    {
+      "auxiliary_loss_clip": 0.01215517,
+      "auxiliary_loss_mlp": 0.01028844,
+      "balance_loss_clip": 1.0565685,
+      "balance_loss_mlp": 1.02051711,
+      "epoch": 0.34533758191546926,
+      "flos": 27923059843200.0,
+      "grad_norm": 1.7582650349618136,
+      "language_loss": 0.73383439,
+      "learning_rate": 3.0446318050753865e-06,
+      "loss": 0.75627798,
+      "num_input_tokens_seen": 61743525,
+      "step": 2872,
+      "time_per_iteration": 3.6325278282165527
+    },
+    {
+      "auxiliary_loss_clip": 0.01201084,
+      "auxiliary_loss_mlp": 0.01038033,
+      "balance_loss_clip": 1.0567652,
+      "balance_loss_mlp": 1.02867544,
+      "epoch": 0.3454578248061083,
+      "flos": 27125879351040.0,
+      "grad_norm": 1.9887103270546278,
+      "language_loss": 0.77649188,
+      "learning_rate": 3.0439674561702474e-06,
+      "loss": 0.79888308,
+      "num_input_tokens_seen": 61763025,
+      "step": 2873,
+      "time_per_iteration": 4.586120128631592
+    },
+    {
+      "auxiliary_loss_clip": 0.01210495,
+      "auxiliary_loss_mlp": 0.01032165,
+      "balance_loss_clip": 1.06289124,
+      "balance_loss_mlp": 1.02304506,
+      "epoch": 0.3455780676967474,
+      "flos": 19024899166080.0,
+      "grad_norm": 2.15782829035991,
+      "language_loss": 0.88157606,
+      "learning_rate": 3.043302948896076e-06,
+      "loss": 0.90400261,
+      "num_input_tokens_seen": 61781630,
+      "step": 2874,
+      "time_per_iteration": 2.7373697757720947
+    },
+    {
+      "auxiliary_loss_clip": 0.01222777,
+      "auxiliary_loss_mlp": 0.01036759,
+      "balance_loss_clip": 1.05418968,
+      "balance_loss_mlp": 1.02709675,
+      "epoch": 0.34569831058738654,
+      "flos": 34496005507200.0,
+      "grad_norm": 2.208671099088299,
+      "language_loss": 0.6093328,
+      "learning_rate": 3.0426382833536756e-06,
+      "loss": 0.63192815,
+      "num_input_tokens_seen": 61804985,
+      "step": 2875,
+      "time_per_iteration": 2.809079647064209
+    },
+    {
+      "auxiliary_loss_clip": 0.01219583,
+      "auxiliary_loss_mlp": 0.01030779,
+      "balance_loss_clip": 1.05368054,
+      "balance_loss_mlp": 1.02139688,
+      "epoch": 0.3458185534780256,
+      "flos": 31138681098240.0,
+      "grad_norm": 2.4083160965877357,
+      "language_loss": 0.77810794,
+      "learning_rate": 3.041973459643877e-06,
+      "loss": 0.80061162,
+      "num_input_tokens_seen": 61824440,
+      "step": 2876,
+      "time_per_iteration": 2.8006982803344727
+    },
+    {
+      "auxiliary_loss_clip": 0.01224435,
+      "auxiliary_loss_mlp": 0.01030407,
+      "balance_loss_clip": 1.05063963,
+      "balance_loss_mlp": 1.02127552,
+      "epoch": 0.3459387963686647,
+      "flos": 32452508862720.0,
+      "grad_norm": 2.8092601843528753,
+      "language_loss": 0.66942823,
+      "learning_rate": 3.0413084778675334e-06,
+      "loss": 0.69197667,
+      "num_input_tokens_seen": 61845690,
+      "step": 2877,
+      "time_per_iteration": 2.8060853481292725
+    },
+    {
+      "auxiliary_loss_clip": 0.01206304,
+      "auxiliary_loss_mlp": 0.01380059,
+      "balance_loss_clip": 1.05459118,
+      "balance_loss_mlp": 1.00052047,
+      "epoch": 0.3460590392593038,
+      "flos": 24675658030080.0,
+      "grad_norm": 1.8450547731285702,
+      "language_loss": 0.83796418,
+      "learning_rate": 3.0406433381255214e-06,
+      "loss": 0.86382782,
+      "num_input_tokens_seen": 61863725,
+      "step": 2878,
+      "time_per_iteration": 2.757349967956543
+    },
+    {
+      "auxiliary_loss_clip": 0.01208367,
+      "auxiliary_loss_mlp": 0.01033735,
+      "balance_loss_clip": 1.06103015,
+      "balance_loss_mlp": 1.02475286,
+      "epoch": 0.34617928214994287,
+      "flos": 18807316531200.0,
+      "grad_norm": 2.235894437849546,
+      "language_loss": 0.81889272,
+      "learning_rate": 3.0399780405187425e-06,
+      "loss": 0.84131372,
+      "num_input_tokens_seen": 61882720,
+      "step": 2879,
+      "time_per_iteration": 3.5390844345092773
+    },
+    {
+      "auxiliary_loss_clip": 0.01205115,
+      "auxiliary_loss_mlp": 0.01031756,
+      "balance_loss_clip": 1.05990422,
+      "balance_loss_mlp": 1.02333426,
+      "epoch": 0.346299525040582,
+      "flos": 24857653265280.0,
+      "grad_norm": 1.9126083970879975,
+      "language_loss": 0.78506529,
+      "learning_rate": 3.0393125851481216e-06,
+      "loss": 0.80743396,
+      "num_input_tokens_seen": 61902595,
+      "step": 2880,
+      "time_per_iteration": 2.7266123294830322
+    },
+    {
+      "auxiliary_loss_clip": 0.01219444,
+      "auxiliary_loss_mlp": 0.01027748,
+      "balance_loss_clip": 1.05589139,
+      "balance_loss_mlp": 1.01908767,
+      "epoch": 0.3464197679312211,
+      "flos": 16434914025600.0,
+      "grad_norm": 2.1839118454246473,
+      "language_loss": 0.86476666,
+      "learning_rate": 3.038646972114608e-06,
+      "loss": 0.88723862,
+      "num_input_tokens_seen": 61918920,
+      "step": 2881,
+      "time_per_iteration": 2.693939685821533
+    },
+    {
+      "auxiliary_loss_clip": 0.0122214,
+      "auxiliary_loss_mlp": 0.0103648,
+      "balance_loss_clip": 1.05765867,
+      "balance_loss_mlp": 1.02784324,
+      "epoch": 0.34654001082186014,
+      "flos": 22382474970240.0,
+      "grad_norm": 1.9358210491497696,
+      "language_loss": 0.67760313,
+      "learning_rate": 3.037981201519174e-06,
+      "loss": 0.70018935,
+      "num_input_tokens_seen": 61939520,
+      "step": 2882,
+      "time_per_iteration": 2.685556173324585
+    },
+    {
+      "auxiliary_loss_clip": 0.01212948,
+      "auxiliary_loss_mlp": 0.01032048,
+      "balance_loss_clip": 1.06396139,
+      "balance_loss_mlp": 1.0232321,
+      "epoch": 0.34666025371249926,
+      "flos": 19573901614080.0,
+      "grad_norm": 2.335772056132602,
+      "language_loss": 0.71623683,
+      "learning_rate": 3.0373152734628175e-06,
+      "loss": 0.7386868,
+      "num_input_tokens_seen": 61957800,
+      "step": 2883,
+      "time_per_iteration": 2.687575578689575
+    },
+    {
+      "auxiliary_loss_clip": 0.01202185,
+      "auxiliary_loss_mlp": 0.01031636,
+      "balance_loss_clip": 1.05686665,
+      "balance_loss_mlp": 1.02278495,
+      "epoch": 0.34678049660313837,
+      "flos": 15267637751040.0,
+      "grad_norm": 2.051793602671928,
+      "language_loss": 0.76143658,
+      "learning_rate": 3.0366491880465584e-06,
+      "loss": 0.78377485,
+      "num_input_tokens_seen": 61975820,
+      "step": 2884,
+      "time_per_iteration": 2.593820810317993
+    },
+    {
+      "auxiliary_loss_clip": 0.01207207,
+      "auxiliary_loss_mlp": 0.01032977,
+      "balance_loss_clip": 1.06546319,
+      "balance_loss_mlp": 1.02338624,
+      "epoch": 0.3469007394937774,
+      "flos": 21181550630400.0,
+      "grad_norm": 1.5762563390687268,
+      "language_loss": 0.81969088,
+      "learning_rate": 3.035982945371443e-06,
+      "loss": 0.84209275,
+      "num_input_tokens_seen": 61997515,
+      "step": 2885,
+      "time_per_iteration": 2.677539825439453
+    },
+    {
+      "auxiliary_loss_clip": 0.01227518,
+      "auxiliary_loss_mlp": 0.01033696,
+      "balance_loss_clip": 1.06071973,
+      "balance_loss_mlp": 1.02426028,
+      "epoch": 0.34702098238441653,
+      "flos": 22375471818240.0,
+      "grad_norm": 2.166848229681769,
+      "language_loss": 0.8493576,
+      "learning_rate": 3.035316545538537e-06,
+      "loss": 0.87196976,
+      "num_input_tokens_seen": 62016310,
+      "step": 2886,
+      "time_per_iteration": 2.6826791763305664
+    },
+    {
+      "auxiliary_loss_clip": 0.01218673,
+      "auxiliary_loss_mlp": 0.01035889,
+      "balance_loss_clip": 1.06259537,
+      "balance_loss_mlp": 1.0271095,
+      "epoch": 0.3471412252750556,
+      "flos": 22929430343040.0,
+      "grad_norm": 2.280306310765405,
+      "language_loss": 0.79375285,
+      "learning_rate": 3.034649988648935e-06,
+      "loss": 0.81629848,
+      "num_input_tokens_seen": 62036075,
+      "step": 2887,
+      "time_per_iteration": 2.753791093826294
+    },
+    {
+      "auxiliary_loss_clip": 0.01219196,
+      "auxiliary_loss_mlp": 0.01027382,
+      "balance_loss_clip": 1.05838645,
+      "balance_loss_mlp": 1.01895428,
+      "epoch": 0.3472614681656947,
+      "flos": 21324259365120.0,
+      "grad_norm": 1.7242725364007356,
+      "language_loss": 0.80590618,
+      "learning_rate": 3.033983274803752e-06,
+      "loss": 0.828372,
+      "num_input_tokens_seen": 62055865,
+      "step": 2888,
+      "time_per_iteration": 2.6646907329559326
+    },
+    {
+      "auxiliary_loss_clip": 0.01213477,
+      "auxiliary_loss_mlp": 0.01033764,
+      "balance_loss_clip": 1.05687976,
+      "balance_loss_mlp": 1.02484751,
+      "epoch": 0.3473817110563338,
+      "flos": 23475739271040.0,
+      "grad_norm": 2.468061635653163,
+      "language_loss": 0.72783828,
+      "learning_rate": 3.0333164041041283e-06,
+      "loss": 0.75031066,
+      "num_input_tokens_seen": 62072180,
+      "step": 2889,
+      "time_per_iteration": 2.752019166946411
+    },
+    {
+      "auxiliary_loss_clip": 0.01247904,
+      "auxiliary_loss_mlp": 0.01027214,
+      "balance_loss_clip": 1.05585432,
+      "balance_loss_mlp": 1.01802921,
+      "epoch": 0.34750195394697286,
+      "flos": 22346025644160.0,
+      "grad_norm": 2.241000366561078,
+      "language_loss": 0.72163564,
+      "learning_rate": 3.032649376651228e-06,
+      "loss": 0.74438679,
+      "num_input_tokens_seen": 62091600,
+      "step": 2890,
+      "time_per_iteration": 2.91975736618042
+    },
+    {
+      "auxiliary_loss_clip": 0.01226728,
+      "auxiliary_loss_mlp": 0.01032607,
+      "balance_loss_clip": 1.05749953,
+      "balance_loss_mlp": 1.023422,
+      "epoch": 0.347622196837612,
+      "flos": 29095004885760.0,
+      "grad_norm": 1.9398002734361113,
+      "language_loss": 0.75705588,
+      "learning_rate": 3.031982192546238e-06,
+      "loss": 0.7796492,
+      "num_input_tokens_seen": 62114695,
+      "step": 2891,
+      "time_per_iteration": 3.0426156520843506
+    },
+    {
+      "auxiliary_loss_clip": 0.01210074,
+      "auxiliary_loss_mlp": 0.01032369,
+      "balance_loss_clip": 1.06033325,
+      "balance_loss_mlp": 1.02376246,
+      "epoch": 0.3477424397282511,
+      "flos": 22455732758400.0,
+      "grad_norm": 2.8683733470862864,
+      "language_loss": 0.94987553,
+      "learning_rate": 3.0313148518903696e-06,
+      "loss": 0.97229993,
+      "num_input_tokens_seen": 62134520,
+      "step": 2892,
+      "time_per_iteration": 2.6711254119873047
+    },
+    {
+      "auxiliary_loss_clip": 0.01219471,
+      "auxiliary_loss_mlp": 0.01031901,
+      "balance_loss_clip": 1.05855989,
+      "balance_loss_mlp": 1.02256083,
+      "epoch": 0.34786268261889014,
+      "flos": 15778790242560.0,
+      "grad_norm": 2.005291906982554,
+      "language_loss": 0.81066418,
+      "learning_rate": 3.030647354784859e-06,
+      "loss": 0.83317792,
+      "num_input_tokens_seen": 62151560,
+      "step": 2893,
+      "time_per_iteration": 2.5943715572357178
+    },
+    {
+      "auxiliary_loss_clip": 0.01224318,
+      "auxiliary_loss_mlp": 0.01030476,
+      "balance_loss_clip": 1.05774856,
+      "balance_loss_mlp": 1.02187538,
+      "epoch": 0.34798292550952925,
+      "flos": 20777627214720.0,
+      "grad_norm": 2.0522735499007267,
+      "language_loss": 0.77173269,
+      "learning_rate": 3.029979701330964e-06,
+      "loss": 0.79428071,
+      "num_input_tokens_seen": 62170985,
+      "step": 2894,
+      "time_per_iteration": 2.7110671997070312
+    },
+    {
+      "auxiliary_loss_clip": 0.01221077,
+      "auxiliary_loss_mlp": 0.01031458,
+      "balance_loss_clip": 1.05728137,
+      "balance_loss_mlp": 1.02232647,
+      "epoch": 0.34810316840016836,
+      "flos": 19937820257280.0,
+      "grad_norm": 2.1187005503938825,
+      "language_loss": 0.80158496,
+      "learning_rate": 3.029311891629966e-06,
+      "loss": 0.82411021,
+      "num_input_tokens_seen": 62189440,
+      "step": 2895,
+      "time_per_iteration": 2.675396203994751
+    },
+    {
+      "auxiliary_loss_clip": 0.01218111,
+      "auxiliary_loss_mlp": 0.01034333,
+      "balance_loss_clip": 1.06012702,
+      "balance_loss_mlp": 1.02521944,
+      "epoch": 0.3482234112908074,
+      "flos": 23623296341760.0,
+      "grad_norm": 1.9314005828295704,
+      "language_loss": 0.74661797,
+      "learning_rate": 3.0286439257831744e-06,
+      "loss": 0.76914245,
+      "num_input_tokens_seen": 62208910,
+      "step": 2896,
+      "time_per_iteration": 2.70467472076416
+    },
+    {
+      "auxiliary_loss_clip": 0.01205982,
+      "auxiliary_loss_mlp": 0.01032599,
+      "balance_loss_clip": 1.06250596,
+      "balance_loss_mlp": 1.02283597,
+      "epoch": 0.3483436541814465,
+      "flos": 23986712194560.0,
+      "grad_norm": 1.8588578653203887,
+      "language_loss": 0.71173477,
+      "learning_rate": 3.0279758038919156e-06,
+      "loss": 0.73412055,
+      "num_input_tokens_seen": 62227135,
+      "step": 2897,
+      "time_per_iteration": 2.5964086055755615
+    },
+    {
+      "auxiliary_loss_clip": 0.01212344,
+      "auxiliary_loss_mlp": 0.0103264,
+      "balance_loss_clip": 1.06150317,
+      "balance_loss_mlp": 1.0231514,
+      "epoch": 0.34846389707208564,
+      "flos": 22638338524800.0,
+      "grad_norm": 1.8160487859318324,
+      "language_loss": 0.78204739,
+      "learning_rate": 3.0273075260575455e-06,
+      "loss": 0.80449718,
+      "num_input_tokens_seen": 62246035,
+      "step": 2898,
+      "time_per_iteration": 3.6484007835388184
+    },
+    {
+      "auxiliary_loss_clip": 0.01218449,
+      "auxiliary_loss_mlp": 0.01029772,
+      "balance_loss_clip": 1.05749345,
+      "balance_loss_mlp": 1.02049124,
+      "epoch": 0.3485841399627247,
+      "flos": 21792857218560.0,
+      "grad_norm": 1.8767622701133717,
+      "language_loss": 0.80832696,
+      "learning_rate": 3.0266390923814396e-06,
+      "loss": 0.83080924,
+      "num_input_tokens_seen": 62264095,
+      "step": 2899,
+      "time_per_iteration": 3.5977540016174316
+    },
+    {
+      "auxiliary_loss_clip": 0.01220468,
+      "auxiliary_loss_mlp": 0.01036955,
+      "balance_loss_clip": 1.06058347,
+      "balance_loss_mlp": 1.02742457,
+      "epoch": 0.3487043828533638,
+      "flos": 17019036996480.0,
+      "grad_norm": 3.302950597121684,
+      "language_loss": 0.82011938,
+      "learning_rate": 3.0259705029650008e-06,
+      "loss": 0.84269357,
+      "num_input_tokens_seen": 62282025,
+      "step": 2900,
+      "time_per_iteration": 2.6347038745880127
+    },
+    {
+      "auxiliary_loss_clip": 0.01209412,
+      "auxiliary_loss_mlp": 0.01031535,
+      "balance_loss_clip": 1.05807543,
+      "balance_loss_mlp": 1.02282691,
+      "epoch": 0.34882462574400286,
+      "flos": 22601135013120.0,
+      "grad_norm": 1.7460145689810849,
+      "language_loss": 0.72600794,
+      "learning_rate": 3.025301757909652e-06,
+      "loss": 0.74841744,
+      "num_input_tokens_seen": 62302220,
+      "step": 2901,
+      "time_per_iteration": 2.723954439163208
+    },
+    {
+      "auxiliary_loss_clip": 0.01230965,
+      "auxiliary_loss_mlp": 0.01380626,
+      "balance_loss_clip": 1.05841911,
+      "balance_loss_mlp": 1.00058198,
+      "epoch": 0.34894486863464197,
+      "flos": 29861518141440.0,
+      "grad_norm": 1.7754018163393082,
+      "language_loss": 0.80894482,
+      "learning_rate": 3.024632857316842e-06,
+      "loss": 0.83506072,
+      "num_input_tokens_seen": 62323535,
+      "step": 2902,
+      "time_per_iteration": 2.7410969734191895
+    },
+    {
+      "auxiliary_loss_clip": 0.01212699,
+      "auxiliary_loss_mlp": 0.01031389,
+      "balance_loss_clip": 1.06262016,
+      "balance_loss_mlp": 1.02278197,
+      "epoch": 0.3490651115252811,
+      "flos": 22122265870080.0,
+      "grad_norm": 3.236025773294599,
+      "language_loss": 0.77367353,
+      "learning_rate": 3.0239638012880412e-06,
+      "loss": 0.79611444,
+      "num_input_tokens_seen": 62343430,
+      "step": 2903,
+      "time_per_iteration": 2.7076714038848877
+    },
+    {
+      "auxiliary_loss_clip": 0.01225652,
+      "auxiliary_loss_mlp": 0.01030067,
+      "balance_loss_clip": 1.05165911,
+      "balance_loss_mlp": 1.02023268,
+      "epoch": 0.34918535441592014,
+      "flos": 12676682943360.0,
+      "grad_norm": 2.2895401922286878,
+      "language_loss": 0.81195152,
+      "learning_rate": 3.0232945899247466e-06,
+      "loss": 0.83450866,
+      "num_input_tokens_seen": 62360365,
+      "step": 2904,
+      "time_per_iteration": 2.6864640712738037
+    },
+    {
+      "auxiliary_loss_clip": 0.01211637,
+      "auxiliary_loss_mlp": 0.01038759,
+      "balance_loss_clip": 1.06043601,
+      "balance_loss_mlp": 1.02901983,
+      "epoch": 0.34930559730655925,
+      "flos": 23185617120000.0,
+      "grad_norm": 2.165603319814757,
+      "language_loss": 0.77394986,
+      "learning_rate": 3.022625223328476e-06,
+      "loss": 0.79645383,
+      "num_input_tokens_seen": 62382105,
+      "step": 2905,
+      "time_per_iteration": 2.7037081718444824
+    },
+    {
+      "auxiliary_loss_clip": 0.0121806,
+      "auxiliary_loss_mlp": 0.01030925,
+      "balance_loss_clip": 1.06158233,
+      "balance_loss_mlp": 1.02107787,
+      "epoch": 0.34942584019719836,
+      "flos": 22855023319680.0,
+      "grad_norm": 2.138767619844283,
+      "language_loss": 0.69283235,
+      "learning_rate": 3.0219557016007723e-06,
+      "loss": 0.7153222,
+      "num_input_tokens_seen": 62402235,
+      "step": 2906,
+      "time_per_iteration": 3.5912604331970215
+    },
+    {
+      "auxiliary_loss_clip": 0.01207783,
+      "auxiliary_loss_mlp": 0.01032179,
+      "balance_loss_clip": 1.0611968,
+      "balance_loss_mlp": 1.02292264,
+      "epoch": 0.3495460830878374,
+      "flos": 24426043441920.0,
+      "grad_norm": 1.8928674169080906,
+      "language_loss": 0.69612116,
+      "learning_rate": 3.021286024843202e-06,
+      "loss": 0.71852076,
+      "num_input_tokens_seen": 62420430,
+      "step": 2907,
+      "time_per_iteration": 2.6359410285949707
+    },
+    {
+      "auxiliary_loss_clip": 0.01100656,
+      "auxiliary_loss_mlp": 0.01002051,
+      "balance_loss_clip": 1.03210998,
+      "balance_loss_mlp": 1.00047767,
+      "epoch": 0.3496663259784765,
+      "flos": 70008749389440.0,
+      "grad_norm": 1.0610947556520716,
+      "language_loss": 0.64747751,
+      "learning_rate": 3.0206161931573526e-06,
+      "loss": 0.66850448,
+      "num_input_tokens_seen": 62472980,
+      "step": 2908,
+      "time_per_iteration": 3.1275389194488525
+    },
+    {
+      "auxiliary_loss_clip": 0.01214533,
+      "auxiliary_loss_mlp": 0.01034124,
+      "balance_loss_clip": 1.05588055,
+      "balance_loss_mlp": 1.02499831,
+      "epoch": 0.34978656886911563,
+      "flos": 28692805322880.0,
+      "grad_norm": 1.5334586515549087,
+      "language_loss": 0.92764235,
+      "learning_rate": 3.0199462066448388e-06,
+      "loss": 0.95012891,
+      "num_input_tokens_seen": 62495175,
+      "step": 2909,
+      "time_per_iteration": 2.7191216945648193
+    },
+    {
+      "auxiliary_loss_clip": 0.01215483,
+      "auxiliary_loss_mlp": 0.01028107,
+      "balance_loss_clip": 1.06351018,
+      "balance_loss_mlp": 1.01873684,
+      "epoch": 0.3499068117597547,
+      "flos": 21142156389120.0,
+      "grad_norm": 1.860962605100214,
+      "language_loss": 0.6926825,
+      "learning_rate": 3.019276065407296e-06,
+      "loss": 0.71511841,
+      "num_input_tokens_seen": 62514295,
+      "step": 2910,
+      "time_per_iteration": 2.655341386795044
+    },
+    {
+      "auxiliary_loss_clip": 0.0123553,
+      "auxiliary_loss_mlp": 0.0103471,
+      "balance_loss_clip": 1.055372,
+      "balance_loss_mlp": 1.02524447,
+      "epoch": 0.3500270546503938,
+      "flos": 22782699285120.0,
+      "grad_norm": 1.7386490046744307,
+      "language_loss": 0.80562454,
+      "learning_rate": 3.018605769546385e-06,
+      "loss": 0.82832694,
+      "num_input_tokens_seen": 62534850,
+      "step": 2911,
+      "time_per_iteration": 2.7344858646392822
+    },
+    {
+      "auxiliary_loss_clip": 0.01206529,
+      "auxiliary_loss_mlp": 0.01031635,
+      "balance_loss_clip": 1.05791497,
+      "balance_loss_mlp": 1.02189612,
+      "epoch": 0.3501472975410329,
+      "flos": 22894058424960.0,
+      "grad_norm": 1.9894016223291748,
+      "language_loss": 0.79670715,
+      "learning_rate": 3.017935319163788e-06,
+      "loss": 0.81908882,
+      "num_input_tokens_seen": 62553810,
+      "step": 2912,
+      "time_per_iteration": 2.712541341781616
+    },
+    {
+      "auxiliary_loss_clip": 0.012136,
+      "auxiliary_loss_mlp": 0.01031633,
+      "balance_loss_clip": 1.06123722,
+      "balance_loss_mlp": 1.02144063,
+      "epoch": 0.35026754043167196,
+      "flos": 25446588658560.0,
+      "grad_norm": 1.8482001567030635,
+      "language_loss": 0.70485997,
+      "learning_rate": 3.017264714361213e-06,
+      "loss": 0.72731233,
+      "num_input_tokens_seen": 62573460,
+      "step": 2913,
+      "time_per_iteration": 2.67457914352417
+    },
+    {
+      "auxiliary_loss_clip": 0.01218256,
+      "auxiliary_loss_mlp": 0.01380421,
+      "balance_loss_clip": 1.05693483,
+      "balance_loss_mlp": 1.00057411,
+      "epoch": 0.3503877833223111,
+      "flos": 19573757959680.0,
+      "grad_norm": 2.48968374292679,
+      "language_loss": 0.82422984,
+      "learning_rate": 3.016593955240389e-06,
+      "loss": 0.85021663,
+      "num_input_tokens_seen": 62592150,
+      "step": 2914,
+      "time_per_iteration": 2.732919692993164
+    },
+    {
+      "auxiliary_loss_clip": 0.01110508,
+      "auxiliary_loss_mlp": 0.01002895,
+      "balance_loss_clip": 1.0308919,
+      "balance_loss_mlp": 1.00123775,
+      "epoch": 0.3505080262129502,
+      "flos": 65072075880960.0,
+      "grad_norm": 0.8294071645597316,
+      "language_loss": 0.63720262,
+      "learning_rate": 3.015923041903071e-06,
+      "loss": 0.65833664,
+      "num_input_tokens_seen": 62658275,
+      "step": 2915,
+      "time_per_iteration": 3.304044723510742
+    },
+    {
+      "auxiliary_loss_clip": 0.01212375,
+      "auxiliary_loss_mlp": 0.01032328,
+      "balance_loss_clip": 1.06287551,
+      "balance_loss_mlp": 1.02311945,
+      "epoch": 0.35062826910358924,
+      "flos": 29314562768640.0,
+      "grad_norm": 2.502906659391027,
+      "language_loss": 0.833556,
+      "learning_rate": 3.0152519744510347e-06,
+      "loss": 0.85600305,
+      "num_input_tokens_seen": 62678075,
+      "step": 2916,
+      "time_per_iteration": 2.692688465118408
+    },
+    {
+      "auxiliary_loss_clip": 0.01228719,
+      "auxiliary_loss_mlp": 0.01036125,
+      "balance_loss_clip": 1.05554247,
+      "balance_loss_mlp": 1.02670121,
+      "epoch": 0.35074851199422835,
+      "flos": 23987717775360.0,
+      "grad_norm": 2.9286232416458664,
+      "language_loss": 0.82942909,
+      "learning_rate": 3.014580752986081e-06,
+      "loss": 0.85207754,
+      "num_input_tokens_seen": 62696950,
+      "step": 2917,
+      "time_per_iteration": 2.7953941822052
+    },
+    {
+      "auxiliary_loss_clip": 0.0123959,
+      "auxiliary_loss_mlp": 0.01029666,
+      "balance_loss_clip": 1.0584085,
+      "balance_loss_mlp": 1.02009988,
+      "epoch": 0.3508687548848674,
+      "flos": 15224436668160.0,
+      "grad_norm": 1.9928041406571915,
+      "language_loss": 0.78776252,
+      "learning_rate": 3.0139093776100345e-06,
+      "loss": 0.81045508,
+      "num_input_tokens_seen": 62713540,
+      "step": 2918,
+      "time_per_iteration": 2.6853716373443604
+    },
+    {
+      "auxiliary_loss_clip": 0.01197983,
+      "auxiliary_loss_mlp": 0.01027843,
+      "balance_loss_clip": 1.05915928,
+      "balance_loss_mlp": 1.01893806,
+      "epoch": 0.3509889977755065,
+      "flos": 21361750185600.0,
+      "grad_norm": 2.048030433759377,
+      "language_loss": 0.75473213,
+      "learning_rate": 3.013237848424741e-06,
+      "loss": 0.77699047,
+      "num_input_tokens_seen": 62732925,
+      "step": 2919,
+      "time_per_iteration": 2.6186070442199707
+    },
+    {
+      "auxiliary_loss_clip": 0.01222717,
+      "auxiliary_loss_mlp": 0.01029047,
+      "balance_loss_clip": 1.06062388,
+      "balance_loss_mlp": 1.01949239,
+      "epoch": 0.35110924066614563,
+      "flos": 19135360465920.0,
+      "grad_norm": 3.9251746252402206,
+      "language_loss": 0.75174028,
+      "learning_rate": 3.012566165532072e-06,
+      "loss": 0.7742579,
+      "num_input_tokens_seen": 62751715,
+      "step": 2920,
+      "time_per_iteration": 2.6482956409454346
+    },
+    {
+      "auxiliary_loss_clip": 0.01246576,
+      "auxiliary_loss_mlp": 0.01038722,
+      "balance_loss_clip": 1.05177999,
+      "balance_loss_mlp": 1.02916729,
+      "epoch": 0.3512294835567847,
+      "flos": 21980885938560.0,
+      "grad_norm": 2.1018153451831987,
+      "language_loss": 0.76978475,
+      "learning_rate": 3.0118943290339207e-06,
+      "loss": 0.79263771,
+      "num_input_tokens_seen": 62771925,
+      "step": 2921,
+      "time_per_iteration": 2.7517621517181396
+    },
+    {
+      "auxiliary_loss_clip": 0.01211288,
+      "auxiliary_loss_mlp": 0.01036403,
+      "balance_loss_clip": 1.05138958,
+      "balance_loss_mlp": 1.02702713,
+      "epoch": 0.3513497264474238,
+      "flos": 17817294896640.0,
+      "grad_norm": 1.8545825401184959,
+      "language_loss": 0.68011737,
+      "learning_rate": 3.011222339032204e-06,
+      "loss": 0.70259428,
+      "num_input_tokens_seen": 62790075,
+      "step": 2922,
+      "time_per_iteration": 2.6752982139587402
+    },
+    {
+      "auxiliary_loss_clip": 0.01201077,
+      "auxiliary_loss_mlp": 0.01034989,
+      "balance_loss_clip": 1.06120694,
+      "balance_loss_mlp": 1.02632236,
+      "epoch": 0.3514699693380629,
+      "flos": 26943417239040.0,
+      "grad_norm": 2.1053062110927536,
+      "language_loss": 0.69799566,
+      "learning_rate": 3.0105501956288626e-06,
+      "loss": 0.72035635,
+      "num_input_tokens_seen": 62810545,
+      "step": 2923,
+      "time_per_iteration": 2.6145572662353516
+    },
+    {
+      "auxiliary_loss_clip": 0.01217034,
+      "auxiliary_loss_mlp": 0.0103092,
+      "balance_loss_clip": 1.06062579,
+      "balance_loss_mlp": 1.02149057,
+      "epoch": 0.35159021222870196,
+      "flos": 15267565923840.0,
+      "grad_norm": 2.3568633537906174,
+      "language_loss": 0.72702473,
+      "learning_rate": 3.0098778989258602e-06,
+      "loss": 0.74950427,
+      "num_input_tokens_seen": 62829155,
+      "step": 2924,
+      "time_per_iteration": 2.643968343734741
+    },
+    {
+      "auxiliary_loss_clip": 0.01223516,
+      "auxiliary_loss_mlp": 0.01036186,
+      "balance_loss_clip": 1.05756259,
+      "balance_loss_mlp": 1.0266968,
+      "epoch": 0.35171045511934107,
+      "flos": 13984154000640.0,
+      "grad_norm": 1.9412535471942491,
+      "language_loss": 0.885517,
+      "learning_rate": 3.009205449025183e-06,
+      "loss": 0.90811402,
+      "num_input_tokens_seen": 62845350,
+      "step": 2925,
+      "time_per_iteration": 5.426146984100342
+    },
+    {
+      "auxiliary_loss_clip": 0.01220388,
+      "auxiliary_loss_mlp": 0.0103202,
+      "balance_loss_clip": 1.05221379,
+      "balance_loss_mlp": 1.02334166,
+      "epoch": 0.3518306980099802,
+      "flos": 14283434119680.0,
+      "grad_norm": 1.8132692118239562,
+      "language_loss": 0.63173211,
+      "learning_rate": 3.008532846028842e-06,
+      "loss": 0.65425622,
+      "num_input_tokens_seen": 62862110,
+      "step": 2926,
+      "time_per_iteration": 2.649099826812744
+    },
+    {
+      "auxiliary_loss_clip": 0.01203873,
+      "auxiliary_loss_mlp": 0.01032307,
+      "balance_loss_clip": 1.06163526,
+      "balance_loss_mlp": 1.02220964,
+      "epoch": 0.35195094090061924,
+      "flos": 27052872958080.0,
+      "grad_norm": 4.595762676279448,
+      "language_loss": 0.71690845,
+      "learning_rate": 3.0078600900388694e-06,
+      "loss": 0.73927021,
+      "num_input_tokens_seen": 62882415,
+      "step": 2927,
+      "time_per_iteration": 2.655658483505249
+    },
+    {
+      "auxiliary_loss_clip": 0.01211884,
+      "auxiliary_loss_mlp": 0.0103625,
+      "balance_loss_clip": 1.05195713,
+      "balance_loss_mlp": 1.02587879,
+      "epoch": 0.35207118379125835,
+      "flos": 25629266252160.0,
+      "grad_norm": 2.7420291739867637,
+      "language_loss": 0.74127364,
+      "learning_rate": 3.007187181157323e-06,
+      "loss": 0.76375496,
+      "num_input_tokens_seen": 62902425,
+      "step": 2928,
+      "time_per_iteration": 2.711954355239868
+    },
+    {
+      "auxiliary_loss_clip": 0.01229894,
+      "auxiliary_loss_mlp": 0.01030715,
+      "balance_loss_clip": 1.04960239,
+      "balance_loss_mlp": 1.02142262,
+      "epoch": 0.35219142668189746,
+      "flos": 18004713085440.0,
+      "grad_norm": 2.795045475669485,
+      "language_loss": 0.68213129,
+      "learning_rate": 3.006514119486282e-06,
+      "loss": 0.70473742,
+      "num_input_tokens_seen": 62919255,
+      "step": 2929,
+      "time_per_iteration": 2.925434112548828
+    },
+    {
+      "auxiliary_loss_clip": 0.01221785,
+      "auxiliary_loss_mlp": 0.01035922,
+      "balance_loss_clip": 1.05499494,
+      "balance_loss_mlp": 1.0267607,
+      "epoch": 0.3523116695725365,
+      "flos": 14028109269120.0,
+      "grad_norm": 1.6737051841284258,
+      "language_loss": 0.69655097,
+      "learning_rate": 3.005840905127849e-06,
+      "loss": 0.71912795,
+      "num_input_tokens_seen": 62936160,
+      "step": 2930,
+      "time_per_iteration": 2.6687445640563965
+    },
+    {
+      "auxiliary_loss_clip": 0.0120378,
+      "auxiliary_loss_mlp": 0.0103398,
+      "balance_loss_clip": 1.06375694,
+      "balance_loss_mlp": 1.02485478,
+      "epoch": 0.3524319124631756,
+      "flos": 21433966479360.0,
+      "grad_norm": 9.798288450157738,
+      "language_loss": 0.86890841,
+      "learning_rate": 3.0051675381841516e-06,
+      "loss": 0.89128602,
+      "num_input_tokens_seen": 62953470,
+      "step": 2931,
+      "time_per_iteration": 2.692136287689209
+    },
+    {
+      "auxiliary_loss_clip": 0.01248677,
+      "auxiliary_loss_mlp": 0.01380674,
+      "balance_loss_clip": 1.04887462,
+      "balance_loss_mlp": 1.00041056,
+      "epoch": 0.3525521553538147,
+      "flos": 26322773114880.0,
+      "grad_norm": 1.5392538132740654,
+      "language_loss": 0.76700473,
+      "learning_rate": 3.0044940187573363e-06,
+      "loss": 0.79329824,
+      "num_input_tokens_seen": 62974480,
+      "step": 2932,
+      "time_per_iteration": 3.853634834289551
+    },
+    {
+      "auxiliary_loss_clip": 0.01213347,
+      "auxiliary_loss_mlp": 0.01032681,
+      "balance_loss_clip": 1.06024516,
+      "balance_loss_mlp": 1.02349579,
+      "epoch": 0.3526723982444538,
+      "flos": 21543314457600.0,
+      "grad_norm": 2.1416089570711163,
+      "language_loss": 0.65188348,
+      "learning_rate": 3.003820346949578e-06,
+      "loss": 0.67434371,
+      "num_input_tokens_seen": 62992560,
+      "step": 2933,
+      "time_per_iteration": 3.030496120452881
+    },
+    {
+      "auxiliary_loss_clip": 0.01205209,
+      "auxiliary_loss_mlp": 0.01037133,
+      "balance_loss_clip": 1.06170106,
+      "balance_loss_mlp": 1.02722692,
+      "epoch": 0.3527926411350929,
+      "flos": 23733649900800.0,
+      "grad_norm": 2.032236868429703,
+      "language_loss": 0.79645562,
+      "learning_rate": 3.003146522863071e-06,
+      "loss": 0.81887901,
+      "num_input_tokens_seen": 63013445,
+      "step": 2934,
+      "time_per_iteration": 2.756747245788574
+    },
+    {
+      "auxiliary_loss_clip": 0.01221598,
+      "auxiliary_loss_mlp": 0.01034256,
+      "balance_loss_clip": 1.06128478,
+      "balance_loss_mlp": 1.02545214,
+      "epoch": 0.35291288402573195,
+      "flos": 30445461544320.0,
+      "grad_norm": 2.2046323674221058,
+      "language_loss": 0.85855556,
+      "learning_rate": 3.0024725466000345e-06,
+      "loss": 0.88111407,
+      "num_input_tokens_seen": 63033400,
+      "step": 2935,
+      "time_per_iteration": 2.7236390113830566
+    },
+    {
+      "auxiliary_loss_clip": 0.01213113,
+      "auxiliary_loss_mlp": 0.01028168,
+      "balance_loss_clip": 1.06278431,
+      "balance_loss_mlp": 1.01916146,
+      "epoch": 0.35303312691637107,
+      "flos": 23112179763840.0,
+      "grad_norm": 6.100841904918143,
+      "language_loss": 0.79171848,
+      "learning_rate": 3.0017984182627087e-06,
+      "loss": 0.81413126,
+      "num_input_tokens_seen": 63052725,
+      "step": 2936,
+      "time_per_iteration": 2.6569244861602783
+    },
+    {
+      "auxiliary_loss_clip": 0.01224044,
+      "auxiliary_loss_mlp": 0.01380211,
+      "balance_loss_clip": 1.05397415,
+      "balance_loss_mlp": 1.00046921,
+      "epoch": 0.3531533698070102,
+      "flos": 21835699165440.0,
+      "grad_norm": 2.0542364686370944,
+      "language_loss": 0.82407391,
+      "learning_rate": 3.00112413795336e-06,
+      "loss": 0.85011649,
+      "num_input_tokens_seen": 63072560,
+      "step": 2937,
+      "time_per_iteration": 2.665658950805664
+    },
+    {
+      "auxiliary_loss_clip": 0.01211901,
+      "auxiliary_loss_mlp": 0.01033115,
+      "balance_loss_clip": 1.05331504,
+      "balance_loss_mlp": 1.02371526,
+      "epoch": 0.35327361269764923,
+      "flos": 15778969810560.0,
+      "grad_norm": 1.854068760485824,
+      "language_loss": 0.79725814,
+      "learning_rate": 3.000449705774275e-06,
+      "loss": 0.81970829,
+      "num_input_tokens_seen": 63090800,
+      "step": 2938,
+      "time_per_iteration": 2.654789686203003
+    },
+    {
+      "auxiliary_loss_clip": 0.01215404,
+      "auxiliary_loss_mlp": 0.01036033,
+      "balance_loss_clip": 1.06372488,
+      "balance_loss_mlp": 1.02609062,
+      "epoch": 0.35339385558828834,
+      "flos": 22090413484800.0,
+      "grad_norm": 2.1672907281210287,
+      "language_loss": 0.71820176,
+      "learning_rate": 2.9997751218277654e-06,
+      "loss": 0.7407161,
+      "num_input_tokens_seen": 63108955,
+      "step": 2939,
+      "time_per_iteration": 2.829714775085449
+    },
+    {
+      "auxiliary_loss_clip": 0.01202924,
+      "auxiliary_loss_mlp": 0.01030964,
+      "balance_loss_clip": 1.06059444,
+      "balance_loss_mlp": 1.02179706,
+      "epoch": 0.35351409847892745,
+      "flos": 24165008328960.0,
+      "grad_norm": 1.9306422955967093,
+      "language_loss": 0.77671194,
+      "learning_rate": 2.999100386216166e-06,
+      "loss": 0.79905081,
+      "num_input_tokens_seen": 63127895,
+      "step": 2940,
+      "time_per_iteration": 2.5765316486358643
+    },
+    {
+      "auxiliary_loss_clip": 0.01219949,
+      "auxiliary_loss_mlp": 0.01031081,
+      "balance_loss_clip": 1.05841374,
+      "balance_loss_mlp": 1.02218795,
+      "epoch": 0.3536343413695665,
+      "flos": 27052298340480.0,
+      "grad_norm": 2.2965550455604786,
+      "language_loss": 0.74463642,
+      "learning_rate": 2.998425499041831e-06,
+      "loss": 0.76714671,
+      "num_input_tokens_seen": 63148410,
+      "step": 2941,
+      "time_per_iteration": 2.6984009742736816
+    },
+    {
+      "auxiliary_loss_clip": 0.01114916,
+      "auxiliary_loss_mlp": 0.01010216,
+      "balance_loss_clip": 1.03249764,
+      "balance_loss_mlp": 1.008726,
+      "epoch": 0.3537545842602056,
+      "flos": 65991066370560.0,
+      "grad_norm": 1.2439017478355003,
+      "language_loss": 0.6454165,
+      "learning_rate": 2.997750460407142e-06,
+      "loss": 0.66666782,
+      "num_input_tokens_seen": 63209765,
+      "step": 2942,
+      "time_per_iteration": 3.2470715045928955
+    },
+    {
+      "auxiliary_loss_clip": 0.0123324,
+      "auxiliary_loss_mlp": 0.01038941,
+      "balance_loss_clip": 1.05662203,
+      "balance_loss_mlp": 1.02824211,
+      "epoch": 0.35387482715084473,
+      "flos": 18436897526400.0,
+      "grad_norm": 1.9665239450822343,
+      "language_loss": 0.70021152,
+      "learning_rate": 2.997075270414501e-06,
+      "loss": 0.72293335,
+      "num_input_tokens_seen": 63226980,
+      "step": 2943,
+      "time_per_iteration": 2.743236541748047
+    },
+    {
+      "auxiliary_loss_clip": 0.0112795,
+      "auxiliary_loss_mlp": 0.01002632,
+      "balance_loss_clip": 1.03482771,
+      "balance_loss_mlp": 1.0010823,
+      "epoch": 0.3539950700414838,
+      "flos": 65588579498880.0,
+      "grad_norm": 0.701419992144887,
+      "language_loss": 0.57727659,
+      "learning_rate": 2.9963999291663347e-06,
+      "loss": 0.59858245,
+      "num_input_tokens_seen": 63292760,
+      "step": 2944,
+      "time_per_iteration": 3.2716147899627686
+    },
+    {
+      "auxiliary_loss_clip": 0.01236095,
+      "auxiliary_loss_mlp": 0.01032911,
+      "balance_loss_clip": 1.05683446,
+      "balance_loss_mlp": 1.0241791,
+      "epoch": 0.3541153129321229,
+      "flos": 20521655919360.0,
+      "grad_norm": 3.1649713627146383,
+      "language_loss": 0.73701388,
+      "learning_rate": 2.9957244367650915e-06,
+      "loss": 0.75970393,
+      "num_input_tokens_seen": 63309005,
+      "step": 2945,
+      "time_per_iteration": 2.768599033355713
+    },
+    {
+      "auxiliary_loss_clip": 0.01224511,
+      "auxiliary_loss_mlp": 0.01035352,
+      "balance_loss_clip": 1.05224741,
+      "balance_loss_mlp": 1.02687025,
+      "epoch": 0.354235555822762,
+      "flos": 19573578391680.0,
+      "grad_norm": 2.0825141927087882,
+      "language_loss": 0.83670753,
+      "learning_rate": 2.9950487933132425e-06,
+      "loss": 0.85930616,
+      "num_input_tokens_seen": 63326420,
+      "step": 2946,
+      "time_per_iteration": 2.7576725482940674
+    },
+    {
+      "auxiliary_loss_clip": 0.01213058,
+      "auxiliary_loss_mlp": 0.01034369,
+      "balance_loss_clip": 1.05850792,
+      "balance_loss_mlp": 1.02548766,
+      "epoch": 0.35435579871340106,
+      "flos": 20777268078720.0,
+      "grad_norm": 2.0726991188983472,
+      "language_loss": 0.71705484,
+      "learning_rate": 2.994372998913283e-06,
+      "loss": 0.73952901,
+      "num_input_tokens_seen": 63344925,
+      "step": 2947,
+      "time_per_iteration": 2.67643141746521
+    },
+    {
+      "auxiliary_loss_clip": 0.01222404,
+      "auxiliary_loss_mlp": 0.01035052,
+      "balance_loss_clip": 1.06055069,
+      "balance_loss_mlp": 1.02593851,
+      "epoch": 0.35447604160404017,
+      "flos": 23951807153280.0,
+      "grad_norm": 2.0930798485189985,
+      "language_loss": 0.62640953,
+      "learning_rate": 2.99369705366773e-06,
+      "loss": 0.64898407,
+      "num_input_tokens_seen": 63365170,
+      "step": 2948,
+      "time_per_iteration": 2.7092151641845703
+    },
+    {
+      "auxiliary_loss_clip": 0.0121223,
+      "auxiliary_loss_mlp": 0.010343,
+      "balance_loss_clip": 1.05646086,
+      "balance_loss_mlp": 1.02546024,
+      "epoch": 0.3545962844946792,
+      "flos": 23435662671360.0,
+      "grad_norm": 2.5416165047213797,
+      "language_loss": 0.82034731,
+      "learning_rate": 2.9930209576791244e-06,
+      "loss": 0.8428126,
+      "num_input_tokens_seen": 63383645,
+      "step": 2949,
+      "time_per_iteration": 2.6905972957611084
+    },
+    {
+      "auxiliary_loss_clip": 0.01207302,
+      "auxiliary_loss_mlp": 0.01029617,
+      "balance_loss_clip": 1.0587101,
+      "balance_loss_mlp": 1.02061677,
+      "epoch": 0.35471652738531834,
+      "flos": 22085134185600.0,
+      "grad_norm": 2.1631164848310944,
+      "language_loss": 0.63850093,
+      "learning_rate": 2.9923447110500285e-06,
+      "loss": 0.66087008,
+      "num_input_tokens_seen": 63402390,
+      "step": 2950,
+      "time_per_iteration": 3.5444438457489014
+    },
+    {
+      "auxiliary_loss_clip": 0.01198835,
+      "auxiliary_loss_mlp": 0.01034808,
+      "balance_loss_clip": 1.05894208,
+      "balance_loss_mlp": 1.02517629,
+      "epoch": 0.35483677027595745,
+      "flos": 27341881787520.0,
+      "grad_norm": 1.4663681420006043,
+      "language_loss": 0.75282562,
+      "learning_rate": 2.9916683138830295e-06,
+      "loss": 0.77516198,
+      "num_input_tokens_seen": 63423055,
+      "step": 2951,
+      "time_per_iteration": 4.493996620178223
+    },
+    {
+      "auxiliary_loss_clip": 0.01218445,
+      "auxiliary_loss_mlp": 0.01031954,
+      "balance_loss_clip": 1.05923402,
+      "balance_loss_mlp": 1.02266133,
+      "epoch": 0.3549570131665965,
+      "flos": 13516166678400.0,
+      "grad_norm": 2.1585429293830463,
+      "language_loss": 0.80656993,
+      "learning_rate": 2.9909917662807353e-06,
+      "loss": 0.82907397,
+      "num_input_tokens_seen": 63440855,
+      "step": 2952,
+      "time_per_iteration": 2.669902801513672
+    },
+    {
+      "auxiliary_loss_clip": 0.01210332,
+      "auxiliary_loss_mlp": 0.01031515,
+      "balance_loss_clip": 1.05984759,
+      "balance_loss_mlp": 1.02264023,
+      "epoch": 0.3550772560572356,
+      "flos": 20887549810560.0,
+      "grad_norm": 3.440864061144305,
+      "language_loss": 0.69222307,
+      "learning_rate": 2.9903150683457783e-06,
+      "loss": 0.71464157,
+      "num_input_tokens_seen": 63459400,
+      "step": 2953,
+      "time_per_iteration": 2.6321632862091064
+    },
+    {
+      "auxiliary_loss_clip": 0.0122214,
+      "auxiliary_loss_mlp": 0.01033968,
+      "balance_loss_clip": 1.05813074,
+      "balance_loss_mlp": 1.0240972,
+      "epoch": 0.3551974989478747,
+      "flos": 20194042947840.0,
+      "grad_norm": 2.023147721035065,
+      "language_loss": 0.64520603,
+      "learning_rate": 2.9896382201808126e-06,
+      "loss": 0.66776711,
+      "num_input_tokens_seen": 63476800,
+      "step": 2954,
+      "time_per_iteration": 2.6445322036743164
+    },
+    {
+      "auxiliary_loss_clip": 0.01203876,
+      "auxiliary_loss_mlp": 0.01038431,
+      "balance_loss_clip": 1.0606966,
+      "balance_loss_mlp": 1.02918005,
+      "epoch": 0.3553177418385138,
+      "flos": 19828831415040.0,
+      "grad_norm": 12.197876388087892,
+      "language_loss": 0.81196004,
+      "learning_rate": 2.988961221888516e-06,
+      "loss": 0.83438313,
+      "num_input_tokens_seen": 63493475,
+      "step": 2955,
+      "time_per_iteration": 2.6129469871520996
+    },
+    {
+      "auxiliary_loss_clip": 0.01216726,
+      "auxiliary_loss_mlp": 0.01033542,
+      "balance_loss_clip": 1.05586672,
+      "balance_loss_mlp": 1.02478623,
+      "epoch": 0.3554379847291529,
+      "flos": 14829132516480.0,
+      "grad_norm": 8.372200267008429,
+      "language_loss": 0.79167324,
+      "learning_rate": 2.988284073571589e-06,
+      "loss": 0.8141759,
+      "num_input_tokens_seen": 63509560,
+      "step": 2956,
+      "time_per_iteration": 2.619030475616455
+    },
+    {
+      "auxiliary_loss_clip": 0.01213183,
+      "auxiliary_loss_mlp": 0.01380237,
+      "balance_loss_clip": 1.05956054,
+      "balance_loss_mlp": 1.00048256,
+      "epoch": 0.355558227619792,
+      "flos": 20485350247680.0,
+      "grad_norm": 3.373226141367241,
+      "language_loss": 0.72421247,
+      "learning_rate": 2.9876067753327528e-06,
+      "loss": 0.75014663,
+      "num_input_tokens_seen": 63527290,
+      "step": 2957,
+      "time_per_iteration": 2.671865940093994
+    },
+    {
+      "auxiliary_loss_clip": 0.01214848,
+      "auxiliary_loss_mlp": 0.01035786,
+      "balance_loss_clip": 1.05887473,
+      "balance_loss_mlp": 1.02662456,
+      "epoch": 0.35567847051043106,
+      "flos": 37663613256960.0,
+      "grad_norm": 3.7391795917792408,
+      "language_loss": 0.80524641,
+      "learning_rate": 2.986929327274754e-06,
+      "loss": 0.82775271,
+      "num_input_tokens_seen": 63547870,
+      "step": 2958,
+      "time_per_iteration": 3.663823127746582
+    },
+    {
+      "auxiliary_loss_clip": 0.01209239,
+      "auxiliary_loss_mlp": 0.010288,
+      "balance_loss_clip": 1.06147361,
+      "balance_loss_mlp": 1.01997852,
+      "epoch": 0.35579871340107017,
+      "flos": 26943058103040.0,
+      "grad_norm": 1.5809244276052716,
+      "language_loss": 0.78762364,
+      "learning_rate": 2.9862517295003617e-06,
+      "loss": 0.81000406,
+      "num_input_tokens_seen": 63568285,
+      "step": 2959,
+      "time_per_iteration": 2.667668342590332
+    },
+    {
+      "auxiliary_loss_clip": 0.01221294,
+      "auxiliary_loss_mlp": 0.01033686,
+      "balance_loss_clip": 1.05268526,
+      "balance_loss_mlp": 1.02461457,
+      "epoch": 0.3559189562917093,
+      "flos": 28293335193600.0,
+      "grad_norm": 1.5810242539271575,
+      "language_loss": 0.72706485,
+      "learning_rate": 2.9855739821123654e-06,
+      "loss": 0.7496146,
+      "num_input_tokens_seen": 63589865,
+      "step": 2960,
+      "time_per_iteration": 2.7988603115081787
+    },
+    {
+      "auxiliary_loss_clip": 0.01207915,
+      "auxiliary_loss_mlp": 0.01032931,
+      "balance_loss_clip": 1.05975652,
+      "balance_loss_mlp": 1.02421665,
+      "epoch": 0.35603919918234833,
+      "flos": 25664063552640.0,
+      "grad_norm": 1.7616067676508698,
+      "language_loss": 0.81811666,
+      "learning_rate": 2.98489608521358e-06,
+      "loss": 0.84052515,
+      "num_input_tokens_seen": 63609805,
+      "step": 2961,
+      "time_per_iteration": 2.6811296939849854
+    },
+    {
+      "auxiliary_loss_clip": 0.01214027,
+      "auxiliary_loss_mlp": 0.01379733,
+      "balance_loss_clip": 1.05988479,
+      "balance_loss_mlp": 1.00042474,
+      "epoch": 0.35615944207298744,
+      "flos": 23000856537600.0,
+      "grad_norm": 2.5580935013213106,
+      "language_loss": 0.79572529,
+      "learning_rate": 2.9842180389068425e-06,
+      "loss": 0.8216629,
+      "num_input_tokens_seen": 63627115,
+      "step": 2962,
+      "time_per_iteration": 2.655668258666992
+    },
+    {
+      "auxiliary_loss_clip": 0.01129291,
+      "auxiliary_loss_mlp": 0.01001882,
+      "balance_loss_clip": 1.03203022,
+      "balance_loss_mlp": 1.00027263,
+      "epoch": 0.35627968496362655,
+      "flos": 68251283723520.0,
+      "grad_norm": 0.7632317065946312,
+      "language_loss": 0.59230685,
+      "learning_rate": 2.98353984329501e-06,
+      "loss": 0.61361861,
+      "num_input_tokens_seen": 63691460,
+      "step": 2963,
+      "time_per_iteration": 3.2662715911865234
+    },
+    {
+      "auxiliary_loss_clip": 0.01222096,
+      "auxiliary_loss_mlp": 0.01030964,
+      "balance_loss_clip": 1.0597136,
+      "balance_loss_mlp": 1.02164781,
+      "epoch": 0.3563999278542656,
+      "flos": 22641714403200.0,
+      "grad_norm": 1.5867849341729798,
+      "language_loss": 0.70310497,
+      "learning_rate": 2.982861498480965e-06,
+      "loss": 0.72563553,
+      "num_input_tokens_seen": 63713840,
+      "step": 2964,
+      "time_per_iteration": 2.7210795879364014
+    },
+    {
+      "auxiliary_loss_clip": 0.01221159,
+      "auxiliary_loss_mlp": 0.01035066,
+      "balance_loss_clip": 1.05470729,
+      "balance_loss_mlp": 1.02626228,
+      "epoch": 0.3565201707449047,
+      "flos": 25952533678080.0,
+      "grad_norm": 2.710129603076383,
+      "language_loss": 0.82943261,
+      "learning_rate": 2.9821830045676122e-06,
+      "loss": 0.85199487,
+      "num_input_tokens_seen": 63733540,
+      "step": 2965,
+      "time_per_iteration": 2.749983072280884
+    },
+    {
+      "auxiliary_loss_clip": 0.01203916,
+      "auxiliary_loss_mlp": 0.01034171,
+      "balance_loss_clip": 1.06254447,
+      "balance_loss_mlp": 1.02468765,
+      "epoch": 0.3566404136355438,
+      "flos": 28475725478400.0,
+      "grad_norm": 6.423939704682871,
+      "language_loss": 0.72933698,
+      "learning_rate": 2.9815043616578793e-06,
+      "loss": 0.75171781,
+      "num_input_tokens_seen": 63754335,
+      "step": 2966,
+      "time_per_iteration": 2.6473116874694824
+    },
+    {
+      "auxiliary_loss_clip": 0.01223028,
+      "auxiliary_loss_mlp": 0.01036217,
+      "balance_loss_clip": 1.05626845,
+      "balance_loss_mlp": 1.02759206,
+      "epoch": 0.3567606565261829,
+      "flos": 38363117690880.0,
+      "grad_norm": 1.8350523901442812,
+      "language_loss": 0.76978004,
+      "learning_rate": 2.9808255698547145e-06,
+      "loss": 0.79237252,
+      "num_input_tokens_seen": 63777135,
+      "step": 2967,
+      "time_per_iteration": 2.89092755317688
+    },
+    {
+      "auxiliary_loss_clip": 0.01212233,
+      "auxiliary_loss_mlp": 0.01035381,
+      "balance_loss_clip": 1.06243372,
+      "balance_loss_mlp": 1.02598691,
+      "epoch": 0.356880899416822,
+      "flos": 21981029592960.0,
+      "grad_norm": 2.455692594298399,
+      "language_loss": 0.7895261,
+      "learning_rate": 2.9801466292610913e-06,
+      "loss": 0.81200218,
+      "num_input_tokens_seen": 63797020,
+      "step": 2968,
+      "time_per_iteration": 2.578160524368286
+    },
+    {
+      "auxiliary_loss_clip": 0.0121416,
+      "auxiliary_loss_mlp": 0.01032881,
+      "balance_loss_clip": 1.06256306,
+      "balance_loss_mlp": 1.02394044,
+      "epoch": 0.35700114230746105,
+      "flos": 18989132198400.0,
+      "grad_norm": 2.7140281965082416,
+      "language_loss": 0.80972111,
+      "learning_rate": 2.979467539980003e-06,
+      "loss": 0.83219147,
+      "num_input_tokens_seen": 63813810,
+      "step": 2969,
+      "time_per_iteration": 2.633349895477295
+    },
+    {
+      "auxiliary_loss_clip": 0.01215039,
+      "auxiliary_loss_mlp": 0.01030775,
+      "balance_loss_clip": 1.0617274,
+      "balance_loss_mlp": 1.02155387,
+      "epoch": 0.35712138519810016,
+      "flos": 19756112330880.0,
+      "grad_norm": 1.8652258945589724,
+      "language_loss": 0.76497674,
+      "learning_rate": 2.978788302114468e-06,
+      "loss": 0.78743488,
+      "num_input_tokens_seen": 63830925,
+      "step": 2970,
+      "time_per_iteration": 2.616424322128296
+    },
+    {
+      "auxiliary_loss_clip": 0.01209658,
+      "auxiliary_loss_mlp": 0.01033244,
+      "balance_loss_clip": 1.06058979,
+      "balance_loss_mlp": 1.02395737,
+      "epoch": 0.35724162808873927,
+      "flos": 35183012008320.0,
+      "grad_norm": 2.861198459024382,
+      "language_loss": 0.83247125,
+      "learning_rate": 2.9781089157675255e-06,
+      "loss": 0.8549003,
+      "num_input_tokens_seen": 63849385,
+      "step": 2971,
+      "time_per_iteration": 2.773568630218506
+    },
+    {
+      "auxiliary_loss_clip": 0.01205832,
+      "auxiliary_loss_mlp": 0.01028994,
+      "balance_loss_clip": 1.05902147,
+      "balance_loss_mlp": 1.02056003,
+      "epoch": 0.3573618709793783,
+      "flos": 25556726736000.0,
+      "grad_norm": 1.955101473603009,
+      "language_loss": 0.88187349,
+      "learning_rate": 2.977429381042238e-06,
+      "loss": 0.90422171,
+      "num_input_tokens_seen": 63870060,
+      "step": 2972,
+      "time_per_iteration": 2.713210105895996
+    },
+    {
+      "auxiliary_loss_clip": 0.01219481,
+      "auxiliary_loss_mlp": 0.01036904,
+      "balance_loss_clip": 1.05808055,
+      "balance_loss_mlp": 1.02841592,
+      "epoch": 0.35748211387001744,
+      "flos": 29132352051840.0,
+      "grad_norm": 2.794298601790641,
+      "language_loss": 0.88324726,
+      "learning_rate": 2.9767496980416913e-06,
+      "loss": 0.90581113,
+      "num_input_tokens_seen": 63889355,
+      "step": 2973,
+      "time_per_iteration": 2.7279725074768066
+    },
+    {
+      "auxiliary_loss_clip": 0.01210331,
+      "auxiliary_loss_mlp": 0.01031773,
+      "balance_loss_clip": 1.05546486,
+      "balance_loss_mlp": 1.02143121,
+      "epoch": 0.35760235676065655,
+      "flos": 13954169122560.0,
+      "grad_norm": 2.5885943583572906,
+      "language_loss": 0.80824387,
+      "learning_rate": 2.9760698668689914e-06,
+      "loss": 0.83066487,
+      "num_input_tokens_seen": 63905580,
+      "step": 2974,
+      "time_per_iteration": 2.6165881156921387
+    },
+    {
+      "auxiliary_loss_clip": 0.01211051,
+      "auxiliary_loss_mlp": 0.01027751,
+      "balance_loss_clip": 1.05940711,
+      "balance_loss_mlp": 1.01907849,
+      "epoch": 0.3577225996512956,
+      "flos": 44018688977280.0,
+      "grad_norm": 1.9262306799339317,
+      "language_loss": 0.71300375,
+      "learning_rate": 2.975389887627269e-06,
+      "loss": 0.73539186,
+      "num_input_tokens_seen": 63928180,
+      "step": 2975,
+      "time_per_iteration": 2.832486867904663
+    },
+    {
+      "auxiliary_loss_clip": 0.01234564,
+      "auxiliary_loss_mlp": 0.01038307,
+      "balance_loss_clip": 1.05900955,
+      "balance_loss_mlp": 1.02978921,
+      "epoch": 0.3578428425419347,
+      "flos": 17055199013760.0,
+      "grad_norm": 2.1325268417745895,
+      "language_loss": 0.90083694,
+      "learning_rate": 2.9747097604196764e-06,
+      "loss": 0.92356569,
+      "num_input_tokens_seen": 63944825,
+      "step": 2976,
+      "time_per_iteration": 2.693110704421997
+    },
+    {
+      "auxiliary_loss_clip": 0.01145661,
+      "auxiliary_loss_mlp": 0.01008773,
+      "balance_loss_clip": 1.02804744,
+      "balance_loss_mlp": 1.00736654,
+      "epoch": 0.3579630854325738,
+      "flos": 71676550707840.0,
+      "grad_norm": 0.6723195208136589,
+      "language_loss": 0.56675893,
+      "learning_rate": 2.9740294853493875e-06,
+      "loss": 0.58830327,
+      "num_input_tokens_seen": 64016385,
+      "step": 2977,
+      "time_per_iteration": 4.451757431030273
+    },
+    {
+      "auxiliary_loss_clip": 0.01240674,
+      "auxiliary_loss_mlp": 0.01026406,
+      "balance_loss_clip": 1.05443382,
+      "balance_loss_mlp": 1.0179956,
+      "epoch": 0.3580833283232129,
+      "flos": 25046651652480.0,
+      "grad_norm": 2.0708394314606204,
+      "language_loss": 0.67128843,
+      "learning_rate": 2.9733490625196008e-06,
+      "loss": 0.69395924,
+      "num_input_tokens_seen": 64036245,
+      "step": 2978,
+      "time_per_iteration": 2.7359511852264404
+    },
+    {
+      "auxiliary_loss_clip": 0.01215109,
+      "auxiliary_loss_mlp": 0.01029867,
+      "balance_loss_clip": 1.05367362,
+      "balance_loss_mlp": 1.02061057,
+      "epoch": 0.358203571213852,
+      "flos": 13953127628160.0,
+      "grad_norm": 3.4971889727851457,
+      "language_loss": 0.75649583,
+      "learning_rate": 2.9726684920335353e-06,
+      "loss": 0.77894557,
+      "num_input_tokens_seen": 64054110,
+      "step": 2979,
+      "time_per_iteration": 2.66110897064209
+    },
+    {
+      "auxiliary_loss_clip": 0.01203808,
+      "auxiliary_loss_mlp": 0.01380483,
+      "balance_loss_clip": 1.06082082,
+      "balance_loss_mlp": 1.00047946,
+      "epoch": 0.35832381410449105,
+      "flos": 20302457172480.0,
+      "grad_norm": 2.2258711378308185,
+      "language_loss": 0.8126899,
+      "learning_rate": 2.971987773994432e-06,
+      "loss": 0.83853281,
+      "num_input_tokens_seen": 64070295,
+      "step": 2980,
+      "time_per_iteration": 2.586182117462158
+    },
+    {
+      "auxiliary_loss_clip": 0.01199606,
+      "auxiliary_loss_mlp": 0.01028003,
+      "balance_loss_clip": 1.05612803,
+      "balance_loss_mlp": 1.01883006,
+      "epoch": 0.35844405699513016,
+      "flos": 16983234115200.0,
+      "grad_norm": 3.3574923238138323,
+      "language_loss": 0.83085644,
+      "learning_rate": 2.9713069085055566e-06,
+      "loss": 0.85313255,
+      "num_input_tokens_seen": 64088605,
+      "step": 2981,
+      "time_per_iteration": 2.6178789138793945
+    },
+    {
+      "auxiliary_loss_clip": 0.01230302,
+      "auxiliary_loss_mlp": 0.01028478,
+      "balance_loss_clip": 1.058851,
+      "balance_loss_mlp": 1.01960886,
+      "epoch": 0.35856429988576927,
+      "flos": 23216858974080.0,
+      "grad_norm": 2.2169518794720946,
+      "language_loss": 0.78594112,
+      "learning_rate": 2.9706258956701958e-06,
+      "loss": 0.8085289,
+      "num_input_tokens_seen": 64108595,
+      "step": 2982,
+      "time_per_iteration": 2.7203173637390137
+    },
+    {
+      "auxiliary_loss_clip": 0.01214922,
+      "auxiliary_loss_mlp": 0.01032568,
+      "balance_loss_clip": 1.06094861,
+      "balance_loss_mlp": 1.02351987,
+      "epoch": 0.3586845427764083,
+      "flos": 23034576430080.0,
+      "grad_norm": 2.9255775448823154,
+      "language_loss": 0.77400357,
+      "learning_rate": 2.9699447355916575e-06,
+      "loss": 0.79647845,
+      "num_input_tokens_seen": 64127405,
+      "step": 2983,
+      "time_per_iteration": 2.6564908027648926
+    },
+    {
+      "auxiliary_loss_clip": 0.01199092,
+      "auxiliary_loss_mlp": 0.01379799,
+      "balance_loss_clip": 1.05836177,
+      "balance_loss_mlp": 1.00030541,
+      "epoch": 0.35880478566704743,
+      "flos": 20010682995840.0,
+      "grad_norm": 1.940044411760548,
+      "language_loss": 0.73861152,
+      "learning_rate": 2.969263428373275e-06,
+      "loss": 0.76440048,
+      "num_input_tokens_seen": 64145755,
+      "step": 2984,
+      "time_per_iteration": 3.470937967300415
+    },
+    {
+      "auxiliary_loss_clip": 0.01216865,
+      "auxiliary_loss_mlp": 0.01026208,
+      "balance_loss_clip": 1.05591035,
+      "balance_loss_mlp": 1.01766622,
+      "epoch": 0.35892502855768654,
+      "flos": 13699095667200.0,
+      "grad_norm": 2.081421552613037,
+      "language_loss": 0.79349744,
+      "learning_rate": 2.9685819741184007e-06,
+      "loss": 0.81592822,
+      "num_input_tokens_seen": 64164195,
+      "step": 2985,
+      "time_per_iteration": 2.687962293624878
+    },
+    {
+      "auxiliary_loss_clip": 0.01220199,
+      "auxiliary_loss_mlp": 0.01031405,
+      "balance_loss_clip": 1.05342031,
+      "balance_loss_mlp": 1.02247047,
+      "epoch": 0.3590452714483256,
+      "flos": 18114096977280.0,
+      "grad_norm": 3.3857988505831798,
+      "language_loss": 0.67846167,
+      "learning_rate": 2.967900372930411e-06,
+      "loss": 0.70097768,
+      "num_input_tokens_seen": 64182705,
+      "step": 2986,
+      "time_per_iteration": 2.6604442596435547
+    },
+    {
+      "auxiliary_loss_clip": 0.0120493,
+      "auxiliary_loss_mlp": 0.01034821,
+      "balance_loss_clip": 1.05271935,
+      "balance_loss_mlp": 1.02529645,
+      "epoch": 0.3591655143389647,
+      "flos": 17749352321280.0,
+      "grad_norm": 2.4611774004416547,
+      "language_loss": 0.79463673,
+      "learning_rate": 2.9672186249127046e-06,
+      "loss": 0.81703424,
+      "num_input_tokens_seen": 64202170,
+      "step": 2987,
+      "time_per_iteration": 2.6988136768341064
+    },
+    {
+      "auxiliary_loss_clip": 0.01215499,
+      "auxiliary_loss_mlp": 0.01030922,
+      "balance_loss_clip": 1.05609918,
+      "balance_loss_mlp": 1.0222553,
+      "epoch": 0.3592857572296038,
+      "flos": 25224409082880.0,
+      "grad_norm": 1.8999602275864012,
+      "language_loss": 0.788836,
+      "learning_rate": 2.9665367301687014e-06,
+      "loss": 0.81130016,
+      "num_input_tokens_seen": 64220415,
+      "step": 2988,
+      "time_per_iteration": 2.684123992919922
+    },
+    {
+      "auxiliary_loss_clip": 0.01205234,
+      "auxiliary_loss_mlp": 0.01023258,
+      "balance_loss_clip": 1.05335975,
+      "balance_loss_mlp": 1.01452637,
+      "epoch": 0.3594060001202429,
+      "flos": 29384408764800.0,
+      "grad_norm": 1.8273530139284784,
+      "language_loss": 0.76716238,
+      "learning_rate": 2.965854688801845e-06,
+      "loss": 0.78944731,
+      "num_input_tokens_seen": 64242475,
+      "step": 2989,
+      "time_per_iteration": 2.8468761444091797
+    },
+    {
+      "auxiliary_loss_clip": 0.01202661,
+      "auxiliary_loss_mlp": 0.01026383,
+      "balance_loss_clip": 1.05268013,
+      "balance_loss_mlp": 1.01788902,
+      "epoch": 0.359526243010882,
+      "flos": 17052900543360.0,
+      "grad_norm": 1.9747411224282612,
+      "language_loss": 0.76272619,
+      "learning_rate": 2.9651725009156005e-06,
+      "loss": 0.78501666,
+      "num_input_tokens_seen": 64260220,
+      "step": 2990,
+      "time_per_iteration": 2.662343978881836
+    },
+    {
+      "auxiliary_loss_clip": 0.01206077,
+      "auxiliary_loss_mlp": 0.01035692,
+      "balance_loss_clip": 1.05220866,
+      "balance_loss_mlp": 1.0270437,
+      "epoch": 0.3596464859015211,
+      "flos": 22965089569920.0,
+      "grad_norm": 1.9999128741623502,
+      "language_loss": 0.74079901,
+      "learning_rate": 2.964490166613454e-06,
+      "loss": 0.76321673,
+      "num_input_tokens_seen": 64280145,
+      "step": 2991,
+      "time_per_iteration": 2.6848042011260986
+    },
+    {
+      "auxiliary_loss_clip": 0.01101133,
+      "auxiliary_loss_mlp": 0.0100824,
+      "balance_loss_clip": 1.03076458,
+      "balance_loss_mlp": 1.00685716,
+      "epoch": 0.35976672879216015,
+      "flos": 54739462590720.0,
+      "grad_norm": 0.7644953815735397,
+      "language_loss": 0.5769369,
+      "learning_rate": 2.963807685998917e-06,
+      "loss": 0.59803075,
+      "num_input_tokens_seen": 64336010,
+      "step": 2992,
+      "time_per_iteration": 3.042863607406616
+    },
+    {
+      "auxiliary_loss_clip": 0.01238196,
+      "auxiliary_loss_mlp": 0.01031469,
+      "balance_loss_clip": 1.05261934,
+      "balance_loss_mlp": 1.02353597,
+      "epoch": 0.35988697168279926,
+      "flos": 43139020901760.0,
+      "grad_norm": 2.0708639981057395,
+      "language_loss": 0.77999902,
+      "learning_rate": 2.9631250591755196e-06,
+      "loss": 0.80269569,
+      "num_input_tokens_seen": 64358725,
+      "step": 2993,
+      "time_per_iteration": 2.9169728755950928
+    },
+    {
+      "auxiliary_loss_clip": 0.01210207,
+      "auxiliary_loss_mlp": 0.0102647,
+      "balance_loss_clip": 1.05634248,
+      "balance_loss_mlp": 1.01777935,
+      "epoch": 0.36000721457343837,
+      "flos": 35845600239360.0,
+      "grad_norm": 1.7430136116152175,
+      "language_loss": 0.57723713,
+      "learning_rate": 2.962442286246817e-06,
+      "loss": 0.59960389,
+      "num_input_tokens_seen": 64381555,
+      "step": 2994,
+      "time_per_iteration": 2.8926472663879395
+    },
+    {
+      "auxiliary_loss_clip": 0.01219717,
+      "auxiliary_loss_mlp": 0.01030072,
+      "balance_loss_clip": 1.05622017,
+      "balance_loss_mlp": 1.02119672,
+      "epoch": 0.3601274574640774,
+      "flos": 18291100222080.0,
+      "grad_norm": 1.6987619480937304,
+      "language_loss": 0.6934312,
+      "learning_rate": 2.9617593673163853e-06,
+      "loss": 0.71592909,
+      "num_input_tokens_seen": 64400375,
+      "step": 2995,
+      "time_per_iteration": 2.6507062911987305
+    },
+    {
+      "auxiliary_loss_clip": 0.01219266,
+      "auxiliary_loss_mlp": 0.01029154,
+      "balance_loss_clip": 1.05587602,
+      "balance_loss_mlp": 1.02066064,
+      "epoch": 0.36024770035471654,
+      "flos": 13333955961600.0,
+      "grad_norm": 2.1462688258519615,
+      "language_loss": 0.77248603,
+      "learning_rate": 2.9610763024878216e-06,
+      "loss": 0.79497021,
+      "num_input_tokens_seen": 64415880,
+      "step": 2996,
+      "time_per_iteration": 2.747339963912964
+    },
+    {
+      "auxiliary_loss_clip": 0.01206693,
+      "auxiliary_loss_mlp": 0.01024769,
+      "balance_loss_clip": 1.05344009,
+      "balance_loss_mlp": 1.01625729,
+      "epoch": 0.3603679432453556,
+      "flos": 20267013427200.0,
+      "grad_norm": 1.8732297215099594,
+      "language_loss": 0.91391587,
+      "learning_rate": 2.960393091864747e-06,
+      "loss": 0.93623042,
+      "num_input_tokens_seen": 64434260,
+      "step": 2997,
+      "time_per_iteration": 2.6600611209869385
+    },
+    {
+      "auxiliary_loss_clip": 0.01217969,
+      "auxiliary_loss_mlp": 0.01026795,
+      "balance_loss_clip": 1.05931473,
+      "balance_loss_mlp": 1.01820028,
+      "epoch": 0.3604881861359947,
+      "flos": 22451135817600.0,
+      "grad_norm": 1.783268323878724,
+      "language_loss": 0.74549031,
+      "learning_rate": 2.959709735550804e-06,
+      "loss": 0.76793802,
+      "num_input_tokens_seen": 64453855,
+      "step": 2998,
+      "time_per_iteration": 2.6882379055023193
+    },
+    {
+      "auxiliary_loss_clip": 0.01238725,
+      "auxiliary_loss_mlp": 0.01032619,
+      "balance_loss_clip": 1.05255616,
+      "balance_loss_mlp": 1.02367795,
+      "epoch": 0.3606084290266338,
+      "flos": 22054251467520.0,
+      "grad_norm": 2.290904150339179,
+      "language_loss": 0.75810468,
+      "learning_rate": 2.9590262336496575e-06,
+      "loss": 0.7808181,
+      "num_input_tokens_seen": 64473585,
+      "step": 2999,
+      "time_per_iteration": 2.742124557495117
+    },
+    {
+      "auxiliary_loss_clip": 0.01219264,
+      "auxiliary_loss_mlp": 0.01028959,
+      "balance_loss_clip": 1.05456543,
+      "balance_loss_mlp": 1.01967835,
+      "epoch": 0.36072867191727287,
+      "flos": 15632921111040.0,
+      "grad_norm": 1.9773328296013897,
+      "language_loss": 0.85340273,
+      "learning_rate": 2.9583425862649936e-06,
+      "loss": 0.87588489,
+      "num_input_tokens_seen": 64491720,
+      "step": 3000,
+      "time_per_iteration": 2.679565191268921
+    },
+    {
+      "auxiliary_loss_clip": 0.01202612,
+      "auxiliary_loss_mlp": 0.01033036,
+      "balance_loss_clip": 1.06083453,
+      "balance_loss_mlp": 1.02404213,
+      "epoch": 0.360848914807912,
+      "flos": 19677000625920.0,
+      "grad_norm": 2.0955498466241385,
+      "language_loss": 0.73659855,
+      "learning_rate": 2.9576587935005215e-06,
+      "loss": 0.75895506,
+      "num_input_tokens_seen": 64509800,
+      "step": 3001,
+      "time_per_iteration": 2.6291093826293945
+    },
+    {
+      "auxiliary_loss_clip": 0.01209628,
+      "auxiliary_loss_mlp": 0.01033379,
+      "balance_loss_clip": 1.05624676,
+      "balance_loss_mlp": 1.02372313,
+      "epoch": 0.3609691576985511,
+      "flos": 18877808972160.0,
+      "grad_norm": 2.236435984797161,
+      "language_loss": 0.71844947,
+      "learning_rate": 2.9569748554599713e-06,
+      "loss": 0.74087954,
+      "num_input_tokens_seen": 64525410,
+      "step": 3002,
+      "time_per_iteration": 2.6608164310455322
+    },
+    {
+      "auxiliary_loss_clip": 0.01215031,
+      "auxiliary_loss_mlp": 0.01032366,
+      "balance_loss_clip": 1.05670035,
+      "balance_loss_mlp": 1.02360439,
+      "epoch": 0.36108940058919015,
+      "flos": 42224088648960.0,
+      "grad_norm": 1.9268194828993321,
+      "language_loss": 0.73166764,
+      "learning_rate": 2.956290772247097e-06,
+      "loss": 0.75414157,
+      "num_input_tokens_seen": 64544085,
+      "step": 3003,
+      "time_per_iteration": 4.595839738845825
+    },
+    {
+      "auxiliary_loss_clip": 0.01222909,
+      "auxiliary_loss_mlp": 0.01028438,
+      "balance_loss_clip": 1.05267334,
+      "balance_loss_mlp": 1.01931798,
+      "epoch": 0.36120964347982926,
+      "flos": 23185150243200.0,
+      "grad_norm": 4.140176342340761,
+      "language_loss": 0.72984159,
+      "learning_rate": 2.9556065439656724e-06,
+      "loss": 0.7523551,
+      "num_input_tokens_seen": 64563135,
+      "step": 3004,
+      "time_per_iteration": 2.8252832889556885
+    },
+    {
+      "auxiliary_loss_clip": 0.01227975,
+      "auxiliary_loss_mlp": 0.01028915,
+      "balance_loss_clip": 1.04727602,
+      "balance_loss_mlp": 1.02033222,
+      "epoch": 0.36132988637046837,
+      "flos": 18113055482880.0,
+      "grad_norm": 2.102088417084044,
+      "language_loss": 0.81774241,
+      "learning_rate": 2.9549221707194952e-06,
+      "loss": 0.84031135,
+      "num_input_tokens_seen": 64581985,
+      "step": 3005,
+      "time_per_iteration": 2.844987154006958
+    },
+    {
+      "auxiliary_loss_clip": 0.0121144,
+      "auxiliary_loss_mlp": 0.01027012,
+      "balance_loss_clip": 1.05918503,
+      "balance_loss_mlp": 1.01820862,
+      "epoch": 0.3614501292611074,
+      "flos": 27813101333760.0,
+      "grad_norm": 2.1067148826663957,
+      "language_loss": 0.72826171,
+      "learning_rate": 2.954237652612384e-06,
+      "loss": 0.75064623,
+      "num_input_tokens_seen": 64601035,
+      "step": 3006,
+      "time_per_iteration": 2.6951444149017334
+    },
+    {
+      "auxiliary_loss_clip": 0.01215722,
+      "auxiliary_loss_mlp": 0.01033752,
+      "balance_loss_clip": 1.05683041,
+      "balance_loss_mlp": 1.02538967,
+      "epoch": 0.36157037215174653,
+      "flos": 22634926732800.0,
+      "grad_norm": 2.0817686655734913,
+      "language_loss": 0.84103799,
+      "learning_rate": 2.9535529897481796e-06,
+      "loss": 0.86353266,
+      "num_input_tokens_seen": 64618580,
+      "step": 3007,
+      "time_per_iteration": 2.659291982650757
+    },
+    {
+      "auxiliary_loss_clip": 0.01197879,
+      "auxiliary_loss_mlp": 0.0102989,
+      "balance_loss_clip": 1.05670977,
+      "balance_loss_mlp": 1.0213666,
+      "epoch": 0.36169061504238564,
+      "flos": 12600839376000.0,
+      "grad_norm": 2.3046293543707925,
+      "language_loss": 0.76483226,
+      "learning_rate": 2.9528681822307446e-06,
+      "loss": 0.78710997,
+      "num_input_tokens_seen": 64635430,
+      "step": 3008,
+      "time_per_iteration": 2.6292145252227783
+    },
+    {
+      "auxiliary_loss_clip": 0.0120856,
+      "auxiliary_loss_mlp": 0.01379368,
+      "balance_loss_clip": 1.06214333,
+      "balance_loss_mlp": 1.00027823,
+      "epoch": 0.3618108579330247,
+      "flos": 26684644682880.0,
+      "grad_norm": 2.013012196639431,
+      "language_loss": 0.82507747,
+      "learning_rate": 2.952183230163964e-06,
+      "loss": 0.85095674,
+      "num_input_tokens_seen": 64655005,
+      "step": 3009,
+      "time_per_iteration": 2.6695492267608643
+    },
+    {
+      "auxiliary_loss_clip": 0.01215145,
+      "auxiliary_loss_mlp": 0.01027382,
+      "balance_loss_clip": 1.05217624,
+      "balance_loss_mlp": 1.01876318,
+      "epoch": 0.3619311008236638,
+      "flos": 22817029708800.0,
+      "grad_norm": 2.8114714852911438,
+      "language_loss": 0.73436046,
+      "learning_rate": 2.9514981336517448e-06,
+      "loss": 0.75678575,
+      "num_input_tokens_seen": 64674775,
+      "step": 3010,
+      "time_per_iteration": 3.669426918029785
+    },
+    {
+      "auxiliary_loss_clip": 0.01205955,
+      "auxiliary_loss_mlp": 0.01028586,
+      "balance_loss_clip": 1.05936432,
+      "balance_loss_mlp": 1.02038431,
+      "epoch": 0.36205134371430286,
+      "flos": 25919603884800.0,
+      "grad_norm": 2.015410856462736,
+      "language_loss": 0.81333786,
+      "learning_rate": 2.950812892798015e-06,
+      "loss": 0.83568323,
+      "num_input_tokens_seen": 64695670,
+      "step": 3011,
+      "time_per_iteration": 2.7043893337249756
+    },
+    {
+      "auxiliary_loss_clip": 0.01222356,
+      "auxiliary_loss_mlp": 0.01379456,
+      "balance_loss_clip": 1.05158043,
+      "balance_loss_mlp": 1.00035918,
+      "epoch": 0.362171586604942,
+      "flos": 26139592730880.0,
+      "grad_norm": 1.748209598080257,
+      "language_loss": 0.87052345,
+      "learning_rate": 2.9501275077067256e-06,
+      "loss": 0.89654148,
+      "num_input_tokens_seen": 64716290,
+      "step": 3012,
+      "time_per_iteration": 2.7838168144226074
+    },
+    {
+      "auxiliary_loss_clip": 0.01220655,
+      "auxiliary_loss_mlp": 0.01027372,
+      "balance_loss_clip": 1.04677403,
+      "balance_loss_mlp": 1.0189383,
+      "epoch": 0.3622918294955811,
+      "flos": 28074208273920.0,
+      "grad_norm": 1.4251959415599755,
+      "language_loss": 0.88582623,
+      "learning_rate": 2.949441978481848e-06,
+      "loss": 0.90830648,
+      "num_input_tokens_seen": 64737190,
+      "step": 3013,
+      "time_per_iteration": 2.8330087661743164
+    },
+    {
+      "auxiliary_loss_clip": 0.01227606,
+      "auxiliary_loss_mlp": 0.01032586,
+      "balance_loss_clip": 1.05400348,
+      "balance_loss_mlp": 1.02288842,
+      "epoch": 0.36241207238622014,
+      "flos": 19828005402240.0,
+      "grad_norm": 2.6785879983426826,
+      "language_loss": 0.79690993,
+      "learning_rate": 2.9487563052273778e-06,
+      "loss": 0.81951183,
+      "num_input_tokens_seen": 64753950,
+      "step": 3014,
+      "time_per_iteration": 2.6813247203826904
+    },
+    {
+      "auxiliary_loss_clip": 0.01203941,
+      "auxiliary_loss_mlp": 0.01029171,
+      "balance_loss_clip": 1.05722106,
+      "balance_loss_mlp": 1.02070737,
+      "epoch": 0.36253231527685925,
+      "flos": 21397158017280.0,
+      "grad_norm": 1.7730297007382712,
+      "language_loss": 0.85487783,
+      "learning_rate": 2.94807048804733e-06,
+      "loss": 0.87720895,
+      "num_input_tokens_seen": 64773570,
+      "step": 3015,
+      "time_per_iteration": 2.6889312267303467
+    },
+    {
+      "auxiliary_loss_clip": 0.01225556,
+      "auxiliary_loss_mlp": 0.01035401,
+      "balance_loss_clip": 1.05229139,
+      "balance_loss_mlp": 1.02621627,
+      "epoch": 0.36265255816749836,
+      "flos": 18362885552640.0,
+      "grad_norm": 1.7239074403234642,
+      "language_loss": 0.89885956,
+      "learning_rate": 2.9473845270457434e-06,
+      "loss": 0.92146915,
+      "num_input_tokens_seen": 64790385,
+      "step": 3016,
+      "time_per_iteration": 2.704698085784912
+    },
+    {
+      "auxiliary_loss_clip": 0.01208831,
+      "auxiliary_loss_mlp": 0.01026309,
+      "balance_loss_clip": 1.05487871,
+      "balance_loss_mlp": 1.01775002,
+      "epoch": 0.3627728010581374,
+      "flos": 18660046769280.0,
+      "grad_norm": 2.191545609160639,
+      "language_loss": 0.70455205,
+      "learning_rate": 2.946698422326677e-06,
+      "loss": 0.72690344,
+      "num_input_tokens_seen": 64807845,
+      "step": 3017,
+      "time_per_iteration": 2.76499080657959
+    },
+    {
+      "auxiliary_loss_clip": 0.01228273,
+      "auxiliary_loss_mlp": 0.01036006,
+      "balance_loss_clip": 1.04950047,
+      "balance_loss_mlp": 1.02724981,
+      "epoch": 0.36289304394877653,
+      "flos": 27524272072320.0,
+      "grad_norm": 2.108329845943566,
+      "language_loss": 0.79556918,
+      "learning_rate": 2.946012173994213e-06,
+      "loss": 0.81821197,
+      "num_input_tokens_seen": 64827630,
+      "step": 3018,
+      "time_per_iteration": 2.7754719257354736
+    },
+    {
+      "auxiliary_loss_clip": 0.01201898,
+      "auxiliary_loss_mlp": 0.01033077,
+      "balance_loss_clip": 1.05839741,
+      "balance_loss_mlp": 1.02441049,
+      "epoch": 0.36301328683941564,
+      "flos": 34533244932480.0,
+      "grad_norm": 1.3810199539520007,
+      "language_loss": 0.67763078,
+      "learning_rate": 2.945325782152454e-06,
+      "loss": 0.69998062,
+      "num_input_tokens_seen": 64850665,
+      "step": 3019,
+      "time_per_iteration": 2.7825400829315186
+    },
+    {
+      "auxiliary_loss_clip": 0.01214937,
+      "auxiliary_loss_mlp": 0.01031478,
+      "balance_loss_clip": 1.05352008,
+      "balance_loss_mlp": 1.02341962,
+      "epoch": 0.3631335297300547,
+      "flos": 19025976574080.0,
+      "grad_norm": 2.2031633387516183,
+      "language_loss": 0.7881974,
+      "learning_rate": 2.9446392469055257e-06,
+      "loss": 0.81066155,
+      "num_input_tokens_seen": 64868700,
+      "step": 3020,
+      "time_per_iteration": 2.6972603797912598
+    },
+    {
+      "auxiliary_loss_clip": 0.0121943,
+      "auxiliary_loss_mlp": 0.01035116,
+      "balance_loss_clip": 1.05705833,
+      "balance_loss_mlp": 1.02695322,
+      "epoch": 0.3632537726206938,
+      "flos": 19536769929600.0,
+      "grad_norm": 1.7938943429302803,
+      "language_loss": 0.79990512,
+      "learning_rate": 2.9439525683575745e-06,
+      "loss": 0.82245058,
+      "num_input_tokens_seen": 64887620,
+      "step": 3021,
+      "time_per_iteration": 2.6853737831115723
+    },
+    {
+      "auxiliary_loss_clip": 0.01203849,
+      "auxiliary_loss_mlp": 0.01035634,
+      "balance_loss_clip": 1.06176877,
+      "balance_loss_mlp": 1.02524471,
+      "epoch": 0.3633740155113329,
+      "flos": 21068611292160.0,
+      "grad_norm": 2.1221782273872223,
+      "language_loss": 0.74782896,
+      "learning_rate": 2.9432657466127694e-06,
+      "loss": 0.7702238,
+      "num_input_tokens_seen": 64907190,
+      "step": 3022,
+      "time_per_iteration": 2.6700620651245117
+    },
+    {
+      "auxiliary_loss_clip": 0.01232298,
+      "auxiliary_loss_mlp": 0.01032243,
+      "balance_loss_clip": 1.05716968,
+      "balance_loss_mlp": 1.02338541,
+      "epoch": 0.36349425840197197,
+      "flos": 20298722158080.0,
+      "grad_norm": 2.009437575710006,
+      "language_loss": 0.76401913,
+      "learning_rate": 2.9425787817753007e-06,
+      "loss": 0.78666449,
+      "num_input_tokens_seen": 64925850,
+      "step": 3023,
+      "time_per_iteration": 2.733124017715454
+    },
+    {
+      "auxiliary_loss_clip": 0.01222919,
+      "auxiliary_loss_mlp": 0.0103217,
+      "balance_loss_clip": 1.05325711,
+      "balance_loss_mlp": 1.02312827,
+      "epoch": 0.3636145012926111,
+      "flos": 29716762331520.0,
+      "grad_norm": 1.8444883174694153,
+      "language_loss": 0.71295005,
+      "learning_rate": 2.94189167394938e-06,
+      "loss": 0.73550093,
+      "num_input_tokens_seen": 64948285,
+      "step": 3024,
+      "time_per_iteration": 2.799553155899048
+    },
+    {
+      "auxiliary_loss_clip": 0.01200262,
+      "auxiliary_loss_mlp": 0.01033046,
+      "balance_loss_clip": 1.06151474,
+      "balance_loss_mlp": 1.02456462,
+      "epoch": 0.3637347441832502,
+      "flos": 21431847576960.0,
+      "grad_norm": 1.8079217347341752,
+      "language_loss": 0.80998862,
+      "learning_rate": 2.941204423239241e-06,
+      "loss": 0.83232164,
+      "num_input_tokens_seen": 64967160,
+      "step": 3025,
+      "time_per_iteration": 2.585726022720337
+    },
+    {
+      "auxiliary_loss_clip": 0.01205903,
+      "auxiliary_loss_mlp": 0.01028682,
+      "balance_loss_clip": 1.05862451,
+      "balance_loss_mlp": 1.01999152,
+      "epoch": 0.36385498707388925,
+      "flos": 29533941083520.0,
+      "grad_norm": 1.811337199183616,
+      "language_loss": 0.75953597,
+      "learning_rate": 2.9405170297491395e-06,
+      "loss": 0.78188181,
+      "num_input_tokens_seen": 64987155,
+      "step": 3026,
+      "time_per_iteration": 2.7282350063323975
+    },
+    {
+      "auxiliary_loss_clip": 0.01230531,
+      "auxiliary_loss_mlp": 0.01380061,
+      "balance_loss_clip": 1.051687,
+      "balance_loss_mlp": 1.0004909,
+      "epoch": 0.36397522996452836,
+      "flos": 22236569925120.0,
+      "grad_norm": 1.9182226319173676,
+      "language_loss": 0.80413252,
+      "learning_rate": 2.939829493583353e-06,
+      "loss": 0.83023846,
+      "num_input_tokens_seen": 65003800,
+      "step": 3027,
+      "time_per_iteration": 2.758251428604126
+    },
+    {
+      "auxiliary_loss_clip": 0.01213276,
+      "auxiliary_loss_mlp": 0.01032018,
+      "balance_loss_clip": 1.04938161,
+      "balance_loss_mlp": 1.02339959,
+      "epoch": 0.3640954728551674,
+      "flos": 21506505995520.0,
+      "grad_norm": 2.470337136868273,
+      "language_loss": 0.8294782,
+      "learning_rate": 2.939141814846179e-06,
+      "loss": 0.85193115,
+      "num_input_tokens_seen": 65021215,
+      "step": 3028,
+      "time_per_iteration": 3.5967516899108887
+    },
+    {
+      "auxiliary_loss_clip": 0.01214235,
+      "auxiliary_loss_mlp": 0.01029247,
+      "balance_loss_clip": 1.05357957,
+      "balance_loss_mlp": 1.02066958,
+      "epoch": 0.3642157157458065,
+      "flos": 17712867081600.0,
+      "grad_norm": 2.02079311470927,
+      "language_loss": 0.82353336,
+      "learning_rate": 2.938453993641938e-06,
+      "loss": 0.84596819,
+      "num_input_tokens_seen": 65039590,
+      "step": 3029,
+      "time_per_iteration": 4.523404359817505
+    },
+    {
+      "auxiliary_loss_clip": 0.0121595,
+      "auxiliary_loss_mlp": 0.01032058,
+      "balance_loss_clip": 1.06142354,
+      "balance_loss_mlp": 1.02309942,
+      "epoch": 0.36433595863644563,
+      "flos": 17639537466240.0,
+      "grad_norm": 2.3413665870841314,
+      "language_loss": 0.70138633,
+      "learning_rate": 2.937766030074973e-06,
+      "loss": 0.72386646,
+      "num_input_tokens_seen": 65056845,
+      "step": 3030,
+      "time_per_iteration": 2.644622564315796
+    },
+    {
+      "auxiliary_loss_clip": 0.01227783,
+      "auxiliary_loss_mlp": 0.0102824,
+      "balance_loss_clip": 1.05487657,
+      "balance_loss_mlp": 1.0194844,
+      "epoch": 0.3644562015270847,
+      "flos": 26833279161600.0,
+      "grad_norm": 2.0840305515942164,
+      "language_loss": 0.82538283,
+      "learning_rate": 2.937077924249646e-06,
+      "loss": 0.84794307,
+      "num_input_tokens_seen": 65079435,
+      "step": 3031,
+      "time_per_iteration": 2.752495527267456
+    },
+    {
+      "auxiliary_loss_clip": 0.01220265,
+      "auxiliary_loss_mlp": 0.01027537,
+      "balance_loss_clip": 1.05470777,
+      "balance_loss_mlp": 1.01853061,
+      "epoch": 0.3645764444177238,
+      "flos": 14282715847680.0,
+      "grad_norm": 2.128582128405994,
+      "language_loss": 0.7554217,
+      "learning_rate": 2.9363896762703443e-06,
+      "loss": 0.77789974,
+      "num_input_tokens_seen": 65096500,
+      "step": 3032,
+      "time_per_iteration": 2.723902463912964
+    },
+    {
+      "auxiliary_loss_clip": 0.01198012,
+      "auxiliary_loss_mlp": 0.01028841,
+      "balance_loss_clip": 1.05823076,
+      "balance_loss_mlp": 1.01995373,
+      "epoch": 0.3646966873083629,
+      "flos": 20667489137280.0,
+      "grad_norm": 1.896375636907242,
+      "language_loss": 0.84301209,
+      "learning_rate": 2.9357012862414725e-06,
+      "loss": 0.86528063,
+      "num_input_tokens_seen": 65115860,
+      "step": 3033,
+      "time_per_iteration": 2.5999443531036377
+    },
+    {
+      "auxiliary_loss_clip": 0.01211497,
+      "auxiliary_loss_mlp": 0.01027539,
+      "balance_loss_clip": 1.05961514,
+      "balance_loss_mlp": 1.01896155,
+      "epoch": 0.36481693019900197,
+      "flos": 27782613665280.0,
+      "grad_norm": 2.028975818954495,
+      "language_loss": 0.71420306,
+      "learning_rate": 2.9350127542674593e-06,
+      "loss": 0.73659343,
+      "num_input_tokens_seen": 65138070,
+      "step": 3034,
+      "time_per_iteration": 2.688094139099121
+    },
+    {
+      "auxiliary_loss_clip": 0.01221269,
+      "auxiliary_loss_mlp": 0.01035262,
+      "balance_loss_clip": 1.0571208,
+      "balance_loss_mlp": 1.02649438,
+      "epoch": 0.3649371730896411,
+      "flos": 19712588025600.0,
+      "grad_norm": 2.135654674125237,
+      "language_loss": 0.76362532,
+      "learning_rate": 2.934324080452755e-06,
+      "loss": 0.78619063,
+      "num_input_tokens_seen": 65155860,
+      "step": 3035,
+      "time_per_iteration": 2.6646101474761963
+    },
+    {
+      "auxiliary_loss_clip": 0.01207292,
+      "auxiliary_loss_mlp": 0.0138002,
+      "balance_loss_clip": 1.04925525,
+      "balance_loss_mlp": 1.00033331,
+      "epoch": 0.3650574159802802,
+      "flos": 24750496016640.0,
+      "grad_norm": 1.4488565980919592,
+      "language_loss": 0.7822758,
+      "learning_rate": 2.9336352649018307e-06,
+      "loss": 0.80814898,
+      "num_input_tokens_seen": 65175930,
+      "step": 3036,
+      "time_per_iteration": 3.611687660217285
+    },
+    {
+      "auxiliary_loss_clip": 0.01217364,
+      "auxiliary_loss_mlp": 0.01036406,
+      "balance_loss_clip": 1.05753553,
+      "balance_loss_mlp": 1.02732205,
+      "epoch": 0.36517765887091924,
+      "flos": 32853487363200.0,
+      "grad_norm": 1.979380553317927,
+      "language_loss": 0.69982541,
+      "learning_rate": 2.9329463077191783e-06,
+      "loss": 0.72236311,
+      "num_input_tokens_seen": 65199305,
+      "step": 3037,
+      "time_per_iteration": 2.752635955810547
+    },
+    {
+      "auxiliary_loss_clip": 0.01230561,
+      "auxiliary_loss_mlp": 0.01028668,
+      "balance_loss_clip": 1.05213439,
+      "balance_loss_mlp": 1.01973295,
+      "epoch": 0.36529790176155835,
+      "flos": 20120318282880.0,
+      "grad_norm": 2.109298244966041,
+      "language_loss": 0.64101934,
+      "learning_rate": 2.9322572090093135e-06,
+      "loss": 0.66361165,
+      "num_input_tokens_seen": 65218010,
+      "step": 3038,
+      "time_per_iteration": 2.7669758796691895
+    },
+    {
+      "auxiliary_loss_clip": 0.01230256,
+      "auxiliary_loss_mlp": 0.01027837,
+      "balance_loss_clip": 1.05144441,
+      "balance_loss_mlp": 1.01890254,
+      "epoch": 0.36541814465219746,
+      "flos": 17639573379840.0,
+      "grad_norm": 2.7559963716826275,
+      "language_loss": 0.7671532,
+      "learning_rate": 2.9315679688767713e-06,
+      "loss": 0.78973413,
+      "num_input_tokens_seen": 65236020,
+      "step": 3039,
+      "time_per_iteration": 2.708390474319458
+    },
+    {
+      "auxiliary_loss_clip": 0.01206729,
+      "auxiliary_loss_mlp": 0.01036957,
+      "balance_loss_clip": 1.05216646,
+      "balance_loss_mlp": 1.02872562,
+      "epoch": 0.3655383875428365,
+      "flos": 22674356887680.0,
+      "grad_norm": 1.526091408856422,
+      "language_loss": 0.66245425,
+      "learning_rate": 2.9308785874261085e-06,
+      "loss": 0.6848911,
+      "num_input_tokens_seen": 65256210,
+      "step": 3040,
+      "time_per_iteration": 2.66568660736084
+    },
+    {
+      "auxiliary_loss_clip": 0.0119934,
+      "auxiliary_loss_mlp": 0.01034165,
+      "balance_loss_clip": 1.05942869,
+      "balance_loss_mlp": 1.02528381,
+      "epoch": 0.36565863043347563,
+      "flos": 21981173247360.0,
+      "grad_norm": 1.6425049813077752,
+      "language_loss": 0.82052064,
+      "learning_rate": 2.9301890647619045e-06,
+      "loss": 0.84285569,
+      "num_input_tokens_seen": 65275505,
+      "step": 3041,
+      "time_per_iteration": 2.640352487564087
+    },
+    {
+      "auxiliary_loss_clip": 0.01221886,
+      "auxiliary_loss_mlp": 0.01034837,
+      "balance_loss_clip": 1.05753493,
+      "balance_loss_mlp": 1.02584839,
+      "epoch": 0.36577887332411474,
+      "flos": 24827632473600.0,
+      "grad_norm": 1.956322830956772,
+      "language_loss": 0.79995131,
+      "learning_rate": 2.929499400988759e-06,
+      "loss": 0.82251847,
+      "num_input_tokens_seen": 65296665,
+      "step": 3042,
+      "time_per_iteration": 2.6638035774230957
+    },
+    {
+      "auxiliary_loss_clip": 0.01205516,
+      "auxiliary_loss_mlp": 0.01035258,
+      "balance_loss_clip": 1.05658734,
+      "balance_loss_mlp": 1.02595401,
+      "epoch": 0.3658991162147538,
+      "flos": 28293191539200.0,
+      "grad_norm": 1.8339087141252766,
+      "language_loss": 0.65202904,
+      "learning_rate": 2.9288095962112927e-06,
+      "loss": 0.67443675,
+      "num_input_tokens_seen": 65317370,
+      "step": 3043,
+      "time_per_iteration": 2.712254762649536
+    },
+    {
+      "auxiliary_loss_clip": 0.01196808,
+      "auxiliary_loss_mlp": 0.01032424,
+      "balance_loss_clip": 1.05848193,
+      "balance_loss_mlp": 1.02375102,
+      "epoch": 0.3660193591053929,
+      "flos": 17785550252160.0,
+      "grad_norm": 2.3608261359567777,
+      "language_loss": 0.85275406,
+      "learning_rate": 2.9281196505341503e-06,
+      "loss": 0.87504637,
+      "num_input_tokens_seen": 65334540,
+      "step": 3044,
+      "time_per_iteration": 2.535458564758301
+    },
+    {
+      "auxiliary_loss_clip": 0.01222969,
+      "auxiliary_loss_mlp": 0.01379846,
+      "balance_loss_clip": 1.04944944,
+      "balance_loss_mlp": 1.00041807,
+      "epoch": 0.36613960199603196,
+      "flos": 10342776839040.0,
+      "grad_norm": 2.1945950519501216,
+      "language_loss": 0.7834475,
+      "learning_rate": 2.9274295640619946e-06,
+      "loss": 0.80947566,
+      "num_input_tokens_seen": 65351670,
+      "step": 3045,
+      "time_per_iteration": 2.789767265319824
+    },
+    {
+      "auxiliary_loss_clip": 0.0121791,
+      "auxiliary_loss_mlp": 0.0103317,
+      "balance_loss_clip": 1.04935133,
+      "balance_loss_mlp": 1.02520084,
+      "epoch": 0.36625984488667107,
+      "flos": 19755609540480.0,
+      "grad_norm": 1.7207493064412525,
+      "language_loss": 0.78507787,
+      "learning_rate": 2.9267393368995103e-06,
+      "loss": 0.8075887,
+      "num_input_tokens_seen": 65370900,
+      "step": 3046,
+      "time_per_iteration": 2.678529977798462
+    },
+    {
+      "auxiliary_loss_clip": 0.01198326,
+      "auxiliary_loss_mlp": 0.0102944,
+      "balance_loss_clip": 1.05866003,
+      "balance_loss_mlp": 1.0206368,
+      "epoch": 0.3663800877773102,
+      "flos": 17674262939520.0,
+      "grad_norm": 2.246647639096411,
+      "language_loss": 0.74239755,
+      "learning_rate": 2.926048969151407e-06,
+      "loss": 0.76467526,
+      "num_input_tokens_seen": 65388185,
+      "step": 3047,
+      "time_per_iteration": 2.6350815296173096
+    },
+    {
+      "auxiliary_loss_clip": 0.0122089,
+      "auxiliary_loss_mlp": 0.0102849,
+      "balance_loss_clip": 1.05153608,
+      "balance_loss_mlp": 1.01971662,
+      "epoch": 0.36650033066794924,
+      "flos": 20303606407680.0,
+      "grad_norm": 2.529915472158864,
+      "language_loss": 0.68836534,
+      "learning_rate": 2.92535846092241e-06,
+      "loss": 0.71085912,
+      "num_input_tokens_seen": 65407200,
+      "step": 3048,
+      "time_per_iteration": 2.7587451934814453
+    },
+    {
+      "auxiliary_loss_clip": 0.01218011,
+      "auxiliary_loss_mlp": 0.01029965,
+      "balance_loss_clip": 1.05654001,
+      "balance_loss_mlp": 1.01985562,
+      "epoch": 0.36662057355858835,
+      "flos": 24716237420160.0,
+      "grad_norm": 1.982028527262054,
+      "language_loss": 0.8246454,
+      "learning_rate": 2.9246678123172704e-06,
+      "loss": 0.84712517,
+      "num_input_tokens_seen": 65427290,
+      "step": 3049,
+      "time_per_iteration": 2.684156894683838
+    },
+    {
+      "auxiliary_loss_clip": 0.01199538,
+      "auxiliary_loss_mlp": 0.01027767,
+      "balance_loss_clip": 1.05878973,
+      "balance_loss_mlp": 1.01855767,
+      "epoch": 0.36674081644922746,
+      "flos": 12385267902720.0,
+      "grad_norm": 2.727715381904093,
+      "language_loss": 0.74354064,
+      "learning_rate": 2.9239770234407596e-06,
+      "loss": 0.76581365,
+      "num_input_tokens_seen": 65445595,
+      "step": 3050,
+      "time_per_iteration": 2.5623903274536133
+    },
+    {
+      "auxiliary_loss_clip": 0.01207604,
+      "auxiliary_loss_mlp": 0.01031382,
+      "balance_loss_clip": 1.05690873,
+      "balance_loss_mlp": 1.02295995,
+      "epoch": 0.3668610593398665,
+      "flos": 21105922544640.0,
+      "grad_norm": 1.718095849557224,
+      "language_loss": 0.6837678,
+      "learning_rate": 2.9232860943976686e-06,
+      "loss": 0.70615768,
+      "num_input_tokens_seen": 65466330,
+      "step": 3051,
+      "time_per_iteration": 2.6597328186035156
+    },
+    {
+      "auxiliary_loss_clip": 0.01210269,
+      "auxiliary_loss_mlp": 0.01031938,
+      "balance_loss_clip": 1.05350733,
+      "balance_loss_mlp": 1.02381372,
+      "epoch": 0.3669813022305056,
+      "flos": 26758082039040.0,
+      "grad_norm": 1.6410055694223673,
+      "language_loss": 0.84182119,
+      "learning_rate": 2.9225950252928115e-06,
+      "loss": 0.86424327,
+      "num_input_tokens_seen": 65487180,
+      "step": 3052,
+      "time_per_iteration": 2.6542792320251465
+    },
+    {
+      "auxiliary_loss_clip": 0.01206025,
+      "auxiliary_loss_mlp": 0.01035958,
+      "balance_loss_clip": 1.05939507,
+      "balance_loss_mlp": 1.02681518,
+      "epoch": 0.36710154512114473,
+      "flos": 19099521671040.0,
+      "grad_norm": 2.428725036265573,
+      "language_loss": 0.81471968,
+      "learning_rate": 2.9219038162310217e-06,
+      "loss": 0.83713949,
+      "num_input_tokens_seen": 65505380,
+      "step": 3053,
+      "time_per_iteration": 2.6114113330841064
+    },
+    {
+      "auxiliary_loss_clip": 0.01246011,
+      "auxiliary_loss_mlp": 0.01379977,
+      "balance_loss_clip": 1.04699826,
+      "balance_loss_mlp": 1.00039458,
+      "epoch": 0.3672217880117838,
+      "flos": 20812029465600.0,
+      "grad_norm": 2.11737306688722,
+      "language_loss": 0.82503444,
+      "learning_rate": 2.921212467317157e-06,
+      "loss": 0.85129428,
+      "num_input_tokens_seen": 65524825,
+      "step": 3054,
+      "time_per_iteration": 3.8865232467651367
+    },
+    {
+      "auxiliary_loss_clip": 0.01193081,
+      "auxiliary_loss_mlp": 0.0102824,
+      "balance_loss_clip": 1.04925013,
+      "balance_loss_mlp": 1.01910841,
+      "epoch": 0.3673420309024229,
+      "flos": 13590394133760.0,
+      "grad_norm": 1.986822088334943,
+      "language_loss": 0.79957265,
+      "learning_rate": 2.920520978656093e-06,
+      "loss": 0.82178587,
+      "num_input_tokens_seen": 65541790,
+      "step": 3055,
+      "time_per_iteration": 5.1599626541137695
+    },
+    {
+      "auxiliary_loss_clip": 0.0119433,
+      "auxiliary_loss_mlp": 0.01379566,
+      "balance_loss_clip": 1.05627537,
+      "balance_loss_mlp": 1.00027752,
+      "epoch": 0.367462273793062,
+      "flos": 28986877969920.0,
+      "grad_norm": 1.8890439968492614,
+      "language_loss": 0.76887852,
+      "learning_rate": 2.919829350352729e-06,
+      "loss": 0.79461747,
+      "num_input_tokens_seen": 65563395,
+      "step": 3056,
+      "time_per_iteration": 2.662691593170166
+    },
+    {
+      "auxiliary_loss_clip": 0.01092664,
+      "auxiliary_loss_mlp": 0.01004284,
+      "balance_loss_clip": 1.02441669,
+      "balance_loss_mlp": 1.00281131,
+      "epoch": 0.36758251668370107,
+      "flos": 62643148346880.0,
+      "grad_norm": 0.7849546604015271,
+      "language_loss": 0.59998107,
+      "learning_rate": 2.919137582511983e-06,
+      "loss": 0.62095058,
+      "num_input_tokens_seen": 65619835,
+      "step": 3057,
+      "time_per_iteration": 3.1007769107818604
+    },
+    {
+      "auxiliary_loss_clip": 0.0122809,
+      "auxiliary_loss_mlp": 0.01035228,
+      "balance_loss_clip": 1.05559671,
+      "balance_loss_mlp": 1.02651954,
+      "epoch": 0.3677027595743402,
+      "flos": 12713886455040.0,
+      "grad_norm": 2.6350429896317493,
+      "language_loss": 0.64126408,
+      "learning_rate": 2.918445675238797e-06,
+      "loss": 0.66389728,
+      "num_input_tokens_seen": 65636760,
+      "step": 3058,
+      "time_per_iteration": 2.7211203575134277
+    },
+    {
+      "auxiliary_loss_clip": 0.01195477,
+      "auxiliary_loss_mlp": 0.01031586,
+      "balance_loss_clip": 1.05658865,
+      "balance_loss_mlp": 1.02289534,
+      "epoch": 0.36782300246497923,
+      "flos": 25046579825280.0,
+      "grad_norm": 1.7888714319496601,
+      "language_loss": 0.69591755,
+      "learning_rate": 2.917753628638132e-06,
+      "loss": 0.71818817,
+      "num_input_tokens_seen": 65657065,
+      "step": 3059,
+      "time_per_iteration": 2.649698495864868
+    },
+    {
+      "auxiliary_loss_clip": 0.01216958,
+      "auxiliary_loss_mlp": 0.01031336,
+      "balance_loss_clip": 1.05792797,
+      "balance_loss_mlp": 1.0224669,
+      "epoch": 0.36794324535561834,
+      "flos": 17419512706560.0,
+      "grad_norm": 2.341558854345321,
+      "language_loss": 0.70532715,
+      "learning_rate": 2.9170614428149716e-06,
+      "loss": 0.72781014,
+      "num_input_tokens_seen": 65675400,
+      "step": 3060,
+      "time_per_iteration": 2.717766284942627
+    },
+    {
+      "auxiliary_loss_clip": 0.01216643,
+      "auxiliary_loss_mlp": 0.01028179,
+      "balance_loss_clip": 1.05459917,
+      "balance_loss_mlp": 1.01931548,
+      "epoch": 0.36806348824625745,
+      "flos": 24089128848000.0,
+      "grad_norm": 2.4804360018592515,
+      "language_loss": 0.86791545,
+      "learning_rate": 2.9163691178743195e-06,
+      "loss": 0.89036369,
+      "num_input_tokens_seen": 65694050,
+      "step": 3061,
+      "time_per_iteration": 2.750016212463379
+    },
+    {
+      "auxiliary_loss_clip": 0.01202272,
+      "auxiliary_loss_mlp": 0.01030545,
+      "balance_loss_clip": 1.05632615,
+      "balance_loss_mlp": 1.02199221,
+      "epoch": 0.3681837311368965,
+      "flos": 20521871400960.0,
+      "grad_norm": 2.137001598163041,
+      "language_loss": 0.77532494,
+      "learning_rate": 2.9156766539212006e-06,
+      "loss": 0.79765308,
+      "num_input_tokens_seen": 65711695,
+      "step": 3062,
+      "time_per_iteration": 3.5848209857940674
+    },
+    {
+      "auxiliary_loss_clip": 0.0120678,
+      "auxiliary_loss_mlp": 0.01026537,
+      "balance_loss_clip": 1.05540884,
+      "balance_loss_mlp": 1.01769757,
+      "epoch": 0.3683039740275356,
+      "flos": 21466644877440.0,
+      "grad_norm": 2.0887474821606724,
+      "language_loss": 0.71961939,
+      "learning_rate": 2.9149840510606614e-06,
+      "loss": 0.7419526,
+      "num_input_tokens_seen": 65730350,
+      "step": 3063,
+      "time_per_iteration": 2.6244890689849854
+    },
+    {
+      "auxiliary_loss_clip": 0.01102477,
+      "auxiliary_loss_mlp": 0.01375518,
+      "balance_loss_clip": 1.02256453,
+      "balance_loss_mlp": 1.00016546,
+      "epoch": 0.36842421691817473,
+      "flos": 70380999987840.0,
+      "grad_norm": 1.0259811896005333,
+      "language_loss": 0.64181423,
+      "learning_rate": 2.914291309397769e-06,
+      "loss": 0.66659427,
+      "num_input_tokens_seen": 65787820,
+      "step": 3064,
+      "time_per_iteration": 3.3042213916778564
+    },
+    {
+      "auxiliary_loss_clip": 0.01219728,
+      "auxiliary_loss_mlp": 0.01030864,
+      "balance_loss_clip": 1.046731,
+      "balance_loss_mlp": 1.02182817,
+      "epoch": 0.3685444598088138,
+      "flos": 23331378510720.0,
+      "grad_norm": 2.7189074250742227,
+      "language_loss": 0.78483123,
+      "learning_rate": 2.9135984290376117e-06,
+      "loss": 0.80733716,
+      "num_input_tokens_seen": 65806685,
+      "step": 3065,
+      "time_per_iteration": 2.799553155899048
+    },
+    {
+      "auxiliary_loss_clip": 0.01233347,
+      "auxiliary_loss_mlp": 0.01041666,
+      "balance_loss_clip": 1.0486145,
+      "balance_loss_mlp": 1.03244567,
+      "epoch": 0.3686647026994529,
+      "flos": 23070271570560.0,
+      "grad_norm": 1.817434340810952,
+      "language_loss": 0.82533807,
+      "learning_rate": 2.9129054100853e-06,
+      "loss": 0.8480882,
+      "num_input_tokens_seen": 65825525,
+      "step": 3066,
+      "time_per_iteration": 2.7661945819854736
+    },
+    {
+      "auxiliary_loss_clip": 0.01214297,
+      "auxiliary_loss_mlp": 0.01027944,
+      "balance_loss_clip": 1.05232942,
+      "balance_loss_mlp": 1.01917577,
+      "epoch": 0.368784945590092,
+      "flos": 25119909440640.0,
+      "grad_norm": 1.7851609201697944,
+      "language_loss": 0.76295334,
+      "learning_rate": 2.912212252645963e-06,
+      "loss": 0.78537571,
+      "num_input_tokens_seen": 65848110,
+      "step": 3067,
+      "time_per_iteration": 2.7223129272460938
+    },
+    {
+      "auxiliary_loss_clip": 0.01209685,
+      "auxiliary_loss_mlp": 0.01029632,
+      "balance_loss_clip": 1.05592489,
+      "balance_loss_mlp": 1.01994073,
+      "epoch": 0.36890518848073106,
+      "flos": 18442284566400.0,
+      "grad_norm": 2.315202727041285,
+      "language_loss": 0.76380444,
+      "learning_rate": 2.9115189568247523e-06,
+      "loss": 0.78619766,
+      "num_input_tokens_seen": 65865670,
+      "step": 3068,
+      "time_per_iteration": 2.6105825901031494
+    },
+    {
+      "auxiliary_loss_clip": 0.01220636,
+      "auxiliary_loss_mlp": 0.01030007,
+      "balance_loss_clip": 1.05474341,
+      "balance_loss_mlp": 1.0216918,
+      "epoch": 0.36902543137137017,
+      "flos": 16362446336640.0,
+      "grad_norm": 1.9349843663223967,
+      "language_loss": 0.91793782,
+      "learning_rate": 2.910825522726841e-06,
+      "loss": 0.94044423,
+      "num_input_tokens_seen": 65883195,
+      "step": 3069,
+      "time_per_iteration": 2.774934768676758
+    },
+    {
+      "auxiliary_loss_clip": 0.0122556,
+      "auxiliary_loss_mlp": 0.01030462,
+      "balance_loss_clip": 1.05035102,
+      "balance_loss_mlp": 1.02183104,
+      "epoch": 0.3691456742620093,
+      "flos": 12275596702080.0,
+      "grad_norm": 1.8851535730395519,
+      "language_loss": 0.77337921,
+      "learning_rate": 2.9101319504574215e-06,
+      "loss": 0.79593945,
+      "num_input_tokens_seen": 65899635,
+      "step": 3070,
+      "time_per_iteration": 2.6808054447174072
+    },
+    {
+      "auxiliary_loss_clip": 0.01190119,
+      "auxiliary_loss_mlp": 0.01031053,
+      "balance_loss_clip": 1.0516175,
+      "balance_loss_mlp": 1.02206492,
+      "epoch": 0.36926591715264834,
+      "flos": 17786412178560.0,
+      "grad_norm": 1.9760250366177547,
+      "language_loss": 0.76261628,
+      "learning_rate": 2.909438240121709e-06,
+      "loss": 0.78482795,
+      "num_input_tokens_seen": 65919910,
+      "step": 3071,
+      "time_per_iteration": 2.725998640060425
+    },
+    {
+      "auxiliary_loss_clip": 0.01203198,
+      "auxiliary_loss_mlp": 0.01030652,
+      "balance_loss_clip": 1.05322075,
+      "balance_loss_mlp": 1.02199793,
+      "epoch": 0.36938616004328745,
+      "flos": 28948309741440.0,
+      "grad_norm": 1.7616011285951978,
+      "language_loss": 0.70090985,
+      "learning_rate": 2.908744391824939e-06,
+      "loss": 0.72324836,
+      "num_input_tokens_seen": 65940930,
+      "step": 3072,
+      "time_per_iteration": 2.703395128250122
+    },
+    {
+      "auxiliary_loss_clip": 0.01234822,
+      "auxiliary_loss_mlp": 0.0103049,
+      "balance_loss_clip": 1.04516888,
+      "balance_loss_mlp": 1.02147806,
+      "epoch": 0.36950640293392656,
+      "flos": 29205394358400.0,
+      "grad_norm": 1.7585813334308744,
+      "language_loss": 0.79118568,
+      "learning_rate": 2.908050405672367e-06,
+      "loss": 0.81383884,
+      "num_input_tokens_seen": 65960475,
+      "step": 3073,
+      "time_per_iteration": 2.843437910079956
+    },
+    {
+      "auxiliary_loss_clip": 0.01218297,
+      "auxiliary_loss_mlp": 0.01033489,
+      "balance_loss_clip": 1.0528667,
+      "balance_loss_mlp": 1.02443528,
+      "epoch": 0.3696266458245656,
+      "flos": 24827776128000.0,
+      "grad_norm": 1.7686613947012348,
+      "language_loss": 0.79547822,
+      "learning_rate": 2.9073562817692703e-06,
+      "loss": 0.81799608,
+      "num_input_tokens_seen": 65979160,
+      "step": 3074,
+      "time_per_iteration": 2.6913058757781982
+    },
+    {
+      "auxiliary_loss_clip": 0.01141786,
+      "auxiliary_loss_mlp": 0.00999269,
+      "balance_loss_clip": 1.02009606,
+      "balance_loss_mlp": 0.99776697,
+      "epoch": 0.3697468887152047,
+      "flos": 59887257264000.0,
+      "grad_norm": 0.7268672695115089,
+      "language_loss": 0.56537145,
+      "learning_rate": 2.9066620202209468e-06,
+      "loss": 0.58678204,
+      "num_input_tokens_seen": 66041650,
+      "step": 3075,
+      "time_per_iteration": 3.296022891998291
+    },
+    {
+      "auxiliary_loss_clip": 0.0120651,
+      "auxiliary_loss_mlp": 0.01029411,
+      "balance_loss_clip": 1.05021083,
+      "balance_loss_mlp": 1.02051187,
+      "epoch": 0.3698671316058438,
+      "flos": 26137581569280.0,
+      "grad_norm": 2.684873789304768,
+      "language_loss": 0.77725381,
+      "learning_rate": 2.905967621132716e-06,
+      "loss": 0.799613,
+      "num_input_tokens_seen": 66059260,
+      "step": 3076,
+      "time_per_iteration": 2.794832944869995
+    },
+    {
+      "auxiliary_loss_clip": 0.01216906,
+      "auxiliary_loss_mlp": 0.01031851,
+      "balance_loss_clip": 1.0533309,
+      "balance_loss_mlp": 1.02272534,
+      "epoch": 0.3699873744964829,
+      "flos": 24607464059520.0,
+      "grad_norm": 2.033297020881011,
+      "language_loss": 0.75169945,
+      "learning_rate": 2.9052730846099172e-06,
+      "loss": 0.77418697,
+      "num_input_tokens_seen": 66080605,
+      "step": 3077,
+      "time_per_iteration": 2.73144793510437
+    },
+    {
+      "auxiliary_loss_clip": 0.01112888,
+      "auxiliary_loss_mlp": 0.01005307,
+      "balance_loss_clip": 1.02069497,
+      "balance_loss_mlp": 1.00388861,
+      "epoch": 0.370107617387122,
+      "flos": 64885340050560.0,
+      "grad_norm": 0.850581472756907,
+      "language_loss": 0.60950625,
+      "learning_rate": 2.9045784107579123e-06,
+      "loss": 0.63068831,
+      "num_input_tokens_seen": 66140710,
+      "step": 3078,
+      "time_per_iteration": 3.3177599906921387
+    },
+    {
+      "auxiliary_loss_clip": 0.01197002,
+      "auxiliary_loss_mlp": 0.01026108,
+      "balance_loss_clip": 1.05855942,
+      "balance_loss_mlp": 1.01760268,
+      "epoch": 0.37022786027776106,
+      "flos": 15961683317760.0,
+      "grad_norm": 1.8344049771261015,
+      "language_loss": 0.67124879,
+      "learning_rate": 2.9038835996820807e-06,
+      "loss": 0.6934799,
+      "num_input_tokens_seen": 66158320,
+      "step": 3079,
+      "time_per_iteration": 3.4713635444641113
+    },
+    {
+      "auxiliary_loss_clip": 0.01223848,
+      "auxiliary_loss_mlp": 0.01032832,
+      "balance_loss_clip": 1.05027461,
+      "balance_loss_mlp": 1.0245471,
+      "epoch": 0.37034810316840017,
+      "flos": 18546927863040.0,
+      "grad_norm": 1.8011724766458952,
+      "language_loss": 0.79545879,
+      "learning_rate": 2.903188651487826e-06,
+      "loss": 0.81802559,
+      "num_input_tokens_seen": 66176875,
+      "step": 3080,
+      "time_per_iteration": 3.874631881713867
+    },
+    {
+      "auxiliary_loss_clip": 0.01209803,
+      "auxiliary_loss_mlp": 0.01030939,
+      "balance_loss_clip": 1.05835354,
+      "balance_loss_mlp": 1.0221473,
+      "epoch": 0.3704683460590393,
+      "flos": 17821927751040.0,
+      "grad_norm": 2.302696362416915,
+      "language_loss": 0.8697716,
+      "learning_rate": 2.902493566280571e-06,
+      "loss": 0.89217895,
+      "num_input_tokens_seen": 66194980,
+      "step": 3081,
+      "time_per_iteration": 3.5804197788238525
+    },
+    {
+      "auxiliary_loss_clip": 0.01210145,
+      "auxiliary_loss_mlp": 0.01029525,
+      "balance_loss_clip": 1.05330122,
+      "balance_loss_mlp": 1.02044749,
+      "epoch": 0.37058858894967833,
+      "flos": 14134081368960.0,
+      "grad_norm": 2.00209917727571,
+      "language_loss": 0.81146264,
+      "learning_rate": 2.9017983441657595e-06,
+      "loss": 0.83385938,
+      "num_input_tokens_seen": 66212310,
+      "step": 3082,
+      "time_per_iteration": 2.7027859687805176
+    },
+    {
+      "auxiliary_loss_clip": 0.01225047,
+      "auxiliary_loss_mlp": 0.01035012,
+      "balance_loss_clip": 1.04681182,
+      "balance_loss_mlp": 1.02664995,
+      "epoch": 0.37070883184031744,
+      "flos": 13954492344960.0,
+      "grad_norm": 2.258322122756791,
+      "language_loss": 0.749111,
+      "learning_rate": 2.9011029852488564e-06,
+      "loss": 0.77171165,
+      "num_input_tokens_seen": 66229545,
+      "step": 3083,
+      "time_per_iteration": 2.643192768096924
+    },
+    {
+      "auxiliary_loss_clip": 0.01087915,
+      "auxiliary_loss_mlp": 0.01001933,
+      "balance_loss_clip": 1.01912642,
+      "balance_loss_mlp": 1.00041342,
+      "epoch": 0.37082907473095655,
+      "flos": 52315419306240.0,
+      "grad_norm": 1.0032807560709696,
+      "language_loss": 0.62471688,
+      "learning_rate": 2.9004074896353465e-06,
+      "loss": 0.6456154,
+      "num_input_tokens_seen": 66283545,
+      "step": 3084,
+      "time_per_iteration": 3.136556386947632
+    },
+    {
+      "auxiliary_loss_clip": 0.01197498,
+      "auxiliary_loss_mlp": 0.01029722,
+      "balance_loss_clip": 1.06038666,
+      "balance_loss_mlp": 1.02122796,
+      "epoch": 0.3709493176215956,
+      "flos": 15998096730240.0,
+      "grad_norm": 1.740542808530673,
+      "language_loss": 0.81582665,
+      "learning_rate": 2.8997118574307362e-06,
+      "loss": 0.83809888,
+      "num_input_tokens_seen": 66300500,
+      "step": 3085,
+      "time_per_iteration": 2.540501117706299
+    },
+    {
+      "auxiliary_loss_clip": 0.01230486,
+      "auxiliary_loss_mlp": 0.01035344,
+      "balance_loss_clip": 1.05509484,
+      "balance_loss_mlp": 1.02637982,
+      "epoch": 0.3710695605122347,
+      "flos": 20959837931520.0,
+      "grad_norm": 2.078368841508547,
+      "language_loss": 0.74378216,
+      "learning_rate": 2.899016088740553e-06,
+      "loss": 0.76644045,
+      "num_input_tokens_seen": 66318610,
+      "step": 3086,
+      "time_per_iteration": 2.7449018955230713
+    },
+    {
+      "auxiliary_loss_clip": 0.01228906,
+      "auxiliary_loss_mlp": 0.01037561,
+      "balance_loss_clip": 1.05203068,
+      "balance_loss_mlp": 1.02838826,
+      "epoch": 0.37118980340287383,
+      "flos": 14355578586240.0,
+      "grad_norm": 1.8512764563298374,
+      "language_loss": 0.79576766,
+      "learning_rate": 2.898320183670344e-06,
+      "loss": 0.81843239,
+      "num_input_tokens_seen": 66336025,
+      "step": 3087,
+      "time_per_iteration": 2.723073720932007
+    },
+    {
+      "auxiliary_loss_clip": 0.0122887,
+      "auxiliary_loss_mlp": 0.01028169,
+      "balance_loss_clip": 1.0554204,
+      "balance_loss_mlp": 1.01882315,
+      "epoch": 0.3713100462935129,
+      "flos": 25885381201920.0,
+      "grad_norm": 2.590835455351196,
+      "language_loss": 0.88727462,
+      "learning_rate": 2.8976241423256767e-06,
+      "loss": 0.90984511,
+      "num_input_tokens_seen": 66356120,
+      "step": 3088,
+      "time_per_iteration": 3.784844160079956
+    },
+    {
+      "auxiliary_loss_clip": 0.01205843,
+      "auxiliary_loss_mlp": 0.01024714,
+      "balance_loss_clip": 1.05284989,
+      "balance_loss_mlp": 1.01595759,
+      "epoch": 0.371430289184152,
+      "flos": 30518934814080.0,
+      "grad_norm": 2.139480468942054,
+      "language_loss": 0.68541068,
+      "learning_rate": 2.896927964812142e-06,
+      "loss": 0.70771623,
+      "num_input_tokens_seen": 66376685,
+      "step": 3089,
+      "time_per_iteration": 2.827488899230957
+    },
+    {
+      "auxiliary_loss_clip": 0.01213075,
+      "auxiliary_loss_mlp": 0.01028099,
+      "balance_loss_clip": 1.05607045,
+      "balance_loss_mlp": 1.01929522,
+      "epoch": 0.37155053207479105,
+      "flos": 15742233175680.0,
+      "grad_norm": 2.762662682207077,
+      "language_loss": 0.74913996,
+      "learning_rate": 2.8962316512353465e-06,
+      "loss": 0.77155173,
+      "num_input_tokens_seen": 66394230,
+      "step": 3090,
+      "time_per_iteration": 2.6487934589385986
+    },
+    {
+      "auxiliary_loss_clip": 0.0123238,
+      "auxiliary_loss_mlp": 0.01030049,
+      "balance_loss_clip": 1.04632759,
+      "balance_loss_mlp": 1.02123904,
+      "epoch": 0.37167077496543016,
+      "flos": 23404061681280.0,
+      "grad_norm": 1.5536733701231478,
+      "language_loss": 0.7515732,
+      "learning_rate": 2.8955352017009233e-06,
+      "loss": 0.77419746,
+      "num_input_tokens_seen": 66413475,
+      "step": 3091,
+      "time_per_iteration": 2.7836415767669678
+    },
+    {
+      "auxiliary_loss_clip": 0.01211748,
+      "auxiliary_loss_mlp": 0.01035514,
+      "balance_loss_clip": 1.05535197,
+      "balance_loss_mlp": 1.02664495,
+      "epoch": 0.3717910178560693,
+      "flos": 22088653718400.0,
+      "grad_norm": 1.8957716777265006,
+      "language_loss": 0.77230489,
+      "learning_rate": 2.8948386163145212e-06,
+      "loss": 0.79477751,
+      "num_input_tokens_seen": 66432685,
+      "step": 3092,
+      "time_per_iteration": 2.6823341846466064
+    },
+    {
+      "auxiliary_loss_clip": 0.01207766,
+      "auxiliary_loss_mlp": 0.01031036,
+      "balance_loss_clip": 1.05581927,
+      "balance_loss_mlp": 1.02222657,
+      "epoch": 0.3719112607467083,
+      "flos": 26939969533440.0,
+      "grad_norm": 1.8683751034521363,
+      "language_loss": 0.79535943,
+      "learning_rate": 2.8941418951818135e-06,
+      "loss": 0.81774741,
+      "num_input_tokens_seen": 66452245,
+      "step": 3093,
+      "time_per_iteration": 2.6912686824798584
+    },
+    {
+      "auxiliary_loss_clip": 0.01218647,
+      "auxiliary_loss_mlp": 0.01030617,
+      "balance_loss_clip": 1.04917896,
+      "balance_loss_mlp": 1.02189112,
+      "epoch": 0.37203150363734744,
+      "flos": 12166500119040.0,
+      "grad_norm": 2.094441287309375,
+      "language_loss": 0.70856011,
+      "learning_rate": 2.8934450384084903e-06,
+      "loss": 0.73105276,
+      "num_input_tokens_seen": 66469760,
+      "step": 3094,
+      "time_per_iteration": 2.64748477935791
+    },
+    {
+      "auxiliary_loss_clip": 0.01203488,
+      "auxiliary_loss_mlp": 0.01029835,
+      "balance_loss_clip": 1.05131364,
+      "balance_loss_mlp": 1.02110314,
+      "epoch": 0.37215174652798655,
+      "flos": 23697595624320.0,
+      "grad_norm": 2.2199891439800306,
+      "language_loss": 0.69651073,
+      "learning_rate": 2.8927480461002653e-06,
+      "loss": 0.718844,
+      "num_input_tokens_seen": 66489730,
+      "step": 3095,
+      "time_per_iteration": 2.699679374694824
+    },
+    {
+      "auxiliary_loss_clip": 0.01210032,
+      "auxiliary_loss_mlp": 0.01032542,
+      "balance_loss_clip": 1.05246329,
+      "balance_loss_mlp": 1.02311254,
+      "epoch": 0.3722719894186256,
+      "flos": 17887751424000.0,
+      "grad_norm": 2.4016963712697548,
+      "language_loss": 0.8603667,
+      "learning_rate": 2.892050918362872e-06,
+      "loss": 0.88279247,
+      "num_input_tokens_seen": 66504785,
+      "step": 3096,
+      "time_per_iteration": 2.652116298675537
+    },
+    {
+      "auxiliary_loss_clip": 0.01153199,
+      "auxiliary_loss_mlp": 0.01004318,
+      "balance_loss_clip": 1.01666164,
+      "balance_loss_mlp": 1.00285149,
+      "epoch": 0.3723922323092647,
+      "flos": 62419891363200.0,
+      "grad_norm": 0.8408110829337274,
+      "language_loss": 0.55876541,
+      "learning_rate": 2.8913536553020626e-06,
+      "loss": 0.58034062,
+      "num_input_tokens_seen": 66558840,
+      "step": 3097,
+      "time_per_iteration": 3.5406572818756104
+    },
+    {
+      "auxiliary_loss_clip": 0.01215496,
+      "auxiliary_loss_mlp": 0.01039181,
+      "balance_loss_clip": 1.04663491,
+      "balance_loss_mlp": 1.02997231,
+      "epoch": 0.3725124751999038,
+      "flos": 23039747988480.0,
+      "grad_norm": 1.9456129516593694,
+      "language_loss": 0.85201675,
+      "learning_rate": 2.8906562570236137e-06,
+      "loss": 0.87456352,
+      "num_input_tokens_seen": 66576750,
+      "step": 3098,
+      "time_per_iteration": 2.9581682682037354
+    },
+    {
+      "auxiliary_loss_clip": 0.01229584,
+      "auxiliary_loss_mlp": 0.01026124,
+      "balance_loss_clip": 1.04371786,
+      "balance_loss_mlp": 1.01760626,
+      "epoch": 0.3726327180905429,
+      "flos": 20920551431040.0,
+      "grad_norm": 1.5576187018870153,
+      "language_loss": 0.76785111,
+      "learning_rate": 2.889958723633318e-06,
+      "loss": 0.79040819,
+      "num_input_tokens_seen": 66595690,
+      "step": 3099,
+      "time_per_iteration": 2.865122079849243
+    },
+    {
+      "auxiliary_loss_clip": 0.01222647,
+      "auxiliary_loss_mlp": 0.01028146,
+      "balance_loss_clip": 1.05444598,
+      "balance_loss_mlp": 1.01946139,
+      "epoch": 0.372752960981182,
+      "flos": 30592156688640.0,
+      "grad_norm": 1.596638888824797,
+      "language_loss": 0.73854208,
+      "learning_rate": 2.889261055236992e-06,
+      "loss": 0.76104999,
+      "num_input_tokens_seen": 66617905,
+      "step": 3100,
+      "time_per_iteration": 2.7906506061553955
+    },
+    {
+      "auxiliary_loss_clip": 0.01208834,
+      "auxiliary_loss_mlp": 0.0102983,
+      "balance_loss_clip": 1.05421913,
+      "balance_loss_mlp": 1.02096725,
+      "epoch": 0.3728732038718211,
+      "flos": 25116749043840.0,
+      "grad_norm": 1.768075872693198,
+      "language_loss": 0.82635278,
+      "learning_rate": 2.8885632519404704e-06,
+      "loss": 0.84873939,
+      "num_input_tokens_seen": 66638175,
+      "step": 3101,
+      "time_per_iteration": 2.7195184230804443
+    },
+    {
+      "auxiliary_loss_clip": 0.01210057,
+      "auxiliary_loss_mlp": 0.01031101,
+      "balance_loss_clip": 1.05395579,
+      "balance_loss_mlp": 1.02263761,
+      "epoch": 0.37299344676246016,
+      "flos": 25302048330240.0,
+      "grad_norm": 2.0584879752442187,
+      "language_loss": 0.76107973,
+      "learning_rate": 2.8878653138496107e-06,
+      "loss": 0.78349137,
+      "num_input_tokens_seen": 66658670,
+      "step": 3102,
+      "time_per_iteration": 2.7574400901794434
+    },
+    {
+      "auxiliary_loss_clip": 0.01230655,
+      "auxiliary_loss_mlp": 0.01033908,
+      "balance_loss_clip": 1.04489827,
+      "balance_loss_mlp": 1.02520549,
+      "epoch": 0.37311368965309927,
+      "flos": 23842531002240.0,
+      "grad_norm": 2.459822606251986,
+      "language_loss": 0.76570308,
+      "learning_rate": 2.8871672410702878e-06,
+      "loss": 0.78834873,
+      "num_input_tokens_seen": 66676030,
+      "step": 3103,
+      "time_per_iteration": 2.863809585571289
+    },
+    {
+      "auxiliary_loss_clip": 0.01228352,
+      "auxiliary_loss_mlp": 0.01031568,
+      "balance_loss_clip": 1.05170703,
+      "balance_loss_mlp": 1.02279973,
+      "epoch": 0.3732339325437384,
+      "flos": 25811943845760.0,
+      "grad_norm": 1.8084828982006744,
+      "language_loss": 0.82417399,
+      "learning_rate": 2.8864690337084008e-06,
+      "loss": 0.84677321,
+      "num_input_tokens_seen": 66695305,
+      "step": 3104,
+      "time_per_iteration": 2.7619926929473877
+    },
+    {
+      "auxiliary_loss_clip": 0.01195676,
+      "auxiliary_loss_mlp": 0.01035825,
+      "balance_loss_clip": 1.05307758,
+      "balance_loss_mlp": 1.02656233,
+      "epoch": 0.37335417543437743,
+      "flos": 26208433146240.0,
+      "grad_norm": 1.7824800752140513,
+      "language_loss": 0.78462636,
+      "learning_rate": 2.885770691869866e-06,
+      "loss": 0.80694139,
+      "num_input_tokens_seen": 66716185,
+      "step": 3105,
+      "time_per_iteration": 3.715226173400879
+    },
+    {
+      "auxiliary_loss_clip": 0.01198957,
+      "auxiliary_loss_mlp": 0.01028519,
+      "balance_loss_clip": 1.05451405,
+      "balance_loss_mlp": 1.01982903,
+      "epoch": 0.37347441832501654,
+      "flos": 24023879792640.0,
+      "grad_norm": 2.1781561604156683,
+      "language_loss": 0.74496341,
+      "learning_rate": 2.8850722156606207e-06,
+      "loss": 0.7672382,
+      "num_input_tokens_seen": 66734575,
+      "step": 3106,
+      "time_per_iteration": 3.869501829147339
+    },
+    {
+      "auxiliary_loss_clip": 0.01192655,
+      "auxiliary_loss_mlp": 0.01029928,
+      "balance_loss_clip": 1.05139256,
+      "balance_loss_mlp": 1.0215832,
+      "epoch": 0.3735946612156556,
+      "flos": 19714922409600.0,
+      "grad_norm": 1.8209471601841976,
+      "language_loss": 0.67062837,
+      "learning_rate": 2.8843736051866252e-06,
+      "loss": 0.69285429,
+      "num_input_tokens_seen": 66753500,
+      "step": 3107,
+      "time_per_iteration": 3.510420799255371
+    },
+    {
+      "auxiliary_loss_clip": 0.01219073,
+      "auxiliary_loss_mlp": 0.0137959,
+      "balance_loss_clip": 1.04758143,
+      "balance_loss_mlp": 1.00030994,
+      "epoch": 0.3737149041062947,
+      "flos": 23039604334080.0,
+      "grad_norm": 1.7288311337745108,
+      "language_loss": 0.69305199,
+      "learning_rate": 2.8836748605538557e-06,
+      "loss": 0.71903861,
+      "num_input_tokens_seen": 66775140,
+      "step": 3108,
+      "time_per_iteration": 2.831760883331299
+    },
+    {
+      "auxiliary_loss_clip": 0.01215378,
+      "auxiliary_loss_mlp": 0.01029086,
+      "balance_loss_clip": 1.05433452,
+      "balance_loss_mlp": 1.02067018,
+      "epoch": 0.3738351469969338,
+      "flos": 34678108483200.0,
+      "grad_norm": 2.1724860438294584,
+      "language_loss": 0.63463771,
+      "learning_rate": 2.882975981868313e-06,
+      "loss": 0.65708232,
+      "num_input_tokens_seen": 66795525,
+      "step": 3109,
+      "time_per_iteration": 2.7979822158813477
+    },
+    {
+      "auxiliary_loss_clip": 0.0120357,
+      "auxiliary_loss_mlp": 0.01027255,
+      "balance_loss_clip": 1.05811191,
+      "balance_loss_mlp": 1.01845765,
+      "epoch": 0.3739553898875729,
+      "flos": 43507967448960.0,
+      "grad_norm": 2.478648766015239,
+      "language_loss": 0.68718255,
+      "learning_rate": 2.882276969236016e-06,
+      "loss": 0.70949078,
+      "num_input_tokens_seen": 66816885,
+      "step": 3110,
+      "time_per_iteration": 2.8665482997894287
+    },
+    {
+      "auxiliary_loss_clip": 0.01204424,
+      "auxiliary_loss_mlp": 0.01035232,
+      "balance_loss_clip": 1.05164301,
+      "balance_loss_mlp": 1.02654171,
+      "epoch": 0.374075632778212,
+      "flos": 12856487448960.0,
+      "grad_norm": 9.180712469145568,
+      "language_loss": 0.76220572,
+      "learning_rate": 2.881577822763005e-06,
+      "loss": 0.78460228,
+      "num_input_tokens_seen": 66834835,
+      "step": 3111,
+      "time_per_iteration": 2.6654880046844482
+    },
+    {
+      "auxiliary_loss_clip": 0.01201305,
+      "auxiliary_loss_mlp": 0.01033142,
+      "balance_loss_clip": 1.05369127,
+      "balance_loss_mlp": 1.0245595,
+      "epoch": 0.3741958756688511,
+      "flos": 26024031699840.0,
+      "grad_norm": 1.8570869207033884,
+      "language_loss": 0.87433445,
+      "learning_rate": 2.880878542555338e-06,
+      "loss": 0.89667886,
+      "num_input_tokens_seen": 66852600,
+      "step": 3112,
+      "time_per_iteration": 2.6336100101470947
+    },
+    {
+      "auxiliary_loss_clip": 0.01197498,
+      "auxiliary_loss_mlp": 0.01033723,
+      "balance_loss_clip": 1.05777335,
+      "balance_loss_mlp": 1.02416277,
+      "epoch": 0.37431611855949015,
+      "flos": 21433894652160.0,
+      "grad_norm": 2.0010059231787065,
+      "language_loss": 0.80088454,
+      "learning_rate": 2.8801791287190976e-06,
+      "loss": 0.82319677,
+      "num_input_tokens_seen": 66870595,
+      "step": 3113,
+      "time_per_iteration": 3.501154661178589
+    },
+    {
+      "auxiliary_loss_clip": 0.01209398,
+      "auxiliary_loss_mlp": 0.01029586,
+      "balance_loss_clip": 1.05770862,
+      "balance_loss_mlp": 1.02084756,
+      "epoch": 0.37443636145012926,
+      "flos": 24207096090240.0,
+      "grad_norm": 2.6829741536939364,
+      "language_loss": 0.86035353,
+      "learning_rate": 2.8794795813603817e-06,
+      "loss": 0.88274336,
+      "num_input_tokens_seen": 66886060,
+      "step": 3114,
+      "time_per_iteration": 2.6614937782287598
+    },
+    {
+      "auxiliary_loss_clip": 0.01208976,
+      "auxiliary_loss_mlp": 0.01031899,
+      "balance_loss_clip": 1.05686843,
+      "balance_loss_mlp": 1.02335179,
+      "epoch": 0.3745566043407684,
+      "flos": 15378601841280.0,
+      "grad_norm": 5.576975157785606,
+      "language_loss": 0.8182283,
+      "learning_rate": 2.878779900585314e-06,
+      "loss": 0.84063709,
+      "num_input_tokens_seen": 66903900,
+      "step": 3115,
+      "time_per_iteration": 2.639523983001709
+    },
+    {
+      "auxiliary_loss_clip": 0.01216217,
+      "auxiliary_loss_mlp": 0.01033439,
+      "balance_loss_clip": 1.05473042,
+      "balance_loss_mlp": 1.02493966,
+      "epoch": 0.37467684723140743,
+      "flos": 24608218245120.0,
+      "grad_norm": 1.514716375624781,
+      "language_loss": 0.75411528,
+      "learning_rate": 2.8780800865000336e-06,
+      "loss": 0.7766118,
+      "num_input_tokens_seen": 66925210,
+      "step": 3116,
+      "time_per_iteration": 2.67244029045105
+    },
+    {
+      "auxiliary_loss_clip": 0.01100075,
+      "auxiliary_loss_mlp": 0.0100252,
+      "balance_loss_clip": 1.01897502,
+      "balance_loss_mlp": 1.00102985,
+      "epoch": 0.37479709012204654,
+      "flos": 64377491610240.0,
+      "grad_norm": 0.9760432027096038,
+      "language_loss": 0.59202957,
+      "learning_rate": 2.877380139210702e-06,
+      "loss": 0.61305559,
+      "num_input_tokens_seen": 66983880,
+      "step": 3117,
+      "time_per_iteration": 3.182576894760132
+    },
+    {
+      "auxiliary_loss_clip": 0.01222803,
+      "auxiliary_loss_mlp": 0.01033288,
+      "balance_loss_clip": 1.05366158,
+      "balance_loss_mlp": 1.02361965,
+      "epoch": 0.37491733301268565,
+      "flos": 23803962773760.0,
+      "grad_norm": 1.7121819419397366,
+      "language_loss": 0.76550019,
+      "learning_rate": 2.876680058823501e-06,
+      "loss": 0.78806114,
+      "num_input_tokens_seen": 67004280,
+      "step": 3118,
+      "time_per_iteration": 2.7582902908325195
+    },
+    {
+      "auxiliary_loss_clip": 0.0119936,
+      "auxiliary_loss_mlp": 0.01030174,
+      "balance_loss_clip": 1.05209219,
+      "balance_loss_mlp": 1.0207212,
+      "epoch": 0.3750375759033247,
+      "flos": 32160950167680.0,
+      "grad_norm": 1.9459158872258102,
+      "language_loss": 0.65707123,
+      "learning_rate": 2.8759798454446314e-06,
+      "loss": 0.67936659,
+      "num_input_tokens_seen": 67027445,
+      "step": 3119,
+      "time_per_iteration": 2.7654337882995605
+    },
+    {
+      "auxiliary_loss_clip": 0.0120638,
+      "auxiliary_loss_mlp": 0.01028621,
+      "balance_loss_clip": 1.05597425,
+      "balance_loss_mlp": 1.02029467,
+      "epoch": 0.3751578187939638,
+      "flos": 23367791923200.0,
+      "grad_norm": 4.71782796176093,
+      "language_loss": 0.81307042,
+      "learning_rate": 2.8752794991803173e-06,
+      "loss": 0.83542049,
+      "num_input_tokens_seen": 67045130,
+      "step": 3120,
+      "time_per_iteration": 2.648648738861084
+    },
+    {
+      "auxiliary_loss_clip": 0.01210864,
+      "auxiliary_loss_mlp": 0.01031088,
+      "balance_loss_clip": 1.05647039,
+      "balance_loss_mlp": 1.02270746,
+      "epoch": 0.37527806168460287,
+      "flos": 14605731878400.0,
+      "grad_norm": 2.069433186939293,
+      "language_loss": 0.7538287,
+      "learning_rate": 2.8745790201367976e-06,
+      "loss": 0.77624822,
+      "num_input_tokens_seen": 67060885,
+      "step": 3121,
+      "time_per_iteration": 2.610501766204834
+    },
+    {
+      "auxiliary_loss_clip": 0.01196549,
+      "auxiliary_loss_mlp": 0.01033997,
+      "balance_loss_clip": 1.05655146,
+      "balance_loss_mlp": 1.02457976,
+      "epoch": 0.375398304575242,
+      "flos": 26390823431040.0,
+      "grad_norm": 2.247816545669217,
+      "language_loss": 0.84379262,
+      "learning_rate": 2.8738784084203373e-06,
+      "loss": 0.86609805,
+      "num_input_tokens_seen": 67080960,
+      "step": 3122,
+      "time_per_iteration": 2.6805648803710938
+    },
+    {
+      "auxiliary_loss_clip": 0.01201483,
+      "auxiliary_loss_mlp": 0.01031417,
+      "balance_loss_clip": 1.04966807,
+      "balance_loss_mlp": 1.02282846,
+      "epoch": 0.3755185474658811,
+      "flos": 22236605838720.0,
+      "grad_norm": 1.738128288009217,
+      "language_loss": 0.78852361,
+      "learning_rate": 2.873177664137216e-06,
+      "loss": 0.81085265,
+      "num_input_tokens_seen": 67101890,
+      "step": 3123,
+      "time_per_iteration": 2.669207811355591
+    },
+    {
+      "auxiliary_loss_clip": 0.01216333,
+      "auxiliary_loss_mlp": 0.0103509,
+      "balance_loss_clip": 1.05284619,
+      "balance_loss_mlp": 1.02590537,
+      "epoch": 0.37563879035652015,
+      "flos": 30812935633920.0,
+      "grad_norm": 1.5847876892460917,
+      "language_loss": 0.69231045,
+      "learning_rate": 2.8724767873937384e-06,
+      "loss": 0.7148248,
+      "num_input_tokens_seen": 67126010,
+      "step": 3124,
+      "time_per_iteration": 2.811251640319824
+    },
+    {
+      "auxiliary_loss_clip": 0.01214677,
+      "auxiliary_loss_mlp": 0.01030596,
+      "balance_loss_clip": 1.05637932,
+      "balance_loss_mlp": 1.02256083,
+      "epoch": 0.37575903324715926,
+      "flos": 20773533064320.0,
+      "grad_norm": 2.0359896884730637,
+      "language_loss": 0.87532675,
+      "learning_rate": 2.871775778296225e-06,
+      "loss": 0.89777946,
+      "num_input_tokens_seen": 67143100,
+      "step": 3125,
+      "time_per_iteration": 2.6499879360198975
+    },
+    {
+      "auxiliary_loss_clip": 0.01204204,
+      "auxiliary_loss_mlp": 0.01032858,
+      "balance_loss_clip": 1.05566859,
+      "balance_loss_mlp": 1.02302873,
+      "epoch": 0.37587927613779837,
+      "flos": 18697681244160.0,
+      "grad_norm": 2.6104085966409833,
+      "language_loss": 0.78350765,
+      "learning_rate": 2.8710746369510196e-06,
+      "loss": 0.80587822,
+      "num_input_tokens_seen": 67161085,
+      "step": 3126,
+      "time_per_iteration": 2.7203426361083984
+    },
+    {
+      "auxiliary_loss_clip": 0.01202894,
+      "auxiliary_loss_mlp": 0.01030434,
+      "balance_loss_clip": 1.05259371,
+      "balance_loss_mlp": 1.02150559,
+      "epoch": 0.3759995190284374,
+      "flos": 13624796384640.0,
+      "grad_norm": 3.6138466264448894,
+      "language_loss": 0.83536482,
+      "learning_rate": 2.8703733634644846e-06,
+      "loss": 0.85769814,
+      "num_input_tokens_seen": 67175840,
+      "step": 3127,
+      "time_per_iteration": 2.6543707847595215
+    },
+    {
+      "auxiliary_loss_clip": 0.01191655,
+      "auxiliary_loss_mlp": 0.01028186,
+      "balance_loss_clip": 1.05569744,
+      "balance_loss_mlp": 1.0199542,
+      "epoch": 0.37611976191907653,
+      "flos": 20484847457280.0,
+      "grad_norm": 1.8459766654393455,
+      "language_loss": 0.79192293,
+      "learning_rate": 2.869671957943002e-06,
+      "loss": 0.81412137,
+      "num_input_tokens_seen": 67194995,
+      "step": 3128,
+      "time_per_iteration": 2.60544490814209
+    },
+    {
+      "auxiliary_loss_clip": 0.01208253,
+      "auxiliary_loss_mlp": 0.01028725,
+      "balance_loss_clip": 1.05768025,
+      "balance_loss_mlp": 1.02014184,
+      "epoch": 0.37624000480971564,
+      "flos": 21141797253120.0,
+      "grad_norm": 1.94136621967365,
+      "language_loss": 0.74225426,
+      "learning_rate": 2.8689704204929747e-06,
+      "loss": 0.76462406,
+      "num_input_tokens_seen": 67214175,
+      "step": 3129,
+      "time_per_iteration": 2.6431875228881836
+    },
+    {
+      "auxiliary_loss_clip": 0.01194593,
+      "auxiliary_loss_mlp": 0.01031622,
+      "balance_loss_clip": 1.05649126,
+      "balance_loss_mlp": 1.02283072,
+      "epoch": 0.3763602477003547,
+      "flos": 22564470205440.0,
+      "grad_norm": 1.950975449365749,
+      "language_loss": 0.81277096,
+      "learning_rate": 2.8682687512208253e-06,
+      "loss": 0.83503318,
+      "num_input_tokens_seen": 67233185,
+      "step": 3130,
+      "time_per_iteration": 2.5893442630767822
+    },
+    {
+      "auxiliary_loss_clip": 0.01210959,
+      "auxiliary_loss_mlp": 0.01036363,
+      "balance_loss_clip": 1.05722773,
+      "balance_loss_mlp": 1.02695131,
+      "epoch": 0.3764804905909938,
+      "flos": 27526857851520.0,
+      "grad_norm": 3.056413508144992,
+      "language_loss": 0.80530334,
+      "learning_rate": 2.8675669502329972e-06,
+      "loss": 0.82777655,
+      "num_input_tokens_seen": 67254715,
+      "step": 3131,
+      "time_per_iteration": 4.61063551902771
+    },
+    {
+      "auxiliary_loss_clip": 0.01201444,
+      "auxiliary_loss_mlp": 0.01379445,
+      "balance_loss_clip": 1.0550133,
+      "balance_loss_mlp": 1.00022101,
+      "epoch": 0.3766007334816329,
+      "flos": 22528092706560.0,
+      "grad_norm": 2.6056037289134277,
+      "language_loss": 0.85713291,
+      "learning_rate": 2.866865017635952e-06,
+      "loss": 0.88294172,
+      "num_input_tokens_seen": 67272535,
+      "step": 3132,
+      "time_per_iteration": 2.6938600540161133
+    },
+    {
+      "auxiliary_loss_clip": 0.01220041,
+      "auxiliary_loss_mlp": 0.01032569,
+      "balance_loss_clip": 1.0556004,
+      "balance_loss_mlp": 1.02367043,
+      "epoch": 0.376720976372272,
+      "flos": 25957166532480.0,
+      "grad_norm": 2.231885891651828,
+      "language_loss": 0.79245031,
+      "learning_rate": 2.866162953536174e-06,
+      "loss": 0.81497645,
+      "num_input_tokens_seen": 67293505,
+      "step": 3133,
+      "time_per_iteration": 3.6075172424316406
+    },
+    {
+      "auxiliary_loss_clip": 0.01209485,
+      "auxiliary_loss_mlp": 0.01379624,
+      "balance_loss_clip": 1.05315721,
+      "balance_loss_mlp": 1.00041211,
+      "epoch": 0.3768412192629111,
+      "flos": 18041162411520.0,
+      "grad_norm": 1.538373816086026,
+      "language_loss": 0.7514106,
+      "learning_rate": 2.8654607580401634e-06,
+      "loss": 0.77730167,
+      "num_input_tokens_seen": 67313240,
+      "step": 3134,
+      "time_per_iteration": 2.7600905895233154
+    },
+    {
+      "auxiliary_loss_clip": 0.01098368,
+      "auxiliary_loss_mlp": 0.01012389,
+      "balance_loss_clip": 1.01938272,
+      "balance_loss_mlp": 1.01094663,
+      "epoch": 0.3769614621535502,
+      "flos": 62989472304000.0,
+      "grad_norm": 5.561818624148623,
+      "language_loss": 0.65196109,
+      "learning_rate": 2.8647584312544446e-06,
+      "loss": 0.67306876,
+      "num_input_tokens_seen": 67378445,
+      "step": 3135,
+      "time_per_iteration": 3.212693691253662
+    },
+    {
+      "auxiliary_loss_clip": 0.01215926,
+      "auxiliary_loss_mlp": 0.01379929,
+      "balance_loss_clip": 1.05107629,
+      "balance_loss_mlp": 1.00038874,
+      "epoch": 0.37708170504418925,
+      "flos": 23661685002240.0,
+      "grad_norm": 1.4138188455837544,
+      "language_loss": 0.85341758,
+      "learning_rate": 2.864055973285559e-06,
+      "loss": 0.87937611,
+      "num_input_tokens_seen": 67400445,
+      "step": 3136,
+      "time_per_iteration": 2.740952253341675
+    },
+    {
+      "auxiliary_loss_clip": 0.01199693,
+      "auxiliary_loss_mlp": 0.01031365,
+      "balance_loss_clip": 1.05199516,
+      "balance_loss_mlp": 1.02232325,
+      "epoch": 0.37720194793482836,
+      "flos": 24423170353920.0,
+      "grad_norm": 1.8539364321072698,
+      "language_loss": 0.86252421,
+      "learning_rate": 2.8633533842400698e-06,
+      "loss": 0.88483483,
+      "num_input_tokens_seen": 67420645,
+      "step": 3137,
+      "time_per_iteration": 2.665154457092285
+    },
+    {
+      "auxiliary_loss_clip": 0.01203781,
+      "auxiliary_loss_mlp": 0.01380493,
+      "balance_loss_clip": 1.05671692,
+      "balance_loss_mlp": 1.00044394,
+      "epoch": 0.3773221908254674,
+      "flos": 20996502739200.0,
+      "grad_norm": 1.7934602947169462,
+      "language_loss": 0.7711184,
+      "learning_rate": 2.862650664224558e-06,
+      "loss": 0.79696113,
+      "num_input_tokens_seen": 67439495,
+      "step": 3138,
+      "time_per_iteration": 2.6373939514160156
+    },
+    {
+      "auxiliary_loss_clip": 0.01201413,
+      "auxiliary_loss_mlp": 0.01028547,
+      "balance_loss_clip": 1.05814195,
+      "balance_loss_mlp": 1.02032733,
+      "epoch": 0.37744243371610653,
+      "flos": 37631724958080.0,
+      "grad_norm": 1.414834534719193,
+      "language_loss": 0.69718689,
+      "learning_rate": 2.861947813345627e-06,
+      "loss": 0.71948647,
+      "num_input_tokens_seen": 67462195,
+      "step": 3139,
+      "time_per_iteration": 3.677868127822876
+    },
+    {
+      "auxiliary_loss_clip": 0.01197812,
+      "auxiliary_loss_mlp": 0.01379969,
+      "balance_loss_clip": 1.05910552,
+      "balance_loss_mlp": 1.00046051,
+      "epoch": 0.37756267660674564,
+      "flos": 26140526484480.0,
+      "grad_norm": 2.6899273655189013,
+      "language_loss": 0.72402143,
+      "learning_rate": 2.8612448317098974e-06,
+      "loss": 0.74979925,
+      "num_input_tokens_seen": 67482530,
+      "step": 3140,
+      "time_per_iteration": 2.600555896759033
+    },
+    {
+      "auxiliary_loss_clip": 0.01216717,
+      "auxiliary_loss_mlp": 0.01379933,
+      "balance_loss_clip": 1.05029738,
+      "balance_loss_mlp": 1.00024784,
+      "epoch": 0.3776829194973847,
+      "flos": 19427888828160.0,
+      "grad_norm": 2.6427145594738546,
+      "language_loss": 0.83379906,
+      "learning_rate": 2.8605417194240114e-06,
+      "loss": 0.85976553,
+      "num_input_tokens_seen": 67500890,
+      "step": 3141,
+      "time_per_iteration": 2.705012321472168
+    },
+    {
+      "auxiliary_loss_clip": 0.01194724,
+      "auxiliary_loss_mlp": 0.01033727,
+      "balance_loss_clip": 1.05215073,
+      "balance_loss_mlp": 1.02509046,
+      "epoch": 0.3778031623880238,
+      "flos": 17382309194880.0,
+      "grad_norm": 2.0293065919622437,
+      "language_loss": 0.78492188,
+      "learning_rate": 2.8598384765946315e-06,
+      "loss": 0.80720639,
+      "num_input_tokens_seen": 67519545,
+      "step": 3142,
+      "time_per_iteration": 2.613521099090576
+    },
+    {
+      "auxiliary_loss_clip": 0.011926,
+      "auxiliary_loss_mlp": 0.01024171,
+      "balance_loss_clip": 1.05527329,
+      "balance_loss_mlp": 1.01619625,
+      "epoch": 0.3779234052786629,
+      "flos": 27125843437440.0,
+      "grad_norm": 1.8055107327738753,
+      "language_loss": 0.71250618,
+      "learning_rate": 2.8591351033284377e-06,
+      "loss": 0.73467386,
+      "num_input_tokens_seen": 67539275,
+      "step": 3143,
+      "time_per_iteration": 2.677924871444702
+    },
+    {
+      "auxiliary_loss_clip": 0.01206742,
+      "auxiliary_loss_mlp": 0.01030247,
+      "balance_loss_clip": 1.05548275,
+      "balance_loss_mlp": 1.0215503,
+      "epoch": 0.37804364816930197,
+      "flos": 19682639061120.0,
+      "grad_norm": 1.9760809424355046,
+      "language_loss": 0.83971,
+      "learning_rate": 2.8584315997321325e-06,
+      "loss": 0.86207986,
+      "num_input_tokens_seen": 67558280,
+      "step": 3144,
+      "time_per_iteration": 2.657400369644165
+    },
+    {
+      "auxiliary_loss_clip": 0.01194474,
+      "auxiliary_loss_mlp": 0.01032027,
+      "balance_loss_clip": 1.05626285,
+      "balance_loss_mlp": 1.02349806,
+      "epoch": 0.3781638910599411,
+      "flos": 22702905221760.0,
+      "grad_norm": 4.192924265242427,
+      "language_loss": 0.77774203,
+      "learning_rate": 2.8577279659124356e-06,
+      "loss": 0.80000705,
+      "num_input_tokens_seen": 67575955,
+      "step": 3145,
+      "time_per_iteration": 2.6126039028167725
+    },
+    {
+      "auxiliary_loss_clip": 0.01198198,
+      "auxiliary_loss_mlp": 0.01033603,
+      "balance_loss_clip": 1.0546608,
+      "balance_loss_mlp": 1.02565813,
+      "epoch": 0.3782841339505802,
+      "flos": 14647604158080.0,
+      "grad_norm": 1.953765689496666,
+      "language_loss": 0.83266115,
+      "learning_rate": 2.857024201976089e-06,
+      "loss": 0.85497916,
+      "num_input_tokens_seen": 67593515,
+      "step": 3146,
+      "time_per_iteration": 2.610896587371826
+    },
+    {
+      "auxiliary_loss_clip": 0.01205892,
+      "auxiliary_loss_mlp": 0.01032111,
+      "balance_loss_clip": 1.05247974,
+      "balance_loss_mlp": 1.02302146,
+      "epoch": 0.37840437684121925,
+      "flos": 32818223185920.0,
+      "grad_norm": 3.1028356286646823,
+      "language_loss": 0.73465693,
+      "learning_rate": 2.8563203080298516e-06,
+      "loss": 0.75703692,
+      "num_input_tokens_seen": 67614290,
+      "step": 3147,
+      "time_per_iteration": 2.7572407722473145
+    },
+    {
+      "auxiliary_loss_clip": 0.01208683,
+      "auxiliary_loss_mlp": 0.01379558,
+      "balance_loss_clip": 1.05388916,
+      "balance_loss_mlp": 1.00023913,
+      "epoch": 0.37852461973185836,
+      "flos": 18369206346240.0,
+      "grad_norm": 2.191959732224058,
+      "language_loss": 0.89165872,
+      "learning_rate": 2.855616284180505e-06,
+      "loss": 0.91754109,
+      "num_input_tokens_seen": 67631340,
+      "step": 3148,
+      "time_per_iteration": 2.5552122592926025
+    },
+    {
+      "auxiliary_loss_clip": 0.0110221,
+      "auxiliary_loss_mlp": 0.0101115,
+      "balance_loss_clip": 1.02059698,
+      "balance_loss_mlp": 1.00963616,
+      "epoch": 0.37864486262249747,
+      "flos": 59500680117120.0,
+      "grad_norm": 0.8734811399765415,
+      "language_loss": 0.66117382,
+      "learning_rate": 2.8549121305348477e-06,
+      "loss": 0.68230736,
+      "num_input_tokens_seen": 67691125,
+      "step": 3149,
+      "time_per_iteration": 3.1394248008728027
+    },
+    {
+      "auxiliary_loss_clip": 0.01202171,
+      "auxiliary_loss_mlp": 0.01029399,
+      "balance_loss_clip": 1.05467772,
+      "balance_loss_mlp": 1.02138555,
+      "epoch": 0.3787651055131365,
+      "flos": 23363015414400.0,
+      "grad_norm": 2.4622088838432767,
+      "language_loss": 0.83996564,
+      "learning_rate": 2.8542078471997006e-06,
+      "loss": 0.86228132,
+      "num_input_tokens_seen": 67708740,
+      "step": 3150,
+      "time_per_iteration": 2.561774730682373
+    },
+    {
+      "auxiliary_loss_clip": 0.01202303,
+      "auxiliary_loss_mlp": 0.01029539,
+      "balance_loss_clip": 1.05345404,
+      "balance_loss_mlp": 1.02114129,
+      "epoch": 0.37888534840377563,
+      "flos": 24601394661120.0,
+      "grad_norm": 1.7928463410341993,
+      "language_loss": 0.75690877,
+      "learning_rate": 2.8535034342819013e-06,
+      "loss": 0.77922726,
+      "num_input_tokens_seen": 67726150,
+      "step": 3151,
+      "time_per_iteration": 2.771089553833008
+    },
+    {
+      "auxiliary_loss_clip": 0.01191564,
+      "auxiliary_loss_mlp": 0.01029237,
+      "balance_loss_clip": 1.05586874,
+      "balance_loss_mlp": 1.021065,
+      "epoch": 0.37900559129441475,
+      "flos": 23986891762560.0,
+      "grad_norm": 1.583594284860671,
+      "language_loss": 0.72656941,
+      "learning_rate": 2.85279889188831e-06,
+      "loss": 0.74877739,
+      "num_input_tokens_seen": 67746525,
+      "step": 3152,
+      "time_per_iteration": 2.6237926483154297
+    },
+    {
+      "auxiliary_loss_clip": 0.01216508,
+      "auxiliary_loss_mlp": 0.01027406,
+      "balance_loss_clip": 1.04881048,
+      "balance_loss_mlp": 1.0186795,
+      "epoch": 0.3791258341850538,
+      "flos": 24644667571200.0,
+      "grad_norm": 2.1155570297410535,
+      "language_loss": 0.81351244,
+      "learning_rate": 2.852094220125805e-06,
+      "loss": 0.83595163,
+      "num_input_tokens_seen": 67766035,
+      "step": 3153,
+      "time_per_iteration": 2.6943376064300537
+    },
+    {
+      "auxiliary_loss_clip": 0.01204581,
+      "auxiliary_loss_mlp": 0.01028986,
+      "balance_loss_clip": 1.05756676,
+      "balance_loss_mlp": 1.02005744,
+      "epoch": 0.3792460770756929,
+      "flos": 17420841509760.0,
+      "grad_norm": 2.0993227846837135,
+      "language_loss": 0.71260059,
+      "learning_rate": 2.8513894191012846e-06,
+      "loss": 0.73493624,
+      "num_input_tokens_seen": 67785015,
+      "step": 3154,
+      "time_per_iteration": 2.6393773555755615
+    },
+    {
+      "auxiliary_loss_clip": 0.0119367,
+      "auxiliary_loss_mlp": 0.01031808,
+      "balance_loss_clip": 1.05624104,
+      "balance_loss_mlp": 1.02353477,
+      "epoch": 0.37936631996633197,
+      "flos": 24206557386240.0,
+      "grad_norm": 1.4835061666435083,
+      "language_loss": 0.78840959,
+      "learning_rate": 2.8506844889216664e-06,
+      "loss": 0.81066436,
+      "num_input_tokens_seen": 67804400,
+      "step": 3155,
+      "time_per_iteration": 2.5931878089904785
+    },
+    {
+      "auxiliary_loss_clip": 0.0109452,
+      "auxiliary_loss_mlp": 0.01001579,
+      "balance_loss_clip": 1.01990151,
+      "balance_loss_mlp": 1.00004148,
+      "epoch": 0.3794865628569711,
+      "flos": 70297114752000.0,
+      "grad_norm": 0.8663140639368858,
+      "language_loss": 0.6284824,
+      "learning_rate": 2.849979429693887e-06,
+      "loss": 0.64944333,
+      "num_input_tokens_seen": 67865385,
+      "step": 3156,
+      "time_per_iteration": 3.217888116836548
+    },
+    {
+      "auxiliary_loss_clip": 0.01193262,
+      "auxiliary_loss_mlp": 0.01030293,
+      "balance_loss_clip": 1.05734515,
+      "balance_loss_mlp": 1.021644,
+      "epoch": 0.3796068057476102,
+      "flos": 15779364860160.0,
+      "grad_norm": 2.0160939000843876,
+      "language_loss": 0.74271756,
+      "learning_rate": 2.8492742415249042e-06,
+      "loss": 0.76495308,
+      "num_input_tokens_seen": 67883030,
+      "step": 3157,
+      "time_per_iteration": 4.304169416427612
+    },
+    {
+      "auxiliary_loss_clip": 0.01190095,
+      "auxiliary_loss_mlp": 0.01031902,
+      "balance_loss_clip": 1.0544039,
+      "balance_loss_mlp": 1.02373564,
+      "epoch": 0.37972704863824924,
+      "flos": 25191694771200.0,
+      "grad_norm": 1.6852454742546408,
+      "language_loss": 0.76483583,
+      "learning_rate": 2.848568924521694e-06,
+      "loss": 0.78705579,
+      "num_input_tokens_seen": 67903810,
+      "step": 3158,
+      "time_per_iteration": 2.6037352085113525
+    },
+    {
+      "auxiliary_loss_clip": 0.01192646,
+      "auxiliary_loss_mlp": 0.01029149,
+      "balance_loss_clip": 1.05137467,
+      "balance_loss_mlp": 1.02089334,
+      "epoch": 0.37984729152888835,
+      "flos": 26210372480640.0,
+      "grad_norm": 1.7578777042328684,
+      "language_loss": 0.73358309,
+      "learning_rate": 2.8478634787912526e-06,
+      "loss": 0.75580102,
+      "num_input_tokens_seen": 67921865,
+      "step": 3159,
+      "time_per_iteration": 3.563333034515381
+    },
+    {
+      "auxiliary_loss_clip": 0.01202018,
+      "auxiliary_loss_mlp": 0.01033441,
+      "balance_loss_clip": 1.05548477,
+      "balance_loss_mlp": 1.02507842,
+      "epoch": 0.37996753441952746,
+      "flos": 25629302165760.0,
+      "grad_norm": 2.3318200970766663,
+      "language_loss": 0.76352078,
+      "learning_rate": 2.847157904440596e-06,
+      "loss": 0.78587538,
+      "num_input_tokens_seen": 67941595,
+      "step": 3160,
+      "time_per_iteration": 2.701539993286133
+    },
+    {
+      "auxiliary_loss_clip": 0.01200637,
+      "auxiliary_loss_mlp": 0.0102726,
+      "balance_loss_clip": 1.05550385,
+      "balance_loss_mlp": 1.01932693,
+      "epoch": 0.3800877773101665,
+      "flos": 20118414862080.0,
+      "grad_norm": 1.4913689549499662,
+      "language_loss": 0.74379098,
+      "learning_rate": 2.846452201576759e-06,
+      "loss": 0.76606995,
+      "num_input_tokens_seen": 67960970,
+      "step": 3161,
+      "time_per_iteration": 2.627950429916382
+    },
+    {
+      "auxiliary_loss_clip": 0.01111322,
+      "auxiliary_loss_mlp": 0.01001881,
+      "balance_loss_clip": 1.01797903,
+      "balance_loss_mlp": 1.00034368,
+      "epoch": 0.38020802020080563,
+      "flos": 63053608037760.0,
+      "grad_norm": 0.8757437889306352,
+      "language_loss": 0.62759256,
+      "learning_rate": 2.845746370306795e-06,
+      "loss": 0.64872462,
+      "num_input_tokens_seen": 68026160,
+      "step": 3162,
+      "time_per_iteration": 3.3316476345062256
+    },
+    {
+      "auxiliary_loss_clip": 0.0120538,
+      "auxiliary_loss_mlp": 0.0102756,
+      "balance_loss_clip": 1.05684912,
+      "balance_loss_mlp": 1.01938236,
+      "epoch": 0.38032826309144474,
+      "flos": 21288420570240.0,
+      "grad_norm": 2.187968334718799,
+      "language_loss": 0.78193593,
+      "learning_rate": 2.84504041073778e-06,
+      "loss": 0.80426538,
+      "num_input_tokens_seen": 68044575,
+      "step": 3163,
+      "time_per_iteration": 2.6210978031158447
+    },
+    {
+      "auxiliary_loss_clip": 0.0120171,
+      "auxiliary_loss_mlp": 0.01032876,
+      "balance_loss_clip": 1.05349994,
+      "balance_loss_mlp": 1.0242511,
+      "epoch": 0.3804485059820838,
+      "flos": 18954119416320.0,
+      "grad_norm": 1.7266461287878223,
+      "language_loss": 0.79311603,
+      "learning_rate": 2.844334322976806e-06,
+      "loss": 0.81546187,
+      "num_input_tokens_seen": 68064790,
+      "step": 3164,
+      "time_per_iteration": 2.704601764678955
+    },
+    {
+      "auxiliary_loss_clip": 0.01231096,
+      "auxiliary_loss_mlp": 0.01035083,
+      "balance_loss_clip": 1.05079699,
+      "balance_loss_mlp": 1.02593923,
+      "epoch": 0.3805687488727229,
+      "flos": 21833759831040.0,
+      "grad_norm": 1.9730370569173552,
+      "language_loss": 0.83254349,
+      "learning_rate": 2.8436281071309866e-06,
+      "loss": 0.85520524,
+      "num_input_tokens_seen": 68083330,
+      "step": 3165,
+      "time_per_iteration": 3.6308488845825195
+    },
+    {
+      "auxiliary_loss_clip": 0.0113638,
+      "auxiliary_loss_mlp": 0.01006765,
+      "balance_loss_clip": 1.01704311,
+      "balance_loss_mlp": 1.00533485,
+      "epoch": 0.380688991763362,
+      "flos": 58546209968640.0,
+      "grad_norm": 0.7252555722900837,
+      "language_loss": 0.52966726,
+      "learning_rate": 2.842921763307455e-06,
+      "loss": 0.5510987,
+      "num_input_tokens_seen": 68146140,
+      "step": 3166,
+      "time_per_iteration": 3.2981486320495605
+    },
+    {
+      "auxiliary_loss_clip": 0.01198161,
+      "auxiliary_loss_mlp": 0.0102649,
+      "balance_loss_clip": 1.04953837,
+      "balance_loss_mlp": 1.0180676,
+      "epoch": 0.38080923465400107,
+      "flos": 23799509487360.0,
+      "grad_norm": 2.2701924250549017,
+      "language_loss": 0.8280881,
+      "learning_rate": 2.842215291613361e-06,
+      "loss": 0.85033458,
+      "num_input_tokens_seen": 68164520,
+      "step": 3167,
+      "time_per_iteration": 3.00215220451355
+    },
+    {
+      "auxiliary_loss_clip": 0.01148799,
+      "auxiliary_loss_mlp": 0.01001555,
+      "balance_loss_clip": 1.01791906,
+      "balance_loss_mlp": 1.0002135,
+      "epoch": 0.3809294775446402,
+      "flos": 54969866380800.0,
+      "grad_norm": 0.8269740961037931,
+      "language_loss": 0.59273547,
+      "learning_rate": 2.8415086921558774e-06,
+      "loss": 0.61423898,
+      "num_input_tokens_seen": 68227945,
+      "step": 3168,
+      "time_per_iteration": 3.5734503269195557
+    },
+    {
+      "auxiliary_loss_clip": 0.01190255,
+      "auxiliary_loss_mlp": 0.01028683,
+      "balance_loss_clip": 1.04691839,
+      "balance_loss_mlp": 1.02037442,
+      "epoch": 0.38104972043527924,
+      "flos": 24643697904000.0,
+      "grad_norm": 1.559747959341887,
+      "language_loss": 0.78814018,
+      "learning_rate": 2.840801965042194e-06,
+      "loss": 0.81032956,
+      "num_input_tokens_seen": 68247405,
+      "step": 3169,
+      "time_per_iteration": 2.934319496154785
+    },
+    {
+      "auxiliary_loss_clip": 0.01196014,
+      "auxiliary_loss_mlp": 0.01025377,
+      "balance_loss_clip": 1.04808021,
+      "balance_loss_mlp": 1.01697302,
+      "epoch": 0.38116996332591835,
+      "flos": 22856783086080.0,
+      "grad_norm": 2.056873017645397,
+      "language_loss": 0.83914423,
+      "learning_rate": 2.840095110379521e-06,
+      "loss": 0.86135817,
+      "num_input_tokens_seen": 68266925,
+      "step": 3170,
+      "time_per_iteration": 2.8233299255371094
+    },
+    {
+      "auxiliary_loss_clip": 0.011257,
+      "auxiliary_loss_mlp": 0.01004603,
+      "balance_loss_clip": 1.01480865,
+      "balance_loss_mlp": 1.00324368,
+      "epoch": 0.38129020621655746,
+      "flos": 60836160804480.0,
+      "grad_norm": 0.7383898389358534,
+      "language_loss": 0.53965569,
+      "learning_rate": 2.8393881282750884e-06,
+      "loss": 0.56095874,
+      "num_input_tokens_seen": 68329755,
+      "step": 3171,
+      "time_per_iteration": 3.178251266479492
+    },
+    {
+      "auxiliary_loss_clip": 0.01209218,
+      "auxiliary_loss_mlp": 0.01031727,
+      "balance_loss_clip": 1.05325079,
+      "balance_loss_mlp": 1.02242255,
+      "epoch": 0.3814104491071965,
+      "flos": 21648101408640.0,
+      "grad_norm": 2.1470228274280263,
+      "language_loss": 0.78715181,
+      "learning_rate": 2.838681018836144e-06,
+      "loss": 0.80956125,
+      "num_input_tokens_seen": 68347075,
+      "step": 3172,
+      "time_per_iteration": 2.739452362060547
+    },
+    {
+      "auxiliary_loss_clip": 0.01219714,
+      "auxiliary_loss_mlp": 0.01379465,
+      "balance_loss_clip": 1.05065346,
+      "balance_loss_mlp": 1.00030899,
+      "epoch": 0.3815306919978356,
+      "flos": 19099090707840.0,
+      "grad_norm": 2.423393738278015,
+      "language_loss": 0.78793764,
+      "learning_rate": 2.837973782169955e-06,
+      "loss": 0.81392944,
+      "num_input_tokens_seen": 68365450,
+      "step": 3173,
+      "time_per_iteration": 2.7069530487060547
+    },
+    {
+      "auxiliary_loss_clip": 0.01082518,
+      "auxiliary_loss_mlp": 0.01003741,
+      "balance_loss_clip": 1.01583147,
+      "balance_loss_mlp": 1.00229859,
+      "epoch": 0.38165093488847474,
+      "flos": 67067918156160.0,
+      "grad_norm": 0.811284654498776,
+      "language_loss": 0.59191084,
+      "learning_rate": 2.8372664183838096e-06,
+      "loss": 0.61277342,
+      "num_input_tokens_seen": 68428470,
+      "step": 3174,
+      "time_per_iteration": 3.232603073120117
+    },
+    {
+      "auxiliary_loss_clip": 0.01191356,
+      "auxiliary_loss_mlp": 0.01027347,
+      "balance_loss_clip": 1.05542076,
+      "balance_loss_mlp": 1.01928806,
+      "epoch": 0.3817711777791138,
+      "flos": 22341105480960.0,
+      "grad_norm": 6.841538241242867,
+      "language_loss": 0.68429482,
+      "learning_rate": 2.836558927585015e-06,
+      "loss": 0.70648193,
+      "num_input_tokens_seen": 68445440,
+      "step": 3175,
+      "time_per_iteration": 2.6473703384399414
+    },
+    {
+      "auxiliary_loss_clip": 0.01202004,
+      "auxiliary_loss_mlp": 0.01033157,
+      "balance_loss_clip": 1.05407012,
+      "balance_loss_mlp": 1.02469325,
+      "epoch": 0.3818914206697529,
+      "flos": 22820621068800.0,
+      "grad_norm": 1.844232826760469,
+      "language_loss": 0.8209638,
+      "learning_rate": 2.8358513098808957e-06,
+      "loss": 0.84331542,
+      "num_input_tokens_seen": 68465755,
+      "step": 3176,
+      "time_per_iteration": 2.616562604904175
+    },
+    {
+      "auxiliary_loss_clip": 0.01215691,
+      "auxiliary_loss_mlp": 0.01031778,
+      "balance_loss_clip": 1.04883695,
+      "balance_loss_mlp": 1.02334976,
+      "epoch": 0.382011663560392,
+      "flos": 24386074583040.0,
+      "grad_norm": 1.8804947656622166,
+      "language_loss": 0.76896477,
+      "learning_rate": 2.835143565378798e-06,
+      "loss": 0.79143947,
+      "num_input_tokens_seen": 68486220,
+      "step": 3177,
+      "time_per_iteration": 2.8452675342559814
+    },
+    {
+      "auxiliary_loss_clip": 0.01229589,
+      "auxiliary_loss_mlp": 0.01031234,
+      "balance_loss_clip": 1.04734516,
+      "balance_loss_mlp": 1.02272856,
+      "epoch": 0.38213190645103107,
+      "flos": 21981568296960.0,
+      "grad_norm": 2.0401627268811215,
+      "language_loss": 0.78247011,
+      "learning_rate": 2.8344356941860847e-06,
+      "loss": 0.80507839,
+      "num_input_tokens_seen": 68505850,
+      "step": 3178,
+      "time_per_iteration": 2.759265899658203
+    },
+    {
+      "auxiliary_loss_clip": 0.01211243,
+      "auxiliary_loss_mlp": 0.01032368,
+      "balance_loss_clip": 1.04999602,
+      "balance_loss_mlp": 1.02374887,
+      "epoch": 0.3822521493416702,
+      "flos": 35516945773440.0,
+      "grad_norm": 2.0378614554717407,
+      "language_loss": 0.65709454,
+      "learning_rate": 2.8337276964101403e-06,
+      "loss": 0.67953062,
+      "num_input_tokens_seen": 68526290,
+      "step": 3179,
+      "time_per_iteration": 2.854132652282715
+    },
+    {
+      "auxiliary_loss_clip": 0.01204598,
+      "auxiliary_loss_mlp": 0.01027218,
+      "balance_loss_clip": 1.05571175,
+      "balance_loss_mlp": 1.01886702,
+      "epoch": 0.3823723922323093,
+      "flos": 21069904181760.0,
+      "grad_norm": 2.497230111662095,
+      "language_loss": 0.76528966,
+      "learning_rate": 2.833019572158367e-06,
+      "loss": 0.78760785,
+      "num_input_tokens_seen": 68544725,
+      "step": 3180,
+      "time_per_iteration": 2.639859676361084
+    },
+    {
+      "auxiliary_loss_clip": 0.0120536,
+      "auxiliary_loss_mlp": 0.01032065,
+      "balance_loss_clip": 1.05195928,
+      "balance_loss_mlp": 1.02395892,
+      "epoch": 0.38249263512294834,
+      "flos": 19789149864960.0,
+      "grad_norm": 2.072809447419307,
+      "language_loss": 0.80022788,
+      "learning_rate": 2.8323113215381872e-06,
+      "loss": 0.82260209,
+      "num_input_tokens_seen": 68563070,
+      "step": 3181,
+      "time_per_iteration": 2.818930149078369
+    },
+    {
+      "auxiliary_loss_clip": 0.01212266,
+      "auxiliary_loss_mlp": 0.01029129,
+      "balance_loss_clip": 1.04888797,
+      "balance_loss_mlp": 1.01977086,
+      "epoch": 0.38261287801358745,
+      "flos": 21433930565760.0,
+      "grad_norm": 2.059289484123044,
+      "language_loss": 0.75981355,
+      "learning_rate": 2.831602944657042e-06,
+      "loss": 0.78222752,
+      "num_input_tokens_seen": 68581150,
+      "step": 3182,
+      "time_per_iteration": 2.662806749343872
+    },
+    {
+      "auxiliary_loss_clip": 0.01214827,
+      "auxiliary_loss_mlp": 0.01028678,
+      "balance_loss_clip": 1.05260026,
+      "balance_loss_mlp": 1.02076292,
+      "epoch": 0.38273312090422656,
+      "flos": 21981568296960.0,
+      "grad_norm": 3.1377393263155,
+      "language_loss": 0.74436617,
+      "learning_rate": 2.830894441622391e-06,
+      "loss": 0.76680124,
+      "num_input_tokens_seen": 68597800,
+      "step": 3183,
+      "time_per_iteration": 3.787585496902466
+    },
+    {
+      "auxiliary_loss_clip": 0.01213674,
+      "auxiliary_loss_mlp": 0.01379447,
+      "balance_loss_clip": 1.0478673,
+      "balance_loss_mlp": 1.00039005,
+      "epoch": 0.3828533637948656,
+      "flos": 24790895838720.0,
+      "grad_norm": 1.8264856343769535,
+      "language_loss": 0.79781753,
+      "learning_rate": 2.8301858125417134e-06,
+      "loss": 0.82374871,
+      "num_input_tokens_seen": 68617640,
+      "step": 3184,
+      "time_per_iteration": 4.0098912715911865
+    },
+    {
+      "auxiliary_loss_clip": 0.0120826,
+      "auxiliary_loss_mlp": 0.0102928,
+      "balance_loss_clip": 1.05379975,
+      "balance_loss_mlp": 1.02103639,
+      "epoch": 0.38297360668550473,
+      "flos": 22455445449600.0,
+      "grad_norm": 2.3886187173711684,
+      "language_loss": 0.74073696,
+      "learning_rate": 2.8294770575225082e-06,
+      "loss": 0.76311243,
+      "num_input_tokens_seen": 68637770,
+      "step": 3185,
+      "time_per_iteration": 2.706833839416504
+    },
+    {
+      "auxiliary_loss_clip": 0.01199486,
+      "auxiliary_loss_mlp": 0.01030525,
+      "balance_loss_clip": 1.05646348,
+      "balance_loss_mlp": 1.02238643,
+      "epoch": 0.3830938495761438,
+      "flos": 24896903852160.0,
+      "grad_norm": 1.6600668959392688,
+      "language_loss": 0.83731383,
+      "learning_rate": 2.828768176672293e-06,
+      "loss": 0.85961396,
+      "num_input_tokens_seen": 68656885,
+      "step": 3186,
+      "time_per_iteration": 2.6792562007904053
+    },
+    {
+      "auxiliary_loss_clip": 0.01213465,
+      "auxiliary_loss_mlp": 0.01030025,
+      "balance_loss_clip": 1.04899907,
+      "balance_loss_mlp": 1.02155471,
+      "epoch": 0.3832140924667829,
+      "flos": 33036236784000.0,
+      "grad_norm": 1.787787032298151,
+      "language_loss": 0.7170943,
+      "learning_rate": 2.8280591700986044e-06,
+      "loss": 0.73952925,
+      "num_input_tokens_seen": 68678750,
+      "step": 3187,
+      "time_per_iteration": 2.84818434715271
+    },
+    {
+      "auxiliary_loss_clip": 0.0121232,
+      "auxiliary_loss_mlp": 0.01025034,
+      "balance_loss_clip": 1.05065036,
+      "balance_loss_mlp": 1.01625991,
+      "epoch": 0.383334335357422,
+      "flos": 31903721896320.0,
+      "grad_norm": 1.8151329632163637,
+      "language_loss": 0.74704784,
+      "learning_rate": 2.827350037908999e-06,
+      "loss": 0.7694214,
+      "num_input_tokens_seen": 68698190,
+      "step": 3188,
+      "time_per_iteration": 2.768714666366577
+    },
+    {
+      "auxiliary_loss_clip": 0.01225094,
+      "auxiliary_loss_mlp": 0.01028987,
+      "balance_loss_clip": 1.05260158,
+      "balance_loss_mlp": 1.02019501,
+      "epoch": 0.38345457824806106,
+      "flos": 19791915212160.0,
+      "grad_norm": 2.1728035392132363,
+      "language_loss": 0.78993225,
+      "learning_rate": 2.8266407802110496e-06,
+      "loss": 0.81247306,
+      "num_input_tokens_seen": 68716445,
+      "step": 3189,
+      "time_per_iteration": 2.7386295795440674
+    },
+    {
+      "auxiliary_loss_clip": 0.01249192,
+      "auxiliary_loss_mlp": 0.0103783,
+      "balance_loss_clip": 1.04625368,
+      "balance_loss_mlp": 1.02869296,
+      "epoch": 0.3835748211387002,
+      "flos": 22419391173120.0,
+      "grad_norm": 2.236357488612576,
+      "language_loss": 0.75963795,
+      "learning_rate": 2.8259313971123515e-06,
+      "loss": 0.78250819,
+      "num_input_tokens_seen": 68737565,
+      "step": 3190,
+      "time_per_iteration": 2.9978091716766357
+    },
+    {
+      "auxiliary_loss_clip": 0.01196888,
+      "auxiliary_loss_mlp": 0.01031197,
+      "balance_loss_clip": 1.05531025,
+      "balance_loss_mlp": 1.02298331,
+      "epoch": 0.3836950640293393,
+      "flos": 25118436983040.0,
+      "grad_norm": 1.665522110936481,
+      "language_loss": 0.78135681,
+      "learning_rate": 2.8252218887205166e-06,
+      "loss": 0.80363762,
+      "num_input_tokens_seen": 68758255,
+      "step": 3191,
+      "time_per_iteration": 4.455960273742676
+    },
+    {
+      "auxiliary_loss_clip": 0.012386,
+      "auxiliary_loss_mlp": 0.01033298,
+      "balance_loss_clip": 1.05037737,
+      "balance_loss_mlp": 1.0251205,
+      "epoch": 0.38381530691997834,
+      "flos": 21799213925760.0,
+      "grad_norm": 1.984108133937,
+      "language_loss": 0.80752957,
+      "learning_rate": 2.824512255143178e-06,
+      "loss": 0.83024848,
+      "num_input_tokens_seen": 68777490,
+      "step": 3192,
+      "time_per_iteration": 2.896120548248291
+    },
+    {
+      "auxiliary_loss_clip": 0.01218585,
+      "auxiliary_loss_mlp": 0.01026259,
+      "balance_loss_clip": 1.05032563,
+      "balance_loss_mlp": 1.01805162,
+      "epoch": 0.38393554981061745,
+      "flos": 21252689516160.0,
+      "grad_norm": 1.6912208675529015,
+      "language_loss": 0.78989458,
+      "learning_rate": 2.8238024964879855e-06,
+      "loss": 0.812343,
+      "num_input_tokens_seen": 68798385,
+      "step": 3193,
+      "time_per_iteration": 2.664149522781372
+    },
+    {
+      "auxiliary_loss_clip": 0.01196294,
+      "auxiliary_loss_mlp": 0.01034347,
+      "balance_loss_clip": 1.05757403,
+      "balance_loss_mlp": 1.02551353,
+      "epoch": 0.38405579270125656,
+      "flos": 17019360218880.0,
+      "grad_norm": 2.2342387424303025,
+      "language_loss": 0.76676726,
+      "learning_rate": 2.8230926128626095e-06,
+      "loss": 0.78907371,
+      "num_input_tokens_seen": 68816880,
+      "step": 3194,
+      "time_per_iteration": 2.629382371902466
+    },
+    {
+      "auxiliary_loss_clip": 0.01199903,
+      "auxiliary_loss_mlp": 0.01028356,
+      "balance_loss_clip": 1.04988551,
+      "balance_loss_mlp": 1.01905167,
+      "epoch": 0.3841760355918956,
+      "flos": 21835375943040.0,
+      "grad_norm": 1.767216818413952,
+      "language_loss": 0.79197717,
+      "learning_rate": 2.822382604374738e-06,
+      "loss": 0.81425977,
+      "num_input_tokens_seen": 68835805,
+      "step": 3195,
+      "time_per_iteration": 2.6495144367218018
+    },
+    {
+      "auxiliary_loss_clip": 0.01211119,
+      "auxiliary_loss_mlp": 0.01027103,
+      "balance_loss_clip": 1.05655754,
+      "balance_loss_mlp": 1.01810229,
+      "epoch": 0.3842962784825347,
+      "flos": 25915114684800.0,
+      "grad_norm": 2.025789209947179,
+      "language_loss": 0.65266836,
+      "learning_rate": 2.8216724711320793e-06,
+      "loss": 0.6750505,
+      "num_input_tokens_seen": 68854930,
+      "step": 3196,
+      "time_per_iteration": 2.7095930576324463
+    },
+    {
+      "auxiliary_loss_clip": 0.01191176,
+      "auxiliary_loss_mlp": 0.0137887,
+      "balance_loss_clip": 1.05514359,
+      "balance_loss_mlp": 1.00026608,
+      "epoch": 0.38441652137317384,
+      "flos": 25337492075520.0,
+      "grad_norm": 1.4627721409004175,
+      "language_loss": 0.79494202,
+      "learning_rate": 2.820962213242361e-06,
+      "loss": 0.82064247,
+      "num_input_tokens_seen": 68874260,
+      "step": 3197,
+      "time_per_iteration": 2.6267213821411133
+    },
+    {
+      "auxiliary_loss_clip": 0.01200625,
+      "auxiliary_loss_mlp": 0.01039639,
+      "balance_loss_clip": 1.05789399,
+      "balance_loss_mlp": 1.03106833,
+      "epoch": 0.3845367642638129,
+      "flos": 18113486446080.0,
+      "grad_norm": 2.013414889220252,
+      "language_loss": 0.84190607,
+      "learning_rate": 2.8202518308133264e-06,
+      "loss": 0.86430871,
+      "num_input_tokens_seen": 68891535,
+      "step": 3198,
+      "time_per_iteration": 2.621551275253296
+    },
+    {
+      "auxiliary_loss_clip": 0.01194318,
+      "auxiliary_loss_mlp": 0.01028416,
+      "balance_loss_clip": 1.05560589,
+      "balance_loss_mlp": 1.01985633,
+      "epoch": 0.384657007154452,
+      "flos": 25228395492480.0,
+      "grad_norm": 1.8159084925693567,
+      "language_loss": 0.73649549,
+      "learning_rate": 2.8195413239527426e-06,
+      "loss": 0.75872284,
+      "num_input_tokens_seen": 68911275,
+      "step": 3199,
+      "time_per_iteration": 2.6561238765716553
+    },
+    {
+      "auxiliary_loss_clip": 0.01194667,
+      "auxiliary_loss_mlp": 0.01034318,
+      "balance_loss_clip": 1.05300641,
+      "balance_loss_mlp": 1.02592611,
+      "epoch": 0.38477725004509106,
+      "flos": 19865855358720.0,
+      "grad_norm": 2.0413419873240493,
+      "language_loss": 0.80326504,
+      "learning_rate": 2.8188306927683906e-06,
+      "loss": 0.82555485,
+      "num_input_tokens_seen": 68930745,
+      "step": 3200,
+      "time_per_iteration": 2.643436908721924
+    },
+    {
+      "auxiliary_loss_clip": 0.01211252,
+      "auxiliary_loss_mlp": 0.01024924,
+      "balance_loss_clip": 1.0539602,
+      "balance_loss_mlp": 1.01651955,
+      "epoch": 0.38489749293573017,
+      "flos": 18259391491200.0,
+      "grad_norm": 2.963243623989401,
+      "language_loss": 0.74563217,
+      "learning_rate": 2.818119937368074e-06,
+      "loss": 0.76799393,
+      "num_input_tokens_seen": 68949380,
+      "step": 3201,
+      "time_per_iteration": 2.7293686866760254
+    },
+    {
+      "auxiliary_loss_clip": 0.01210593,
+      "auxiliary_loss_mlp": 0.01035788,
+      "balance_loss_clip": 1.05663681,
+      "balance_loss_mlp": 1.02609062,
+      "epoch": 0.3850177358263693,
+      "flos": 24389163152640.0,
+      "grad_norm": 2.091538724574464,
+      "language_loss": 0.65694022,
+      "learning_rate": 2.817409057859613e-06,
+      "loss": 0.67940408,
+      "num_input_tokens_seen": 68968370,
+      "step": 3202,
+      "time_per_iteration": 2.697354316711426
+    },
+    {
+      "auxiliary_loss_clip": 0.01218259,
+      "auxiliary_loss_mlp": 0.01029064,
+      "balance_loss_clip": 1.04844332,
+      "balance_loss_mlp": 1.01989055,
+      "epoch": 0.38513797871700833,
+      "flos": 17671533505920.0,
+      "grad_norm": 2.7585979213597254,
+      "language_loss": 0.7920475,
+      "learning_rate": 2.8166980543508482e-06,
+      "loss": 0.81452072,
+      "num_input_tokens_seen": 68984260,
+      "step": 3203,
+      "time_per_iteration": 2.7641544342041016
+    },
+    {
+      "auxiliary_loss_clip": 0.01198128,
+      "auxiliary_loss_mlp": 0.01025694,
+      "balance_loss_clip": 1.06007683,
+      "balance_loss_mlp": 1.01658058,
+      "epoch": 0.38525822160764744,
+      "flos": 25739583897600.0,
+      "grad_norm": 2.098075823028686,
+      "language_loss": 0.79450035,
+      "learning_rate": 2.815986926949638e-06,
+      "loss": 0.81673861,
+      "num_input_tokens_seen": 69002760,
+      "step": 3204,
+      "time_per_iteration": 2.792104482650757
+    },
+    {
+      "auxiliary_loss_clip": 0.0119998,
+      "auxiliary_loss_mlp": 0.01032284,
+      "balance_loss_clip": 1.05588508,
+      "balance_loss_mlp": 1.02397513,
+      "epoch": 0.38537846449828655,
+      "flos": 20193647898240.0,
+      "grad_norm": 1.748262460079904,
+      "language_loss": 0.80283558,
+      "learning_rate": 2.8152756757638597e-06,
+      "loss": 0.82515812,
+      "num_input_tokens_seen": 69021260,
+      "step": 3205,
+      "time_per_iteration": 2.680603265762329
+    },
+    {
+      "auxiliary_loss_clip": 0.0120328,
+      "auxiliary_loss_mlp": 0.01033544,
+      "balance_loss_clip": 1.05743349,
+      "balance_loss_mlp": 1.02482414,
+      "epoch": 0.3854987073889256,
+      "flos": 23039352938880.0,
+      "grad_norm": 2.238783850913665,
+      "language_loss": 0.84704554,
+      "learning_rate": 2.8145643009014093e-06,
+      "loss": 0.86941385,
+      "num_input_tokens_seen": 69039755,
+      "step": 3206,
+      "time_per_iteration": 2.6111695766448975
+    },
+    {
+      "auxiliary_loss_clip": 0.01203245,
+      "auxiliary_loss_mlp": 0.01031969,
+      "balance_loss_clip": 1.05657792,
+      "balance_loss_mlp": 1.02355921,
+      "epoch": 0.3856189502795647,
+      "flos": 20190631155840.0,
+      "grad_norm": 2.07319432927694,
+      "language_loss": 0.79275346,
+      "learning_rate": 2.813852802470202e-06,
+      "loss": 0.81510556,
+      "num_input_tokens_seen": 69057650,
+      "step": 3207,
+      "time_per_iteration": 2.650968313217163
+    },
+    {
+      "auxiliary_loss_clip": 0.01207418,
+      "auxiliary_loss_mlp": 0.01032609,
+      "balance_loss_clip": 1.05416107,
+      "balance_loss_mlp": 1.02348351,
+      "epoch": 0.38573919317020383,
+      "flos": 25702631781120.0,
+      "grad_norm": 1.7023811177037513,
+      "language_loss": 0.72405553,
+      "learning_rate": 2.8131411805781717e-06,
+      "loss": 0.74645579,
+      "num_input_tokens_seen": 69077775,
+      "step": 3208,
+      "time_per_iteration": 2.6564629077911377
+    },
+    {
+      "auxiliary_loss_clip": 0.01213404,
+      "auxiliary_loss_mlp": 0.01028028,
+      "balance_loss_clip": 1.05596972,
+      "balance_loss_mlp": 1.01830685,
+      "epoch": 0.3858594360608429,
+      "flos": 29821405628160.0,
+      "grad_norm": 2.057703792297924,
+      "language_loss": 0.64054585,
+      "learning_rate": 2.8124294353332707e-06,
+      "loss": 0.66296017,
+      "num_input_tokens_seen": 69096450,
+      "step": 3209,
+      "time_per_iteration": 3.567134141921997
+    },
+    {
+      "auxiliary_loss_clip": 0.01227641,
+      "auxiliary_loss_mlp": 0.01030936,
+      "balance_loss_clip": 1.05548298,
+      "balance_loss_mlp": 1.02284789,
+      "epoch": 0.385979678951482,
+      "flos": 24790428961920.0,
+      "grad_norm": 1.7077860836981402,
+      "language_loss": 0.77600753,
+      "learning_rate": 2.8117175668434713e-06,
+      "loss": 0.79859328,
+      "num_input_tokens_seen": 69116110,
+      "step": 3210,
+      "time_per_iteration": 3.6338424682617188
+    },
+    {
+      "auxiliary_loss_clip": 0.01194626,
+      "auxiliary_loss_mlp": 0.01023674,
+      "balance_loss_clip": 1.05623722,
+      "balance_loss_mlp": 1.01439941,
+      "epoch": 0.3860999218421211,
+      "flos": 21287881866240.0,
+      "grad_norm": 2.420618322401946,
+      "language_loss": 0.70252788,
+      "learning_rate": 2.811005575216762e-06,
+      "loss": 0.72471088,
+      "num_input_tokens_seen": 69134825,
+      "step": 3211,
+      "time_per_iteration": 2.580296039581299
+    },
+    {
+      "auxiliary_loss_clip": 0.01210314,
+      "auxiliary_loss_mlp": 0.01031545,
+      "balance_loss_clip": 1.04910874,
+      "balance_loss_mlp": 1.022861,
+      "epoch": 0.38622016473276016,
+      "flos": 24536720223360.0,
+      "grad_norm": 1.4439889618909707,
+      "language_loss": 0.78956091,
+      "learning_rate": 2.8102934605611513e-06,
+      "loss": 0.81197953,
+      "num_input_tokens_seen": 69156460,
+      "step": 3212,
+      "time_per_iteration": 2.7879412174224854
+    },
+    {
+      "auxiliary_loss_clip": 0.01216495,
+      "auxiliary_loss_mlp": 0.01029713,
+      "balance_loss_clip": 1.05612445,
+      "balance_loss_mlp": 1.02146411,
+      "epoch": 0.3863404076233993,
+      "flos": 20558212986240.0,
+      "grad_norm": 2.451075530978201,
+      "language_loss": 0.67561495,
+      "learning_rate": 2.8095812229846665e-06,
+      "loss": 0.69807708,
+      "num_input_tokens_seen": 69176420,
+      "step": 3213,
+      "time_per_iteration": 2.6759042739868164
+    },
+    {
+      "auxiliary_loss_clip": 0.01211736,
+      "auxiliary_loss_mlp": 0.01031267,
+      "balance_loss_clip": 1.05389428,
+      "balance_loss_mlp": 1.022475,
+      "epoch": 0.3864606505140384,
+      "flos": 22346277039360.0,
+      "grad_norm": 3.791526342860516,
+      "language_loss": 0.69363755,
+      "learning_rate": 2.808868862595355e-06,
+      "loss": 0.71606755,
+      "num_input_tokens_seen": 69196665,
+      "step": 3214,
+      "time_per_iteration": 2.705984354019165
+    },
+    {
+      "auxiliary_loss_clip": 0.01207725,
+      "auxiliary_loss_mlp": 0.01025429,
+      "balance_loss_clip": 1.05701494,
+      "balance_loss_mlp": 1.01662564,
+      "epoch": 0.38658089340467744,
+      "flos": 25703601448320.0,
+      "grad_norm": 1.9876458363118084,
+      "language_loss": 0.79249346,
+      "learning_rate": 2.8081563795012795e-06,
+      "loss": 0.81482494,
+      "num_input_tokens_seen": 69216290,
+      "step": 3215,
+      "time_per_iteration": 2.6674327850341797
+    },
+    {
+      "auxiliary_loss_clip": 0.01221461,
+      "auxiliary_loss_mlp": 0.01029011,
+      "balance_loss_clip": 1.05584729,
+      "balance_loss_mlp": 1.01989126,
+      "epoch": 0.38670113629531655,
+      "flos": 33802534558080.0,
+      "grad_norm": 1.7755431006990139,
+      "language_loss": 0.74019599,
+      "learning_rate": 2.807443773810524e-06,
+      "loss": 0.76270068,
+      "num_input_tokens_seen": 69237550,
+      "step": 3216,
+      "time_per_iteration": 2.818878412246704
+    },
+    {
+      "auxiliary_loss_clip": 0.01221092,
+      "auxiliary_loss_mlp": 0.01035958,
+      "balance_loss_clip": 1.05486536,
+      "balance_loss_mlp": 1.02658498,
+      "epoch": 0.3868213791859556,
+      "flos": 23331522165120.0,
+      "grad_norm": 1.7136521616550948,
+      "language_loss": 0.89469945,
+      "learning_rate": 2.80673104563119e-06,
+      "loss": 0.91726995,
+      "num_input_tokens_seen": 69258175,
+      "step": 3217,
+      "time_per_iteration": 3.627624273300171
+    },
+    {
+      "auxiliary_loss_clip": 0.01201425,
+      "auxiliary_loss_mlp": 0.01026093,
+      "balance_loss_clip": 1.05745029,
+      "balance_loss_mlp": 1.01807296,
+      "epoch": 0.3869416220765947,
+      "flos": 18441530380800.0,
+      "grad_norm": 1.9577325864327446,
+      "language_loss": 0.78603983,
+      "learning_rate": 2.8060181950713976e-06,
+      "loss": 0.80831504,
+      "num_input_tokens_seen": 69274965,
+      "step": 3218,
+      "time_per_iteration": 2.6068930625915527
+    },
+    {
+      "auxiliary_loss_clip": 0.01216369,
+      "auxiliary_loss_mlp": 0.01037256,
+      "balance_loss_clip": 1.05099511,
+      "balance_loss_mlp": 1.02804148,
+      "epoch": 0.3870618649672338,
+      "flos": 15632992938240.0,
+      "grad_norm": 2.0208340464585524,
+      "language_loss": 0.81026685,
+      "learning_rate": 2.805305222239286e-06,
+      "loss": 0.83280313,
+      "num_input_tokens_seen": 69292220,
+      "step": 3219,
+      "time_per_iteration": 2.699192523956299
+    },
+    {
+      "auxiliary_loss_clip": 0.01210652,
+      "auxiliary_loss_mlp": 0.01031285,
+      "balance_loss_clip": 1.05520391,
+      "balance_loss_mlp": 1.02279162,
+      "epoch": 0.3871821078578729,
+      "flos": 23513804709120.0,
+      "grad_norm": 1.7365148024219286,
+      "language_loss": 0.7380659,
+      "learning_rate": 2.8045921272430118e-06,
+      "loss": 0.76048523,
+      "num_input_tokens_seen": 69311900,
+      "step": 3220,
+      "time_per_iteration": 2.6643636226654053
+    },
+    {
+      "auxiliary_loss_clip": 0.01210823,
+      "auxiliary_loss_mlp": 0.01037087,
+      "balance_loss_clip": 1.05605078,
+      "balance_loss_mlp": 1.02706742,
+      "epoch": 0.387302350748512,
+      "flos": 17778259791360.0,
+      "grad_norm": 2.2466061831301145,
+      "language_loss": 0.76769876,
+      "learning_rate": 2.803878910190753e-06,
+      "loss": 0.79017782,
+      "num_input_tokens_seen": 69328820,
+      "step": 3221,
+      "time_per_iteration": 2.651740312576294
+    },
+    {
+      "auxiliary_loss_clip": 0.01206483,
+      "auxiliary_loss_mlp": 0.01031047,
+      "balance_loss_clip": 1.05536461,
+      "balance_loss_mlp": 1.02260673,
+      "epoch": 0.3874225936391511,
+      "flos": 11503409097600.0,
+      "grad_norm": 2.43886461959067,
+      "language_loss": 0.81987023,
+      "learning_rate": 2.8031655711907017e-06,
+      "loss": 0.84224552,
+      "num_input_tokens_seen": 69342525,
+      "step": 3222,
+      "time_per_iteration": 2.5492191314697266
+    },
+    {
+      "auxiliary_loss_clip": 0.01206817,
+      "auxiliary_loss_mlp": 0.01031651,
+      "balance_loss_clip": 1.05957031,
+      "balance_loss_mlp": 1.02251959,
+      "epoch": 0.38754283652979016,
+      "flos": 21945154884480.0,
+      "grad_norm": 3.2311684481769682,
+      "language_loss": 0.80918193,
+      "learning_rate": 2.8024521103510723e-06,
+      "loss": 0.83156663,
+      "num_input_tokens_seen": 69359295,
+      "step": 3223,
+      "time_per_iteration": 2.674179792404175
+    },
+    {
+      "auxiliary_loss_clip": 0.012025,
+      "auxiliary_loss_mlp": 0.01034663,
+      "balance_loss_clip": 1.05443203,
+      "balance_loss_mlp": 1.02593064,
+      "epoch": 0.38766307942042927,
+      "flos": 21175984022400.0,
+      "grad_norm": 2.3190414462760356,
+      "language_loss": 0.75419068,
+      "learning_rate": 2.8017385277800952e-06,
+      "loss": 0.77656233,
+      "num_input_tokens_seen": 69377650,
+      "step": 3224,
+      "time_per_iteration": 2.6374351978302
+    },
+    {
+      "auxiliary_loss_clip": 0.01226689,
+      "auxiliary_loss_mlp": 0.01034267,
+      "balance_loss_clip": 1.05542123,
+      "balance_loss_mlp": 1.02482605,
+      "epoch": 0.3877833223110684,
+      "flos": 27417294391680.0,
+      "grad_norm": 1.8561148275478438,
+      "language_loss": 0.75528646,
+      "learning_rate": 2.8010248235860213e-06,
+      "loss": 0.77789605,
+      "num_input_tokens_seen": 69397765,
+      "step": 3225,
+      "time_per_iteration": 2.742804527282715
+    },
+    {
+      "auxiliary_loss_clip": 0.01114548,
+      "auxiliary_loss_mlp": 0.01375343,
+      "balance_loss_clip": 1.02141309,
+      "balance_loss_mlp": 1.00015092,
+      "epoch": 0.38790356520170743,
+      "flos": 64500019879680.0,
+      "grad_norm": 0.8474591592561935,
+      "language_loss": 0.62756097,
+      "learning_rate": 2.8003109978771192e-06,
+      "loss": 0.65245986,
+      "num_input_tokens_seen": 69458930,
+      "step": 3226,
+      "time_per_iteration": 3.3045835494995117
+    },
+    {
+      "auxiliary_loss_clip": 0.01208237,
+      "auxiliary_loss_mlp": 0.01034859,
+      "balance_loss_clip": 1.0475657,
+      "balance_loss_mlp": 1.02597189,
+      "epoch": 0.38802380809234654,
+      "flos": 22345415112960.0,
+      "grad_norm": 2.0462848574705856,
+      "language_loss": 0.78854501,
+      "learning_rate": 2.799597050761674e-06,
+      "loss": 0.81097603,
+      "num_input_tokens_seen": 69475135,
+      "step": 3227,
+      "time_per_iteration": 2.688462734222412
+    },
+    {
+      "auxiliary_loss_clip": 0.01196269,
+      "auxiliary_loss_mlp": 0.01034051,
+      "balance_loss_clip": 1.05850589,
+      "balance_loss_mlp": 1.02505088,
+      "epoch": 0.38814405098298566,
+      "flos": 25261361199360.0,
+      "grad_norm": 1.9018969736429037,
+      "language_loss": 0.7903809,
+      "learning_rate": 2.7988829823479924e-06,
+      "loss": 0.81268406,
+      "num_input_tokens_seen": 69493525,
+      "step": 3228,
+      "time_per_iteration": 2.676563262939453
+    },
+    {
+      "auxiliary_loss_clip": 0.01204912,
+      "auxiliary_loss_mlp": 0.01036794,
+      "balance_loss_clip": 1.05260837,
+      "balance_loss_mlp": 1.02714956,
+      "epoch": 0.3882642938736247,
+      "flos": 18841180078080.0,
+      "grad_norm": 1.944369433310576,
+      "language_loss": 0.63797355,
+      "learning_rate": 2.7981687927443976e-06,
+      "loss": 0.66039062,
+      "num_input_tokens_seen": 69510325,
+      "step": 3229,
+      "time_per_iteration": 2.692164897918701
+    },
+    {
+      "auxiliary_loss_clip": 0.0120136,
+      "auxiliary_loss_mlp": 0.01027766,
+      "balance_loss_clip": 1.05298352,
+      "balance_loss_mlp": 1.01850951,
+      "epoch": 0.3883845367642638,
+      "flos": 21652806090240.0,
+      "grad_norm": 1.9080684259096559,
+      "language_loss": 0.85817587,
+      "learning_rate": 2.797454482059231e-06,
+      "loss": 0.88046718,
+      "num_input_tokens_seen": 69530480,
+      "step": 3230,
+      "time_per_iteration": 2.7378509044647217
+    },
+    {
+      "auxiliary_loss_clip": 0.01198607,
+      "auxiliary_loss_mlp": 0.01029488,
+      "balance_loss_clip": 1.05870354,
+      "balance_loss_mlp": 1.01952767,
+      "epoch": 0.3885047796549029,
+      "flos": 20557530627840.0,
+      "grad_norm": 1.6643874151141327,
+      "language_loss": 0.84642804,
+      "learning_rate": 2.7967400504008537e-06,
+      "loss": 0.86870897,
+      "num_input_tokens_seen": 69549780,
+      "step": 3231,
+      "time_per_iteration": 2.5792360305786133
+    },
+    {
+      "auxiliary_loss_clip": 0.01129967,
+      "auxiliary_loss_mlp": 0.0100217,
+      "balance_loss_clip": 1.02064073,
+      "balance_loss_mlp": 1.0005486,
+      "epoch": 0.388625022545542,
+      "flos": 64325491695360.0,
+      "grad_norm": 0.79297687407426,
+      "language_loss": 0.57438195,
+      "learning_rate": 2.7960254978776456e-06,
+      "loss": 0.59570336,
+      "num_input_tokens_seen": 69611870,
+      "step": 3232,
+      "time_per_iteration": 3.2751176357269287
+    },
+    {
+      "auxiliary_loss_clip": 0.01195966,
+      "auxiliary_loss_mlp": 0.01030002,
+      "balance_loss_clip": 1.0582273,
+      "balance_loss_mlp": 1.02117443,
+      "epoch": 0.3887452654361811,
+      "flos": 18113881495680.0,
+      "grad_norm": 2.3950011885865394,
+      "language_loss": 0.82193005,
+      "learning_rate": 2.7953108245980006e-06,
+      "loss": 0.84418976,
+      "num_input_tokens_seen": 69630385,
+      "step": 3233,
+      "time_per_iteration": 2.588054656982422
+    },
+    {
+      "auxiliary_loss_clip": 0.01207329,
+      "auxiliary_loss_mlp": 0.01028438,
+      "balance_loss_clip": 1.05548954,
+      "balance_loss_mlp": 1.02003396,
+      "epoch": 0.38886550832682015,
+      "flos": 24975261371520.0,
+      "grad_norm": 1.7286990991177829,
+      "language_loss": 0.73919141,
+      "learning_rate": 2.7945960306703365e-06,
+      "loss": 0.76154906,
+      "num_input_tokens_seen": 69653370,
+      "step": 3234,
+      "time_per_iteration": 2.7221760749816895
+    },
+    {
+      "auxiliary_loss_clip": 0.01210138,
+      "auxiliary_loss_mlp": 0.01034483,
+      "balance_loss_clip": 1.05860734,
+      "balance_loss_mlp": 1.02574539,
+      "epoch": 0.38898575121745926,
+      "flos": 27199496275200.0,
+      "grad_norm": 1.7089539337576702,
+      "language_loss": 0.654441,
+      "learning_rate": 2.7938811162030865e-06,
+      "loss": 0.67688721,
+      "num_input_tokens_seen": 69673635,
+      "step": 3235,
+      "time_per_iteration": 4.46764612197876
+    },
+    {
+      "auxiliary_loss_clip": 0.01202916,
+      "auxiliary_loss_mlp": 0.0102741,
+      "balance_loss_clip": 1.05707467,
+      "balance_loss_mlp": 1.01867783,
+      "epoch": 0.3891059941080984,
+      "flos": 28763728727040.0,
+      "grad_norm": 1.6279496481361408,
+      "language_loss": 0.82141256,
+      "learning_rate": 2.793166081304702e-06,
+      "loss": 0.84371579,
+      "num_input_tokens_seen": 69694130,
+      "step": 3236,
+      "time_per_iteration": 3.5916318893432617
+    },
+    {
+      "auxiliary_loss_clip": 0.01226563,
+      "auxiliary_loss_mlp": 0.01034052,
+      "balance_loss_clip": 1.05318964,
+      "balance_loss_mlp": 1.0246588,
+      "epoch": 0.38922623699873743,
+      "flos": 22893447893760.0,
+      "grad_norm": 1.8892279330643529,
+      "language_loss": 0.8235082,
+      "learning_rate": 2.7924509260836543e-06,
+      "loss": 0.8461144,
+      "num_input_tokens_seen": 69713255,
+      "step": 3237,
+      "time_per_iteration": 2.651256799697876
+    },
+    {
+      "auxiliary_loss_clip": 0.01219132,
+      "auxiliary_loss_mlp": 0.01033643,
+      "balance_loss_clip": 1.05307257,
+      "balance_loss_mlp": 1.0248034,
+      "epoch": 0.38934647988937654,
+      "flos": 19792418002560.0,
+      "grad_norm": 1.6745611432139347,
+      "language_loss": 0.68575054,
+      "learning_rate": 2.791735650648431e-06,
+      "loss": 0.7082783,
+      "num_input_tokens_seen": 69732375,
+      "step": 3238,
+      "time_per_iteration": 2.711151123046875
+    },
+    {
+      "auxiliary_loss_clip": 0.01210648,
+      "auxiliary_loss_mlp": 0.01033681,
+      "balance_loss_clip": 1.05467713,
+      "balance_loss_mlp": 1.02547383,
+      "epoch": 0.38946672278001565,
+      "flos": 19202081978880.0,
+      "grad_norm": 1.887159213846744,
+      "language_loss": 0.74233139,
+      "learning_rate": 2.791020255107538e-06,
+      "loss": 0.76477462,
+      "num_input_tokens_seen": 69749745,
+      "step": 3239,
+      "time_per_iteration": 2.636932849884033
+    },
+    {
+      "auxiliary_loss_clip": 0.01211376,
+      "auxiliary_loss_mlp": 0.01026528,
+      "balance_loss_clip": 1.04771042,
+      "balance_loss_mlp": 1.01722956,
+      "epoch": 0.3895869656706547,
+      "flos": 24936477661440.0,
+      "grad_norm": 1.6227322208642898,
+      "language_loss": 0.80476224,
+      "learning_rate": 2.7903047395695023e-06,
+      "loss": 0.82714128,
+      "num_input_tokens_seen": 69769645,
+      "step": 3240,
+      "time_per_iteration": 2.776040554046631
+    },
+    {
+      "auxiliary_loss_clip": 0.01202155,
+      "auxiliary_loss_mlp": 0.01379995,
+      "balance_loss_clip": 1.05697846,
+      "balance_loss_mlp": 1.0003159,
+      "epoch": 0.3897072085612938,
+      "flos": 24133622820480.0,
+      "grad_norm": 2.2737085751863653,
+      "language_loss": 0.90155292,
+      "learning_rate": 2.789589104142865e-06,
+      "loss": 0.92737442,
+      "num_input_tokens_seen": 69787270,
+      "step": 3241,
+      "time_per_iteration": 2.6309332847595215
+    },
+    {
+      "auxiliary_loss_clip": 0.01222049,
+      "auxiliary_loss_mlp": 0.01028373,
+      "balance_loss_clip": 1.05213237,
+      "balance_loss_mlp": 1.02048779,
+      "epoch": 0.3898274514519329,
+      "flos": 17166342672000.0,
+      "grad_norm": 1.6922634966299825,
+      "language_loss": 0.76811802,
+      "learning_rate": 2.7888733489361895e-06,
+      "loss": 0.79062223,
+      "num_input_tokens_seen": 69805685,
+      "step": 3242,
+      "time_per_iteration": 2.770277976989746
+    },
+    {
+      "auxiliary_loss_clip": 0.01082153,
+      "auxiliary_loss_mlp": 0.01004048,
+      "balance_loss_clip": 1.01747584,
+      "balance_loss_mlp": 1.00265968,
+      "epoch": 0.389947694342572,
+      "flos": 66074807952000.0,
+      "grad_norm": 0.7300925743961986,
+      "language_loss": 0.58755171,
+      "learning_rate": 2.788157474058054e-06,
+      "loss": 0.6084137,
+      "num_input_tokens_seen": 69867960,
+      "step": 3243,
+      "time_per_iteration": 3.314314365386963
+    },
+    {
+      "auxiliary_loss_clip": 0.01192149,
+      "auxiliary_loss_mlp": 0.0102653,
+      "balance_loss_clip": 1.05685639,
+      "balance_loss_mlp": 1.01865649,
+      "epoch": 0.3900679372332111,
+      "flos": 25740912700800.0,
+      "grad_norm": 1.5806146376750099,
+      "language_loss": 0.70055115,
+      "learning_rate": 2.7874414796170555e-06,
+      "loss": 0.72273791,
+      "num_input_tokens_seen": 69889450,
+      "step": 3244,
+      "time_per_iteration": 3.5435543060302734
+    },
+    {
+      "auxiliary_loss_clip": 0.01195945,
+      "auxiliary_loss_mlp": 0.01034587,
+      "balance_loss_clip": 1.05298197,
+      "balance_loss_mlp": 1.02536023,
+      "epoch": 0.3901881801238502,
+      "flos": 11801611808640.0,
+      "grad_norm": 2.3950698424099515,
+      "language_loss": 0.83455443,
+      "learning_rate": 2.7867253657218113e-06,
+      "loss": 0.8568598,
+      "num_input_tokens_seen": 69903340,
+      "step": 3245,
+      "time_per_iteration": 2.6542699337005615
+    },
+    {
+      "auxiliary_loss_clip": 0.01210991,
+      "auxiliary_loss_mlp": 0.01379815,
+      "balance_loss_clip": 1.05380869,
+      "balance_loss_mlp": 1.00027084,
+      "epoch": 0.39030842301448926,
+      "flos": 27308951994240.0,
+      "grad_norm": 3.734932858846509,
+      "language_loss": 0.73038399,
+      "learning_rate": 2.7860091324809544e-06,
+      "loss": 0.7562921,
+      "num_input_tokens_seen": 69924400,
+      "step": 3246,
+      "time_per_iteration": 2.719177722930908
+    },
+    {
+      "auxiliary_loss_clip": 0.01199666,
+      "auxiliary_loss_mlp": 0.01024968,
+      "balance_loss_clip": 1.05703211,
+      "balance_loss_mlp": 1.01629555,
+      "epoch": 0.39042866590512837,
+      "flos": 27163334257920.0,
+      "grad_norm": 2.2699219653055627,
+      "language_loss": 0.81512702,
+      "learning_rate": 2.7852927800031377e-06,
+      "loss": 0.83737326,
+      "num_input_tokens_seen": 69944565,
+      "step": 3247,
+      "time_per_iteration": 2.7280690670013428
+    },
+    {
+      "auxiliary_loss_clip": 0.01211208,
+      "auxiliary_loss_mlp": 0.01028557,
+      "balance_loss_clip": 1.05414081,
+      "balance_loss_mlp": 1.02006912,
+      "epoch": 0.3905489087957674,
+      "flos": 29716115886720.0,
+      "grad_norm": 1.7829054850241017,
+      "language_loss": 0.82527125,
+      "learning_rate": 2.7845763083970298e-06,
+      "loss": 0.84766889,
+      "num_input_tokens_seen": 69964965,
+      "step": 3248,
+      "time_per_iteration": 2.7336385250091553
+    },
+    {
+      "auxiliary_loss_clip": 0.01189756,
+      "auxiliary_loss_mlp": 0.01022092,
+      "balance_loss_clip": 1.05195546,
+      "balance_loss_mlp": 1.01349056,
+      "epoch": 0.39066915168640653,
+      "flos": 24498618871680.0,
+      "grad_norm": 2.505559931987548,
+      "language_loss": 0.81849504,
+      "learning_rate": 2.7838597177713205e-06,
+      "loss": 0.84061348,
+      "num_input_tokens_seen": 69986055,
+      "step": 3249,
+      "time_per_iteration": 2.7110137939453125
+    },
+    {
+      "auxiliary_loss_clip": 0.01223369,
+      "auxiliary_loss_mlp": 0.01036141,
+      "balance_loss_clip": 1.04744756,
+      "balance_loss_mlp": 1.02668214,
+      "epoch": 0.39078939457704565,
+      "flos": 20558572122240.0,
+      "grad_norm": 1.6842873708104724,
+      "language_loss": 0.73604864,
+      "learning_rate": 2.7831430082347143e-06,
+      "loss": 0.75864375,
+      "num_input_tokens_seen": 70005260,
+      "step": 3250,
+      "time_per_iteration": 2.823148488998413
+    },
+    {
+      "auxiliary_loss_clip": 0.01203053,
+      "auxiliary_loss_mlp": 0.01379596,
+      "balance_loss_clip": 1.05601072,
+      "balance_loss_mlp": 1.00028205,
+      "epoch": 0.3909096374676847,
+      "flos": 22783417557120.0,
+      "grad_norm": 2.3673988857959785,
+      "language_loss": 0.82059705,
+      "learning_rate": 2.7824261798959373e-06,
+      "loss": 0.84642363,
+      "num_input_tokens_seen": 70023440,
+      "step": 3251,
+      "time_per_iteration": 2.626758098602295
+    },
+    {
+      "auxiliary_loss_clip": 0.01211069,
+      "auxiliary_loss_mlp": 0.01034726,
+      "balance_loss_clip": 1.05168605,
+      "balance_loss_mlp": 1.02559471,
+      "epoch": 0.3910298803583238,
+      "flos": 23003119094400.0,
+      "grad_norm": 3.893704190591045,
+      "language_loss": 0.7995922,
+      "learning_rate": 2.78170923286373e-06,
+      "loss": 0.82205009,
+      "num_input_tokens_seen": 70043040,
+      "step": 3252,
+      "time_per_iteration": 2.731325387954712
+    },
+    {
+      "auxiliary_loss_clip": 0.0123442,
+      "auxiliary_loss_mlp": 0.01033218,
+      "balance_loss_clip": 1.04826164,
+      "balance_loss_mlp": 1.02377045,
+      "epoch": 0.3911501232489629,
+      "flos": 24316264500480.0,
+      "grad_norm": 2.1176300427503945,
+      "language_loss": 0.8412708,
+      "learning_rate": 2.780992167246854e-06,
+      "loss": 0.86394721,
+      "num_input_tokens_seen": 70060565,
+      "step": 3253,
+      "time_per_iteration": 2.924933671951294
+    },
+    {
+      "auxiliary_loss_clip": 0.01107787,
+      "auxiliary_loss_mlp": 0.01003897,
+      "balance_loss_clip": 1.01585436,
+      "balance_loss_mlp": 1.00235879,
+      "epoch": 0.391270366139602,
+      "flos": 60869054684160.0,
+      "grad_norm": 0.9715455418942334,
+      "language_loss": 0.72094488,
+      "learning_rate": 2.7802749831540883e-06,
+      "loss": 0.74206173,
+      "num_input_tokens_seen": 70119465,
+      "step": 3254,
+      "time_per_iteration": 3.610095500946045
+    },
+    {
+      "auxiliary_loss_clip": 0.01233391,
+      "auxiliary_loss_mlp": 0.01033208,
+      "balance_loss_clip": 1.05269527,
+      "balance_loss_mlp": 1.02544129,
+      "epoch": 0.3913906090302411,
+      "flos": 21543494025600.0,
+      "grad_norm": 1.94380110816808,
+      "language_loss": 0.81875223,
+      "learning_rate": 2.7795576806942268e-06,
+      "loss": 0.84141821,
+      "num_input_tokens_seen": 70138270,
+      "step": 3255,
+      "time_per_iteration": 2.74568772315979
+    },
+    {
+      "auxiliary_loss_clip": 0.01115967,
+      "auxiliary_loss_mlp": 0.01000347,
+      "balance_loss_clip": 1.03285694,
+      "balance_loss_mlp": 0.9990713,
+      "epoch": 0.3915108519208802,
+      "flos": 49839953702400.0,
+      "grad_norm": 0.7583931958054668,
+      "language_loss": 0.54866564,
+      "learning_rate": 2.778840259976085e-06,
+      "loss": 0.56982875,
+      "num_input_tokens_seen": 70193500,
+      "step": 3256,
+      "time_per_iteration": 3.2691128253936768
+    },
+    {
+      "auxiliary_loss_clip": 0.01205205,
+      "auxiliary_loss_mlp": 0.01037553,
+      "balance_loss_clip": 1.05673313,
+      "balance_loss_mlp": 1.02855313,
+      "epoch": 0.39163109481151925,
+      "flos": 16506447960960.0,
+      "grad_norm": 2.022200921711003,
+      "language_loss": 0.77172863,
+      "learning_rate": 2.778122721108495e-06,
+      "loss": 0.79415619,
+      "num_input_tokens_seen": 70211730,
+      "step": 3257,
+      "time_per_iteration": 2.6934025287628174
+    },
+    {
+      "auxiliary_loss_clip": 0.01196573,
+      "auxiliary_loss_mlp": 0.01030169,
+      "balance_loss_clip": 1.05605304,
+      "balance_loss_mlp": 1.02122831,
+      "epoch": 0.39175133770215836,
+      "flos": 26067484177920.0,
+      "grad_norm": 1.851567760387232,
+      "language_loss": 0.88278961,
+      "learning_rate": 2.7774050642003076e-06,
+      "loss": 0.90505695,
+      "num_input_tokens_seen": 70232540,
+      "step": 3258,
+      "time_per_iteration": 2.649287700653076
+    },
+    {
+      "auxiliary_loss_clip": 0.01198145,
+      "auxiliary_loss_mlp": 0.01028096,
+      "balance_loss_clip": 1.05969059,
+      "balance_loss_mlp": 1.01920319,
+      "epoch": 0.3918715805927975,
+      "flos": 21872076664320.0,
+      "grad_norm": 3.395205991971927,
+      "language_loss": 0.93314958,
+      "learning_rate": 2.7766872893603896e-06,
+      "loss": 0.95541197,
+      "num_input_tokens_seen": 70252515,
+      "step": 3259,
+      "time_per_iteration": 2.681570053100586
+    },
+    {
+      "auxiliary_loss_clip": 0.01201983,
+      "auxiliary_loss_mlp": 0.01027459,
+      "balance_loss_clip": 1.05426633,
+      "balance_loss_mlp": 1.0191617,
+      "epoch": 0.39199182348343653,
+      "flos": 20376181837440.0,
+      "grad_norm": 1.5703160104702898,
+      "language_loss": 0.73492026,
+      "learning_rate": 2.7759693966976275e-06,
+      "loss": 0.75721467,
+      "num_input_tokens_seen": 70271020,
+      "step": 3260,
+      "time_per_iteration": 2.6273982524871826
+    },
+    {
+      "auxiliary_loss_clip": 0.0121446,
+      "auxiliary_loss_mlp": 0.01031119,
+      "balance_loss_clip": 1.05004001,
+      "balance_loss_mlp": 1.02123642,
+      "epoch": 0.39211206637407564,
+      "flos": 21683545153920.0,
+      "grad_norm": 1.9830031781049162,
+      "language_loss": 0.85021996,
+      "learning_rate": 2.7752513863209242e-06,
+      "loss": 0.87267578,
+      "num_input_tokens_seen": 70289600,
+      "step": 3261,
+      "time_per_iteration": 4.576899290084839
+    },
+    {
+      "auxiliary_loss_clip": 0.0120697,
+      "auxiliary_loss_mlp": 0.01379436,
+      "balance_loss_clip": 1.05626702,
+      "balance_loss_mlp": 1.00018358,
+      "epoch": 0.39223230926471475,
+      "flos": 21066276908160.0,
+      "grad_norm": 1.6630279942525372,
+      "language_loss": 0.84353989,
+      "learning_rate": 2.774533258339203e-06,
+      "loss": 0.86940396,
+      "num_input_tokens_seen": 70307060,
+      "step": 3262,
+      "time_per_iteration": 3.571319580078125
+    },
+    {
+      "auxiliary_loss_clip": 0.0122701,
+      "auxiliary_loss_mlp": 0.01035221,
+      "balance_loss_clip": 1.04784274,
+      "balance_loss_mlp": 1.02636361,
+      "epoch": 0.3923525521553538,
+      "flos": 17603016312960.0,
+      "grad_norm": 2.394761281548421,
+      "language_loss": 0.79570508,
+      "learning_rate": 2.7738150128614014e-06,
+      "loss": 0.81832731,
+      "num_input_tokens_seen": 70324465,
+      "step": 3263,
+      "time_per_iteration": 2.68729305267334
+    },
+    {
+      "auxiliary_loss_clip": 0.01207925,
+      "auxiliary_loss_mlp": 0.01029215,
+      "balance_loss_clip": 1.05170298,
+      "balance_loss_mlp": 1.02063179,
+      "epoch": 0.3924727950459929,
+      "flos": 20558284813440.0,
+      "grad_norm": 1.7212758849050929,
+      "language_loss": 0.89713609,
+      "learning_rate": 2.7730966499964777e-06,
+      "loss": 0.9195075,
+      "num_input_tokens_seen": 70341415,
+      "step": 3264,
+      "time_per_iteration": 2.6903035640716553
+    },
+    {
+      "auxiliary_loss_clip": 0.01194057,
+      "auxiliary_loss_mlp": 0.01031474,
+      "balance_loss_clip": 1.05523646,
+      "balance_loss_mlp": 1.02285528,
+      "epoch": 0.39259303793663197,
+      "flos": 16216110328320.0,
+      "grad_norm": 2.2934559407208392,
+      "language_loss": 0.80512464,
+      "learning_rate": 2.772378169853408e-06,
+      "loss": 0.82737994,
+      "num_input_tokens_seen": 70358985,
+      "step": 3265,
+      "time_per_iteration": 2.528808355331421
+    },
+    {
+      "auxiliary_loss_clip": 0.01222024,
+      "auxiliary_loss_mlp": 0.01033298,
+      "balance_loss_clip": 1.05458367,
+      "balance_loss_mlp": 1.02455974,
+      "epoch": 0.3927132808272711,
+      "flos": 16797001075200.0,
+      "grad_norm": 1.7225610057042937,
+      "language_loss": 0.74554884,
+      "learning_rate": 2.771659572541183e-06,
+      "loss": 0.76810205,
+      "num_input_tokens_seen": 70376915,
+      "step": 3266,
+      "time_per_iteration": 2.7215163707733154
+    },
+    {
+      "auxiliary_loss_clip": 0.01207964,
+      "auxiliary_loss_mlp": 0.01032972,
+      "balance_loss_clip": 1.05907774,
+      "balance_loss_mlp": 1.02477646,
+      "epoch": 0.3928335237179102,
+      "flos": 20267228908800.0,
+      "grad_norm": 2.2165282991155224,
+      "language_loss": 0.8682754,
+      "learning_rate": 2.7709408581688143e-06,
+      "loss": 0.89068472,
+      "num_input_tokens_seen": 70396900,
+      "step": 3267,
+      "time_per_iteration": 2.6937100887298584
+    },
+    {
+      "auxiliary_loss_clip": 0.01225287,
+      "auxiliary_loss_mlp": 0.01030438,
+      "balance_loss_clip": 1.05386448,
+      "balance_loss_mlp": 1.02209961,
+      "epoch": 0.39295376660854925,
+      "flos": 24973250209920.0,
+      "grad_norm": 1.5737636652225842,
+      "language_loss": 0.87941468,
+      "learning_rate": 2.7702220268453307e-06,
+      "loss": 0.90197194,
+      "num_input_tokens_seen": 70417260,
+      "step": 3268,
+      "time_per_iteration": 2.7207298278808594
+    },
+    {
+      "auxiliary_loss_clip": 0.01214624,
+      "auxiliary_loss_mlp": 0.01028155,
+      "balance_loss_clip": 1.05497265,
+      "balance_loss_mlp": 1.01930964,
+      "epoch": 0.39307400949918836,
+      "flos": 18697788984960.0,
+      "grad_norm": 2.0149056994562886,
+      "language_loss": 0.85261768,
+      "learning_rate": 2.7695030786797785e-06,
+      "loss": 0.87504548,
+      "num_input_tokens_seen": 70433155,
+      "step": 3269,
+      "time_per_iteration": 2.6588680744171143
+    },
+    {
+      "auxiliary_loss_clip": 0.01226453,
+      "auxiliary_loss_mlp": 0.01027103,
+      "balance_loss_clip": 1.05232048,
+      "balance_loss_mlp": 1.01810849,
+      "epoch": 0.39319425238982747,
+      "flos": 22415476590720.0,
+      "grad_norm": 2.190710563864258,
+      "language_loss": 0.74823022,
+      "learning_rate": 2.7687840137812206e-06,
+      "loss": 0.77076578,
+      "num_input_tokens_seen": 70451240,
+      "step": 3270,
+      "time_per_iteration": 3.6283226013183594
+    },
+    {
+      "auxiliary_loss_clip": 0.01088078,
+      "auxiliary_loss_mlp": 0.00999703,
+      "balance_loss_clip": 1.01586127,
+      "balance_loss_mlp": 0.99832648,
+      "epoch": 0.3933144952804665,
+      "flos": 66192954762240.0,
+      "grad_norm": 0.7960432344954764,
+      "language_loss": 0.62061656,
+      "learning_rate": 2.7680648322587395e-06,
+      "loss": 0.64149439,
+      "num_input_tokens_seen": 70516115,
+      "step": 3271,
+      "time_per_iteration": 3.232846975326538
+    },
+    {
+      "auxiliary_loss_clip": 0.01192135,
+      "auxiliary_loss_mlp": 0.01030749,
+      "balance_loss_clip": 1.05594039,
+      "balance_loss_mlp": 1.02155244,
+      "epoch": 0.39343473817110564,
+      "flos": 15487159720320.0,
+      "grad_norm": 1.9464672254886166,
+      "language_loss": 0.80997872,
+      "learning_rate": 2.7673455342214334e-06,
+      "loss": 0.83220756,
+      "num_input_tokens_seen": 70533105,
+      "step": 3272,
+      "time_per_iteration": 2.6093273162841797
+    },
+    {
+      "auxiliary_loss_clip": 0.01205361,
+      "auxiliary_loss_mlp": 0.01028894,
+      "balance_loss_clip": 1.05684829,
+      "balance_loss_mlp": 1.02093649,
+      "epoch": 0.39355498106174475,
+      "flos": 21324905809920.0,
+      "grad_norm": 2.2653910998824953,
+      "language_loss": 0.75847393,
+      "learning_rate": 2.7666261197784198e-06,
+      "loss": 0.78081644,
+      "num_input_tokens_seen": 70551920,
+      "step": 3273,
+      "time_per_iteration": 2.6299197673797607
+    },
+    {
+      "auxiliary_loss_clip": 0.01206374,
+      "auxiliary_loss_mlp": 0.0103076,
+      "balance_loss_clip": 1.05514026,
+      "balance_loss_mlp": 1.02262402,
+      "epoch": 0.3936752239523838,
+      "flos": 13296357400320.0,
+      "grad_norm": 2.0995152422676036,
+      "language_loss": 0.76844633,
+      "learning_rate": 2.7659065890388336e-06,
+      "loss": 0.79081768,
+      "num_input_tokens_seen": 70567920,
+      "step": 3274,
+      "time_per_iteration": 2.6619322299957275
+    },
+    {
+      "auxiliary_loss_clip": 0.01211194,
+      "auxiliary_loss_mlp": 0.01026311,
+      "balance_loss_clip": 1.05314684,
+      "balance_loss_mlp": 1.01822877,
+      "epoch": 0.3937954668430229,
+      "flos": 16800161472000.0,
+      "grad_norm": 1.816783936244758,
+      "language_loss": 0.8477509,
+      "learning_rate": 2.7651869421118266e-06,
+      "loss": 0.87012589,
+      "num_input_tokens_seen": 70584530,
+      "step": 3275,
+      "time_per_iteration": 2.634721040725708
+    },
+    {
+      "auxiliary_loss_clip": 0.01205724,
+      "auxiliary_loss_mlp": 0.0103776,
+      "balance_loss_clip": 1.05664659,
+      "balance_loss_mlp": 1.0290513,
+      "epoch": 0.393915709733662,
+      "flos": 21064229832960.0,
+      "grad_norm": 1.7107423441020653,
+      "language_loss": 0.82955259,
+      "learning_rate": 2.76446717910657e-06,
+      "loss": 0.85198736,
+      "num_input_tokens_seen": 70605235,
+      "step": 3276,
+      "time_per_iteration": 2.7053444385528564
+    },
+    {
+      "auxiliary_loss_clip": 0.01196956,
+      "auxiliary_loss_mlp": 0.01032401,
+      "balance_loss_clip": 1.05320323,
+      "balance_loss_mlp": 1.02430093,
+      "epoch": 0.3940359526243011,
+      "flos": 17165265264000.0,
+      "grad_norm": 2.0035761808672974,
+      "language_loss": 0.7671088,
+      "learning_rate": 2.763747300132249e-06,
+      "loss": 0.78940231,
+      "num_input_tokens_seen": 70622675,
+      "step": 3277,
+      "time_per_iteration": 2.5843214988708496
+    },
+    {
+      "auxiliary_loss_clip": 0.01193279,
+      "auxiliary_loss_mlp": 0.01032891,
+      "balance_loss_clip": 1.05615652,
+      "balance_loss_mlp": 1.0241406,
+      "epoch": 0.3941561955149402,
+      "flos": 20995856294400.0,
+      "grad_norm": 1.4925294617167175,
+      "language_loss": 0.86311591,
+      "learning_rate": 2.7630273052980704e-06,
+      "loss": 0.88537759,
+      "num_input_tokens_seen": 70643265,
+      "step": 3278,
+      "time_per_iteration": 2.622878074645996
+    },
+    {
+      "auxiliary_loss_clip": 0.01199391,
+      "auxiliary_loss_mlp": 0.01033255,
+      "balance_loss_clip": 1.05181503,
+      "balance_loss_mlp": 1.02389157,
+      "epoch": 0.39427643840557924,
+      "flos": 18843406721280.0,
+      "grad_norm": 1.9576007396947002,
+      "language_loss": 0.67076641,
+      "learning_rate": 2.7623071947132554e-06,
+      "loss": 0.69309294,
+      "num_input_tokens_seen": 70660295,
+      "step": 3279,
+      "time_per_iteration": 2.6397650241851807
+    },
+    {
+      "auxiliary_loss_clip": 0.01217087,
+      "auxiliary_loss_mlp": 0.0102877,
+      "balance_loss_clip": 1.05369806,
+      "balance_loss_mlp": 1.02049053,
+      "epoch": 0.39439668129621835,
+      "flos": 23258659426560.0,
+      "grad_norm": 2.418442902952816,
+      "language_loss": 0.78663099,
+      "learning_rate": 2.7615869684870458e-06,
+      "loss": 0.80908954,
+      "num_input_tokens_seen": 70679605,
+      "step": 3280,
+      "time_per_iteration": 2.7291457653045654
+    },
+    {
+      "auxiliary_loss_clip": 0.01200687,
+      "auxiliary_loss_mlp": 0.01031089,
+      "balance_loss_clip": 1.05598772,
+      "balance_loss_mlp": 1.02267838,
+      "epoch": 0.39451692418685746,
+      "flos": 26652289507200.0,
+      "grad_norm": 1.8186157429259928,
+      "language_loss": 0.84725213,
+      "learning_rate": 2.7608666267286986e-06,
+      "loss": 0.8695699,
+      "num_input_tokens_seen": 70699835,
+      "step": 3281,
+      "time_per_iteration": 2.657688617706299
+    },
+    {
+      "auxiliary_loss_clip": 0.01229082,
+      "auxiliary_loss_mlp": 0.01036398,
+      "balance_loss_clip": 1.04540753,
+      "balance_loss_mlp": 1.02705169,
+      "epoch": 0.3946371670774965,
+      "flos": 18258709132800.0,
+      "grad_norm": 2.5394088443284235,
+      "language_loss": 0.86897194,
+      "learning_rate": 2.760146169547489e-06,
+      "loss": 0.89162683,
+      "num_input_tokens_seen": 70716600,
+      "step": 3282,
+      "time_per_iteration": 2.8224151134490967
+    },
+    {
+      "auxiliary_loss_clip": 0.01216178,
+      "auxiliary_loss_mlp": 0.01029926,
+      "balance_loss_clip": 1.05798721,
+      "balance_loss_mlp": 1.02116418,
+      "epoch": 0.39475740996813563,
+      "flos": 24206126423040.0,
+      "grad_norm": 1.4539586838750163,
+      "language_loss": 0.76289988,
+      "learning_rate": 2.75942559705271e-06,
+      "loss": 0.78536093,
+      "num_input_tokens_seen": 70736335,
+      "step": 3283,
+      "time_per_iteration": 2.685945510864258
+    },
+    {
+      "auxiliary_loss_clip": 0.01198283,
+      "auxiliary_loss_mlp": 0.01027825,
+      "balance_loss_clip": 1.05294645,
+      "balance_loss_mlp": 1.01915264,
+      "epoch": 0.39487765285877474,
+      "flos": 19317858491520.0,
+      "grad_norm": 2.3387970320266196,
+      "language_loss": 0.8901819,
+      "learning_rate": 2.7587049093536713e-06,
+      "loss": 0.91244292,
+      "num_input_tokens_seen": 70752665,
+      "step": 3284,
+      "time_per_iteration": 2.6757798194885254
+    },
+    {
+      "auxiliary_loss_clip": 0.01208348,
+      "auxiliary_loss_mlp": 0.01034476,
+      "balance_loss_clip": 1.05706644,
+      "balance_loss_mlp": 1.0265311,
+      "epoch": 0.3949978957494138,
+      "flos": 17311744926720.0,
+      "grad_norm": 1.8459274390019014,
+      "language_loss": 0.80468535,
+      "learning_rate": 2.757984106559701e-06,
+      "loss": 0.82711357,
+      "num_input_tokens_seen": 70771650,
+      "step": 3285,
+      "time_per_iteration": 2.6225903034210205
+    },
+    {
+      "auxiliary_loss_clip": 0.01204052,
+      "auxiliary_loss_mlp": 0.01024812,
+      "balance_loss_clip": 1.05433297,
+      "balance_loss_mlp": 1.01669931,
+      "epoch": 0.3951181386400529,
+      "flos": 36317861280000.0,
+      "grad_norm": 2.112143571554361,
+      "language_loss": 0.71450925,
+      "learning_rate": 2.7572631887801446e-06,
+      "loss": 0.73679793,
+      "num_input_tokens_seen": 70793275,
+      "step": 3286,
+      "time_per_iteration": 2.7845373153686523
+    },
+    {
+      "auxiliary_loss_clip": 0.0120259,
+      "auxiliary_loss_mlp": 0.01030939,
+      "balance_loss_clip": 1.05423999,
+      "balance_loss_mlp": 1.02153397,
+      "epoch": 0.395238381530692,
+      "flos": 23110348170240.0,
+      "grad_norm": 1.7253886888894778,
+      "language_loss": 0.76656812,
+      "learning_rate": 2.7565421561243654e-06,
+      "loss": 0.78890336,
+      "num_input_tokens_seen": 70811440,
+      "step": 3287,
+      "time_per_iteration": 4.469307899475098
+    },
+    {
+      "auxiliary_loss_clip": 0.01210147,
+      "auxiliary_loss_mlp": 0.01030558,
+      "balance_loss_clip": 1.05119193,
+      "balance_loss_mlp": 1.02215993,
+      "epoch": 0.3953586244213311,
+      "flos": 24347614095360.0,
+      "grad_norm": 2.0364372944635676,
+      "language_loss": 0.8211863,
+      "learning_rate": 2.7558210087017413e-06,
+      "loss": 0.84359342,
+      "num_input_tokens_seen": 70831375,
+      "step": 3288,
+      "time_per_iteration": 3.6687800884246826
+    },
+    {
+      "auxiliary_loss_clip": 0.01215068,
+      "auxiliary_loss_mlp": 0.01031353,
+      "balance_loss_clip": 1.05449033,
+      "balance_loss_mlp": 1.02228105,
+      "epoch": 0.3954788673119702,
+      "flos": 23440080044160.0,
+      "grad_norm": 1.8821225530367587,
+      "language_loss": 0.73735607,
+      "learning_rate": 2.7550997466216724e-06,
+      "loss": 0.75982034,
+      "num_input_tokens_seen": 70849170,
+      "step": 3289,
+      "time_per_iteration": 2.7220547199249268
+    },
+    {
+      "auxiliary_loss_clip": 0.01208893,
+      "auxiliary_loss_mlp": 0.01028382,
+      "balance_loss_clip": 1.0565691,
+      "balance_loss_mlp": 1.01961398,
+      "epoch": 0.3955991102026093,
+      "flos": 17494063384320.0,
+      "grad_norm": 2.478722556457404,
+      "language_loss": 0.81140041,
+      "learning_rate": 2.7543783699935714e-06,
+      "loss": 0.83377314,
+      "num_input_tokens_seen": 70867200,
+      "step": 3290,
+      "time_per_iteration": 2.695200204849243
+    },
+    {
+      "auxiliary_loss_clip": 0.01202945,
+      "auxiliary_loss_mlp": 0.01028502,
+      "balance_loss_clip": 1.05809045,
+      "balance_loss_mlp": 1.01972246,
+      "epoch": 0.39571935309324835,
+      "flos": 18221326053120.0,
+      "grad_norm": 2.903869155579217,
+      "language_loss": 0.86070359,
+      "learning_rate": 2.753656878926872e-06,
+      "loss": 0.88301802,
+      "num_input_tokens_seen": 70883080,
+      "step": 3291,
+      "time_per_iteration": 2.5644285678863525
+    },
+    {
+      "auxiliary_loss_clip": 0.01194444,
+      "auxiliary_loss_mlp": 0.01027954,
+      "balance_loss_clip": 1.04918599,
+      "balance_loss_mlp": 1.01923943,
+      "epoch": 0.39583959598388746,
+      "flos": 17748813617280.0,
+      "grad_norm": 1.7766137679917768,
+      "language_loss": 0.74377006,
+      "learning_rate": 2.752935273531023e-06,
+      "loss": 0.76599407,
+      "num_input_tokens_seen": 70901230,
+      "step": 3292,
+      "time_per_iteration": 2.6942970752716064
+    },
+    {
+      "auxiliary_loss_clip": 0.01207507,
+      "auxiliary_loss_mlp": 0.01027662,
+      "balance_loss_clip": 1.05835199,
+      "balance_loss_mlp": 1.01823306,
+      "epoch": 0.39595983887452657,
+      "flos": 19352368483200.0,
+      "grad_norm": 1.8515965420190987,
+      "language_loss": 0.78930259,
+      "learning_rate": 2.752213553915492e-06,
+      "loss": 0.81165433,
+      "num_input_tokens_seen": 70919585,
+      "step": 3293,
+      "time_per_iteration": 2.5876359939575195
+    },
+    {
+      "auxiliary_loss_clip": 0.01100688,
+      "auxiliary_loss_mlp": 0.01007888,
+      "balance_loss_clip": 1.01289368,
+      "balance_loss_mlp": 1.0066061,
+      "epoch": 0.3960800817651656,
+      "flos": 60682282940160.0,
+      "grad_norm": 0.8216991347813991,
+      "language_loss": 0.66001761,
+      "learning_rate": 2.751491720189762e-06,
+      "loss": 0.68110335,
+      "num_input_tokens_seen": 70977695,
+      "step": 3294,
+      "time_per_iteration": 3.188378095626831
+    },
+    {
+      "auxiliary_loss_clip": 0.01210648,
+      "auxiliary_loss_mlp": 0.01379683,
+      "balance_loss_clip": 1.05434561,
+      "balance_loss_mlp": 1.00034189,
+      "epoch": 0.39620032465580474,
+      "flos": 16836718538880.0,
+      "grad_norm": 2.8020332146652063,
+      "language_loss": 0.91834581,
+      "learning_rate": 2.7507697724633364e-06,
+      "loss": 0.94424909,
+      "num_input_tokens_seen": 70994455,
+      "step": 3295,
+      "time_per_iteration": 2.6429812908172607
+    },
+    {
+      "auxiliary_loss_clip": 0.01127023,
+      "auxiliary_loss_mlp": 0.01001076,
+      "balance_loss_clip": 1.03199863,
+      "balance_loss_mlp": 0.99989623,
+      "epoch": 0.3963205675464438,
+      "flos": 69071445941760.0,
+      "grad_norm": 0.7754840901177019,
+      "language_loss": 0.54640013,
+      "learning_rate": 2.7500477108457327e-06,
+      "loss": 0.56768113,
+      "num_input_tokens_seen": 71046465,
+      "step": 3296,
+      "time_per_iteration": 3.944276809692383
+    },
+    {
+      "auxiliary_loss_clip": 0.01199835,
+      "auxiliary_loss_mlp": 0.0103506,
+      "balance_loss_clip": 1.05485988,
+      "balance_loss_mlp": 1.02676916,
+      "epoch": 0.3964408104370829,
+      "flos": 25667439431040.0,
+      "grad_norm": 1.833892895032049,
+      "language_loss": 0.80837989,
+      "learning_rate": 2.7493255354464877e-06,
+      "loss": 0.83072883,
+      "num_input_tokens_seen": 71064275,
+      "step": 3297,
+      "time_per_iteration": 2.706660747528076
+    },
+    {
+      "auxiliary_loss_clip": 0.01239286,
+      "auxiliary_loss_mlp": 0.0103379,
+      "balance_loss_clip": 1.03926027,
+      "balance_loss_mlp": 1.0251832,
+      "epoch": 0.396561053327722,
+      "flos": 24277480790400.0,
+      "grad_norm": 2.2082181409855086,
+      "language_loss": 0.76170492,
+      "learning_rate": 2.748603246375156e-06,
+      "loss": 0.78443575,
+      "num_input_tokens_seen": 71082290,
+      "step": 3298,
+      "time_per_iteration": 3.20184588432312
+    },
+    {
+      "auxiliary_loss_clip": 0.01193848,
+      "auxiliary_loss_mlp": 0.01034379,
+      "balance_loss_clip": 1.05717397,
+      "balance_loss_mlp": 1.02609396,
+      "epoch": 0.39668129621836107,
+      "flos": 20522302364160.0,
+      "grad_norm": 2.4381498096419887,
+      "language_loss": 0.69632536,
+      "learning_rate": 2.7478808437413055e-06,
+      "loss": 0.7186076,
+      "num_input_tokens_seen": 71101700,
+      "step": 3299,
+      "time_per_iteration": 2.902240514755249
+    },
+    {
+      "auxiliary_loss_clip": 0.01229438,
+      "auxiliary_loss_mlp": 0.01031801,
+      "balance_loss_clip": 1.05479932,
+      "balance_loss_mlp": 1.02341509,
+      "epoch": 0.3968015391090002,
+      "flos": 27052585649280.0,
+      "grad_norm": 2.417808204117015,
+      "language_loss": 0.6602354,
+      "learning_rate": 2.7471583276545263e-06,
+      "loss": 0.68284774,
+      "num_input_tokens_seen": 71122360,
+      "step": 3300,
+      "time_per_iteration": 2.8068692684173584
+    },
+    {
+      "auxiliary_loss_clip": 0.01211986,
+      "auxiliary_loss_mlp": 0.01035131,
+      "balance_loss_clip": 1.05345774,
+      "balance_loss_mlp": 1.02605939,
+      "epoch": 0.3969217819996393,
+      "flos": 12531819392640.0,
+      "grad_norm": 1.9125845676513624,
+      "language_loss": 0.70431918,
+      "learning_rate": 2.7464356982244224e-06,
+      "loss": 0.72679031,
+      "num_input_tokens_seen": 71140360,
+      "step": 3301,
+      "time_per_iteration": 2.631944417953491
+    },
+    {
+      "auxiliary_loss_clip": 0.01099069,
+      "auxiliary_loss_mlp": 0.01001292,
+      "balance_loss_clip": 1.02767467,
+      "balance_loss_mlp": 0.99993294,
+      "epoch": 0.39704202489027834,
+      "flos": 66241399230720.0,
+      "grad_norm": 0.774686330813944,
+      "language_loss": 0.61716628,
+      "learning_rate": 2.745712955560617e-06,
+      "loss": 0.63816988,
+      "num_input_tokens_seen": 71196565,
+      "step": 3302,
+      "time_per_iteration": 3.2028648853302
+    },
+    {
+      "auxiliary_loss_clip": 0.01235493,
+      "auxiliary_loss_mlp": 0.01036375,
+      "balance_loss_clip": 1.05019116,
+      "balance_loss_mlp": 1.02806294,
+      "epoch": 0.39716226778091746,
+      "flos": 16982982720000.0,
+      "grad_norm": 2.4364327163928436,
+      "language_loss": 0.76831526,
+      "learning_rate": 2.7449900997727496e-06,
+      "loss": 0.79103392,
+      "num_input_tokens_seen": 71214675,
+      "step": 3303,
+      "time_per_iteration": 2.7458724975585938
+    },
+    {
+      "auxiliary_loss_clip": 0.01212083,
+      "auxiliary_loss_mlp": 0.01032277,
+      "balance_loss_clip": 1.05739808,
+      "balance_loss_mlp": 1.02352679,
+      "epoch": 0.39728251067155657,
+      "flos": 23477139901440.0,
+      "grad_norm": 1.7112200377941496,
+      "language_loss": 0.84199834,
+      "learning_rate": 2.744267130970476e-06,
+      "loss": 0.86444187,
+      "num_input_tokens_seen": 71234400,
+      "step": 3304,
+      "time_per_iteration": 2.7253592014312744
+    },
+    {
+      "auxiliary_loss_clip": 0.0120309,
+      "auxiliary_loss_mlp": 0.01034373,
+      "balance_loss_clip": 1.05357504,
+      "balance_loss_mlp": 1.0255096,
+      "epoch": 0.3974027535621956,
+      "flos": 20704441253760.0,
+      "grad_norm": 1.8116375440802321,
+      "language_loss": 0.76962024,
+      "learning_rate": 2.7435440492634697e-06,
+      "loss": 0.79199487,
+      "num_input_tokens_seen": 71253725,
+      "step": 3305,
+      "time_per_iteration": 2.712003231048584
+    },
+    {
+      "auxiliary_loss_clip": 0.01211341,
+      "auxiliary_loss_mlp": 0.01030878,
+      "balance_loss_clip": 1.05344796,
+      "balance_loss_mlp": 1.02056694,
+      "epoch": 0.39752299645283473,
+      "flos": 21543278544000.0,
+      "grad_norm": 1.9621548606085406,
+      "language_loss": 0.66662335,
+      "learning_rate": 2.7428208547614228e-06,
+      "loss": 0.68904555,
+      "num_input_tokens_seen": 71273220,
+      "step": 3306,
+      "time_per_iteration": 2.6979494094848633
+    },
+    {
+      "auxiliary_loss_clip": 0.01201913,
+      "auxiliary_loss_mlp": 0.01030215,
+      "balance_loss_clip": 1.05710948,
+      "balance_loss_mlp": 1.02072573,
+      "epoch": 0.39764323934347384,
+      "flos": 19208295031680.0,
+      "grad_norm": 4.166210073227472,
+      "language_loss": 0.77457857,
+      "learning_rate": 2.742097547574043e-06,
+      "loss": 0.79689991,
+      "num_input_tokens_seen": 71291445,
+      "step": 3307,
+      "time_per_iteration": 2.6896846294403076
+    },
+    {
+      "auxiliary_loss_clip": 0.01217902,
+      "auxiliary_loss_mlp": 0.01380047,
+      "balance_loss_clip": 1.05446637,
+      "balance_loss_mlp": 1.00037777,
+      "epoch": 0.3977634822341129,
+      "flos": 20850202644480.0,
+      "grad_norm": 1.8540076089253044,
+      "language_loss": 0.77330226,
+      "learning_rate": 2.7413741278110544e-06,
+      "loss": 0.79928172,
+      "num_input_tokens_seen": 71310135,
+      "step": 3308,
+      "time_per_iteration": 2.6906967163085938
+    },
+    {
+      "auxiliary_loss_clip": 0.01214651,
+      "auxiliary_loss_mlp": 0.01034854,
+      "balance_loss_clip": 1.05517876,
+      "balance_loss_mlp": 1.02585387,
+      "epoch": 0.397883725124752,
+      "flos": 39786042038400.0,
+      "grad_norm": 2.1214546257905855,
+      "language_loss": 0.69129443,
+      "learning_rate": 2.7406505955822016e-06,
+      "loss": 0.71378946,
+      "num_input_tokens_seen": 71331160,
+      "step": 3309,
+      "time_per_iteration": 2.8096060752868652
+    },
+    {
+      "auxiliary_loss_clip": 0.01205259,
+      "auxiliary_loss_mlp": 0.01033149,
+      "balance_loss_clip": 1.05004954,
+      "balance_loss_mlp": 1.0243814,
+      "epoch": 0.39800396801539106,
+      "flos": 17379507934080.0,
+      "grad_norm": 3.2508700677277917,
+      "language_loss": 0.66181982,
+      "learning_rate": 2.7399269509972415e-06,
+      "loss": 0.68420386,
+      "num_input_tokens_seen": 71345315,
+      "step": 3310,
+      "time_per_iteration": 2.6246745586395264
+    },
+    {
+      "auxiliary_loss_clip": 0.01198709,
+      "auxiliary_loss_mlp": 0.0103654,
+      "balance_loss_clip": 1.04792595,
+      "balance_loss_mlp": 1.02756929,
+      "epoch": 0.3981242109060302,
+      "flos": 19202764337280.0,
+      "grad_norm": 2.1601236764489546,
+      "language_loss": 0.85200799,
+      "learning_rate": 2.7392031941659514e-06,
+      "loss": 0.87436044,
+      "num_input_tokens_seen": 71363160,
+      "step": 3311,
+      "time_per_iteration": 2.70896053314209
+    },
+    {
+      "auxiliary_loss_clip": 0.0121583,
+      "auxiliary_loss_mlp": 0.01035231,
+      "balance_loss_clip": 1.05930603,
+      "balance_loss_mlp": 1.02598619,
+      "epoch": 0.3982444537966693,
+      "flos": 24565124903040.0,
+      "grad_norm": 1.969159976152332,
+      "language_loss": 0.86117804,
+      "learning_rate": 2.7384793251981244e-06,
+      "loss": 0.88368869,
+      "num_input_tokens_seen": 71382145,
+      "step": 3312,
+      "time_per_iteration": 2.7041757106781006
+    },
+    {
+      "auxiliary_loss_clip": 0.01206657,
+      "auxiliary_loss_mlp": 0.01031116,
+      "balance_loss_clip": 1.05442178,
+      "balance_loss_mlp": 1.0225215,
+      "epoch": 0.39836469668730834,
+      "flos": 26213856099840.0,
+      "grad_norm": 1.798347556837734,
+      "language_loss": 0.80700487,
+      "learning_rate": 2.737755344203571e-06,
+      "loss": 0.8293826,
+      "num_input_tokens_seen": 71402095,
+      "step": 3313,
+      "time_per_iteration": 5.258257627487183
+    },
+    {
+      "auxiliary_loss_clip": 0.01205831,
+      "auxiliary_loss_mlp": 0.01040556,
+      "balance_loss_clip": 1.05766821,
+      "balance_loss_mlp": 1.03144288,
+      "epoch": 0.39848493957794745,
+      "flos": 27636134002560.0,
+      "grad_norm": 1.7356829979130446,
+      "language_loss": 0.79884458,
+      "learning_rate": 2.7370312512921186e-06,
+      "loss": 0.82130843,
+      "num_input_tokens_seen": 71423875,
+      "step": 3314,
+      "time_per_iteration": 2.7548041343688965
+    },
+    {
+      "auxiliary_loss_clip": 0.01214537,
+      "auxiliary_loss_mlp": 0.0103409,
+      "balance_loss_clip": 1.05132735,
+      "balance_loss_mlp": 1.0254178,
+      "epoch": 0.39860518246858656,
+      "flos": 12239326944000.0,
+      "grad_norm": 2.670019366342523,
+      "language_loss": 0.76481926,
+      "learning_rate": 2.736307046573611e-06,
+      "loss": 0.78730553,
+      "num_input_tokens_seen": 71439745,
+      "step": 3315,
+      "time_per_iteration": 3.525106430053711
+    },
+    {
+      "auxiliary_loss_clip": 0.0119081,
+      "auxiliary_loss_mlp": 0.01027937,
+      "balance_loss_clip": 1.05513394,
+      "balance_loss_mlp": 1.01931787,
+      "epoch": 0.3987254253592256,
+      "flos": 22379135005440.0,
+      "grad_norm": 1.5786614335780305,
+      "language_loss": 0.81548285,
+      "learning_rate": 2.73558273015791e-06,
+      "loss": 0.83767033,
+      "num_input_tokens_seen": 71459575,
+      "step": 3316,
+      "time_per_iteration": 2.63179349899292
+    },
+    {
+      "auxiliary_loss_clip": 0.01195562,
+      "auxiliary_loss_mlp": 0.01032661,
+      "balance_loss_clip": 1.05639982,
+      "balance_loss_mlp": 1.02316022,
+      "epoch": 0.3988456682498647,
+      "flos": 23514020190720.0,
+      "grad_norm": 2.3394186358133617,
+      "language_loss": 0.7058931,
+      "learning_rate": 2.734858302154894e-06,
+      "loss": 0.72817528,
+      "num_input_tokens_seen": 71481075,
+      "step": 3317,
+      "time_per_iteration": 2.6399645805358887
+    },
+    {
+      "auxiliary_loss_clip": 0.01203285,
+      "auxiliary_loss_mlp": 0.01028424,
+      "balance_loss_clip": 1.05220771,
+      "balance_loss_mlp": 1.01977491,
+      "epoch": 0.39896591114050384,
+      "flos": 19208761908480.0,
+      "grad_norm": 1.8346626346641304,
+      "language_loss": 0.76368171,
+      "learning_rate": 2.734133762674457e-06,
+      "loss": 0.78599876,
+      "num_input_tokens_seen": 71500665,
+      "step": 3318,
+      "time_per_iteration": 2.6291277408599854
+    },
+    {
+      "auxiliary_loss_clip": 0.01211191,
+      "auxiliary_loss_mlp": 0.01030814,
+      "balance_loss_clip": 1.05447257,
+      "balance_loss_mlp": 1.02117014,
+      "epoch": 0.3990861540311429,
+      "flos": 28401031146240.0,
+      "grad_norm": 16.41537794225347,
+      "language_loss": 0.70417351,
+      "learning_rate": 2.7334091118265124e-06,
+      "loss": 0.72659355,
+      "num_input_tokens_seen": 71522560,
+      "step": 3319,
+      "time_per_iteration": 2.717719554901123
+    },
+    {
+      "auxiliary_loss_clip": 0.01091481,
+      "auxiliary_loss_mlp": 0.01008258,
+      "balance_loss_clip": 1.01371741,
+      "balance_loss_mlp": 1.00689876,
+      "epoch": 0.399206396921782,
+      "flos": 61758563086080.0,
+      "grad_norm": 0.6786844052527655,
+      "language_loss": 0.57835007,
+      "learning_rate": 2.732684349720989e-06,
+      "loss": 0.59934747,
+      "num_input_tokens_seen": 71590520,
+      "step": 3320,
+      "time_per_iteration": 3.2087278366088867
+    },
+    {
+      "auxiliary_loss_clip": 0.01222581,
+      "auxiliary_loss_mlp": 0.01035567,
+      "balance_loss_clip": 1.0529058,
+      "balance_loss_mlp": 1.02671003,
+      "epoch": 0.3993266398124211,
+      "flos": 28074567409920.0,
+      "grad_norm": 1.591510665798012,
+      "language_loss": 0.75795084,
+      "learning_rate": 2.7319594764678318e-06,
+      "loss": 0.7805323,
+      "num_input_tokens_seen": 71612620,
+      "step": 3321,
+      "time_per_iteration": 3.6586902141571045
+    },
+    {
+      "auxiliary_loss_clip": 0.01229151,
+      "auxiliary_loss_mlp": 0.01030445,
+      "balance_loss_clip": 1.05137944,
+      "balance_loss_mlp": 1.02126575,
+      "epoch": 0.39944688270306017,
+      "flos": 23225083188480.0,
+      "grad_norm": 1.9945303276089918,
+      "language_loss": 0.83510149,
+      "learning_rate": 2.7312344921770044e-06,
+      "loss": 0.85769749,
+      "num_input_tokens_seen": 71634320,
+      "step": 3322,
+      "time_per_iteration": 2.782555103302002
+    },
+    {
+      "auxiliary_loss_clip": 0.01204521,
+      "auxiliary_loss_mlp": 0.01031379,
+      "balance_loss_clip": 1.0486412,
+      "balance_loss_mlp": 1.02298069,
+      "epoch": 0.3995671255936993,
+      "flos": 19390433921280.0,
+      "grad_norm": 1.7725366341778135,
+      "language_loss": 0.78255641,
+      "learning_rate": 2.7305093969584857e-06,
+      "loss": 0.80491537,
+      "num_input_tokens_seen": 71653145,
+      "step": 3323,
+      "time_per_iteration": 2.646358013153076
+    },
+    {
+      "auxiliary_loss_clip": 0.01193682,
+      "auxiliary_loss_mlp": 0.01035418,
+      "balance_loss_clip": 1.05288124,
+      "balance_loss_mlp": 1.02610779,
+      "epoch": 0.3996873684843384,
+      "flos": 23842638743040.0,
+      "grad_norm": 1.7958313681946116,
+      "language_loss": 0.79766256,
+      "learning_rate": 2.729784190922272e-06,
+      "loss": 0.81995356,
+      "num_input_tokens_seen": 71674580,
+      "step": 3324,
+      "time_per_iteration": 2.6760330200195312
+    },
+    {
+      "auxiliary_loss_clip": 0.01102166,
+      "auxiliary_loss_mlp": 0.01006969,
+      "balance_loss_clip": 1.0144031,
+      "balance_loss_mlp": 1.00561035,
+      "epoch": 0.39980761137497745,
+      "flos": 66576877280640.0,
+      "grad_norm": 0.9368724949289357,
+      "language_loss": 0.57151532,
+      "learning_rate": 2.729058874178378e-06,
+      "loss": 0.59260666,
+      "num_input_tokens_seen": 71745260,
+      "step": 3325,
+      "time_per_iteration": 3.2911148071289062
+    },
+    {
+      "auxiliary_loss_clip": 0.01217354,
+      "auxiliary_loss_mlp": 0.01028228,
+      "balance_loss_clip": 1.05723107,
+      "balance_loss_mlp": 1.01962078,
+      "epoch": 0.39992785426561656,
+      "flos": 28549162834560.0,
+      "grad_norm": 1.8864820292032582,
+      "language_loss": 0.69172508,
+      "learning_rate": 2.7283334468368315e-06,
+      "loss": 0.71418089,
+      "num_input_tokens_seen": 71766540,
+      "step": 3326,
+      "time_per_iteration": 2.758838653564453
+    },
+    {
+      "auxiliary_loss_clip": 0.01244793,
+      "auxiliary_loss_mlp": 0.01036788,
+      "balance_loss_clip": 1.03997016,
+      "balance_loss_mlp": 1.02709675,
+      "epoch": 0.4000480971562556,
+      "flos": 15049408671360.0,
+      "grad_norm": 2.050112853159813,
+      "language_loss": 0.7288847,
+      "learning_rate": 2.72760790900768e-06,
+      "loss": 0.75170046,
+      "num_input_tokens_seen": 71783125,
+      "step": 3327,
+      "time_per_iteration": 3.0247185230255127
+    },
+    {
+      "auxiliary_loss_clip": 0.01196723,
+      "auxiliary_loss_mlp": 0.01028779,
+      "balance_loss_clip": 1.06009984,
+      "balance_loss_mlp": 1.02007091,
+      "epoch": 0.4001683400468947,
+      "flos": 23915609222400.0,
+      "grad_norm": 1.8601791731772446,
+      "language_loss": 0.79090631,
+      "learning_rate": 2.7268822608009875e-06,
+      "loss": 0.81316137,
+      "num_input_tokens_seen": 71802500,
+      "step": 3328,
+      "time_per_iteration": 2.755751371383667
+    },
+    {
+      "auxiliary_loss_clip": 0.01222965,
+      "auxiliary_loss_mlp": 0.01033717,
+      "balance_loss_clip": 1.05229592,
+      "balance_loss_mlp": 1.02431166,
+      "epoch": 0.40028858293753383,
+      "flos": 24352677912960.0,
+      "grad_norm": 1.9480832805783652,
+      "language_loss": 0.77914762,
+      "learning_rate": 2.726156502326834e-06,
+      "loss": 0.80171442,
+      "num_input_tokens_seen": 71823800,
+      "step": 3329,
+      "time_per_iteration": 276.41149520874023
+    },
+    {
+      "auxiliary_loss_clip": 0.01151311,
+      "auxiliary_loss_mlp": 0.01000569,
+      "balance_loss_clip": 1.02532673,
+      "balance_loss_mlp": 0.99932355,
+      "epoch": 0.4004088258281729,
+      "flos": 66787025800320.0,
+      "grad_norm": 0.6955215586685437,
+      "language_loss": 0.60275429,
+      "learning_rate": 2.725430633695316e-06,
+      "loss": 0.62427306,
+      "num_input_tokens_seen": 71886880,
+      "step": 3330,
+      "time_per_iteration": 3.424323081970215
+    },
+    {
+      "auxiliary_loss_clip": 0.0107938,
+      "auxiliary_loss_mlp": 0.01002349,
+      "balance_loss_clip": 1.0156765,
+      "balance_loss_mlp": 1.00093067,
+      "epoch": 0.400529068718812,
+      "flos": 58598386473600.0,
+      "grad_norm": 0.8867626434740397,
+      "language_loss": 0.57890213,
+      "learning_rate": 2.7247046550165485e-06,
+      "loss": 0.59971941,
+      "num_input_tokens_seen": 71939005,
+      "step": 3331,
+      "time_per_iteration": 4.012409448623657
+    },
+    {
+      "auxiliary_loss_clip": 0.01196588,
+      "auxiliary_loss_mlp": 0.01033596,
+      "balance_loss_clip": 1.05930042,
+      "balance_loss_mlp": 1.02480435,
+      "epoch": 0.4006493116094511,
+      "flos": 25377460934400.0,
+      "grad_norm": 1.3971379711620489,
+      "language_loss": 0.75592417,
+      "learning_rate": 2.7239785664006606e-06,
+      "loss": 0.77822602,
+      "num_input_tokens_seen": 71962545,
+      "step": 3332,
+      "time_per_iteration": 2.696873188018799
+    },
+    {
+      "auxiliary_loss_clip": 0.01092048,
+      "auxiliary_loss_mlp": 0.01002013,
+      "balance_loss_clip": 1.01435292,
+      "balance_loss_mlp": 1.00055313,
+      "epoch": 0.40076955450009016,
+      "flos": 60280729822080.0,
+      "grad_norm": 0.7887488625449716,
+      "language_loss": 0.6178664,
+      "learning_rate": 2.7232523679578002e-06,
+      "loss": 0.63880694,
+      "num_input_tokens_seen": 72025625,
+      "step": 3333,
+      "time_per_iteration": 3.261148691177368
+    },
+    {
+      "auxiliary_loss_clip": 0.01200087,
+      "auxiliary_loss_mlp": 0.01035231,
+      "balance_loss_clip": 1.05587077,
+      "balance_loss_mlp": 1.02726758,
+      "epoch": 0.4008897973907293,
+      "flos": 16617268396800.0,
+      "grad_norm": 1.9045608939100733,
+      "language_loss": 0.79282475,
+      "learning_rate": 2.7225260597981295e-06,
+      "loss": 0.81517792,
+      "num_input_tokens_seen": 72043330,
+      "step": 3334,
+      "time_per_iteration": 2.6102724075317383
+    },
+    {
+      "auxiliary_loss_clip": 0.01216829,
+      "auxiliary_loss_mlp": 0.01380519,
+      "balance_loss_clip": 1.05399728,
+      "balance_loss_mlp": 1.00067306,
+      "epoch": 0.4010100402813684,
+      "flos": 15377344865280.0,
+      "grad_norm": 2.292956446006871,
+      "language_loss": 0.78529775,
+      "learning_rate": 2.721799642031831e-06,
+      "loss": 0.81127125,
+      "num_input_tokens_seen": 72059500,
+      "step": 3335,
+      "time_per_iteration": 2.754291296005249
+    },
+    {
+      "auxiliary_loss_clip": 0.01216621,
+      "auxiliary_loss_mlp": 0.01029448,
+      "balance_loss_clip": 1.05220258,
+      "balance_loss_mlp": 1.02085876,
+      "epoch": 0.40113028317200744,
+      "flos": 13298835438720.0,
+      "grad_norm": 3.0777368796339903,
+      "language_loss": 0.77691132,
+      "learning_rate": 2.721073114769101e-06,
+      "loss": 0.79937202,
+      "num_input_tokens_seen": 72077175,
+      "step": 3336,
+      "time_per_iteration": 2.9084596633911133
+    },
+    {
+      "auxiliary_loss_clip": 0.01213993,
+      "auxiliary_loss_mlp": 0.01029168,
+      "balance_loss_clip": 1.05132174,
+      "balance_loss_mlp": 1.02026939,
+      "epoch": 0.40125052606264655,
+      "flos": 20668027841280.0,
+      "grad_norm": 1.9591681894272706,
+      "language_loss": 0.75191295,
+      "learning_rate": 2.7203464781201523e-06,
+      "loss": 0.77434456,
+      "num_input_tokens_seen": 72096490,
+      "step": 3337,
+      "time_per_iteration": 2.723128318786621
+    },
+    {
+      "auxiliary_loss_clip": 0.01196872,
+      "auxiliary_loss_mlp": 0.01030924,
+      "balance_loss_clip": 1.05924726,
+      "balance_loss_mlp": 1.0224005,
+      "epoch": 0.40137076895328566,
+      "flos": 24607679541120.0,
+      "grad_norm": 2.0153715958844542,
+      "language_loss": 0.7797935,
+      "learning_rate": 2.719619732195215e-06,
+      "loss": 0.80207151,
+      "num_input_tokens_seen": 72118130,
+      "step": 3338,
+      "time_per_iteration": 3.572361469268799
+    },
+    {
+      "auxiliary_loss_clip": 0.01219905,
+      "auxiliary_loss_mlp": 0.01032034,
+      "balance_loss_clip": 1.05206108,
+      "balance_loss_mlp": 1.0230341,
+      "epoch": 0.4014910118439247,
+      "flos": 24206593299840.0,
+      "grad_norm": 1.4438582065728793,
+      "language_loss": 0.72467816,
+      "learning_rate": 2.7188928771045377e-06,
+      "loss": 0.74719763,
+      "num_input_tokens_seen": 72139450,
+      "step": 3339,
+      "time_per_iteration": 3.68753981590271
+    },
+    {
+      "auxiliary_loss_clip": 0.01212374,
+      "auxiliary_loss_mlp": 0.01033596,
+      "balance_loss_clip": 1.05148637,
+      "balance_loss_mlp": 1.02467942,
+      "epoch": 0.4016112547345638,
+      "flos": 26725080418560.0,
+      "grad_norm": 1.616355046683335,
+      "language_loss": 0.79782826,
+      "learning_rate": 2.7181659129583815e-06,
+      "loss": 0.82028794,
+      "num_input_tokens_seen": 72159040,
+      "step": 3340,
+      "time_per_iteration": 3.668099880218506
+    },
+    {
+      "auxiliary_loss_clip": 0.01197426,
+      "auxiliary_loss_mlp": 0.01028109,
+      "balance_loss_clip": 1.04719651,
+      "balance_loss_mlp": 1.01893032,
+      "epoch": 0.4017314976252029,
+      "flos": 21288025520640.0,
+      "grad_norm": 1.7104884109184806,
+      "language_loss": 0.7572242,
+      "learning_rate": 2.7174388398670276e-06,
+      "loss": 0.77947962,
+      "num_input_tokens_seen": 72178220,
+      "step": 3341,
+      "time_per_iteration": 2.76462984085083
+    },
+    {
+      "auxiliary_loss_clip": 0.01192966,
+      "auxiliary_loss_mlp": 0.01029764,
+      "balance_loss_clip": 1.0535177,
+      "balance_loss_mlp": 1.02110326,
+      "epoch": 0.401851740515842,
+      "flos": 25484690010240.0,
+      "grad_norm": 1.8552834333303814,
+      "language_loss": 0.92346448,
+      "learning_rate": 2.716711657940773e-06,
+      "loss": 0.94569176,
+      "num_input_tokens_seen": 72199230,
+      "step": 3342,
+      "time_per_iteration": 2.6172187328338623
+    },
+    {
+      "auxiliary_loss_clip": 0.01117809,
+      "auxiliary_loss_mlp": 0.01000979,
+      "balance_loss_clip": 1.01521778,
+      "balance_loss_mlp": 0.99966127,
+      "epoch": 0.4019719834064811,
+      "flos": 55395334978560.0,
+      "grad_norm": 0.8496792350614548,
+      "language_loss": 0.56447637,
+      "learning_rate": 2.7159843672899284e-06,
+      "loss": 0.58566427,
+      "num_input_tokens_seen": 72263430,
+      "step": 3343,
+      "time_per_iteration": 3.380760908126831
+    },
+    {
+      "auxiliary_loss_clip": 0.01202839,
+      "auxiliary_loss_mlp": 0.01032322,
+      "balance_loss_clip": 1.05764723,
+      "balance_loss_mlp": 1.02333939,
+      "epoch": 0.40209222629712016,
+      "flos": 18180100218240.0,
+      "grad_norm": 1.9790228293753205,
+      "language_loss": 0.81255507,
+      "learning_rate": 2.715256968024825e-06,
+      "loss": 0.8349067,
+      "num_input_tokens_seen": 72280505,
+      "step": 3344,
+      "time_per_iteration": 2.662628650665283
+    },
+    {
+      "auxiliary_loss_clip": 0.01217731,
+      "auxiliary_loss_mlp": 0.01032693,
+      "balance_loss_clip": 1.05326581,
+      "balance_loss_mlp": 1.0240922,
+      "epoch": 0.40221246918775927,
+      "flos": 25961009287680.0,
+      "grad_norm": 1.531243681774412,
+      "language_loss": 0.82344544,
+      "learning_rate": 2.7145294602558083e-06,
+      "loss": 0.84594965,
+      "num_input_tokens_seen": 72301215,
+      "step": 3345,
+      "time_per_iteration": 2.701873779296875
+    },
+    {
+      "auxiliary_loss_clip": 0.01199019,
+      "auxiliary_loss_mlp": 0.01034758,
+      "balance_loss_clip": 1.05326152,
+      "balance_loss_mlp": 1.02529252,
+      "epoch": 0.4023327120783984,
+      "flos": 33838912056960.0,
+      "grad_norm": 1.7058657417238312,
+      "language_loss": 0.70612818,
+      "learning_rate": 2.713801844093241e-06,
+      "loss": 0.72846591,
+      "num_input_tokens_seen": 72322365,
+      "step": 3346,
+      "time_per_iteration": 2.9667651653289795
+    },
+    {
+      "auxiliary_loss_clip": 0.01205315,
+      "auxiliary_loss_mlp": 0.01033348,
+      "balance_loss_clip": 1.05663991,
+      "balance_loss_mlp": 1.02450871,
+      "epoch": 0.40245295496903744,
+      "flos": 26900252069760.0,
+      "grad_norm": 2.4201767329952095,
+      "language_loss": 0.88449138,
+      "learning_rate": 2.7130741196475014e-06,
+      "loss": 0.90687799,
+      "num_input_tokens_seen": 72340495,
+      "step": 3347,
+      "time_per_iteration": 3.5816171169281006
+    },
+    {
+      "auxiliary_loss_clip": 0.0121227,
+      "auxiliary_loss_mlp": 0.01033892,
+      "balance_loss_clip": 1.05427027,
+      "balance_loss_mlp": 1.02484989,
+      "epoch": 0.40257319785967655,
+      "flos": 36902738436480.0,
+      "grad_norm": 2.0851951266850337,
+      "language_loss": 0.78841245,
+      "learning_rate": 2.7123462870289848e-06,
+      "loss": 0.81087404,
+      "num_input_tokens_seen": 72360545,
+      "step": 3348,
+      "time_per_iteration": 2.7985000610351562
+    },
+    {
+      "auxiliary_loss_clip": 0.01209531,
+      "auxiliary_loss_mlp": 0.01031048,
+      "balance_loss_clip": 1.05032492,
+      "balance_loss_mlp": 1.02273953,
+      "epoch": 0.40269344075031566,
+      "flos": 24353180703360.0,
+      "grad_norm": 1.834414462708624,
+      "language_loss": 0.80962133,
+      "learning_rate": 2.711618346348102e-06,
+      "loss": 0.8320272,
+      "num_input_tokens_seen": 72381070,
+      "step": 3349,
+      "time_per_iteration": 2.7616093158721924
+    },
+    {
+      "auxiliary_loss_clip": 0.01203442,
+      "auxiliary_loss_mlp": 0.01030762,
+      "balance_loss_clip": 1.05465984,
+      "balance_loss_mlp": 1.02287054,
+      "epoch": 0.4028136836409547,
+      "flos": 14389657614720.0,
+      "grad_norm": 1.5212862743375024,
+      "language_loss": 0.63387066,
+      "learning_rate": 2.7108902977152825e-06,
+      "loss": 0.65621269,
+      "num_input_tokens_seen": 72398970,
+      "step": 3350,
+      "time_per_iteration": 2.66650390625
+    },
+    {
+      "auxiliary_loss_clip": 0.01193956,
+      "auxiliary_loss_mlp": 0.01031503,
+      "balance_loss_clip": 1.05168438,
+      "balance_loss_mlp": 1.02195978,
+      "epoch": 0.4029339265315938,
+      "flos": 26136037284480.0,
+      "grad_norm": 2.120244546491041,
+      "language_loss": 0.74627656,
+      "learning_rate": 2.7101621412409704e-06,
+      "loss": 0.76853108,
+      "num_input_tokens_seen": 72418455,
+      "step": 3351,
+      "time_per_iteration": 2.6918280124664307
+    },
+    {
+      "auxiliary_loss_clip": 0.01191121,
+      "auxiliary_loss_mlp": 0.0103374,
+      "balance_loss_clip": 1.05445826,
+      "balance_loss_mlp": 1.02451944,
+      "epoch": 0.40305416942223293,
+      "flos": 23256325042560.0,
+      "grad_norm": 2.0228001947633554,
+      "language_loss": 0.85826814,
+      "learning_rate": 2.7094338770356256e-06,
+      "loss": 0.88051671,
+      "num_input_tokens_seen": 72437540,
+      "step": 3352,
+      "time_per_iteration": 2.6503713130950928
+    },
+    {
+      "auxiliary_loss_clip": 0.01204518,
+      "auxiliary_loss_mlp": 0.01027744,
+      "balance_loss_clip": 1.05105388,
+      "balance_loss_mlp": 1.01951265,
+      "epoch": 0.403174412312872,
+      "flos": 27089645506560.0,
+      "grad_norm": 2.1327625954536353,
+      "language_loss": 0.64067173,
+      "learning_rate": 2.708705505209726e-06,
+      "loss": 0.66299438,
+      "num_input_tokens_seen": 72458315,
+      "step": 3353,
+      "time_per_iteration": 2.8094046115875244
+    },
+    {
+      "auxiliary_loss_clip": 0.01217969,
+      "auxiliary_loss_mlp": 0.01032762,
+      "balance_loss_clip": 1.04753113,
+      "balance_loss_mlp": 1.0243336,
+      "epoch": 0.4032946552035111,
+      "flos": 21756336065280.0,
+      "grad_norm": 2.379635397106627,
+      "language_loss": 0.91723377,
+      "learning_rate": 2.7079770258737646e-06,
+      "loss": 0.93974102,
+      "num_input_tokens_seen": 72476225,
+      "step": 3354,
+      "time_per_iteration": 2.855120897293091
+    },
+    {
+      "auxiliary_loss_clip": 0.01208333,
+      "auxiliary_loss_mlp": 0.01034024,
+      "balance_loss_clip": 1.04621506,
+      "balance_loss_mlp": 1.02458847,
+      "epoch": 0.4034148980941502,
+      "flos": 17343956448000.0,
+      "grad_norm": 2.2765345006934345,
+      "language_loss": 0.75318485,
+      "learning_rate": 2.707248439138251e-06,
+      "loss": 0.77560842,
+      "num_input_tokens_seen": 72492460,
+      "step": 3355,
+      "time_per_iteration": 2.7141947746276855
+    },
+    {
+      "auxiliary_loss_clip": 0.01206894,
+      "auxiliary_loss_mlp": 0.01029977,
+      "balance_loss_clip": 1.05707979,
+      "balance_loss_mlp": 1.02080989,
+      "epoch": 0.40353514098478926,
+      "flos": 22017838055040.0,
+      "grad_norm": 8.340950010849046,
+      "language_loss": 0.65561998,
+      "learning_rate": 2.7065197451137114e-06,
+      "loss": 0.67798865,
+      "num_input_tokens_seen": 72513840,
+      "step": 3356,
+      "time_per_iteration": 2.7991058826446533
+    },
+    {
+      "auxiliary_loss_clip": 0.01206788,
+      "auxiliary_loss_mlp": 0.01028714,
+      "balance_loss_clip": 1.05307734,
+      "balance_loss_mlp": 1.01948142,
+      "epoch": 0.4036553838754284,
+      "flos": 14246446089600.0,
+      "grad_norm": 2.229758051946604,
+      "language_loss": 0.67945939,
+      "learning_rate": 2.7057909439106894e-06,
+      "loss": 0.70181441,
+      "num_input_tokens_seen": 72531695,
+      "step": 3357,
+      "time_per_iteration": 2.7707719802856445
+    },
+    {
+      "auxiliary_loss_clip": 0.0118805,
+      "auxiliary_loss_mlp": 0.01379922,
+      "balance_loss_clip": 1.05101848,
+      "balance_loss_mlp": 1.00054622,
+      "epoch": 0.40377562676606743,
+      "flos": 24790644443520.0,
+      "grad_norm": 2.2668737845931006,
+      "language_loss": 0.78215069,
+      "learning_rate": 2.7050620356397417e-06,
+      "loss": 0.80783045,
+      "num_input_tokens_seen": 72550645,
+      "step": 3358,
+      "time_per_iteration": 2.693938970565796
+    },
+    {
+      "auxiliary_loss_clip": 0.01193831,
+      "auxiliary_loss_mlp": 0.01029017,
+      "balance_loss_clip": 1.05949903,
+      "balance_loss_mlp": 1.02104771,
+      "epoch": 0.40389586965670654,
+      "flos": 24061226958720.0,
+      "grad_norm": 1.7074304287582875,
+      "language_loss": 0.72373855,
+      "learning_rate": 2.7043330204114437e-06,
+      "loss": 0.74596703,
+      "num_input_tokens_seen": 72569355,
+      "step": 3359,
+      "time_per_iteration": 2.6758944988250732
+    },
+    {
+      "auxiliary_loss_clip": 0.0118751,
+      "auxiliary_loss_mlp": 0.01026388,
+      "balance_loss_clip": 1.05312812,
+      "balance_loss_mlp": 1.01762664,
+      "epoch": 0.40401611254734565,
+      "flos": 16399613934720.0,
+      "grad_norm": 1.797298224662474,
+      "language_loss": 0.8571232,
+      "learning_rate": 2.7036038983363862e-06,
+      "loss": 0.87926215,
+      "num_input_tokens_seen": 72585960,
+      "step": 3360,
+      "time_per_iteration": 2.633817434310913
+    },
+    {
+      "auxiliary_loss_clip": 0.01194239,
+      "auxiliary_loss_mlp": 0.01031339,
+      "balance_loss_clip": 1.05284119,
+      "balance_loss_mlp": 1.02278543,
+      "epoch": 0.4041363554379847,
+      "flos": 23988220565760.0,
+      "grad_norm": 1.6661885131171386,
+      "language_loss": 0.84504324,
+      "learning_rate": 2.702874669525177e-06,
+      "loss": 0.86729896,
+      "num_input_tokens_seen": 72604440,
+      "step": 3361,
+      "time_per_iteration": 2.6904256343841553
+    },
+    {
+      "auxiliary_loss_clip": 0.01220547,
+      "auxiliary_loss_mlp": 0.01028436,
+      "balance_loss_clip": 1.05491865,
+      "balance_loss_mlp": 1.02065134,
+      "epoch": 0.4042565983286238,
+      "flos": 28401964899840.0,
+      "grad_norm": 1.9798898295106984,
+      "language_loss": 0.69770795,
+      "learning_rate": 2.7021453340884394e-06,
+      "loss": 0.7201978,
+      "num_input_tokens_seen": 72622165,
+      "step": 3362,
+      "time_per_iteration": 2.820643663406372
+    },
+    {
+      "auxiliary_loss_clip": 0.01192827,
+      "auxiliary_loss_mlp": 0.01379317,
+      "balance_loss_clip": 1.05030942,
+      "balance_loss_mlp": 1.00037813,
+      "epoch": 0.40437684121926293,
+      "flos": 17710963660800.0,
+      "grad_norm": 2.4238818313019594,
+      "language_loss": 0.73196495,
+      "learning_rate": 2.7014158921368125e-06,
+      "loss": 0.75768638,
+      "num_input_tokens_seen": 72640490,
+      "step": 3363,
+      "time_per_iteration": 2.823014259338379
+    },
+    {
+      "auxiliary_loss_clip": 0.01192637,
+      "auxiliary_loss_mlp": 0.01033962,
+      "balance_loss_clip": 1.05674541,
+      "balance_loss_mlp": 1.02559948,
+      "epoch": 0.404497084109902,
+      "flos": 24018959629440.0,
+      "grad_norm": 1.7991922824765798,
+      "language_loss": 0.85510814,
+      "learning_rate": 2.700686343780953e-06,
+      "loss": 0.87737417,
+      "num_input_tokens_seen": 72660360,
+      "step": 3364,
+      "time_per_iteration": 3.531083345413208
+    },
+    {
+      "auxiliary_loss_clip": 0.01208052,
+      "auxiliary_loss_mlp": 0.01036318,
+      "balance_loss_clip": 1.05196333,
+      "balance_loss_mlp": 1.02707958,
+      "epoch": 0.4046173270005411,
+      "flos": 22929861306240.0,
+      "grad_norm": 1.6983098090086715,
+      "language_loss": 0.87794125,
+      "learning_rate": 2.699956689131532e-06,
+      "loss": 0.9003849,
+      "num_input_tokens_seen": 72680345,
+      "step": 3365,
+      "time_per_iteration": 3.5681352615356445
+    },
+    {
+      "auxiliary_loss_clip": 0.01213579,
+      "auxiliary_loss_mlp": 0.01032992,
+      "balance_loss_clip": 1.05471659,
+      "balance_loss_mlp": 1.02437317,
+      "epoch": 0.4047375698911802,
+      "flos": 20668135582080.0,
+      "grad_norm": 2.234134179967459,
+      "language_loss": 0.85046315,
+      "learning_rate": 2.699226928299238e-06,
+      "loss": 0.87292892,
+      "num_input_tokens_seen": 72698365,
+      "step": 3366,
+      "time_per_iteration": 3.4922165870666504
+    },
+    {
+      "auxiliary_loss_clip": 0.01203234,
+      "auxiliary_loss_mlp": 0.01028432,
+      "balance_loss_clip": 1.05547118,
+      "balance_loss_mlp": 1.02020073,
+      "epoch": 0.40485781278181926,
+      "flos": 28912865996160.0,
+      "grad_norm": 2.363242545810815,
+      "language_loss": 0.78706479,
+      "learning_rate": 2.698497061394774e-06,
+      "loss": 0.80938148,
+      "num_input_tokens_seen": 72716850,
+      "step": 3367,
+      "time_per_iteration": 2.7031784057617188
+    },
+    {
+      "auxiliary_loss_clip": 0.01226383,
+      "auxiliary_loss_mlp": 0.01380315,
+      "balance_loss_clip": 1.05564702,
+      "balance_loss_mlp": 1.0004214,
+      "epoch": 0.40497805567245837,
+      "flos": 23148377694720.0,
+      "grad_norm": 1.5916435246686254,
+      "language_loss": 0.80858761,
+      "learning_rate": 2.6977670885288627e-06,
+      "loss": 0.83465457,
+      "num_input_tokens_seen": 72738250,
+      "step": 3368,
+      "time_per_iteration": 2.8026647567749023
+    },
+    {
+      "auxiliary_loss_clip": 0.01192931,
+      "auxiliary_loss_mlp": 0.01030619,
+      "balance_loss_clip": 1.04961157,
+      "balance_loss_mlp": 1.02185154,
+      "epoch": 0.4050982985630975,
+      "flos": 16289404030080.0,
+      "grad_norm": 1.7829072727447324,
+      "language_loss": 0.75295568,
+      "learning_rate": 2.6970370098122378e-06,
+      "loss": 0.77519119,
+      "num_input_tokens_seen": 72755235,
+      "step": 3369,
+      "time_per_iteration": 2.774059772491455
+    },
+    {
+      "auxiliary_loss_clip": 0.0119065,
+      "auxiliary_loss_mlp": 0.01031425,
+      "balance_loss_clip": 1.05524015,
+      "balance_loss_mlp": 1.02278793,
+      "epoch": 0.40521854145373654,
+      "flos": 34459484353920.0,
+      "grad_norm": 1.5427093727067038,
+      "language_loss": 0.86672044,
+      "learning_rate": 2.6963068253556535e-06,
+      "loss": 0.88894117,
+      "num_input_tokens_seen": 72776620,
+      "step": 3370,
+      "time_per_iteration": 2.8353428840637207
+    },
+    {
+      "auxiliary_loss_clip": 0.01208885,
+      "auxiliary_loss_mlp": 0.01027622,
+      "balance_loss_clip": 1.05492616,
+      "balance_loss_mlp": 1.01827645,
+      "epoch": 0.40533878434437565,
+      "flos": 25331099454720.0,
+      "grad_norm": 1.7851518671099327,
+      "language_loss": 0.8561272,
+      "learning_rate": 2.6955765352698763e-06,
+      "loss": 0.87849224,
+      "num_input_tokens_seen": 72796765,
+      "step": 3371,
+      "time_per_iteration": 2.6880624294281006
+    },
+    {
+      "auxiliary_loss_clip": 0.01195971,
+      "auxiliary_loss_mlp": 0.01037807,
+      "balance_loss_clip": 1.0572902,
+      "balance_loss_mlp": 1.02872872,
+      "epoch": 0.40545902723501476,
+      "flos": 15012061505280.0,
+      "grad_norm": 1.8799847453989014,
+      "language_loss": 0.731902,
+      "learning_rate": 2.6948461396656923e-06,
+      "loss": 0.7542398,
+      "num_input_tokens_seen": 72814175,
+      "step": 3372,
+      "time_per_iteration": 2.7399420738220215
+    },
+    {
+      "auxiliary_loss_clip": 0.01205094,
+      "auxiliary_loss_mlp": 0.01028391,
+      "balance_loss_clip": 1.05477107,
+      "balance_loss_mlp": 1.01951623,
+      "epoch": 0.4055792701256538,
+      "flos": 25521103422720.0,
+      "grad_norm": 2.061129388296727,
+      "language_loss": 0.74365658,
+      "learning_rate": 2.6941156386539013e-06,
+      "loss": 0.76599139,
+      "num_input_tokens_seen": 72834125,
+      "step": 3373,
+      "time_per_iteration": 3.5775911808013916
+    },
+    {
+      "auxiliary_loss_clip": 0.01206589,
+      "auxiliary_loss_mlp": 0.0103175,
+      "balance_loss_clip": 1.05716968,
+      "balance_loss_mlp": 1.02257037,
+      "epoch": 0.4056995130162929,
+      "flos": 19574583972480.0,
+      "grad_norm": 2.0090901276145394,
+      "language_loss": 0.80936009,
+      "learning_rate": 2.6933850323453203e-06,
+      "loss": 0.83174348,
+      "num_input_tokens_seen": 72852570,
+      "step": 3374,
+      "time_per_iteration": 2.6924936771392822
+    },
+    {
+      "auxiliary_loss_clip": 0.01191505,
+      "auxiliary_loss_mlp": 0.01029292,
+      "balance_loss_clip": 1.05588293,
+      "balance_loss_mlp": 1.02068567,
+      "epoch": 0.405819755906932,
+      "flos": 15413794191360.0,
+      "grad_norm": 1.849621550360638,
+      "language_loss": 0.75035918,
+      "learning_rate": 2.6926543208507806e-06,
+      "loss": 0.77256721,
+      "num_input_tokens_seen": 72871250,
+      "step": 3375,
+      "time_per_iteration": 2.545780897140503
+    },
+    {
+      "auxiliary_loss_clip": 0.01201075,
+      "auxiliary_loss_mlp": 0.0102697,
+      "balance_loss_clip": 1.05579424,
+      "balance_loss_mlp": 1.01819634,
+      "epoch": 0.4059399987975711,
+      "flos": 21433930565760.0,
+      "grad_norm": 2.514618569287911,
+      "language_loss": 0.80002594,
+      "learning_rate": 2.6919235042811316e-06,
+      "loss": 0.82230633,
+      "num_input_tokens_seen": 72890035,
+      "step": 3376,
+      "time_per_iteration": 2.632854700088501
+    },
+    {
+      "auxiliary_loss_clip": 0.01215553,
+      "auxiliary_loss_mlp": 0.01035965,
+      "balance_loss_clip": 1.05235147,
+      "balance_loss_mlp": 1.02666688,
+      "epoch": 0.4060602416882102,
+      "flos": 25556942217600.0,
+      "grad_norm": 1.9794415800511427,
+      "language_loss": 0.76646674,
+      "learning_rate": 2.691192582747237e-06,
+      "loss": 0.78898191,
+      "num_input_tokens_seen": 72909665,
+      "step": 3377,
+      "time_per_iteration": 2.822512626647949
+    },
+    {
+      "auxiliary_loss_clip": 0.01192889,
+      "auxiliary_loss_mlp": 0.01037669,
+      "balance_loss_clip": 1.05601454,
+      "balance_loss_mlp": 1.02841818,
+      "epoch": 0.40618048457884925,
+      "flos": 23766759262080.0,
+      "grad_norm": 1.8025264538450279,
+      "language_loss": 0.7383343,
+      "learning_rate": 2.6904615563599765e-06,
+      "loss": 0.76063985,
+      "num_input_tokens_seen": 72929465,
+      "step": 3378,
+      "time_per_iteration": 2.60967755317688
+    },
+    {
+      "auxiliary_loss_clip": 0.01209505,
+      "auxiliary_loss_mlp": 0.01037642,
+      "balance_loss_clip": 1.04876363,
+      "balance_loss_mlp": 1.02926159,
+      "epoch": 0.40630072746948837,
+      "flos": 17639681120640.0,
+      "grad_norm": 1.6356032604063566,
+      "language_loss": 0.83378267,
+      "learning_rate": 2.6897304252302477e-06,
+      "loss": 0.85625416,
+      "num_input_tokens_seen": 72946785,
+      "step": 3379,
+      "time_per_iteration": 2.706331968307495
+    },
+    {
+      "auxiliary_loss_clip": 0.01107944,
+      "auxiliary_loss_mlp": 0.0100852,
+      "balance_loss_clip": 1.01024234,
+      "balance_loss_mlp": 1.00713086,
+      "epoch": 0.4064209703601275,
+      "flos": 60836053063680.0,
+      "grad_norm": 0.7921635086012736,
+      "language_loss": 0.54810739,
+      "learning_rate": 2.688999189468962e-06,
+      "loss": 0.56927204,
+      "num_input_tokens_seen": 73003215,
+      "step": 3380,
+      "time_per_iteration": 3.123375177383423
+    },
+    {
+      "auxiliary_loss_clip": 0.01201802,
+      "auxiliary_loss_mlp": 0.01029478,
+      "balance_loss_clip": 1.05656719,
+      "balance_loss_mlp": 1.02078819,
+      "epoch": 0.40654121325076653,
+      "flos": 24024346669440.0,
+      "grad_norm": 2.126265591592166,
+      "language_loss": 0.76348937,
+      "learning_rate": 2.6882678491870464e-06,
+      "loss": 0.78580219,
+      "num_input_tokens_seen": 73023650,
+      "step": 3381,
+      "time_per_iteration": 2.8346452713012695
+    },
+    {
+      "auxiliary_loss_clip": 0.01205334,
+      "auxiliary_loss_mlp": 0.01030594,
+      "balance_loss_clip": 1.05584264,
+      "balance_loss_mlp": 1.02147484,
+      "epoch": 0.40666145614140564,
+      "flos": 27344252085120.0,
+      "grad_norm": 1.9144935238410492,
+      "language_loss": 0.71086645,
+      "learning_rate": 2.6875364044954453e-06,
+      "loss": 0.7332257,
+      "num_input_tokens_seen": 73043880,
+      "step": 3382,
+      "time_per_iteration": 2.716498374938965
+    },
+    {
+      "auxiliary_loss_clip": 0.01204404,
+      "auxiliary_loss_mlp": 0.01030676,
+      "balance_loss_clip": 1.04899025,
+      "balance_loss_mlp": 1.02184296,
+      "epoch": 0.40678169903204475,
+      "flos": 26176724415360.0,
+      "grad_norm": 1.4901355720319698,
+      "language_loss": 0.8236084,
+      "learning_rate": 2.6868048555051185e-06,
+      "loss": 0.84595925,
+      "num_input_tokens_seen": 73065410,
+      "step": 3383,
+      "time_per_iteration": 2.7747128009796143
+    },
+    {
+      "auxiliary_loss_clip": 0.01208793,
+      "auxiliary_loss_mlp": 0.01031955,
+      "balance_loss_clip": 1.04840124,
+      "balance_loss_mlp": 1.02313328,
+      "epoch": 0.4069019419226838,
+      "flos": 28622420622720.0,
+      "grad_norm": 3.0458773782484965,
+      "language_loss": 0.85945928,
+      "learning_rate": 2.686073202327041e-06,
+      "loss": 0.88186669,
+      "num_input_tokens_seen": 73084410,
+      "step": 3384,
+      "time_per_iteration": 2.723633050918579
+    },
+    {
+      "auxiliary_loss_clip": 0.01191778,
+      "auxiliary_loss_mlp": 0.01031533,
+      "balance_loss_clip": 1.04733431,
+      "balance_loss_mlp": 1.02303338,
+      "epoch": 0.4070221848133229,
+      "flos": 25229006023680.0,
+      "grad_norm": 1.7370553055368565,
+      "language_loss": 0.73070991,
+      "learning_rate": 2.6853414450722043e-06,
+      "loss": 0.75294304,
+      "num_input_tokens_seen": 73104075,
+      "step": 3385,
+      "time_per_iteration": 2.8412036895751953
+    },
+    {
+      "auxiliary_loss_clip": 0.01196323,
+      "auxiliary_loss_mlp": 0.01027644,
+      "balance_loss_clip": 1.05270648,
+      "balance_loss_mlp": 1.01957357,
+      "epoch": 0.40714242770396203,
+      "flos": 18405224709120.0,
+      "grad_norm": 1.613441212124173,
+      "language_loss": 0.85249817,
+      "learning_rate": 2.684609583851616e-06,
+      "loss": 0.87473786,
+      "num_input_tokens_seen": 73122250,
+      "step": 3386,
+      "time_per_iteration": 2.5978946685791016
+    },
+    {
+      "auxiliary_loss_clip": 0.01223782,
+      "auxiliary_loss_mlp": 0.01033833,
+      "balance_loss_clip": 1.04989505,
+      "balance_loss_mlp": 1.0250355,
+      "epoch": 0.4072626705946011,
+      "flos": 30228920403840.0,
+      "grad_norm": 1.5977007143966537,
+      "language_loss": 0.80788952,
+      "learning_rate": 2.683877618776297e-06,
+      "loss": 0.83046567,
+      "num_input_tokens_seen": 73144505,
+      "step": 3387,
+      "time_per_iteration": 2.894223213195801
+    },
+    {
+      "auxiliary_loss_clip": 0.01196731,
+      "auxiliary_loss_mlp": 0.01035201,
+      "balance_loss_clip": 1.04649138,
+      "balance_loss_mlp": 1.02525854,
+      "epoch": 0.4073829134852402,
+      "flos": 21834549930240.0,
+      "grad_norm": 2.3704626838442344,
+      "language_loss": 0.74284083,
+      "learning_rate": 2.6831455499572876e-06,
+      "loss": 0.76516014,
+      "num_input_tokens_seen": 73162440,
+      "step": 3388,
+      "time_per_iteration": 2.7789173126220703
+    },
+    {
+      "auxiliary_loss_clip": 0.01190102,
+      "auxiliary_loss_mlp": 0.01027095,
+      "balance_loss_clip": 1.05297363,
+      "balance_loss_mlp": 1.01837516,
+      "epoch": 0.40750315637587925,
+      "flos": 25260211964160.0,
+      "grad_norm": 3.161519408869815,
+      "language_loss": 0.77410233,
+      "learning_rate": 2.682413377505641e-06,
+      "loss": 0.79627436,
+      "num_input_tokens_seen": 73181245,
+      "step": 3389,
+      "time_per_iteration": 2.813887357711792
+    },
+    {
+      "auxiliary_loss_clip": 0.01199962,
+      "auxiliary_loss_mlp": 0.01029074,
+      "balance_loss_clip": 1.05269647,
+      "balance_loss_mlp": 1.02086616,
+      "epoch": 0.40762339926651836,
+      "flos": 19712767593600.0,
+      "grad_norm": 1.8099893761371968,
+      "language_loss": 0.76545274,
+      "learning_rate": 2.6816811015324284e-06,
+      "loss": 0.78774315,
+      "num_input_tokens_seen": 73199295,
+      "step": 3390,
+      "time_per_iteration": 3.6786630153656006
+    },
+    {
+      "auxiliary_loss_clip": 0.01075997,
+      "auxiliary_loss_mlp": 0.01000977,
+      "balance_loss_clip": 1.01316929,
+      "balance_loss_mlp": 0.99953479,
+      "epoch": 0.40774364215715747,
+      "flos": 71449307314560.0,
+      "grad_norm": 0.7995689452684275,
+      "language_loss": 0.56696904,
+      "learning_rate": 2.6809487221487343e-06,
+      "loss": 0.58773875,
+      "num_input_tokens_seen": 73258780,
+      "step": 3391,
+      "time_per_iteration": 4.0804431438446045
+    },
+    {
+      "auxiliary_loss_clip": 0.01186874,
+      "auxiliary_loss_mlp": 0.0102783,
+      "balance_loss_clip": 1.05061793,
+      "balance_loss_mlp": 1.01919293,
+      "epoch": 0.4078638850477965,
+      "flos": 15084134144640.0,
+      "grad_norm": 3.2970928757018925,
+      "language_loss": 0.82097125,
+      "learning_rate": 2.6802162394656605e-06,
+      "loss": 0.84311825,
+      "num_input_tokens_seen": 73275490,
+      "step": 3392,
+      "time_per_iteration": 2.6688954830169678
+    },
+    {
+      "auxiliary_loss_clip": 0.01200542,
+      "auxiliary_loss_mlp": 0.01030082,
+      "balance_loss_clip": 1.04885042,
+      "balance_loss_mlp": 1.02180886,
+      "epoch": 0.40798412793843564,
+      "flos": 23842890138240.0,
+      "grad_norm": 1.6497966233011037,
+      "language_loss": 0.7178672,
+      "learning_rate": 2.679483653594324e-06,
+      "loss": 0.74017346,
+      "num_input_tokens_seen": 73297260,
+      "step": 3393,
+      "time_per_iteration": 2.9294092655181885
+    },
+    {
+      "auxiliary_loss_clip": 0.01202837,
+      "auxiliary_loss_mlp": 0.01021002,
+      "balance_loss_clip": 1.05509079,
+      "balance_loss_mlp": 1.01306868,
+      "epoch": 0.40810437082907475,
+      "flos": 21065774117760.0,
+      "grad_norm": 2.014587384756688,
+      "language_loss": 0.76986015,
+      "learning_rate": 2.678750964645857e-06,
+      "loss": 0.79209858,
+      "num_input_tokens_seen": 73316340,
+      "step": 3394,
+      "time_per_iteration": 2.6368095874786377
+    },
+    {
+      "auxiliary_loss_clip": 0.01202284,
+      "auxiliary_loss_mlp": 0.010286,
+      "balance_loss_clip": 1.05767655,
+      "balance_loss_mlp": 1.01973629,
+      "epoch": 0.4082246137197138,
+      "flos": 11321377948800.0,
+      "grad_norm": 2.3310251387394874,
+      "language_loss": 0.83332366,
+      "learning_rate": 2.6780181727314094e-06,
+      "loss": 0.85563242,
+      "num_input_tokens_seen": 73331245,
+      "step": 3395,
+      "time_per_iteration": 2.7031641006469727
+    },
+    {
+      "auxiliary_loss_clip": 0.01217959,
+      "auxiliary_loss_mlp": 0.01379705,
+      "balance_loss_clip": 1.05050278,
+      "balance_loss_mlp": 1.00042593,
+      "epoch": 0.4083448566103529,
+      "flos": 19062569554560.0,
+      "grad_norm": 1.8272786486085397,
+      "language_loss": 0.78336018,
+      "learning_rate": 2.6772852779621435e-06,
+      "loss": 0.80933678,
+      "num_input_tokens_seen": 73349105,
+      "step": 3396,
+      "time_per_iteration": 2.731226682662964
+    },
+    {
+      "auxiliary_loss_clip": 0.01195631,
+      "auxiliary_loss_mlp": 0.01379498,
+      "balance_loss_clip": 1.05660415,
+      "balance_loss_mlp": 1.00046194,
+      "epoch": 0.408465099500992,
+      "flos": 23550254035200.0,
+      "grad_norm": 8.209908415193652,
+      "language_loss": 0.86751187,
+      "learning_rate": 2.676552280449239e-06,
+      "loss": 0.89326316,
+      "num_input_tokens_seen": 73368990,
+      "step": 3397,
+      "time_per_iteration": 2.757155656814575
+    },
+    {
+      "auxiliary_loss_clip": 0.01187342,
+      "auxiliary_loss_mlp": 0.0103339,
+      "balance_loss_clip": 1.05157566,
+      "balance_loss_mlp": 1.02545094,
+      "epoch": 0.4085853423916311,
+      "flos": 12750012558720.0,
+      "grad_norm": 2.7932425299604096,
+      "language_loss": 0.7526468,
+      "learning_rate": 2.6758191803038917e-06,
+      "loss": 0.77485412,
+      "num_input_tokens_seen": 73387485,
+      "step": 3398,
+      "time_per_iteration": 3.7207162380218506
+    },
+    {
+      "auxiliary_loss_clip": 0.01222668,
+      "auxiliary_loss_mlp": 0.01032182,
+      "balance_loss_clip": 1.04808259,
+      "balance_loss_mlp": 1.02346742,
+      "epoch": 0.4087055852822702,
+      "flos": 24353072962560.0,
+      "grad_norm": 1.5953093642068787,
+      "language_loss": 0.82992262,
+      "learning_rate": 2.6750859776373125e-06,
+      "loss": 0.85247111,
+      "num_input_tokens_seen": 73406940,
+      "step": 3399,
+      "time_per_iteration": 3.0622386932373047
+    },
+    {
+      "auxiliary_loss_clip": 0.01140934,
+      "auxiliary_loss_mlp": 0.00999984,
+      "balance_loss_clip": 1.01325703,
+      "balance_loss_mlp": 0.99860138,
+      "epoch": 0.4088258281729093,
+      "flos": 66387950720640.0,
+      "grad_norm": 0.771711846140246,
+      "language_loss": 0.60415214,
+      "learning_rate": 2.674352672560727e-06,
+      "loss": 0.62556136,
+      "num_input_tokens_seen": 73468385,
+      "step": 3400,
+      "time_per_iteration": 3.6253716945648193
+    },
+    {
+      "auxiliary_loss_clip": 0.01213284,
+      "auxiliary_loss_mlp": 0.01029028,
+      "balance_loss_clip": 1.05071425,
+      "balance_loss_mlp": 1.02080226,
+      "epoch": 0.40894607106354836,
+      "flos": 20449260057600.0,
+      "grad_norm": 1.6366878121295656,
+      "language_loss": 0.77107882,
+      "learning_rate": 2.673619265185377e-06,
+      "loss": 0.79350197,
+      "num_input_tokens_seen": 73488225,
+      "step": 3401,
+      "time_per_iteration": 3.1404645442962646
+    },
+    {
+      "auxiliary_loss_clip": 0.0120013,
+      "auxiliary_loss_mlp": 0.01024883,
+      "balance_loss_clip": 1.05275726,
+      "balance_loss_mlp": 1.01608539,
+      "epoch": 0.40906631395418747,
+      "flos": 27053627143680.0,
+      "grad_norm": 1.600111228447382,
+      "language_loss": 0.77969933,
+      "learning_rate": 2.672885755622521e-06,
+      "loss": 0.8019495,
+      "num_input_tokens_seen": 73510640,
+      "step": 3402,
+      "time_per_iteration": 2.7783877849578857
+    },
+    {
+      "auxiliary_loss_clip": 0.01221695,
+      "auxiliary_loss_mlp": 0.01031178,
+      "balance_loss_clip": 1.04859948,
+      "balance_loss_mlp": 1.0222671,
+      "epoch": 0.4091865568448266,
+      "flos": 25484151306240.0,
+      "grad_norm": 1.9664156411304472,
+      "language_loss": 0.70003545,
+      "learning_rate": 2.67215214398343e-06,
+      "loss": 0.72256416,
+      "num_input_tokens_seen": 73530655,
+      "step": 3403,
+      "time_per_iteration": 2.8297157287597656
+    },
+    {
+      "auxiliary_loss_clip": 0.01224254,
+      "auxiliary_loss_mlp": 0.0102801,
+      "balance_loss_clip": 1.04570639,
+      "balance_loss_mlp": 1.01950419,
+      "epoch": 0.40930679973546563,
+      "flos": 28657864368000.0,
+      "grad_norm": 2.2191004342458465,
+      "language_loss": 0.78623056,
+      "learning_rate": 2.671418430379393e-06,
+      "loss": 0.80875319,
+      "num_input_tokens_seen": 73549340,
+      "step": 3404,
+      "time_per_iteration": 2.8024959564208984
+    },
+    {
+      "auxiliary_loss_clip": 0.01187176,
+      "auxiliary_loss_mlp": 0.01026325,
+      "balance_loss_clip": 1.05255103,
+      "balance_loss_mlp": 1.01815879,
+      "epoch": 0.40942704262610474,
+      "flos": 20886292834560.0,
+      "grad_norm": 2.1902916125700247,
+      "language_loss": 0.83630848,
+      "learning_rate": 2.670684614921715e-06,
+      "loss": 0.8584435,
+      "num_input_tokens_seen": 73568315,
+      "step": 3405,
+      "time_per_iteration": 2.672760486602783
+    },
+    {
+      "auxiliary_loss_clip": 0.01205428,
+      "auxiliary_loss_mlp": 0.01026971,
+      "balance_loss_clip": 1.05011213,
+      "balance_loss_mlp": 1.01864982,
+      "epoch": 0.4095472855167438,
+      "flos": 21618080616960.0,
+      "grad_norm": 2.8227002785582713,
+      "language_loss": 0.69963342,
+      "learning_rate": 2.6699506977217128e-06,
+      "loss": 0.72195745,
+      "num_input_tokens_seen": 73588490,
+      "step": 3406,
+      "time_per_iteration": 2.717479705810547
+    },
+    {
+      "auxiliary_loss_clip": 0.01196595,
+      "auxiliary_loss_mlp": 0.01023261,
+      "balance_loss_clip": 1.05640757,
+      "balance_loss_mlp": 1.01490462,
+      "epoch": 0.4096675284073829,
+      "flos": 27926112499200.0,
+      "grad_norm": 2.0715016344311126,
+      "language_loss": 0.69953036,
+      "learning_rate": 2.6692166788907233e-06,
+      "loss": 0.72172892,
+      "num_input_tokens_seen": 73608685,
+      "step": 3407,
+      "time_per_iteration": 2.7516117095947266
+    },
+    {
+      "auxiliary_loss_clip": 0.01207894,
+      "auxiliary_loss_mlp": 0.01028154,
+      "balance_loss_clip": 1.05088973,
+      "balance_loss_mlp": 1.01948786,
+      "epoch": 0.409787771298022,
+      "flos": 19206607092480.0,
+      "grad_norm": 1.7833523599339705,
+      "language_loss": 0.76921016,
+      "learning_rate": 2.6684825585400957e-06,
+      "loss": 0.79157066,
+      "num_input_tokens_seen": 73627630,
+      "step": 3408,
+      "time_per_iteration": 2.6913795471191406
+    },
+    {
+      "auxiliary_loss_clip": 0.01098189,
+      "auxiliary_loss_mlp": 0.01007995,
+      "balance_loss_clip": 1.01425469,
+      "balance_loss_mlp": 1.00665414,
+      "epoch": 0.4099080141886611,
+      "flos": 59269234832640.0,
+      "grad_norm": 0.8151350283304957,
+      "language_loss": 0.65154117,
+      "learning_rate": 2.6677483367811947e-06,
+      "loss": 0.67260307,
+      "num_input_tokens_seen": 73687670,
+      "step": 3409,
+      "time_per_iteration": 3.356499433517456
+    },
+    {
+      "auxiliary_loss_clip": 0.01203189,
+      "auxiliary_loss_mlp": 0.010281,
+      "balance_loss_clip": 1.05377233,
+      "balance_loss_mlp": 1.0202086,
+      "epoch": 0.4100282570793002,
+      "flos": 21906443001600.0,
+      "grad_norm": 1.8656119963825792,
+      "language_loss": 0.75397396,
+      "learning_rate": 2.6670140137254028e-06,
+      "loss": 0.77628684,
+      "num_input_tokens_seen": 73707145,
+      "step": 3410,
+      "time_per_iteration": 2.693554162979126
+    },
+    {
+      "auxiliary_loss_clip": 0.01220039,
+      "auxiliary_loss_mlp": 0.0103005,
+      "balance_loss_clip": 1.04828691,
+      "balance_loss_mlp": 1.02217042,
+      "epoch": 0.4101484999699393,
+      "flos": 18551596631040.0,
+      "grad_norm": 2.2934094735908794,
+      "language_loss": 0.89269489,
+      "learning_rate": 2.666279589484115e-06,
+      "loss": 0.91519582,
+      "num_input_tokens_seen": 73725045,
+      "step": 3411,
+      "time_per_iteration": 2.8099889755249023
+    },
+    {
+      "auxiliary_loss_clip": 0.01220086,
+      "auxiliary_loss_mlp": 0.01028241,
+      "balance_loss_clip": 1.04721045,
+      "balance_loss_mlp": 1.02041519,
+      "epoch": 0.41026874286057835,
+      "flos": 19094529680640.0,
+      "grad_norm": 2.1479260817159562,
+      "language_loss": 0.81362677,
+      "learning_rate": 2.6655450641687435e-06,
+      "loss": 0.83611,
+      "num_input_tokens_seen": 73742610,
+      "step": 3412,
+      "time_per_iteration": 3.0079526901245117
+    },
+    {
+      "auxiliary_loss_clip": 0.01188675,
+      "auxiliary_loss_mlp": 0.01024044,
+      "balance_loss_clip": 1.05698776,
+      "balance_loss_mlp": 1.01574755,
+      "epoch": 0.41038898575121746,
+      "flos": 31209568588800.0,
+      "grad_norm": 1.6822411722061557,
+      "language_loss": 0.69498205,
+      "learning_rate": 2.664810437890715e-06,
+      "loss": 0.71710932,
+      "num_input_tokens_seen": 73764280,
+      "step": 3413,
+      "time_per_iteration": 2.71053409576416
+    },
+    {
+      "auxiliary_loss_clip": 0.01223027,
+      "auxiliary_loss_mlp": 0.0103263,
+      "balance_loss_clip": 1.05072224,
+      "balance_loss_mlp": 1.0245955,
+      "epoch": 0.41050922864185657,
+      "flos": 14355865895040.0,
+      "grad_norm": 2.2188841681589166,
+      "language_loss": 0.79835403,
+      "learning_rate": 2.6640757107614714e-06,
+      "loss": 0.82091069,
+      "num_input_tokens_seen": 73782375,
+      "step": 3414,
+      "time_per_iteration": 2.735241174697876
+    },
+    {
+      "auxiliary_loss_clip": 0.01206091,
+      "auxiliary_loss_mlp": 0.01029001,
+      "balance_loss_clip": 1.04947436,
+      "balance_loss_mlp": 1.0208652,
+      "epoch": 0.4106294715324956,
+      "flos": 30956290813440.0,
+      "grad_norm": 10.203036176170796,
+      "language_loss": 0.69655704,
+      "learning_rate": 2.6633408828924697e-06,
+      "loss": 0.71890795,
+      "num_input_tokens_seen": 73801240,
+      "step": 3415,
+      "time_per_iteration": 2.8856749534606934
+    },
+    {
+      "auxiliary_loss_clip": 0.01223812,
+      "auxiliary_loss_mlp": 0.01026561,
+      "balance_loss_clip": 1.05307317,
+      "balance_loss_mlp": 1.01835346,
+      "epoch": 0.41074971442313474,
+      "flos": 24457321209600.0,
+      "grad_norm": 1.533603710194307,
+      "language_loss": 0.70018935,
+      "learning_rate": 2.662605954395185e-06,
+      "loss": 0.72269309,
+      "num_input_tokens_seen": 73821200,
+      "step": 3416,
+      "time_per_iteration": 2.821831464767456
+    },
+    {
+      "auxiliary_loss_clip": 0.01199542,
+      "auxiliary_loss_mlp": 0.01028275,
+      "balance_loss_clip": 1.05274999,
+      "balance_loss_mlp": 1.02058005,
+      "epoch": 0.41086995731377385,
+      "flos": 21542991235200.0,
+      "grad_norm": 1.64364474027011,
+      "language_loss": 0.83629751,
+      "learning_rate": 2.6618709253811027e-06,
+      "loss": 0.8585757,
+      "num_input_tokens_seen": 73840655,
+      "step": 3417,
+      "time_per_iteration": 5.512585878372192
+    },
+    {
+      "auxiliary_loss_clip": 0.01184277,
+      "auxiliary_loss_mlp": 0.0103091,
+      "balance_loss_clip": 1.05452394,
+      "balance_loss_mlp": 1.02338159,
+      "epoch": 0.4109902002044129,
+      "flos": 20702753314560.0,
+      "grad_norm": 5.0688756196892095,
+      "language_loss": 0.87594807,
+      "learning_rate": 2.6611357959617277e-06,
+      "loss": 0.8980999,
+      "num_input_tokens_seen": 73860275,
+      "step": 3418,
+      "time_per_iteration": 2.764042615890503
+    },
+    {
+      "auxiliary_loss_clip": 0.01205398,
+      "auxiliary_loss_mlp": 0.01031092,
+      "balance_loss_clip": 1.0486623,
+      "balance_loss_mlp": 1.0227598,
+      "epoch": 0.411110443095052,
+      "flos": 18179992477440.0,
+      "grad_norm": 3.1170419369852698,
+      "language_loss": 0.91220236,
+      "learning_rate": 2.660400566248578e-06,
+      "loss": 0.93456721,
+      "num_input_tokens_seen": 73878400,
+      "step": 3419,
+      "time_per_iteration": 3.208944320678711
+    },
+    {
+      "auxiliary_loss_clip": 0.01215484,
+      "auxiliary_loss_mlp": 0.01030962,
+      "balance_loss_clip": 1.05085874,
+      "balance_loss_mlp": 1.02218771,
+      "epoch": 0.41123068598569107,
+      "flos": 14575244209920.0,
+      "grad_norm": 2.669164252059264,
+      "language_loss": 0.66878355,
+      "learning_rate": 2.6596652363531876e-06,
+      "loss": 0.691248,
+      "num_input_tokens_seen": 73894275,
+      "step": 3420,
+      "time_per_iteration": 2.7094786167144775
+    },
+    {
+      "auxiliary_loss_clip": 0.01187703,
+      "auxiliary_loss_mlp": 0.01026208,
+      "balance_loss_clip": 1.05467641,
+      "balance_loss_mlp": 1.01841164,
+      "epoch": 0.4113509288763302,
+      "flos": 21177995184000.0,
+      "grad_norm": 1.479731842075914,
+      "language_loss": 0.78175032,
+      "learning_rate": 2.6589298063871055e-06,
+      "loss": 0.80388945,
+      "num_input_tokens_seen": 73914450,
+      "step": 3421,
+      "time_per_iteration": 2.712232828140259
+    },
+    {
+      "auxiliary_loss_clip": 0.01187431,
+      "auxiliary_loss_mlp": 0.01031112,
+      "balance_loss_clip": 1.05564308,
+      "balance_loss_mlp": 1.02305984,
+      "epoch": 0.4114711717669693,
+      "flos": 18442212739200.0,
+      "grad_norm": 1.864308548369914,
+      "language_loss": 0.69835603,
+      "learning_rate": 2.658194276461895e-06,
+      "loss": 0.72054142,
+      "num_input_tokens_seen": 73932375,
+      "step": 3422,
+      "time_per_iteration": 2.872340202331543
+    },
+    {
+      "auxiliary_loss_clip": 0.01202584,
+      "auxiliary_loss_mlp": 0.01032979,
+      "balance_loss_clip": 1.04800701,
+      "balance_loss_mlp": 1.02394938,
+      "epoch": 0.41159141465760835,
+      "flos": 27233395735680.0,
+      "grad_norm": 2.078496262809547,
+      "language_loss": 0.66749018,
+      "learning_rate": 2.6574586466891368e-06,
+      "loss": 0.6898458,
+      "num_input_tokens_seen": 73952850,
+      "step": 3423,
+      "time_per_iteration": 2.9180591106414795
+    },
+    {
+      "auxiliary_loss_clip": 0.01207351,
+      "auxiliary_loss_mlp": 0.01379074,
+      "balance_loss_clip": 1.05115938,
+      "balance_loss_mlp": 1.00041676,
+      "epoch": 0.41171165754824746,
+      "flos": 20006876154240.0,
+      "grad_norm": 2.110125714177547,
+      "language_loss": 0.64789975,
+      "learning_rate": 2.6567229171804247e-06,
+      "loss": 0.67376399,
+      "num_input_tokens_seen": 73970735,
+      "step": 3424,
+      "time_per_iteration": 3.691019296646118
+    },
+    {
+      "auxiliary_loss_clip": 0.01218521,
+      "auxiliary_loss_mlp": 0.01027609,
+      "balance_loss_clip": 1.04635704,
+      "balance_loss_mlp": 1.01918674,
+      "epoch": 0.41183190043888657,
+      "flos": 18004318035840.0,
+      "grad_norm": 2.5552476239584765,
+      "language_loss": 0.87840778,
+      "learning_rate": 2.655987088047368e-06,
+      "loss": 0.90086913,
+      "num_input_tokens_seen": 73989080,
+      "step": 3425,
+      "time_per_iteration": 2.813671112060547
+    },
+    {
+      "auxiliary_loss_clip": 0.01200566,
+      "auxiliary_loss_mlp": 0.0102853,
+      "balance_loss_clip": 1.0508604,
+      "balance_loss_mlp": 1.02025056,
+      "epoch": 0.4119521433295256,
+      "flos": 27163370171520.0,
+      "grad_norm": 2.01156157001667,
+      "language_loss": 0.78910196,
+      "learning_rate": 2.6552511594015912e-06,
+      "loss": 0.8113929,
+      "num_input_tokens_seen": 74009470,
+      "step": 3426,
+      "time_per_iteration": 2.8940415382385254
+    },
+    {
+      "auxiliary_loss_clip": 0.01201006,
+      "auxiliary_loss_mlp": 0.0102736,
+      "balance_loss_clip": 1.04812455,
+      "balance_loss_mlp": 1.01831186,
+      "epoch": 0.41207238622016473,
+      "flos": 15122020014720.0,
+      "grad_norm": 2.485940813283007,
+      "language_loss": 0.8521955,
+      "learning_rate": 2.654515131354735e-06,
+      "loss": 0.87447917,
+      "num_input_tokens_seen": 74027735,
+      "step": 3427,
+      "time_per_iteration": 2.651275873184204
+    },
+    {
+      "auxiliary_loss_clip": 0.01218547,
+      "auxiliary_loss_mlp": 0.01032274,
+      "balance_loss_clip": 1.05309153,
+      "balance_loss_mlp": 1.02379823,
+      "epoch": 0.41219262911080384,
+      "flos": 27052872958080.0,
+      "grad_norm": 1.800905393913781,
+      "language_loss": 0.85454088,
+      "learning_rate": 2.653779004018453e-06,
+      "loss": 0.87704903,
+      "num_input_tokens_seen": 74048300,
+      "step": 3428,
+      "time_per_iteration": 2.752397060394287
+    },
+    {
+      "auxiliary_loss_clip": 0.01195705,
+      "auxiliary_loss_mlp": 0.01026327,
+      "balance_loss_clip": 1.04985809,
+      "balance_loss_mlp": 1.018507,
+      "epoch": 0.4123128720014429,
+      "flos": 24686360282880.0,
+      "grad_norm": 1.8159327681801933,
+      "language_loss": 0.81988585,
+      "learning_rate": 2.653042777504417e-06,
+      "loss": 0.84210622,
+      "num_input_tokens_seen": 74070890,
+      "step": 3429,
+      "time_per_iteration": 2.7150356769561768
+    },
+    {
+      "auxiliary_loss_clip": 0.01213578,
+      "auxiliary_loss_mlp": 0.01033254,
+      "balance_loss_clip": 1.05191028,
+      "balance_loss_mlp": 1.02437329,
+      "epoch": 0.412433114892082,
+      "flos": 26244774731520.0,
+      "grad_norm": 1.6974683326309137,
+      "language_loss": 0.79685104,
+      "learning_rate": 2.6523064519243105e-06,
+      "loss": 0.81931937,
+      "num_input_tokens_seen": 74090460,
+      "step": 3430,
+      "time_per_iteration": 2.700160026550293
+    },
+    {
+      "auxiliary_loss_clip": 0.01198792,
+      "auxiliary_loss_mlp": 0.01033421,
+      "balance_loss_clip": 1.05453014,
+      "balance_loss_mlp": 1.02524328,
+      "epoch": 0.4125533577827211,
+      "flos": 21361031913600.0,
+      "grad_norm": 1.9894355173751834,
+      "language_loss": 0.79275322,
+      "learning_rate": 2.6515700273898333e-06,
+      "loss": 0.8150754,
+      "num_input_tokens_seen": 74108335,
+      "step": 3431,
+      "time_per_iteration": 2.6152024269104004
+    },
+    {
+      "auxiliary_loss_clip": 0.01195146,
+      "auxiliary_loss_mlp": 0.01031083,
+      "balance_loss_clip": 1.0529139,
+      "balance_loss_mlp": 1.02269101,
+      "epoch": 0.4126736006733602,
+      "flos": 26067556005120.0,
+      "grad_norm": 1.9967506329501028,
+      "language_loss": 0.68912137,
+      "learning_rate": 2.6508335040127018e-06,
+      "loss": 0.71138364,
+      "num_input_tokens_seen": 74128030,
+      "step": 3432,
+      "time_per_iteration": 2.735490322113037
+    },
+    {
+      "auxiliary_loss_clip": 0.01201589,
+      "auxiliary_loss_mlp": 0.01029905,
+      "balance_loss_clip": 1.05377507,
+      "balance_loss_mlp": 1.02191234,
+      "epoch": 0.4127938435639993,
+      "flos": 25666146541440.0,
+      "grad_norm": 1.5277391704053904,
+      "language_loss": 0.77370036,
+      "learning_rate": 2.6500968819046446e-06,
+      "loss": 0.79601538,
+      "num_input_tokens_seen": 74148330,
+      "step": 3433,
+      "time_per_iteration": 2.722261667251587
+    },
+    {
+      "auxiliary_loss_clip": 0.01197295,
+      "auxiliary_loss_mlp": 0.01029055,
+      "balance_loss_clip": 1.04540455,
+      "balance_loss_mlp": 1.02166426,
+      "epoch": 0.4129140864546384,
+      "flos": 17995914253440.0,
+      "grad_norm": 2.5056609853565557,
+      "language_loss": 0.59298784,
+      "learning_rate": 2.649360161177408e-06,
+      "loss": 0.6152513,
+      "num_input_tokens_seen": 74163390,
+      "step": 3434,
+      "time_per_iteration": 2.6706948280334473
+    },
+    {
+      "auxiliary_loss_clip": 0.01201838,
+      "auxiliary_loss_mlp": 0.01026091,
+      "balance_loss_clip": 1.05225134,
+      "balance_loss_mlp": 1.0173527,
+      "epoch": 0.41303432934527745,
+      "flos": 23732895715200.0,
+      "grad_norm": 1.7277683483470918,
+      "language_loss": 0.73422283,
+      "learning_rate": 2.6486233419427504e-06,
+      "loss": 0.75650215,
+      "num_input_tokens_seen": 74183205,
+      "step": 3435,
+      "time_per_iteration": 2.672712564468384
+    },
+    {
+      "auxiliary_loss_clip": 0.01201944,
+      "auxiliary_loss_mlp": 0.01033295,
+      "balance_loss_clip": 1.05087376,
+      "balance_loss_mlp": 1.02462256,
+      "epoch": 0.41315457223591656,
+      "flos": 19755286318080.0,
+      "grad_norm": 2.065553439936676,
+      "language_loss": 0.75140262,
+      "learning_rate": 2.6478864243124484e-06,
+      "loss": 0.77375495,
+      "num_input_tokens_seen": 74202870,
+      "step": 3436,
+      "time_per_iteration": 2.704228162765503
+    },
+    {
+      "auxiliary_loss_clip": 0.01194815,
+      "auxiliary_loss_mlp": 0.01029409,
+      "balance_loss_clip": 1.05014014,
+      "balance_loss_mlp": 1.02102256,
+      "epoch": 0.4132748151265556,
+      "flos": 20923316778240.0,
+      "grad_norm": 2.2366867513589246,
+      "language_loss": 0.85391927,
+      "learning_rate": 2.6471494083982903e-06,
+      "loss": 0.87616146,
+      "num_input_tokens_seen": 74222255,
+      "step": 3437,
+      "time_per_iteration": 2.7486050128936768
+    },
+    {
+      "auxiliary_loss_clip": 0.01215804,
+      "auxiliary_loss_mlp": 0.01027112,
+      "balance_loss_clip": 1.04853678,
+      "balance_loss_mlp": 1.01904774,
+      "epoch": 0.4133950580171947,
+      "flos": 32232520016640.0,
+      "grad_norm": 1.720131492170453,
+      "language_loss": 0.74724275,
+      "learning_rate": 2.6464122943120818e-06,
+      "loss": 0.76967192,
+      "num_input_tokens_seen": 74242480,
+      "step": 3438,
+      "time_per_iteration": 2.811661958694458
+    },
+    {
+      "auxiliary_loss_clip": 0.01212741,
+      "auxiliary_loss_mlp": 0.01032748,
+      "balance_loss_clip": 1.051126,
+      "balance_loss_mlp": 1.02460039,
+      "epoch": 0.41351530090783384,
+      "flos": 23292487059840.0,
+      "grad_norm": 3.707660950141741,
+      "language_loss": 0.826141,
+      "learning_rate": 2.645675082165642e-06,
+      "loss": 0.84859592,
+      "num_input_tokens_seen": 74258690,
+      "step": 3439,
+      "time_per_iteration": 2.8651278018951416
+    },
+    {
+      "auxiliary_loss_clip": 0.01205336,
+      "auxiliary_loss_mlp": 0.01040165,
+      "balance_loss_clip": 1.05167758,
+      "balance_loss_mlp": 1.0320586,
+      "epoch": 0.4136355437984729,
+      "flos": 25593571111680.0,
+      "grad_norm": 2.041983846223122,
+      "language_loss": 0.75659931,
+      "learning_rate": 2.644937772070806e-06,
+      "loss": 0.77905428,
+      "num_input_tokens_seen": 74277135,
+      "step": 3440,
+      "time_per_iteration": 2.7659056186676025
+    },
+    {
+      "auxiliary_loss_clip": 0.01190835,
+      "auxiliary_loss_mlp": 0.0102666,
+      "balance_loss_clip": 1.05651021,
+      "balance_loss_mlp": 1.01854753,
+      "epoch": 0.413755786689112,
+      "flos": 19828615933440.0,
+      "grad_norm": 2.500977137684729,
+      "language_loss": 0.83750218,
+      "learning_rate": 2.6442003641394225e-06,
+      "loss": 0.85967714,
+      "num_input_tokens_seen": 74294730,
+      "step": 3441,
+      "time_per_iteration": 2.6319055557250977
+    },
+    {
+      "auxiliary_loss_clip": 0.01200607,
+      "auxiliary_loss_mlp": 0.01029925,
+      "balance_loss_clip": 1.04950821,
+      "balance_loss_mlp": 1.02241516,
+      "epoch": 0.4138760295797511,
+      "flos": 26870446759680.0,
+      "grad_norm": 1.4350297262070715,
+      "language_loss": 0.84200335,
+      "learning_rate": 2.643462858483356e-06,
+      "loss": 0.86430871,
+      "num_input_tokens_seen": 74315015,
+      "step": 3442,
+      "time_per_iteration": 3.6295430660247803
+    },
+    {
+      "auxiliary_loss_clip": 0.0121645,
+      "auxiliary_loss_mlp": 0.01030552,
+      "balance_loss_clip": 1.0472703,
+      "balance_loss_mlp": 1.02182591,
+      "epoch": 0.41399627247039017,
+      "flos": 16399254798720.0,
+      "grad_norm": 1.9287557261580761,
+      "language_loss": 0.72770005,
+      "learning_rate": 2.6427252552144856e-06,
+      "loss": 0.75017011,
+      "num_input_tokens_seen": 74333665,
+      "step": 3443,
+      "time_per_iteration": 4.716650009155273
+    },
+    {
+      "auxiliary_loss_clip": 0.011886,
+      "auxiliary_loss_mlp": 0.01030342,
+      "balance_loss_clip": 1.05444098,
+      "balance_loss_mlp": 1.02127659,
+      "epoch": 0.4141165153610293,
+      "flos": 22930220442240.0,
+      "grad_norm": 2.0710385311808923,
+      "language_loss": 0.75170314,
+      "learning_rate": 2.6419875544447044e-06,
+      "loss": 0.77389252,
+      "num_input_tokens_seen": 74355065,
+      "step": 3444,
+      "time_per_iteration": 2.6641647815704346
+    },
+    {
+      "auxiliary_loss_clip": 0.01189486,
+      "auxiliary_loss_mlp": 0.01027561,
+      "balance_loss_clip": 1.05464447,
+      "balance_loss_mlp": 1.01947832,
+      "epoch": 0.4142367582516684,
+      "flos": 25192556697600.0,
+      "grad_norm": 1.7337846194868032,
+      "language_loss": 0.7172122,
+      "learning_rate": 2.6412497562859218e-06,
+      "loss": 0.73938268,
+      "num_input_tokens_seen": 74376345,
+      "step": 3445,
+      "time_per_iteration": 2.6600332260131836
+    },
+    {
+      "auxiliary_loss_clip": 0.0120083,
+      "auxiliary_loss_mlp": 0.01031199,
+      "balance_loss_clip": 1.05177927,
+      "balance_loss_mlp": 1.02311099,
+      "epoch": 0.41435700114230745,
+      "flos": 21690476478720.0,
+      "grad_norm": 2.168725442612817,
+      "language_loss": 0.75880009,
+      "learning_rate": 2.6405118608500617e-06,
+      "loss": 0.78112036,
+      "num_input_tokens_seen": 74395170,
+      "step": 3446,
+      "time_per_iteration": 2.6451661586761475
+    },
+    {
+      "auxiliary_loss_clip": 0.01209731,
+      "auxiliary_loss_mlp": 0.01028719,
+      "balance_loss_clip": 1.05397654,
+      "balance_loss_mlp": 1.02102995,
+      "epoch": 0.41447724403294656,
+      "flos": 25995160143360.0,
+      "grad_norm": 1.7399846118843478,
+      "language_loss": 0.8153553,
+      "learning_rate": 2.6397738682490613e-06,
+      "loss": 0.83773983,
+      "num_input_tokens_seen": 74416070,
+      "step": 3447,
+      "time_per_iteration": 2.7872979640960693
+    },
+    {
+      "auxiliary_loss_clip": 0.0118705,
+      "auxiliary_loss_mlp": 0.01024019,
+      "balance_loss_clip": 1.05295181,
+      "balance_loss_mlp": 1.01584423,
+      "epoch": 0.41459748692358567,
+      "flos": 18259678800000.0,
+      "grad_norm": 1.681168694219274,
+      "language_loss": 0.75343156,
+      "learning_rate": 2.6390357785948734e-06,
+      "loss": 0.77554226,
+      "num_input_tokens_seen": 74433185,
+      "step": 3448,
+      "time_per_iteration": 2.5828216075897217
+    },
+    {
+      "auxiliary_loss_clip": 0.01198059,
+      "auxiliary_loss_mlp": 0.0103218,
+      "balance_loss_clip": 1.05345523,
+      "balance_loss_mlp": 1.02348351,
+      "epoch": 0.4147177298142247,
+      "flos": 24168456034560.0,
+      "grad_norm": 1.682749603571415,
+      "language_loss": 0.80404335,
+      "learning_rate": 2.6382975919994667e-06,
+      "loss": 0.82634568,
+      "num_input_tokens_seen": 74453760,
+      "step": 3449,
+      "time_per_iteration": 2.757143020629883
+    },
+    {
+      "auxiliary_loss_clip": 0.01204617,
+      "auxiliary_loss_mlp": 0.01026351,
+      "balance_loss_clip": 1.04925013,
+      "balance_loss_mlp": 1.01926446,
+      "epoch": 0.41483797270486383,
+      "flos": 20084659056000.0,
+      "grad_norm": 1.658252795177755,
+      "language_loss": 0.73068678,
+      "learning_rate": 2.637559308574822e-06,
+      "loss": 0.75299644,
+      "num_input_tokens_seen": 74473505,
+      "step": 3450,
+      "time_per_iteration": 3.5558228492736816
+    },
+    {
+      "auxiliary_loss_clip": 0.01187357,
+      "auxiliary_loss_mlp": 0.01026076,
+      "balance_loss_clip": 1.05448747,
+      "balance_loss_mlp": 1.01835179,
+      "epoch": 0.4149582155955029,
+      "flos": 30081040110720.0,
+      "grad_norm": 4.746911007180487,
+      "language_loss": 0.71355438,
+      "learning_rate": 2.6368209284329376e-06,
+      "loss": 0.73568881,
+      "num_input_tokens_seen": 74494135,
+      "step": 3451,
+      "time_per_iteration": 2.6828298568725586
+    },
+    {
+      "auxiliary_loss_clip": 0.01194601,
+      "auxiliary_loss_mlp": 0.01030407,
+      "balance_loss_clip": 1.05138326,
+      "balance_loss_mlp": 1.02267587,
+      "epoch": 0.415078458486142,
+      "flos": 16764394504320.0,
+      "grad_norm": 1.8638737549216946,
+      "language_loss": 0.75619918,
+      "learning_rate": 2.636082451685825e-06,
+      "loss": 0.77844924,
+      "num_input_tokens_seen": 74512335,
+      "step": 3452,
+      "time_per_iteration": 2.622297525405884
+    },
+    {
+      "auxiliary_loss_clip": 0.01212351,
+      "auxiliary_loss_mlp": 0.01026323,
+      "balance_loss_clip": 1.05540073,
+      "balance_loss_mlp": 1.01861048,
+      "epoch": 0.4151987013767811,
+      "flos": 26033692458240.0,
+      "grad_norm": 1.500676047819425,
+      "language_loss": 0.86631602,
+      "learning_rate": 2.6353438784455094e-06,
+      "loss": 0.88870275,
+      "num_input_tokens_seen": 74535620,
+      "step": 3453,
+      "time_per_iteration": 2.75594425201416
+    },
+    {
+      "auxiliary_loss_clip": 0.01201087,
+      "auxiliary_loss_mlp": 0.01028407,
+      "balance_loss_clip": 1.05155003,
+      "balance_loss_mlp": 1.01962125,
+      "epoch": 0.41531894426742016,
+      "flos": 24608002763520.0,
+      "grad_norm": 2.898982427893938,
+      "language_loss": 0.71559393,
+      "learning_rate": 2.6346052088240326e-06,
+      "loss": 0.73788893,
+      "num_input_tokens_seen": 74555140,
+      "step": 3454,
+      "time_per_iteration": 2.753369092941284
+    },
+    {
+      "auxiliary_loss_clip": 0.01206397,
+      "auxiliary_loss_mlp": 0.01028683,
+      "balance_loss_clip": 1.05131292,
+      "balance_loss_mlp": 1.01997519,
+      "epoch": 0.4154391871580593,
+      "flos": 14975791747200.0,
+      "grad_norm": 2.438404899284516,
+      "language_loss": 0.7708357,
+      "learning_rate": 2.63386644293345e-06,
+      "loss": 0.79318655,
+      "num_input_tokens_seen": 74571485,
+      "step": 3455,
+      "time_per_iteration": 2.630821704864502
+    },
+    {
+      "auxiliary_loss_clip": 0.01206158,
+      "auxiliary_loss_mlp": 0.01029379,
+      "balance_loss_clip": 1.04759932,
+      "balance_loss_mlp": 1.02150488,
+      "epoch": 0.4155594300486984,
+      "flos": 14647173194880.0,
+      "grad_norm": 2.181352954359362,
+      "language_loss": 0.82779402,
+      "learning_rate": 2.633127580885833e-06,
+      "loss": 0.85014939,
+      "num_input_tokens_seen": 74585985,
+      "step": 3456,
+      "time_per_iteration": 2.7460341453552246
+    },
+    {
+      "auxiliary_loss_clip": 0.01187253,
+      "auxiliary_loss_mlp": 0.01030379,
+      "balance_loss_clip": 1.05615401,
+      "balance_loss_mlp": 1.02265763,
+      "epoch": 0.41567967293933744,
+      "flos": 29497276275840.0,
+      "grad_norm": 4.406912470410802,
+      "language_loss": 0.64860368,
+      "learning_rate": 2.632388622793265e-06,
+      "loss": 0.67078006,
+      "num_input_tokens_seen": 74605140,
+      "step": 3457,
+      "time_per_iteration": 2.7521517276763916
+    },
+    {
+      "auxiliary_loss_clip": 0.01196127,
+      "auxiliary_loss_mlp": 0.01034232,
+      "balance_loss_clip": 1.05502987,
+      "balance_loss_mlp": 1.02605772,
+      "epoch": 0.41579991582997655,
+      "flos": 19238387650560.0,
+      "grad_norm": 1.7088214291503527,
+      "language_loss": 0.68173695,
+      "learning_rate": 2.6316495687678457e-06,
+      "loss": 0.70404059,
+      "num_input_tokens_seen": 74623790,
+      "step": 3458,
+      "time_per_iteration": 2.6478748321533203
+    },
+    {
+      "auxiliary_loss_clip": 0.01214423,
+      "auxiliary_loss_mlp": 0.01030636,
+      "balance_loss_clip": 1.04643881,
+      "balance_loss_mlp": 1.02252984,
+      "epoch": 0.41592015872061566,
+      "flos": 24462061804800.0,
+      "grad_norm": 2.226290221428258,
+      "language_loss": 0.7658577,
+      "learning_rate": 2.6309104189216887e-06,
+      "loss": 0.78830826,
+      "num_input_tokens_seen": 74641355,
+      "step": 3459,
+      "time_per_iteration": 2.744542121887207
+    },
+    {
+      "auxiliary_loss_clip": 0.01198943,
+      "auxiliary_loss_mlp": 0.0137941,
+      "balance_loss_clip": 1.04849482,
+      "balance_loss_mlp": 1.00032842,
+      "epoch": 0.4160404016112547,
+      "flos": 20775651966720.0,
+      "grad_norm": 4.130141062434331,
+      "language_loss": 0.74354899,
+      "learning_rate": 2.630171173366923e-06,
+      "loss": 0.76933253,
+      "num_input_tokens_seen": 74657155,
+      "step": 3460,
+      "time_per_iteration": 2.6991186141967773
+    },
+    {
+      "auxiliary_loss_clip": 0.01221803,
+      "auxiliary_loss_mlp": 0.01029038,
+      "balance_loss_clip": 1.04942381,
+      "balance_loss_mlp": 1.02079487,
+      "epoch": 0.41616064450189383,
+      "flos": 13916462820480.0,
+      "grad_norm": 2.501213498360814,
+      "language_loss": 0.74332726,
+      "learning_rate": 2.629431832215691e-06,
+      "loss": 0.7658357,
+      "num_input_tokens_seen": 74671960,
+      "step": 3461,
+      "time_per_iteration": 2.690575361251831
+    },
+    {
+      "auxiliary_loss_clip": 0.01200693,
+      "auxiliary_loss_mlp": 0.0103315,
+      "balance_loss_clip": 1.05036747,
+      "balance_loss_mlp": 1.02506208,
+      "epoch": 0.41628088739253294,
+      "flos": 20010826650240.0,
+      "grad_norm": 1.6153273028566024,
+      "language_loss": 0.86842799,
+      "learning_rate": 2.628692395580151e-06,
+      "loss": 0.89076638,
+      "num_input_tokens_seen": 74692050,
+      "step": 3462,
+      "time_per_iteration": 2.6694610118865967
+    },
+    {
+      "auxiliary_loss_clip": 0.01208138,
+      "auxiliary_loss_mlp": 0.01026929,
+      "balance_loss_clip": 1.0443821,
+      "balance_loss_mlp": 1.01832771,
+      "epoch": 0.416401130283172,
+      "flos": 29168801377920.0,
+      "grad_norm": 1.6375555415946759,
+      "language_loss": 0.79305333,
+      "learning_rate": 2.6279528635724747e-06,
+      "loss": 0.815404,
+      "num_input_tokens_seen": 74712205,
+      "step": 3463,
+      "time_per_iteration": 2.821949005126953
+    },
+    {
+      "auxiliary_loss_clip": 0.01193574,
+      "auxiliary_loss_mlp": 0.01028286,
+      "balance_loss_clip": 1.04967713,
+      "balance_loss_mlp": 1.01948237,
+      "epoch": 0.4165213731738111,
+      "flos": 16246813478400.0,
+      "grad_norm": 2.428302421844926,
+      "language_loss": 0.78976142,
+      "learning_rate": 2.627213236304848e-06,
+      "loss": 0.81198001,
+      "num_input_tokens_seen": 74729005,
+      "step": 3464,
+      "time_per_iteration": 2.6347429752349854
+    },
+    {
+      "auxiliary_loss_clip": 0.01198601,
+      "auxiliary_loss_mlp": 0.0103186,
+      "balance_loss_clip": 1.05336428,
+      "balance_loss_mlp": 1.02381921,
+      "epoch": 0.4166416160644502,
+      "flos": 33765438787200.0,
+      "grad_norm": 2.2583500536290484,
+      "language_loss": 0.70779884,
+      "learning_rate": 2.626473513889472e-06,
+      "loss": 0.73010343,
+      "num_input_tokens_seen": 74751385,
+      "step": 3465,
+      "time_per_iteration": 2.751121759414673
+    },
+    {
+      "auxiliary_loss_clip": 0.011863,
+      "auxiliary_loss_mlp": 0.01028316,
+      "balance_loss_clip": 1.05073261,
+      "balance_loss_mlp": 1.02067208,
+      "epoch": 0.41676185895508927,
+      "flos": 20917498775040.0,
+      "grad_norm": 1.7960620086749977,
+      "language_loss": 0.82488525,
+      "learning_rate": 2.625733696438562e-06,
+      "loss": 0.84703147,
+      "num_input_tokens_seen": 74768890,
+      "step": 3466,
+      "time_per_iteration": 2.7381417751312256
+    },
+    {
+      "auxiliary_loss_clip": 0.0120254,
+      "auxiliary_loss_mlp": 0.01037456,
+      "balance_loss_clip": 1.05186391,
+      "balance_loss_mlp": 1.02921903,
+      "epoch": 0.4168821018457284,
+      "flos": 18406122549120.0,
+      "grad_norm": 1.639370510428344,
+      "language_loss": 0.752446,
+      "learning_rate": 2.6249937840643476e-06,
+      "loss": 0.77484602,
+      "num_input_tokens_seen": 74787195,
+      "step": 3467,
+      "time_per_iteration": 2.717050313949585
+    },
+    {
+      "auxiliary_loss_clip": 0.0119021,
+      "auxiliary_loss_mlp": 0.01379345,
+      "balance_loss_clip": 1.05773103,
+      "balance_loss_mlp": 1.00038493,
+      "epoch": 0.41700234473636744,
+      "flos": 18698399516160.0,
+      "grad_norm": 2.0300511707126736,
+      "language_loss": 0.66843677,
+      "learning_rate": 2.6242537768790733e-06,
+      "loss": 0.69413227,
+      "num_input_tokens_seen": 74806350,
+      "step": 3468,
+      "time_per_iteration": 2.578343391418457
+    },
+    {
+      "auxiliary_loss_clip": 0.01201239,
+      "auxiliary_loss_mlp": 0.01031018,
+      "balance_loss_clip": 1.05632854,
+      "balance_loss_mlp": 1.02239943,
+      "epoch": 0.41712258762700655,
+      "flos": 31033283616000.0,
+      "grad_norm": 2.743228931542533,
+      "language_loss": 0.68381059,
+      "learning_rate": 2.6235136749949975e-06,
+      "loss": 0.70613313,
+      "num_input_tokens_seen": 74829800,
+      "step": 3469,
+      "time_per_iteration": 4.631229400634766
+    },
+    {
+      "auxiliary_loss_clip": 0.0118772,
+      "auxiliary_loss_mlp": 0.01025754,
+      "balance_loss_clip": 1.05559134,
+      "balance_loss_mlp": 1.01785338,
+      "epoch": 0.41724283051764566,
+      "flos": 35914763877120.0,
+      "grad_norm": 1.9843961646621155,
+      "language_loss": 0.6158818,
+      "learning_rate": 2.6227734785243924e-06,
+      "loss": 0.63801652,
+      "num_input_tokens_seen": 74849760,
+      "step": 3470,
+      "time_per_iteration": 2.7451395988464355
+    },
+    {
+      "auxiliary_loss_clip": 0.01219148,
+      "auxiliary_loss_mlp": 0.01027724,
+      "balance_loss_clip": 1.04405332,
+      "balance_loss_mlp": 1.01994538,
+      "epoch": 0.4173630734082847,
+      "flos": 25333649320320.0,
+      "grad_norm": 2.2520871019389586,
+      "language_loss": 0.79062271,
+      "learning_rate": 2.6220331875795466e-06,
+      "loss": 0.81309146,
+      "num_input_tokens_seen": 74869110,
+      "step": 3471,
+      "time_per_iteration": 2.883927822113037
+    },
+    {
+      "auxiliary_loss_clip": 0.01194073,
+      "auxiliary_loss_mlp": 0.01035223,
+      "balance_loss_clip": 1.05519366,
+      "balance_loss_mlp": 1.02754557,
+      "epoch": 0.4174833162989238,
+      "flos": 26685398868480.0,
+      "grad_norm": 1.605602535011797,
+      "language_loss": 0.75286555,
+      "learning_rate": 2.62129280227276e-06,
+      "loss": 0.77515846,
+      "num_input_tokens_seen": 74889110,
+      "step": 3472,
+      "time_per_iteration": 2.7340004444122314
+    },
+    {
+      "auxiliary_loss_clip": 0.01201359,
+      "auxiliary_loss_mlp": 0.01026602,
+      "balance_loss_clip": 1.05443358,
+      "balance_loss_mlp": 1.01834118,
+      "epoch": 0.41760355918956293,
+      "flos": 74739584010240.0,
+      "grad_norm": 2.056692663716243,
+      "language_loss": 0.68778783,
+      "learning_rate": 2.62055232271635e-06,
+      "loss": 0.71006739,
+      "num_input_tokens_seen": 74916260,
+      "step": 3473,
+      "time_per_iteration": 3.0999252796173096
+    },
+    {
+      "auxiliary_loss_clip": 0.01200524,
+      "auxiliary_loss_mlp": 0.01029183,
+      "balance_loss_clip": 1.04834521,
+      "balance_loss_mlp": 1.02096343,
+      "epoch": 0.417723802080202,
+      "flos": 14317513148160.0,
+      "grad_norm": 2.2364820391696374,
+      "language_loss": 0.87897861,
+      "learning_rate": 2.619811749022646e-06,
+      "loss": 0.90127563,
+      "num_input_tokens_seen": 74931570,
+      "step": 3474,
+      "time_per_iteration": 2.7314436435699463
+    },
+    {
+      "auxiliary_loss_clip": 0.01201545,
+      "auxiliary_loss_mlp": 0.0103332,
+      "balance_loss_clip": 1.0562489,
+      "balance_loss_mlp": 1.02442718,
+      "epoch": 0.4178440449708411,
+      "flos": 14643797316480.0,
+      "grad_norm": 2.7433844245072634,
+      "language_loss": 0.71298343,
+      "learning_rate": 2.6190710813039917e-06,
+      "loss": 0.73533213,
+      "num_input_tokens_seen": 74944695,
+      "step": 3475,
+      "time_per_iteration": 2.5906424522399902
+    },
+    {
+      "auxiliary_loss_clip": 0.01210928,
+      "auxiliary_loss_mlp": 0.01379415,
+      "balance_loss_clip": 1.04340768,
+      "balance_loss_mlp": 1.00026131,
+      "epoch": 0.4179642878614802,
+      "flos": 21507296094720.0,
+      "grad_norm": 2.7700759201379164,
+      "language_loss": 0.83771038,
+      "learning_rate": 2.618330319672747e-06,
+      "loss": 0.86361378,
+      "num_input_tokens_seen": 74964115,
+      "step": 3476,
+      "time_per_iteration": 3.7049691677093506
+    },
+    {
+      "auxiliary_loss_clip": 0.01188905,
+      "auxiliary_loss_mlp": 0.01030558,
+      "balance_loss_clip": 1.05598474,
+      "balance_loss_mlp": 1.02264869,
+      "epoch": 0.41808453075211927,
+      "flos": 18441997257600.0,
+      "grad_norm": 2.1151414290897836,
+      "language_loss": 0.91899395,
+      "learning_rate": 2.617589464241284e-06,
+      "loss": 0.94118857,
+      "num_input_tokens_seen": 74978515,
+      "step": 3477,
+      "time_per_iteration": 2.650562286376953
+    },
+    {
+      "auxiliary_loss_clip": 0.01217552,
+      "auxiliary_loss_mlp": 0.01034283,
+      "balance_loss_clip": 1.05140662,
+      "balance_loss_mlp": 1.02665985,
+      "epoch": 0.4182047736427584,
+      "flos": 20301020628480.0,
+      "grad_norm": 3.106994180365151,
+      "language_loss": 0.74496382,
+      "learning_rate": 2.6168485151219914e-06,
+      "loss": 0.76748216,
+      "num_input_tokens_seen": 74998135,
+      "step": 3478,
+      "time_per_iteration": 2.7051150798797607
+    },
+    {
+      "auxiliary_loss_clip": 0.01197994,
+      "auxiliary_loss_mlp": 0.01026541,
+      "balance_loss_clip": 1.05473685,
+      "balance_loss_mlp": 1.01856029,
+      "epoch": 0.4183250165333975,
+      "flos": 18876623823360.0,
+      "grad_norm": 2.125479910635409,
+      "language_loss": 0.71784645,
+      "learning_rate": 2.616107472427269e-06,
+      "loss": 0.7400918,
+      "num_input_tokens_seen": 75012830,
+      "step": 3479,
+      "time_per_iteration": 2.681218147277832
+    },
+    {
+      "auxiliary_loss_clip": 0.01200446,
+      "auxiliary_loss_mlp": 0.01034846,
+      "balance_loss_clip": 1.05275393,
+      "balance_loss_mlp": 1.02656078,
+      "epoch": 0.41844525942403654,
+      "flos": 17740050698880.0,
+      "grad_norm": 2.491303690695048,
+      "language_loss": 0.76996982,
+      "learning_rate": 2.615366336269533e-06,
+      "loss": 0.79232275,
+      "num_input_tokens_seen": 75026495,
+      "step": 3480,
+      "time_per_iteration": 2.646898031234741
+    },
+    {
+      "auxiliary_loss_clip": 0.01192041,
+      "auxiliary_loss_mlp": 0.0102916,
+      "balance_loss_clip": 1.05706179,
+      "balance_loss_mlp": 1.02030218,
+      "epoch": 0.41856550231467565,
+      "flos": 18361377181440.0,
+      "grad_norm": 2.533834134086794,
+      "language_loss": 0.80119807,
+      "learning_rate": 2.6146251067612126e-06,
+      "loss": 0.82341003,
+      "num_input_tokens_seen": 75041970,
+      "step": 3481,
+      "time_per_iteration": 2.6037960052490234
+    },
+    {
+      "auxiliary_loss_clip": 0.01198304,
+      "auxiliary_loss_mlp": 0.01031687,
+      "balance_loss_clip": 1.05618453,
+      "balance_loss_mlp": 1.02374816,
+      "epoch": 0.41868574520531476,
+      "flos": 22781801445120.0,
+      "grad_norm": 1.6273591980821482,
+      "language_loss": 0.82825863,
+      "learning_rate": 2.6138837840147525e-06,
+      "loss": 0.85055852,
+      "num_input_tokens_seen": 75061005,
+      "step": 3482,
+      "time_per_iteration": 2.6585676670074463
+    },
+    {
+      "auxiliary_loss_clip": 0.01212301,
+      "auxiliary_loss_mlp": 0.01029706,
+      "balance_loss_clip": 1.05050611,
+      "balance_loss_mlp": 1.02158761,
+      "epoch": 0.4188059880959538,
+      "flos": 13699167494400.0,
+      "grad_norm": 1.8822138406921272,
+      "language_loss": 0.76084185,
+      "learning_rate": 2.6131423681426103e-06,
+      "loss": 0.7832619,
+      "num_input_tokens_seen": 75076920,
+      "step": 3483,
+      "time_per_iteration": 2.785022497177124
+    },
+    {
+      "auxiliary_loss_clip": 0.01189799,
+      "auxiliary_loss_mlp": 0.01031181,
+      "balance_loss_clip": 1.05646384,
+      "balance_loss_mlp": 1.02340603,
+      "epoch": 0.41892623098659293,
+      "flos": 37818281220480.0,
+      "grad_norm": 1.9661154616519458,
+      "language_loss": 0.72923505,
+      "learning_rate": 2.6124008592572587e-06,
+      "loss": 0.75144494,
+      "num_input_tokens_seen": 75100905,
+      "step": 3484,
+      "time_per_iteration": 2.737288236618042
+    },
+    {
+      "auxiliary_loss_clip": 0.0119296,
+      "auxiliary_loss_mlp": 0.01026502,
+      "balance_loss_clip": 1.05625606,
+      "balance_loss_mlp": 1.01807415,
+      "epoch": 0.419046473877232,
+      "flos": 23258874908160.0,
+      "grad_norm": 2.090643650228593,
+      "language_loss": 0.81396431,
+      "learning_rate": 2.6116592574711835e-06,
+      "loss": 0.83615887,
+      "num_input_tokens_seen": 75119205,
+      "step": 3485,
+      "time_per_iteration": 2.6897850036621094
+    },
+    {
+      "auxiliary_loss_clip": 0.01193453,
+      "auxiliary_loss_mlp": 0.01036516,
+      "balance_loss_clip": 1.05720782,
+      "balance_loss_mlp": 1.02780771,
+      "epoch": 0.4191667167678711,
+      "flos": 20741034234240.0,
+      "grad_norm": 1.8921819505926456,
+      "language_loss": 0.84149122,
+      "learning_rate": 2.6109175628968853e-06,
+      "loss": 0.86379093,
+      "num_input_tokens_seen": 75138970,
+      "step": 3486,
+      "time_per_iteration": 2.6033337116241455
+    },
+    {
+      "auxiliary_loss_clip": 0.01184305,
+      "auxiliary_loss_mlp": 0.01026368,
+      "balance_loss_clip": 1.05087805,
+      "balance_loss_mlp": 1.01873291,
+      "epoch": 0.4192869596585102,
+      "flos": 23586416052480.0,
+      "grad_norm": 2.151233451107798,
+      "language_loss": 0.8290481,
+      "learning_rate": 2.610175775646878e-06,
+      "loss": 0.8511548,
+      "num_input_tokens_seen": 75157550,
+      "step": 3487,
+      "time_per_iteration": 2.6254007816314697
+    },
+    {
+      "auxiliary_loss_clip": 0.01200178,
+      "auxiliary_loss_mlp": 0.01025594,
+      "balance_loss_clip": 1.05024219,
+      "balance_loss_mlp": 1.01755309,
+      "epoch": 0.41940720254914926,
+      "flos": 25081269384960.0,
+      "grad_norm": 3.209412357297403,
+      "language_loss": 0.73307312,
+      "learning_rate": 2.6094338958336907e-06,
+      "loss": 0.7553308,
+      "num_input_tokens_seen": 75176220,
+      "step": 3488,
+      "time_per_iteration": 2.6838722229003906
+    },
+    {
+      "auxiliary_loss_clip": 0.01208614,
+      "auxiliary_loss_mlp": 0.01020928,
+      "balance_loss_clip": 1.05546474,
+      "balance_loss_mlp": 1.01379323,
+      "epoch": 0.41952744543978837,
+      "flos": 15554132628480.0,
+      "grad_norm": 3.5102985982160906,
+      "language_loss": 0.82220995,
+      "learning_rate": 2.608691923569867e-06,
+      "loss": 0.84450543,
+      "num_input_tokens_seen": 75193095,
+      "step": 3489,
+      "time_per_iteration": 2.7094247341156006
+    },
+    {
+      "auxiliary_loss_clip": 0.01204992,
+      "auxiliary_loss_mlp": 0.01033907,
+      "balance_loss_clip": 1.05734062,
+      "balance_loss_mlp": 1.02538347,
+      "epoch": 0.4196476883304275,
+      "flos": 24644775312000.0,
+      "grad_norm": 1.620844492924879,
+      "language_loss": 0.75575918,
+      "learning_rate": 2.6079498589679616e-06,
+      "loss": 0.77814817,
+      "num_input_tokens_seen": 75214185,
+      "step": 3490,
+      "time_per_iteration": 2.8356502056121826
+    },
+    {
+      "auxiliary_loss_clip": 0.01224266,
+      "auxiliary_loss_mlp": 0.0102742,
+      "balance_loss_clip": 1.04365218,
+      "balance_loss_mlp": 1.01821065,
+      "epoch": 0.41976793122106654,
+      "flos": 24531333183360.0,
+      "grad_norm": 5.335176757425504,
+      "language_loss": 0.76118797,
+      "learning_rate": 2.6072077021405465e-06,
+      "loss": 0.78370482,
+      "num_input_tokens_seen": 75233020,
+      "step": 3491,
+      "time_per_iteration": 2.7840073108673096
+    },
+    {
+      "auxiliary_loss_clip": 0.01218075,
+      "auxiliary_loss_mlp": 0.01033954,
+      "balance_loss_clip": 1.04824376,
+      "balance_loss_mlp": 1.02560318,
+      "epoch": 0.41988817411170565,
+      "flos": 21175301664000.0,
+      "grad_norm": 1.9067751303502605,
+      "language_loss": 0.6871711,
+      "learning_rate": 2.6064654532002054e-06,
+      "loss": 0.70969141,
+      "num_input_tokens_seen": 75252030,
+      "step": 3492,
+      "time_per_iteration": 2.745948314666748
+    },
+    {
+      "auxiliary_loss_clip": 0.01190753,
+      "auxiliary_loss_mlp": 0.01032191,
+      "balance_loss_clip": 1.05628562,
+      "balance_loss_mlp": 1.02380431,
+      "epoch": 0.42000841700234476,
+      "flos": 31649402626560.0,
+      "grad_norm": 1.6150785771393534,
+      "language_loss": 0.7596131,
+      "learning_rate": 2.6057231122595375e-06,
+      "loss": 0.78184253,
+      "num_input_tokens_seen": 75273340,
+      "step": 3493,
+      "time_per_iteration": 2.663006067276001
+    },
+    {
+      "auxiliary_loss_clip": 0.01205695,
+      "auxiliary_loss_mlp": 0.01023597,
+      "balance_loss_clip": 1.05103016,
+      "balance_loss_mlp": 1.01535916,
+      "epoch": 0.4201286598929838,
+      "flos": 21281525159040.0,
+      "grad_norm": 1.7460274334716492,
+      "language_loss": 0.73040175,
+      "learning_rate": 2.604980679431154e-06,
+      "loss": 0.75269473,
+      "num_input_tokens_seen": 75291580,
+      "step": 3494,
+      "time_per_iteration": 2.7108848094940186
+    },
+    {
+      "auxiliary_loss_clip": 0.0119816,
+      "auxiliary_loss_mlp": 0.01036155,
+      "balance_loss_clip": 1.05248952,
+      "balance_loss_mlp": 1.02848411,
+      "epoch": 0.4202489027836229,
+      "flos": 18546532813440.0,
+      "grad_norm": 1.964714462292399,
+      "language_loss": 0.74644655,
+      "learning_rate": 2.604238154827684e-06,
+      "loss": 0.76878977,
+      "num_input_tokens_seen": 75308205,
+      "step": 3495,
+      "time_per_iteration": 4.429099082946777
+    },
+    {
+      "auxiliary_loss_clip": 0.01199648,
+      "auxiliary_loss_mlp": 0.01026953,
+      "balance_loss_clip": 1.05418444,
+      "balance_loss_mlp": 1.01974416,
+      "epoch": 0.42036914567426203,
+      "flos": 19317643009920.0,
+      "grad_norm": 1.658497987176286,
+      "language_loss": 0.72636235,
+      "learning_rate": 2.6034955385617656e-06,
+      "loss": 0.74862832,
+      "num_input_tokens_seen": 75326535,
+      "step": 3496,
+      "time_per_iteration": 3.490813732147217
+    },
+    {
+      "auxiliary_loss_clip": 0.01124508,
+      "auxiliary_loss_mlp": 0.01007904,
+      "balance_loss_clip": 1.02233171,
+      "balance_loss_mlp": 1.00636578,
+      "epoch": 0.4204893885649011,
+      "flos": 67842942935040.0,
+      "grad_norm": 0.7194227311339065,
+      "language_loss": 0.61665058,
+      "learning_rate": 2.6027528307460544e-06,
+      "loss": 0.63797474,
+      "num_input_tokens_seen": 75390540,
+      "step": 3497,
+      "time_per_iteration": 3.352672815322876
+    },
+    {
+      "auxiliary_loss_clip": 0.01190052,
+      "auxiliary_loss_mlp": 0.01027946,
+      "balance_loss_clip": 1.05610538,
+      "balance_loss_mlp": 1.02002454,
+      "epoch": 0.4206096314555402,
+      "flos": 21908777385600.0,
+      "grad_norm": 1.8305220898255,
+      "language_loss": 0.86701876,
+      "learning_rate": 2.602010031493217e-06,
+      "loss": 0.88919878,
+      "num_input_tokens_seen": 75408770,
+      "step": 3498,
+      "time_per_iteration": 2.6639575958251953
+    },
+    {
+      "auxiliary_loss_clip": 0.01207162,
+      "auxiliary_loss_mlp": 0.0102275,
+      "balance_loss_clip": 1.04749489,
+      "balance_loss_mlp": 1.01466751,
+      "epoch": 0.42072987434617926,
+      "flos": 29278185269760.0,
+      "grad_norm": 4.368826897972221,
+      "language_loss": 0.86865509,
+      "learning_rate": 2.6012671409159367e-06,
+      "loss": 0.8909542,
+      "num_input_tokens_seen": 75430105,
+      "step": 3499,
+      "time_per_iteration": 2.7664647102355957
+    },
+    {
+      "auxiliary_loss_clip": 0.01205232,
+      "auxiliary_loss_mlp": 0.01037716,
+      "balance_loss_clip": 1.05518222,
+      "balance_loss_mlp": 1.02893007,
+      "epoch": 0.42085011723681837,
+      "flos": 27600726170880.0,
+      "grad_norm": 2.627210180128501,
+      "language_loss": 0.81447041,
+      "learning_rate": 2.6005241591269097e-06,
+      "loss": 0.83689988,
+      "num_input_tokens_seen": 75449475,
+      "step": 3500,
+      "time_per_iteration": 2.7396342754364014
+    },
+    {
+      "auxiliary_loss_clip": 0.01213755,
+      "auxiliary_loss_mlp": 0.01023639,
+      "balance_loss_clip": 1.05498767,
+      "balance_loss_mlp": 1.01595616,
+      "epoch": 0.4209703601274575,
+      "flos": 27818632028160.0,
+      "grad_norm": 2.02678279924409,
+      "language_loss": 0.79510498,
+      "learning_rate": 2.5997810862388454e-06,
+      "loss": 0.8174789,
+      "num_input_tokens_seen": 75469315,
+      "step": 3501,
+      "time_per_iteration": 2.738645076751709
+    },
+    {
+      "auxiliary_loss_clip": 0.01205963,
+      "auxiliary_loss_mlp": 0.01029269,
+      "balance_loss_clip": 1.051121,
+      "balance_loss_mlp": 1.02082634,
+      "epoch": 0.42109060301809653,
+      "flos": 27525529048320.0,
+      "grad_norm": 2.1841386533929406,
+      "language_loss": 0.75523722,
+      "learning_rate": 2.599037922364467e-06,
+      "loss": 0.77758956,
+      "num_input_tokens_seen": 75488215,
+      "step": 3502,
+      "time_per_iteration": 3.744307041168213
+    },
+    {
+      "auxiliary_loss_clip": 0.01209602,
+      "auxiliary_loss_mlp": 0.01030395,
+      "balance_loss_clip": 1.05248713,
+      "balance_loss_mlp": 1.02208591,
+      "epoch": 0.42121084590873564,
+      "flos": 29314275459840.0,
+      "grad_norm": 2.1488024106432073,
+      "language_loss": 0.75348884,
+      "learning_rate": 2.5982946676165112e-06,
+      "loss": 0.77588886,
+      "num_input_tokens_seen": 75507985,
+      "step": 3503,
+      "time_per_iteration": 2.7900805473327637
+    },
+    {
+      "auxiliary_loss_clip": 0.01131276,
+      "auxiliary_loss_mlp": 0.0100088,
+      "balance_loss_clip": 1.0348742,
+      "balance_loss_mlp": 0.99977171,
+      "epoch": 0.42133108879937475,
+      "flos": 67398835178880.0,
+      "grad_norm": 0.7266416636390547,
+      "language_loss": 0.57687193,
+      "learning_rate": 2.5975513221077313e-06,
+      "loss": 0.59819353,
+      "num_input_tokens_seen": 75571955,
+      "step": 3504,
+      "time_per_iteration": 3.3578054904937744
+    },
+    {
+      "auxiliary_loss_clip": 0.01195815,
+      "auxiliary_loss_mlp": 0.01029814,
+      "balance_loss_clip": 1.05061758,
+      "balance_loss_mlp": 1.02182698,
+      "epoch": 0.4214513316900138,
+      "flos": 23106038538240.0,
+      "grad_norm": 2.6182016287867422,
+      "language_loss": 0.88377786,
+      "learning_rate": 2.5968078859508897e-06,
+      "loss": 0.90603411,
+      "num_input_tokens_seen": 75589155,
+      "step": 3505,
+      "time_per_iteration": 2.719320297241211
+    },
+    {
+      "auxiliary_loss_clip": 0.01199399,
+      "auxiliary_loss_mlp": 0.01031902,
+      "balance_loss_clip": 1.05500984,
+      "balance_loss_mlp": 1.02377772,
+      "epoch": 0.4215715745806529,
+      "flos": 15336190857600.0,
+      "grad_norm": 1.9505983765680337,
+      "language_loss": 0.79645962,
+      "learning_rate": 2.5960643592587673e-06,
+      "loss": 0.81877261,
+      "num_input_tokens_seen": 75606565,
+      "step": 3506,
+      "time_per_iteration": 2.632835626602173
+    },
+    {
+      "auxiliary_loss_clip": 0.01215928,
+      "auxiliary_loss_mlp": 0.01027869,
+      "balance_loss_clip": 1.05126381,
+      "balance_loss_mlp": 1.01964927,
+      "epoch": 0.42169181747129203,
+      "flos": 22127257860480.0,
+      "grad_norm": 1.819972382188843,
+      "language_loss": 0.80806363,
+      "learning_rate": 2.5953207421441553e-06,
+      "loss": 0.83050162,
+      "num_input_tokens_seen": 75625165,
+      "step": 3507,
+      "time_per_iteration": 2.718494176864624
+    },
+    {
+      "auxiliary_loss_clip": 0.01217218,
+      "auxiliary_loss_mlp": 0.01027033,
+      "balance_loss_clip": 1.05223978,
+      "balance_loss_mlp": 1.01936793,
+      "epoch": 0.4218120603619311,
+      "flos": 22630724841600.0,
+      "grad_norm": 2.1630611528109687,
+      "language_loss": 0.74967003,
+      "learning_rate": 2.5945770347198603e-06,
+      "loss": 0.77211249,
+      "num_input_tokens_seen": 75643320,
+      "step": 3508,
+      "time_per_iteration": 2.7466206550598145
+    },
+    {
+      "auxiliary_loss_clip": 0.01202296,
+      "auxiliary_loss_mlp": 0.01028326,
+      "balance_loss_clip": 1.05157089,
+      "balance_loss_mlp": 1.02054191,
+      "epoch": 0.4219323032525702,
+      "flos": 19682818629120.0,
+      "grad_norm": 1.7939661572847434,
+      "language_loss": 0.82244062,
+      "learning_rate": 2.593833237098701e-06,
+      "loss": 0.84474683,
+      "num_input_tokens_seen": 75660920,
+      "step": 3509,
+      "time_per_iteration": 2.6998708248138428
+    },
+    {
+      "auxiliary_loss_clip": 0.01194257,
+      "auxiliary_loss_mlp": 0.0103546,
+      "balance_loss_clip": 1.05055988,
+      "balance_loss_mlp": 1.02664495,
+      "epoch": 0.4220525461432093,
+      "flos": 30190747224960.0,
+      "grad_norm": 1.978322178432609,
+      "language_loss": 0.62711024,
+      "learning_rate": 2.593089349393512e-06,
+      "loss": 0.64940739,
+      "num_input_tokens_seen": 75681410,
+      "step": 3510,
+      "time_per_iteration": 2.721264600753784
+    },
+    {
+      "auxiliary_loss_clip": 0.01199305,
+      "auxiliary_loss_mlp": 0.01029857,
+      "balance_loss_clip": 1.05696404,
+      "balance_loss_mlp": 1.0213393,
+      "epoch": 0.42217278903384836,
+      "flos": 24315941278080.0,
+      "grad_norm": 1.9636588710034126,
+      "language_loss": 0.83273005,
+      "learning_rate": 2.592345371717141e-06,
+      "loss": 0.85502172,
+      "num_input_tokens_seen": 75700940,
+      "step": 3511,
+      "time_per_iteration": 2.7092642784118652
+    },
+    {
+      "auxiliary_loss_clip": 0.01204725,
+      "auxiliary_loss_mlp": 0.01032177,
+      "balance_loss_clip": 1.0625881,
+      "balance_loss_mlp": 1.02402878,
+      "epoch": 0.42229303192448747,
+      "flos": 17092474352640.0,
+      "grad_norm": 1.9055397784564367,
+      "language_loss": 0.71608269,
+      "learning_rate": 2.591601304182448e-06,
+      "loss": 0.73845172,
+      "num_input_tokens_seen": 75718910,
+      "step": 3512,
+      "time_per_iteration": 2.6489064693450928
+    },
+    {
+      "auxiliary_loss_clip": 0.01211996,
+      "auxiliary_loss_mlp": 0.01027803,
+      "balance_loss_clip": 1.05827236,
+      "balance_loss_mlp": 1.02033782,
+      "epoch": 0.4224132748151266,
+      "flos": 22784530878720.0,
+      "grad_norm": 1.64132866129588,
+      "language_loss": 0.79500747,
+      "learning_rate": 2.5908571469023067e-06,
+      "loss": 0.81740546,
+      "num_input_tokens_seen": 75738395,
+      "step": 3513,
+      "time_per_iteration": 2.695725440979004
+    },
+    {
+      "auxiliary_loss_clip": 0.01190424,
+      "auxiliary_loss_mlp": 0.01025748,
+      "balance_loss_clip": 1.05590963,
+      "balance_loss_mlp": 1.01771355,
+      "epoch": 0.42253351770576564,
+      "flos": 17819090576640.0,
+      "grad_norm": 2.194852130376686,
+      "language_loss": 0.75722146,
+      "learning_rate": 2.5901128999896067e-06,
+      "loss": 0.77938318,
+      "num_input_tokens_seen": 75753825,
+      "step": 3514,
+      "time_per_iteration": 2.6311874389648438
+    },
+    {
+      "auxiliary_loss_clip": 0.01194407,
+      "auxiliary_loss_mlp": 0.01030603,
+      "balance_loss_clip": 1.05374575,
+      "balance_loss_mlp": 1.02228212,
+      "epoch": 0.42265376059640475,
+      "flos": 28512390286080.0,
+      "grad_norm": 1.590033887400631,
+      "language_loss": 0.68279278,
+      "learning_rate": 2.5893685635572487e-06,
+      "loss": 0.7050429,
+      "num_input_tokens_seen": 75774675,
+      "step": 3515,
+      "time_per_iteration": 2.6597557067871094
+    },
+    {
+      "auxiliary_loss_clip": 0.01201453,
+      "auxiliary_loss_mlp": 0.0102525,
+      "balance_loss_clip": 1.05094516,
+      "balance_loss_mlp": 1.01713777,
+      "epoch": 0.4227740034870438,
+      "flos": 16253349753600.0,
+      "grad_norm": 1.9672393249646956,
+      "language_loss": 0.69402564,
+      "learning_rate": 2.5886241377181483e-06,
+      "loss": 0.71629262,
+      "num_input_tokens_seen": 75793545,
+      "step": 3516,
+      "time_per_iteration": 2.7290892601013184
+    },
+    {
+      "auxiliary_loss_clip": 0.01198527,
+      "auxiliary_loss_mlp": 0.01033729,
+      "balance_loss_clip": 1.05403495,
+      "balance_loss_mlp": 1.02461553,
+      "epoch": 0.4228942463776829,
+      "flos": 25295691623040.0,
+      "grad_norm": 1.8418860786204259,
+      "language_loss": 0.81307054,
+      "learning_rate": 2.587879622585234e-06,
+      "loss": 0.83539307,
+      "num_input_tokens_seen": 75812145,
+      "step": 3517,
+      "time_per_iteration": 2.753483295440674
+    },
+    {
+      "auxiliary_loss_clip": 0.01199076,
+      "auxiliary_loss_mlp": 0.01027321,
+      "balance_loss_clip": 1.05637574,
+      "balance_loss_mlp": 1.01928639,
+      "epoch": 0.423014489268322,
+      "flos": 26395779507840.0,
+      "grad_norm": 2.0556673737767994,
+      "language_loss": 0.76287746,
+      "learning_rate": 2.5871350182714486e-06,
+      "loss": 0.78514147,
+      "num_input_tokens_seen": 75833025,
+      "step": 3518,
+      "time_per_iteration": 2.677734136581421
+    },
+    {
+      "auxiliary_loss_clip": 0.01189238,
+      "auxiliary_loss_mlp": 0.01028253,
+      "balance_loss_clip": 1.05624044,
+      "balance_loss_mlp": 1.02027178,
+      "epoch": 0.4231347321589611,
+      "flos": 17274002711040.0,
+      "grad_norm": 2.8014016411875016,
+      "language_loss": 0.80527329,
+      "learning_rate": 2.586390324889748e-06,
+      "loss": 0.82744819,
+      "num_input_tokens_seen": 75848925,
+      "step": 3519,
+      "time_per_iteration": 2.560899257659912
+    },
+    {
+      "auxiliary_loss_clip": 0.01194642,
+      "auxiliary_loss_mlp": 0.01033599,
+      "balance_loss_clip": 1.05424333,
+      "balance_loss_mlp": 1.02476013,
+      "epoch": 0.4232549750496002,
+      "flos": 22999635475200.0,
+      "grad_norm": 5.037568643870271,
+      "language_loss": 0.6758939,
+      "learning_rate": 2.5856455425531003e-06,
+      "loss": 0.69817626,
+      "num_input_tokens_seen": 75870400,
+      "step": 3520,
+      "time_per_iteration": 2.6943652629852295
+    },
+    {
+      "auxiliary_loss_clip": 0.01197327,
+      "auxiliary_loss_mlp": 0.0102591,
+      "balance_loss_clip": 1.05593455,
+      "balance_loss_mlp": 1.01795244,
+      "epoch": 0.4233752179402393,
+      "flos": 21248343970560.0,
+      "grad_norm": 1.820253008895416,
+      "language_loss": 0.80697674,
+      "learning_rate": 2.5849006713744902e-06,
+      "loss": 0.82920909,
+      "num_input_tokens_seen": 75889195,
+      "step": 3521,
+      "time_per_iteration": 4.516894102096558
+    },
+    {
+      "auxiliary_loss_clip": 0.01205477,
+      "auxiliary_loss_mlp": 0.010306,
+      "balance_loss_clip": 1.05483532,
+      "balance_loss_mlp": 1.02276206,
+      "epoch": 0.42349546083087836,
+      "flos": 20704297599360.0,
+      "grad_norm": 2.0896612238235166,
+      "language_loss": 0.73088843,
+      "learning_rate": 2.5841557114669135e-06,
+      "loss": 0.75324917,
+      "num_input_tokens_seen": 75906055,
+      "step": 3522,
+      "time_per_iteration": 2.655472755432129
+    },
+    {
+      "auxiliary_loss_clip": 0.0119446,
+      "auxiliary_loss_mlp": 0.01028682,
+      "balance_loss_clip": 1.05702269,
+      "balance_loss_mlp": 1.01899672,
+      "epoch": 0.42361570372151747,
+      "flos": 18585065128320.0,
+      "grad_norm": 2.8022403065809676,
+      "language_loss": 0.67132562,
+      "learning_rate": 2.58341066294338e-06,
+      "loss": 0.69355702,
+      "num_input_tokens_seen": 75922720,
+      "step": 3523,
+      "time_per_iteration": 2.5752596855163574
+    },
+    {
+      "auxiliary_loss_clip": 0.01228422,
+      "auxiliary_loss_mlp": 0.01379123,
+      "balance_loss_clip": 1.05042732,
+      "balance_loss_mlp": 1.00019598,
+      "epoch": 0.4237359466121566,
+      "flos": 20959478795520.0,
+      "grad_norm": 2.1882763403412597,
+      "language_loss": 0.85340512,
+      "learning_rate": 2.5826655259169124e-06,
+      "loss": 0.8794806,
+      "num_input_tokens_seen": 75941375,
+      "step": 3524,
+      "time_per_iteration": 2.7317585945129395
+    },
+    {
+      "auxiliary_loss_clip": 0.01192389,
+      "auxiliary_loss_mlp": 0.01028807,
+      "balance_loss_clip": 1.05854416,
+      "balance_loss_mlp": 1.02104056,
+      "epoch": 0.42385618950279563,
+      "flos": 18038181582720.0,
+      "grad_norm": 2.0182312978467665,
+      "language_loss": 0.91101789,
+      "learning_rate": 2.5819203005005475e-06,
+      "loss": 0.93322986,
+      "num_input_tokens_seen": 75958710,
+      "step": 3525,
+      "time_per_iteration": 2.6305556297302246
+    },
+    {
+      "auxiliary_loss_clip": 0.01200767,
+      "auxiliary_loss_mlp": 0.01026455,
+      "balance_loss_clip": 1.05336261,
+      "balance_loss_mlp": 1.01819968,
+      "epoch": 0.42397643239343474,
+      "flos": 23769129559680.0,
+      "grad_norm": 1.6680033907060032,
+      "language_loss": 0.78477222,
+      "learning_rate": 2.581174986807336e-06,
+      "loss": 0.80704445,
+      "num_input_tokens_seen": 75978945,
+      "step": 3526,
+      "time_per_iteration": 2.6784186363220215
+    },
+    {
+      "auxiliary_loss_clip": 0.01187797,
+      "auxiliary_loss_mlp": 0.01379134,
+      "balance_loss_clip": 1.05337417,
+      "balance_loss_mlp": 1.00022793,
+      "epoch": 0.42409667528407385,
+      "flos": 16545088016640.0,
+      "grad_norm": 2.2555973537235547,
+      "language_loss": 0.9115569,
+      "learning_rate": 2.580429584950341e-06,
+      "loss": 0.93722624,
+      "num_input_tokens_seen": 75994695,
+      "step": 3527,
+      "time_per_iteration": 2.689711093902588
+    },
+    {
+      "auxiliary_loss_clip": 0.0122061,
+      "auxiliary_loss_mlp": 0.01028221,
+      "balance_loss_clip": 1.05178332,
+      "balance_loss_mlp": 1.01960206,
+      "epoch": 0.4242169181747129,
+      "flos": 16034186920320.0,
+      "grad_norm": 2.1259019156639423,
+      "language_loss": 0.66385806,
+      "learning_rate": 2.5796840950426397e-06,
+      "loss": 0.68634641,
+      "num_input_tokens_seen": 76011780,
+      "step": 3528,
+      "time_per_iteration": 3.6170473098754883
+    },
+    {
+      "auxiliary_loss_clip": 0.01188723,
+      "auxiliary_loss_mlp": 0.01034136,
+      "balance_loss_clip": 1.05385661,
+      "balance_loss_mlp": 1.02576196,
+      "epoch": 0.424337161065352,
+      "flos": 20084012611200.0,
+      "grad_norm": 1.8729347373273708,
+      "language_loss": 0.65850508,
+      "learning_rate": 2.578938517197322e-06,
+      "loss": 0.68073368,
+      "num_input_tokens_seen": 76029875,
+      "step": 3529,
+      "time_per_iteration": 2.6958961486816406
+    },
+    {
+      "auxiliary_loss_clip": 0.01197116,
+      "auxiliary_loss_mlp": 0.01029412,
+      "balance_loss_clip": 1.05321622,
+      "balance_loss_mlp": 1.02064371,
+      "epoch": 0.4244574039559911,
+      "flos": 23878369797120.0,
+      "grad_norm": 2.3382702443895447,
+      "language_loss": 0.62520301,
+      "learning_rate": 2.5781928515274916e-06,
+      "loss": 0.64746833,
+      "num_input_tokens_seen": 76048595,
+      "step": 3530,
+      "time_per_iteration": 2.72739577293396
+    },
+    {
+      "auxiliary_loss_clip": 0.01203819,
+      "auxiliary_loss_mlp": 0.01026386,
+      "balance_loss_clip": 1.05844927,
+      "balance_loss_mlp": 1.01893592,
+      "epoch": 0.4245776468466302,
+      "flos": 17565920542080.0,
+      "grad_norm": 2.15588233497027,
+      "language_loss": 0.67631912,
+      "learning_rate": 2.577447098146265e-06,
+      "loss": 0.69862115,
+      "num_input_tokens_seen": 76065770,
+      "step": 3531,
+      "time_per_iteration": 2.594045877456665
+    },
+    {
+      "auxiliary_loss_clip": 0.01215031,
+      "auxiliary_loss_mlp": 0.01025448,
+      "balance_loss_clip": 1.05138636,
+      "balance_loss_mlp": 1.01715136,
+      "epoch": 0.4246978897372693,
+      "flos": 27776256958080.0,
+      "grad_norm": 1.7560171540565854,
+      "language_loss": 0.78835768,
+      "learning_rate": 2.5767012571667724e-06,
+      "loss": 0.81076247,
+      "num_input_tokens_seen": 76085250,
+      "step": 3532,
+      "time_per_iteration": 2.8121721744537354
+    },
+    {
+      "auxiliary_loss_clip": 0.01199175,
+      "auxiliary_loss_mlp": 0.01040514,
+      "balance_loss_clip": 1.05377555,
+      "balance_loss_mlp": 1.03073931,
+      "epoch": 0.42481813262790835,
+      "flos": 15596615439360.0,
+      "grad_norm": 1.791820126952655,
+      "language_loss": 0.68822831,
+      "learning_rate": 2.5759553287021587e-06,
+      "loss": 0.71062517,
+      "num_input_tokens_seen": 76103580,
+      "step": 3533,
+      "time_per_iteration": 2.6634225845336914
+    },
+    {
+      "auxiliary_loss_clip": 0.01206806,
+      "auxiliary_loss_mlp": 0.01035015,
+      "balance_loss_clip": 1.05489373,
+      "balance_loss_mlp": 1.02634823,
+      "epoch": 0.42493837551854746,
+      "flos": 23951088881280.0,
+      "grad_norm": 2.6990736283871253,
+      "language_loss": 0.77707303,
+      "learning_rate": 2.5752093128655786e-06,
+      "loss": 0.79949123,
+      "num_input_tokens_seen": 76121825,
+      "step": 3534,
+      "time_per_iteration": 2.725147008895874
+    },
+    {
+      "auxiliary_loss_clip": 0.01200623,
+      "auxiliary_loss_mlp": 0.01033138,
+      "balance_loss_clip": 1.05304623,
+      "balance_loss_mlp": 1.0244596,
+      "epoch": 0.4250586184091866,
+      "flos": 20813466009600.0,
+      "grad_norm": 2.0911203249393773,
+      "language_loss": 0.73759532,
+      "learning_rate": 2.574463209770204e-06,
+      "loss": 0.75993299,
+      "num_input_tokens_seen": 76141140,
+      "step": 3535,
+      "time_per_iteration": 2.6707887649536133
+    },
+    {
+      "auxiliary_loss_clip": 0.01209175,
+      "auxiliary_loss_mlp": 0.0102655,
+      "balance_loss_clip": 1.04823661,
+      "balance_loss_mlp": 1.01805627,
+      "epoch": 0.42517886129982563,
+      "flos": 30371018607360.0,
+      "grad_norm": 1.6690288941845306,
+      "language_loss": 0.79261601,
+      "learning_rate": 2.5737170195292165e-06,
+      "loss": 0.81497324,
+      "num_input_tokens_seen": 76164475,
+      "step": 3536,
+      "time_per_iteration": 2.8049166202545166
+    },
+    {
+      "auxiliary_loss_clip": 0.01213001,
+      "auxiliary_loss_mlp": 0.01031116,
+      "balance_loss_clip": 1.04934585,
+      "balance_loss_mlp": 1.02249146,
+      "epoch": 0.42529910419046474,
+      "flos": 20080636732800.0,
+      "grad_norm": 2.4078215322081467,
+      "language_loss": 0.78222096,
+      "learning_rate": 2.572970742255814e-06,
+      "loss": 0.80466211,
+      "num_input_tokens_seen": 76182965,
+      "step": 3537,
+      "time_per_iteration": 2.733185052871704
+    },
+    {
+      "auxiliary_loss_clip": 0.01197331,
+      "auxiliary_loss_mlp": 0.01034139,
+      "balance_loss_clip": 1.05633402,
+      "balance_loss_mlp": 1.02668786,
+      "epoch": 0.42541934708110385,
+      "flos": 22632448694400.0,
+      "grad_norm": 1.680810940031312,
+      "language_loss": 0.81843042,
+      "learning_rate": 2.5722243780632046e-06,
+      "loss": 0.84074509,
+      "num_input_tokens_seen": 76201230,
+      "step": 3538,
+      "time_per_iteration": 2.6710755825042725
+    },
+    {
+      "auxiliary_loss_clip": 0.01140304,
+      "auxiliary_loss_mlp": 0.01012025,
+      "balance_loss_clip": 1.02573991,
+      "balance_loss_mlp": 1.01050508,
+      "epoch": 0.4255395899717429,
+      "flos": 66200676186240.0,
+      "grad_norm": 0.7553118697248312,
+      "language_loss": 0.60493124,
+      "learning_rate": 2.5714779270646125e-06,
+      "loss": 0.62645447,
+      "num_input_tokens_seen": 76262000,
+      "step": 3539,
+      "time_per_iteration": 3.280014753341675
+    },
+    {
+      "auxiliary_loss_clip": 0.0120778,
+      "auxiliary_loss_mlp": 0.01379417,
+      "balance_loss_clip": 1.05291736,
+      "balance_loss_mlp": 1.00010717,
+      "epoch": 0.425659832862382,
+      "flos": 17931814433280.0,
+      "grad_norm": 3.3576905689455225,
+      "language_loss": 0.77780831,
+      "learning_rate": 2.5707313893732735e-06,
+      "loss": 0.80368024,
+      "num_input_tokens_seen": 76280540,
+      "step": 3540,
+      "time_per_iteration": 2.6548871994018555
+    },
+    {
+      "auxiliary_loss_clip": 0.01228384,
+      "auxiliary_loss_mlp": 0.01028066,
+      "balance_loss_clip": 1.04113531,
+      "balance_loss_mlp": 1.01952457,
+      "epoch": 0.4257800757530211,
+      "flos": 24022550989440.0,
+      "grad_norm": 1.8092489518025043,
+      "language_loss": 0.77122009,
+      "learning_rate": 2.5699847651024364e-06,
+      "loss": 0.79378456,
+      "num_input_tokens_seen": 76301180,
+      "step": 3541,
+      "time_per_iteration": 2.9443392753601074
+    },
+    {
+      "auxiliary_loss_clip": 0.0119262,
+      "auxiliary_loss_mlp": 0.01030295,
+      "balance_loss_clip": 1.05378294,
+      "balance_loss_mlp": 1.02174163,
+      "epoch": 0.4259003186436602,
+      "flos": 23696015425920.0,
+      "grad_norm": 2.371474140832626,
+      "language_loss": 0.77078998,
+      "learning_rate": 2.5692380543653627e-06,
+      "loss": 0.79301918,
+      "num_input_tokens_seen": 76319335,
+      "step": 3542,
+      "time_per_iteration": 2.920558452606201
+    },
+    {
+      "auxiliary_loss_clip": 0.01200594,
+      "auxiliary_loss_mlp": 0.01379196,
+      "balance_loss_clip": 1.05585718,
+      "balance_loss_mlp": 1.00021851,
+      "epoch": 0.4260205615342993,
+      "flos": 15259772672640.0,
+      "grad_norm": 2.1915354552942152,
+      "language_loss": 0.69455743,
+      "learning_rate": 2.5684912572753293e-06,
+      "loss": 0.72035539,
+      "num_input_tokens_seen": 76335010,
+      "step": 3543,
+      "time_per_iteration": 2.62893009185791
+    },
+    {
+      "auxiliary_loss_clip": 0.01186179,
+      "auxiliary_loss_mlp": 0.01025406,
+      "balance_loss_clip": 1.05571628,
+      "balance_loss_mlp": 1.01820874,
+      "epoch": 0.4261408044249384,
+      "flos": 30665306736000.0,
+      "grad_norm": 1.8620278920612754,
+      "language_loss": 0.83671427,
+      "learning_rate": 2.5677443739456245e-06,
+      "loss": 0.85883003,
+      "num_input_tokens_seen": 76356670,
+      "step": 3544,
+      "time_per_iteration": 2.7705769538879395
+    },
+    {
+      "auxiliary_loss_clip": 0.01206631,
+      "auxiliary_loss_mlp": 0.01029542,
+      "balance_loss_clip": 1.05360544,
+      "balance_loss_mlp": 1.02125645,
+      "epoch": 0.42626104731557746,
+      "flos": 23257905240960.0,
+      "grad_norm": 2.2100183259667836,
+      "language_loss": 0.79297841,
+      "learning_rate": 2.5669974044895495e-06,
+      "loss": 0.81534016,
+      "num_input_tokens_seen": 76373065,
+      "step": 3545,
+      "time_per_iteration": 2.652148723602295
+    },
+    {
+      "auxiliary_loss_clip": 0.01222167,
+      "auxiliary_loss_mlp": 0.01031537,
+      "balance_loss_clip": 1.05146241,
+      "balance_loss_mlp": 1.02421737,
+      "epoch": 0.42638129020621657,
+      "flos": 25884770670720.0,
+      "grad_norm": 2.2854940884595725,
+      "language_loss": 0.79530501,
+      "learning_rate": 2.5662503490204187e-06,
+      "loss": 0.81784201,
+      "num_input_tokens_seen": 76393230,
+      "step": 3546,
+      "time_per_iteration": 2.788116455078125
+    },
+    {
+      "auxiliary_loss_clip": 0.01202489,
+      "auxiliary_loss_mlp": 0.01029566,
+      "balance_loss_clip": 1.05148077,
+      "balance_loss_mlp": 1.02161455,
+      "epoch": 0.4265015330968556,
+      "flos": 26502362138880.0,
+      "grad_norm": 1.8023456917829443,
+      "language_loss": 0.76146632,
+      "learning_rate": 2.5655032076515603e-06,
+      "loss": 0.78378689,
+      "num_input_tokens_seen": 76412555,
+      "step": 3547,
+      "time_per_iteration": 3.6706430912017822
+    },
+    {
+      "auxiliary_loss_clip": 0.01207832,
+      "auxiliary_loss_mlp": 0.01028525,
+      "balance_loss_clip": 1.05459595,
+      "balance_loss_mlp": 1.02082431,
+      "epoch": 0.42662177598749473,
+      "flos": 24389522288640.0,
+      "grad_norm": 1.968526883142543,
+      "language_loss": 0.8170855,
+      "learning_rate": 2.5647559804963155e-06,
+      "loss": 0.83944905,
+      "num_input_tokens_seen": 76432485,
+      "step": 3548,
+      "time_per_iteration": 2.693053960800171
+    },
+    {
+      "auxiliary_loss_clip": 0.01227909,
+      "auxiliary_loss_mlp": 0.01028562,
+      "balance_loss_clip": 1.05037999,
+      "balance_loss_mlp": 1.02074814,
+      "epoch": 0.42674201887813384,
+      "flos": 23148629089920.0,
+      "grad_norm": 1.8802572876915964,
+      "language_loss": 0.7856338,
+      "learning_rate": 2.5640086676680364e-06,
+      "loss": 0.80819857,
+      "num_input_tokens_seen": 76453980,
+      "step": 3549,
+      "time_per_iteration": 2.7725980281829834
+    },
+    {
+      "auxiliary_loss_clip": 0.0119792,
+      "auxiliary_loss_mlp": 0.01026267,
+      "balance_loss_clip": 1.05569053,
+      "balance_loss_mlp": 1.01779127,
+      "epoch": 0.4268622617687729,
+      "flos": 21689614552320.0,
+      "grad_norm": 2.2469020557803927,
+      "language_loss": 0.80611658,
+      "learning_rate": 2.5632612692800923e-06,
+      "loss": 0.82835841,
+      "num_input_tokens_seen": 76473045,
+      "step": 3550,
+      "time_per_iteration": 2.6866934299468994
+    },
+    {
+      "auxiliary_loss_clip": 0.01216398,
+      "auxiliary_loss_mlp": 0.01031667,
+      "balance_loss_clip": 1.05254376,
+      "balance_loss_mlp": 1.02260709,
+      "epoch": 0.426982504659412,
+      "flos": 23440151871360.0,
+      "grad_norm": 2.6558762739750743,
+      "language_loss": 0.75190413,
+      "learning_rate": 2.5625137854458603e-06,
+      "loss": 0.77438474,
+      "num_input_tokens_seen": 76492060,
+      "step": 3551,
+      "time_per_iteration": 2.7072315216064453
+    },
+    {
+      "auxiliary_loss_clip": 0.01206605,
+      "auxiliary_loss_mlp": 0.01029033,
+      "balance_loss_clip": 1.05130982,
+      "balance_loss_mlp": 1.0211947,
+      "epoch": 0.4271027475500511,
+      "flos": 18916556768640.0,
+      "grad_norm": 1.9266959442310996,
+      "language_loss": 0.80123103,
+      "learning_rate": 2.561766216278735e-06,
+      "loss": 0.82358736,
+      "num_input_tokens_seen": 76509655,
+      "step": 3552,
+      "time_per_iteration": 2.7418956756591797
+    },
+    {
+      "auxiliary_loss_clip": 0.01222276,
+      "auxiliary_loss_mlp": 0.01026608,
+      "balance_loss_clip": 1.05042696,
+      "balance_loss_mlp": 1.01800084,
+      "epoch": 0.4272229904406902,
+      "flos": 26870554500480.0,
+      "grad_norm": 1.7619986072459994,
+      "language_loss": 0.81725371,
+      "learning_rate": 2.561018561892121e-06,
+      "loss": 0.8397426,
+      "num_input_tokens_seen": 76528795,
+      "step": 3553,
+      "time_per_iteration": 2.8338499069213867
+    },
+    {
+      "auxiliary_loss_clip": 0.01202825,
+      "auxiliary_loss_mlp": 0.01030221,
+      "balance_loss_clip": 1.0509876,
+      "balance_loss_mlp": 1.02230525,
+      "epoch": 0.4273432333313293,
+      "flos": 23951376190080.0,
+      "grad_norm": 1.5008890249347062,
+      "language_loss": 0.76805723,
+      "learning_rate": 2.5602708223994363e-06,
+      "loss": 0.79038763,
+      "num_input_tokens_seen": 76550660,
+      "step": 3554,
+      "time_per_iteration": 3.5719454288482666
+    },
+    {
+      "auxiliary_loss_clip": 0.01213832,
+      "auxiliary_loss_mlp": 0.01031146,
+      "balance_loss_clip": 1.0480845,
+      "balance_loss_mlp": 1.02299809,
+      "epoch": 0.4274634762219684,
+      "flos": 29570354496000.0,
+      "grad_norm": 10.212342282466006,
+      "language_loss": 0.67886084,
+      "learning_rate": 2.559522997914115e-06,
+      "loss": 0.70131063,
+      "num_input_tokens_seen": 76570240,
+      "step": 3555,
+      "time_per_iteration": 2.885772705078125
+    },
+    {
+      "auxiliary_loss_clip": 0.0118642,
+      "auxiliary_loss_mlp": 0.01028708,
+      "balance_loss_clip": 1.0566864,
+      "balance_loss_mlp": 1.02124548,
+      "epoch": 0.42758371911260745,
+      "flos": 21434146047360.0,
+      "grad_norm": 2.025271084694579,
+      "language_loss": 0.84448314,
+      "learning_rate": 2.558775088549599e-06,
+      "loss": 0.86663449,
+      "num_input_tokens_seen": 76589820,
+      "step": 3556,
+      "time_per_iteration": 2.661388874053955
+    },
+    {
+      "auxiliary_loss_clip": 0.012043,
+      "auxiliary_loss_mlp": 0.01036434,
+      "balance_loss_clip": 1.05583692,
+      "balance_loss_mlp": 1.02818203,
+      "epoch": 0.42770396200324656,
+      "flos": 14752822072320.0,
+      "grad_norm": 2.8693976197525695,
+      "language_loss": 0.66006631,
+      "learning_rate": 2.5580270944193467e-06,
+      "loss": 0.68247366,
+      "num_input_tokens_seen": 76606640,
+      "step": 3557,
+      "time_per_iteration": 2.622823476791382
+    },
+    {
+      "auxiliary_loss_clip": 0.01086633,
+      "auxiliary_loss_mlp": 0.01005101,
+      "balance_loss_clip": 1.02311397,
+      "balance_loss_mlp": 1.0036881,
+      "epoch": 0.4278242048938857,
+      "flos": 70654712601600.0,
+      "grad_norm": 0.747517281332642,
+      "language_loss": 0.5548932,
+      "learning_rate": 2.557279015636827e-06,
+      "loss": 0.57581061,
+      "num_input_tokens_seen": 76667050,
+      "step": 3558,
+      "time_per_iteration": 3.216348886489868
+    },
+    {
+      "auxiliary_loss_clip": 0.0109502,
+      "auxiliary_loss_mlp": 0.01004719,
+      "balance_loss_clip": 1.02202153,
+      "balance_loss_mlp": 1.00330091,
+      "epoch": 0.42794444778452473,
+      "flos": 69366165033600.0,
+      "grad_norm": 0.7634530799201418,
+      "language_loss": 0.61221117,
+      "learning_rate": 2.5565308523155245e-06,
+      "loss": 0.63320857,
+      "num_input_tokens_seen": 76726650,
+      "step": 3559,
+      "time_per_iteration": 3.1383237838745117
+    },
+    {
+      "auxiliary_loss_clip": 0.01215032,
+      "auxiliary_loss_mlp": 0.01029383,
+      "balance_loss_clip": 1.05003059,
+      "balance_loss_mlp": 1.02181876,
+      "epoch": 0.42806469067516384,
+      "flos": 18215328481920.0,
+      "grad_norm": 2.3164516367929506,
+      "language_loss": 0.82225817,
+      "learning_rate": 2.5557826045689336e-06,
+      "loss": 0.84470236,
+      "num_input_tokens_seen": 76742890,
+      "step": 3560,
+      "time_per_iteration": 2.74298095703125
+    },
+    {
+      "auxiliary_loss_clip": 0.0112095,
+      "auxiliary_loss_mlp": 0.01000845,
+      "balance_loss_clip": 1.02465606,
+      "balance_loss_mlp": 0.99950409,
+      "epoch": 0.4281849335658029,
+      "flos": 54535814432640.0,
+      "grad_norm": 0.8270234251970139,
+      "language_loss": 0.58800709,
+      "learning_rate": 2.5550342725105643e-06,
+      "loss": 0.60922503,
+      "num_input_tokens_seen": 76801055,
+      "step": 3561,
+      "time_per_iteration": 3.235391139984131
+    },
+    {
+      "auxiliary_loss_clip": 0.01198515,
+      "auxiliary_loss_mlp": 0.0102742,
+      "balance_loss_clip": 1.057163,
+      "balance_loss_mlp": 1.01948047,
+      "epoch": 0.428305176456442,
+      "flos": 17274828723840.0,
+      "grad_norm": 1.6688933301620912,
+      "language_loss": 0.8066892,
+      "learning_rate": 2.554285856253937e-06,
+      "loss": 0.8289485,
+      "num_input_tokens_seen": 76819890,
+      "step": 3562,
+      "time_per_iteration": 2.657564640045166
+    },
+    {
+      "auxiliary_loss_clip": 0.01203411,
+      "auxiliary_loss_mlp": 0.01026238,
+      "balance_loss_clip": 1.05378604,
+      "balance_loss_mlp": 1.01796496,
+      "epoch": 0.4284254193470811,
+      "flos": 26359509749760.0,
+      "grad_norm": 1.928961297291992,
+      "language_loss": 0.7757535,
+      "learning_rate": 2.5535373559125855e-06,
+      "loss": 0.79804999,
+      "num_input_tokens_seen": 76840255,
+      "step": 3563,
+      "time_per_iteration": 2.7946360111236572
+    },
+    {
+      "auxiliary_loss_clip": 0.01241357,
+      "auxiliary_loss_mlp": 0.01031731,
+      "balance_loss_clip": 1.0469228,
+      "balance_loss_mlp": 1.0234524,
+      "epoch": 0.42854566223772017,
+      "flos": 29714248379520.0,
+      "grad_norm": 1.5251500218146867,
+      "language_loss": 0.81934583,
+      "learning_rate": 2.552788771600057e-06,
+      "loss": 0.84207672,
+      "num_input_tokens_seen": 76860565,
+      "step": 3564,
+      "time_per_iteration": 2.8705673217773438
+    },
+    {
+      "auxiliary_loss_clip": 0.01218691,
+      "auxiliary_loss_mlp": 0.01027401,
+      "balance_loss_clip": 1.05397737,
+      "balance_loss_mlp": 1.01947927,
+      "epoch": 0.4286659051283593,
+      "flos": 22018161277440.0,
+      "grad_norm": 3.34519401884347,
+      "language_loss": 0.82094926,
+      "learning_rate": 2.5520401034299118e-06,
+      "loss": 0.84341013,
+      "num_input_tokens_seen": 76878325,
+      "step": 3565,
+      "time_per_iteration": 2.7449278831481934
+    },
+    {
+      "auxiliary_loss_clip": 0.01200452,
+      "auxiliary_loss_mlp": 0.01029296,
+      "balance_loss_clip": 1.05455685,
+      "balance_loss_mlp": 1.02014065,
+      "epoch": 0.4287861480189984,
+      "flos": 13334422838400.0,
+      "grad_norm": 2.215165396950984,
+      "language_loss": 0.87848055,
+      "learning_rate": 2.551291351515722e-06,
+      "loss": 0.90077806,
+      "num_input_tokens_seen": 76895340,
+      "step": 3566,
+      "time_per_iteration": 2.7028934955596924
+    },
+    {
+      "auxiliary_loss_clip": 0.01208021,
+      "auxiliary_loss_mlp": 0.01378983,
+      "balance_loss_clip": 1.04711008,
+      "balance_loss_mlp": 1.0000608,
+      "epoch": 0.42890639090963745,
+      "flos": 26651535321600.0,
+      "grad_norm": 1.6609002676746043,
+      "language_loss": 0.85689139,
+      "learning_rate": 2.5505425159710726e-06,
+      "loss": 0.88276136,
+      "num_input_tokens_seen": 76915150,
+      "step": 3567,
+      "time_per_iteration": 2.8373303413391113
+    },
+    {
+      "auxiliary_loss_clip": 0.01213467,
+      "auxiliary_loss_mlp": 0.01379096,
+      "balance_loss_clip": 1.0526948,
+      "balance_loss_mlp": 1.00021577,
+      "epoch": 0.42902663380027656,
+      "flos": 24055768091520.0,
+      "grad_norm": 1.8159584637437316,
+      "language_loss": 0.82825434,
+      "learning_rate": 2.549793596909561e-06,
+      "loss": 0.85417992,
+      "num_input_tokens_seen": 76933770,
+      "step": 3568,
+      "time_per_iteration": 2.7631707191467285
+    },
+    {
+      "auxiliary_loss_clip": 0.01202057,
+      "auxiliary_loss_mlp": 0.01024404,
+      "balance_loss_clip": 1.05232108,
+      "balance_loss_mlp": 1.01613712,
+      "epoch": 0.42914687669091567,
+      "flos": 15632561975040.0,
+      "grad_norm": 2.5487784947116654,
+      "language_loss": 0.66327596,
+      "learning_rate": 2.5490445944447976e-06,
+      "loss": 0.68554056,
+      "num_input_tokens_seen": 76952265,
+      "step": 3569,
+      "time_per_iteration": 2.6921989917755127
+    },
+    {
+      "auxiliary_loss_clip": 0.01198466,
+      "auxiliary_loss_mlp": 0.01029096,
+      "balance_loss_clip": 1.05505943,
+      "balance_loss_mlp": 1.02112722,
+      "epoch": 0.4292671195815547,
+      "flos": 31467802440960.0,
+      "grad_norm": 2.1290460964381235,
+      "language_loss": 0.6520226,
+      "learning_rate": 2.548295508690406e-06,
+      "loss": 0.67429829,
+      "num_input_tokens_seen": 76973560,
+      "step": 3570,
+      "time_per_iteration": 2.7360920906066895
+    },
+    {
+      "auxiliary_loss_clip": 0.01197842,
+      "auxiliary_loss_mlp": 0.01034842,
+      "balance_loss_clip": 1.05237103,
+      "balance_loss_mlp": 1.02745974,
+      "epoch": 0.42938736247219383,
+      "flos": 30257756046720.0,
+      "grad_norm": 1.8567562091783478,
+      "language_loss": 0.7646277,
+      "learning_rate": 2.5475463397600217e-06,
+      "loss": 0.78695452,
+      "num_input_tokens_seen": 76993640,
+      "step": 3571,
+      "time_per_iteration": 2.717895746231079
+    },
+    {
+      "auxiliary_loss_clip": 0.01195441,
+      "auxiliary_loss_mlp": 0.01029942,
+      "balance_loss_clip": 1.05949736,
+      "balance_loss_mlp": 1.02165651,
+      "epoch": 0.42950760536283294,
+      "flos": 29349683291520.0,
+      "grad_norm": 2.8673432951653264,
+      "language_loss": 0.7700569,
+      "learning_rate": 2.546797087767293e-06,
+      "loss": 0.79231071,
+      "num_input_tokens_seen": 77013765,
+      "step": 3572,
+      "time_per_iteration": 2.649695634841919
+    },
+    {
+      "auxiliary_loss_clip": 0.01220475,
+      "auxiliary_loss_mlp": 0.01024958,
+      "balance_loss_clip": 1.05050611,
+      "balance_loss_mlp": 1.01688194,
+      "epoch": 0.429627848253472,
+      "flos": 26869943969280.0,
+      "grad_norm": 1.6687502925208417,
+      "language_loss": 0.87358552,
+      "learning_rate": 2.546047752825881e-06,
+      "loss": 0.89603984,
+      "num_input_tokens_seen": 77034370,
+      "step": 3573,
+      "time_per_iteration": 3.7552976608276367
+    },
+    {
+      "auxiliary_loss_clip": 0.01226771,
+      "auxiliary_loss_mlp": 0.01029074,
+      "balance_loss_clip": 1.0478543,
+      "balance_loss_mlp": 1.02132583,
+      "epoch": 0.4297480911441111,
+      "flos": 13881270470400.0,
+      "grad_norm": 2.041749825840658,
+      "language_loss": 0.93492067,
+      "learning_rate": 2.5452983350494595e-06,
+      "loss": 0.95747912,
+      "num_input_tokens_seen": 77049925,
+      "step": 3574,
+      "time_per_iteration": 3.612565755844116
+    },
+    {
+      "auxiliary_loss_clip": 0.01200448,
+      "auxiliary_loss_mlp": 0.01379206,
+      "balance_loss_clip": 1.0563606,
+      "balance_loss_mlp": 1.00022292,
+      "epoch": 0.4298683340347502,
+      "flos": 20741141975040.0,
+      "grad_norm": 2.054890396399492,
+      "language_loss": 0.64966851,
+      "learning_rate": 2.544548834551713e-06,
+      "loss": 0.67546505,
+      "num_input_tokens_seen": 77068930,
+      "step": 3575,
+      "time_per_iteration": 2.6746695041656494
+    },
+    {
+      "auxiliary_loss_clip": 0.01206044,
+      "auxiliary_loss_mlp": 0.01378841,
+      "balance_loss_clip": 1.04788363,
+      "balance_loss_mlp": 1.00003886,
+      "epoch": 0.4299885769253893,
+      "flos": 20882126856960.0,
+      "grad_norm": 3.264957744346618,
+      "language_loss": 0.94486934,
+      "learning_rate": 2.5437992514463424e-06,
+      "loss": 0.9707182,
+      "num_input_tokens_seen": 77082255,
+      "step": 3576,
+      "time_per_iteration": 2.713831663131714
+    },
+    {
+      "auxiliary_loss_clip": 0.01198414,
+      "auxiliary_loss_mlp": 0.01029158,
+      "balance_loss_clip": 1.05582714,
+      "balance_loss_mlp": 1.02105784,
+      "epoch": 0.4301088198160284,
+      "flos": 25484618183040.0,
+      "grad_norm": 1.9205962412319855,
+      "language_loss": 0.87968677,
+      "learning_rate": 2.5430495858470565e-06,
+      "loss": 0.90196252,
+      "num_input_tokens_seen": 77101725,
+      "step": 3577,
+      "time_per_iteration": 2.7741806507110596
+    },
+    {
+      "auxiliary_loss_clip": 0.01195342,
+      "auxiliary_loss_mlp": 0.01030502,
+      "balance_loss_clip": 1.05549216,
+      "balance_loss_mlp": 1.02200818,
+      "epoch": 0.43022906270666744,
+      "flos": 18259427404800.0,
+      "grad_norm": 2.177115358470198,
+      "language_loss": 0.77275258,
+      "learning_rate": 2.54229983786758e-06,
+      "loss": 0.79501104,
+      "num_input_tokens_seen": 77119670,
+      "step": 3578,
+      "time_per_iteration": 2.65705943107605
+    },
+    {
+      "auxiliary_loss_clip": 0.01205296,
+      "auxiliary_loss_mlp": 0.01030633,
+      "balance_loss_clip": 1.05112123,
+      "balance_loss_mlp": 1.02252698,
+      "epoch": 0.43034930559730655,
+      "flos": 23399536567680.0,
+      "grad_norm": 2.0934935636039245,
+      "language_loss": 0.85069704,
+      "learning_rate": 2.541550007621651e-06,
+      "loss": 0.87305629,
+      "num_input_tokens_seen": 77138160,
+      "step": 3579,
+      "time_per_iteration": 2.7344863414764404
+    },
+    {
+      "auxiliary_loss_clip": 0.01197247,
+      "auxiliary_loss_mlp": 0.0102618,
+      "balance_loss_clip": 1.05597198,
+      "balance_loss_mlp": 1.01828837,
+      "epoch": 0.43046954848794566,
+      "flos": 28184382264960.0,
+      "grad_norm": 3.851478138872625,
+      "language_loss": 0.80070138,
+      "learning_rate": 2.5408000952230156e-06,
+      "loss": 0.82293564,
+      "num_input_tokens_seen": 77156950,
+      "step": 3580,
+      "time_per_iteration": 3.60856294631958
+    },
+    {
+      "auxiliary_loss_clip": 0.01226055,
+      "auxiliary_loss_mlp": 0.01032117,
+      "balance_loss_clip": 1.05157375,
+      "balance_loss_mlp": 1.02311659,
+      "epoch": 0.4305897913785847,
+      "flos": 28580476515840.0,
+      "grad_norm": 2.0172017270873015,
+      "language_loss": 0.90494937,
+      "learning_rate": 2.5400501007854357e-06,
+      "loss": 0.92753112,
+      "num_input_tokens_seen": 77176395,
+      "step": 3581,
+      "time_per_iteration": 2.7793185710906982
+    },
+    {
+      "auxiliary_loss_clip": 0.01220477,
+      "auxiliary_loss_mlp": 0.01023771,
+      "balance_loss_clip": 1.04747796,
+      "balance_loss_mlp": 1.01540828,
+      "epoch": 0.43071003426922383,
+      "flos": 20448721353600.0,
+      "grad_norm": 1.986604092613336,
+      "language_loss": 0.75438094,
+      "learning_rate": 2.539300024422685e-06,
+      "loss": 0.7768234,
+      "num_input_tokens_seen": 77194340,
+      "step": 3582,
+      "time_per_iteration": 2.6813430786132812
+    },
+    {
+      "auxiliary_loss_clip": 0.01117745,
+      "auxiliary_loss_mlp": 0.01009353,
+      "balance_loss_clip": 1.01774883,
+      "balance_loss_mlp": 1.00804186,
+      "epoch": 0.43083027715986294,
+      "flos": 51997969883520.0,
+      "grad_norm": 0.7923648976428543,
+      "language_loss": 0.60908127,
+      "learning_rate": 2.538549866248549e-06,
+      "loss": 0.63035214,
+      "num_input_tokens_seen": 77249320,
+      "step": 3583,
+      "time_per_iteration": 3.1149098873138428
+    },
+    {
+      "auxiliary_loss_clip": 0.01198225,
+      "auxiliary_loss_mlp": 0.01026399,
+      "balance_loss_clip": 1.05428159,
+      "balance_loss_mlp": 1.01809549,
+      "epoch": 0.430950520050502,
+      "flos": 16690885320960.0,
+      "grad_norm": 2.31636855653466,
+      "language_loss": 0.8150211,
+      "learning_rate": 2.5377996263768274e-06,
+      "loss": 0.83726734,
+      "num_input_tokens_seen": 77267400,
+      "step": 3584,
+      "time_per_iteration": 2.6429827213287354
+    },
+    {
+      "auxiliary_loss_clip": 0.01191185,
+      "auxiliary_loss_mlp": 0.01027639,
+      "balance_loss_clip": 1.05253386,
+      "balance_loss_mlp": 1.01954508,
+      "epoch": 0.4310707629411411,
+      "flos": 24608433726720.0,
+      "grad_norm": 1.7620985615691651,
+      "language_loss": 0.68677175,
+      "learning_rate": 2.5370493049213293e-06,
+      "loss": 0.70896,
+      "num_input_tokens_seen": 77287045,
+      "step": 3585,
+      "time_per_iteration": 2.6643104553222656
+    },
+    {
+      "auxiliary_loss_clip": 0.012439,
+      "auxiliary_loss_mlp": 0.01026617,
+      "balance_loss_clip": 1.04600477,
+      "balance_loss_mlp": 1.01816463,
+      "epoch": 0.4311910058317802,
+      "flos": 26432983019520.0,
+      "grad_norm": 2.289031859757682,
+      "language_loss": 0.79791176,
+      "learning_rate": 2.536298901995878e-06,
+      "loss": 0.82061696,
+      "num_input_tokens_seen": 77306255,
+      "step": 3586,
+      "time_per_iteration": 3.011251211166382
+    },
+    {
+      "auxiliary_loss_clip": 0.012128,
+      "auxiliary_loss_mlp": 0.01024549,
+      "balance_loss_clip": 1.05642045,
+      "balance_loss_mlp": 1.01621068,
+      "epoch": 0.43131124872241927,
+      "flos": 25155891889920.0,
+      "grad_norm": 1.7377671147665918,
+      "language_loss": 0.8009761,
+      "learning_rate": 2.535548417714311e-06,
+      "loss": 0.8233496,
+      "num_input_tokens_seen": 77325555,
+      "step": 3587,
+      "time_per_iteration": 2.9761576652526855
+    },
+    {
+      "auxiliary_loss_clip": 0.01201974,
+      "auxiliary_loss_mlp": 0.01031208,
+      "balance_loss_clip": 1.05327487,
+      "balance_loss_mlp": 1.02304864,
+      "epoch": 0.4314314916130584,
+      "flos": 21614812479360.0,
+      "grad_norm": 1.5221543895428131,
+      "language_loss": 0.87171245,
+      "learning_rate": 2.534797852190474e-06,
+      "loss": 0.89404428,
+      "num_input_tokens_seen": 77345735,
+      "step": 3588,
+      "time_per_iteration": 2.694197654724121
+    },
+    {
+      "auxiliary_loss_clip": 0.01192883,
+      "auxiliary_loss_mlp": 0.01026978,
+      "balance_loss_clip": 1.05223632,
+      "balance_loss_mlp": 1.01888335,
+      "epoch": 0.4315517345036975,
+      "flos": 19275016544640.0,
+      "grad_norm": 2.154932052291633,
+      "language_loss": 0.81918848,
+      "learning_rate": 2.5340472055382283e-06,
+      "loss": 0.84138703,
+      "num_input_tokens_seen": 77361765,
+      "step": 3589,
+      "time_per_iteration": 2.647594690322876
+    },
+    {
+      "auxiliary_loss_clip": 0.01211231,
+      "auxiliary_loss_mlp": 0.01023858,
+      "balance_loss_clip": 1.04697275,
+      "balance_loss_mlp": 1.0159483,
+      "epoch": 0.43167197739433655,
+      "flos": 24273853516800.0,
+      "grad_norm": 1.9830537171877427,
+      "language_loss": 0.80979186,
+      "learning_rate": 2.5332964778714468e-06,
+      "loss": 0.83214277,
+      "num_input_tokens_seen": 77378950,
+      "step": 3590,
+      "time_per_iteration": 2.7538247108459473
+    },
+    {
+      "auxiliary_loss_clip": 0.01217858,
+      "auxiliary_loss_mlp": 0.01028661,
+      "balance_loss_clip": 1.05578732,
+      "balance_loss_mlp": 1.02013755,
+      "epoch": 0.43179222028497566,
+      "flos": 16867816738560.0,
+      "grad_norm": 1.5464821024896154,
+      "language_loss": 0.66013968,
+      "learning_rate": 2.5325456693040123e-06,
+      "loss": 0.68260491,
+      "num_input_tokens_seen": 77396145,
+      "step": 3591,
+      "time_per_iteration": 2.6930081844329834
+    },
+    {
+      "auxiliary_loss_clip": 0.01203042,
+      "auxiliary_loss_mlp": 0.01023456,
+      "balance_loss_clip": 1.05271184,
+      "balance_loss_mlp": 1.01480198,
+      "epoch": 0.43191246317561477,
+      "flos": 17639214243840.0,
+      "grad_norm": 2.5076104873875673,
+      "language_loss": 0.74859589,
+      "learning_rate": 2.531794779949824e-06,
+      "loss": 0.77086091,
+      "num_input_tokens_seen": 77414045,
+      "step": 3592,
+      "time_per_iteration": 3.6384167671203613
+    },
+    {
+      "auxiliary_loss_clip": 0.01203871,
+      "auxiliary_loss_mlp": 0.01025398,
+      "balance_loss_clip": 1.04903877,
+      "balance_loss_mlp": 1.01753056,
+      "epoch": 0.4320327060662538,
+      "flos": 23878800760320.0,
+      "grad_norm": 1.7200798015265175,
+      "language_loss": 0.87949055,
+      "learning_rate": 2.5310438099227903e-06,
+      "loss": 0.90178323,
+      "num_input_tokens_seen": 77431310,
+      "step": 3593,
+      "time_per_iteration": 2.819674015045166
+    },
+    {
+      "auxiliary_loss_clip": 0.01093435,
+      "auxiliary_loss_mlp": 0.01002193,
+      "balance_loss_clip": 1.01778698,
+      "balance_loss_mlp": 1.00073278,
+      "epoch": 0.43215294895689293,
+      "flos": 66394917959040.0,
+      "grad_norm": 0.8027667326188312,
+      "language_loss": 0.53437471,
+      "learning_rate": 2.530292759336833e-06,
+      "loss": 0.55533099,
+      "num_input_tokens_seen": 77492045,
+      "step": 3594,
+      "time_per_iteration": 3.265228509902954
+    },
+    {
+      "auxiliary_loss_clip": 0.01206108,
+      "auxiliary_loss_mlp": 0.01027198,
+      "balance_loss_clip": 1.05413485,
+      "balance_loss_mlp": 1.01882315,
+      "epoch": 0.432273191847532,
+      "flos": 20594267262720.0,
+      "grad_norm": 2.6176210429331888,
+      "language_loss": 0.69691396,
+      "learning_rate": 2.5295416283058855e-06,
+      "loss": 0.71924698,
+      "num_input_tokens_seen": 77510910,
+      "step": 3595,
+      "time_per_iteration": 2.702402114868164
+    },
+    {
+      "auxiliary_loss_clip": 0.01199055,
+      "auxiliary_loss_mlp": 0.01378939,
+      "balance_loss_clip": 1.0499512,
+      "balance_loss_mlp": 1.0,
+      "epoch": 0.4323934347381711,
+      "flos": 19282127437440.0,
+      "grad_norm": 1.7079186910341269,
+      "language_loss": 0.66085768,
+      "learning_rate": 2.5287904169438943e-06,
+      "loss": 0.68663764,
+      "num_input_tokens_seen": 77530115,
+      "step": 3596,
+      "time_per_iteration": 2.6910202503204346
+    },
+    {
+      "auxiliary_loss_clip": 0.01250254,
+      "auxiliary_loss_mlp": 0.01035912,
+      "balance_loss_clip": 1.04994559,
+      "balance_loss_mlp": 1.02701902,
+      "epoch": 0.4325136776288102,
+      "flos": 21726315273600.0,
+      "grad_norm": 4.09073897966191,
+      "language_loss": 0.64243668,
+      "learning_rate": 2.528039125364817e-06,
+      "loss": 0.66529834,
+      "num_input_tokens_seen": 77548920,
+      "step": 3597,
+      "time_per_iteration": 2.9000985622406006
+    },
+    {
+      "auxiliary_loss_clip": 0.01219626,
+      "auxiliary_loss_mlp": 0.01028885,
+      "balance_loss_clip": 1.05308747,
+      "balance_loss_mlp": 1.02012944,
+      "epoch": 0.43263392051944927,
+      "flos": 22340746344960.0,
+      "grad_norm": 2.437368799358761,
+      "language_loss": 0.76034212,
+      "learning_rate": 2.5272877536826246e-06,
+      "loss": 0.78282726,
+      "num_input_tokens_seen": 77567715,
+      "step": 3598,
+      "time_per_iteration": 2.7418041229248047
+    },
+    {
+      "auxiliary_loss_clip": 0.01220831,
+      "auxiliary_loss_mlp": 0.0102688,
+      "balance_loss_clip": 1.04454017,
+      "balance_loss_mlp": 1.01882732,
+      "epoch": 0.4327541634100884,
+      "flos": 29168406328320.0,
+      "grad_norm": 2.580792464198517,
+      "language_loss": 0.70328295,
+      "learning_rate": 2.5265363020112986e-06,
+      "loss": 0.72575998,
+      "num_input_tokens_seen": 77588035,
+      "step": 3599,
+      "time_per_iteration": 4.739888906478882
+    },
+    {
+      "auxiliary_loss_clip": 0.01198055,
+      "auxiliary_loss_mlp": 0.01027407,
+      "balance_loss_clip": 1.05652189,
+      "balance_loss_mlp": 1.01880646,
+      "epoch": 0.4328744063007275,
+      "flos": 26067448264320.0,
+      "grad_norm": 1.9923870972490967,
+      "language_loss": 0.84307837,
+      "learning_rate": 2.5257847704648344e-06,
+      "loss": 0.86533296,
+      "num_input_tokens_seen": 77609265,
+      "step": 3600,
+      "time_per_iteration": 3.8272695541381836
+    },
+    {
+      "auxiliary_loss_clip": 0.01189666,
+      "auxiliary_loss_mlp": 0.01027144,
+      "balance_loss_clip": 1.05648923,
+      "balance_loss_mlp": 1.01924086,
+      "epoch": 0.43299464919136654,
+      "flos": 16581357774720.0,
+      "grad_norm": 1.7089033785298955,
+      "language_loss": 0.75226361,
+      "learning_rate": 2.525033159157239e-06,
+      "loss": 0.77443177,
+      "num_input_tokens_seen": 77625580,
+      "step": 3601,
+      "time_per_iteration": 2.757535696029663
+    },
+    {
+      "auxiliary_loss_clip": 0.01192554,
+      "auxiliary_loss_mlp": 0.01029322,
+      "balance_loss_clip": 1.05255854,
+      "balance_loss_mlp": 1.02008963,
+      "epoch": 0.43311489208200565,
+      "flos": 16107265140480.0,
+      "grad_norm": 1.7574774467729641,
+      "language_loss": 0.77382052,
+      "learning_rate": 2.52428146820253e-06,
+      "loss": 0.79603928,
+      "num_input_tokens_seen": 77643835,
+      "step": 3602,
+      "time_per_iteration": 2.560293197631836
+    },
+    {
+      "auxiliary_loss_clip": 0.01218402,
+      "auxiliary_loss_mlp": 0.01032104,
+      "balance_loss_clip": 1.05301952,
+      "balance_loss_mlp": 1.02327025,
+      "epoch": 0.43323513497264476,
+      "flos": 22930220442240.0,
+      "grad_norm": 1.9410886269254,
+      "language_loss": 0.81800151,
+      "learning_rate": 2.52352969771474e-06,
+      "loss": 0.84050661,
+      "num_input_tokens_seen": 77663060,
+      "step": 3603,
+      "time_per_iteration": 2.711829900741577
+    },
+    {
+      "auxiliary_loss_clip": 0.01205116,
+      "auxiliary_loss_mlp": 0.01026551,
+      "balance_loss_clip": 1.05119109,
+      "balance_loss_mlp": 1.01828432,
+      "epoch": 0.4333553778632838,
+      "flos": 25299031587840.0,
+      "grad_norm": 2.1656681234912925,
+      "language_loss": 0.88472712,
+      "learning_rate": 2.5227778478079106e-06,
+      "loss": 0.90704381,
+      "num_input_tokens_seen": 77682470,
+      "step": 3604,
+      "time_per_iteration": 2.7112224102020264
+    },
+    {
+      "auxiliary_loss_clip": 0.01190708,
+      "auxiliary_loss_mlp": 0.01033813,
+      "balance_loss_clip": 1.05144644,
+      "balance_loss_mlp": 1.02575469,
+      "epoch": 0.43347562075392293,
+      "flos": 19387165783680.0,
+      "grad_norm": 1.5657419862134492,
+      "language_loss": 0.76768911,
+      "learning_rate": 2.522025918596098e-06,
+      "loss": 0.78993434,
+      "num_input_tokens_seen": 77700770,
+      "step": 3605,
+      "time_per_iteration": 2.6188690662384033
+    },
+    {
+      "auxiliary_loss_clip": 0.01195805,
+      "auxiliary_loss_mlp": 0.01027114,
+      "balance_loss_clip": 1.05195951,
+      "balance_loss_mlp": 1.01986623,
+      "epoch": 0.43359586364456204,
+      "flos": 26325969425280.0,
+      "grad_norm": 2.3992434607726856,
+      "language_loss": 0.65655434,
+      "learning_rate": 2.521273910193368e-06,
+      "loss": 0.67878354,
+      "num_input_tokens_seen": 77723950,
+      "step": 3606,
+      "time_per_iteration": 3.718946933746338
+    },
+    {
+      "auxiliary_loss_clip": 0.0120459,
+      "auxiliary_loss_mlp": 0.01027599,
+      "balance_loss_clip": 1.05516279,
+      "balance_loss_mlp": 1.01946926,
+      "epoch": 0.4337161065352011,
+      "flos": 15989261984640.0,
+      "grad_norm": 2.160042653447159,
+      "language_loss": 0.87410343,
+      "learning_rate": 2.5205218227138006e-06,
+      "loss": 0.89642537,
+      "num_input_tokens_seen": 77736905,
+      "step": 3607,
+      "time_per_iteration": 2.6271777153015137
+    },
+    {
+      "auxiliary_loss_clip": 0.01190794,
+      "auxiliary_loss_mlp": 0.01032976,
+      "balance_loss_clip": 1.05694497,
+      "balance_loss_mlp": 1.02493513,
+      "epoch": 0.4338363494258402,
+      "flos": 20224710184320.0,
+      "grad_norm": 1.897483342880546,
+      "language_loss": 0.7920233,
+      "learning_rate": 2.519769656271486e-06,
+      "loss": 0.81426096,
+      "num_input_tokens_seen": 77754325,
+      "step": 3608,
+      "time_per_iteration": 2.6998531818389893
+    },
+    {
+      "auxiliary_loss_clip": 0.01207249,
+      "auxiliary_loss_mlp": 0.01034851,
+      "balance_loss_clip": 1.04484224,
+      "balance_loss_mlp": 1.0264405,
+      "epoch": 0.43395659231647926,
+      "flos": 20083904870400.0,
+      "grad_norm": 2.064782230577604,
+      "language_loss": 0.67244709,
+      "learning_rate": 2.5190174109805285e-06,
+      "loss": 0.69486809,
+      "num_input_tokens_seen": 77774150,
+      "step": 3609,
+      "time_per_iteration": 2.7911384105682373
+    },
+    {
+      "auxiliary_loss_clip": 0.01192121,
+      "auxiliary_loss_mlp": 0.01029492,
+      "balance_loss_clip": 1.04805934,
+      "balance_loss_mlp": 1.02127218,
+      "epoch": 0.43407683520711837,
+      "flos": 19901801894400.0,
+      "grad_norm": 1.8546324886485135,
+      "language_loss": 0.63904309,
+      "learning_rate": 2.518265086955042e-06,
+      "loss": 0.66125929,
+      "num_input_tokens_seen": 77791870,
+      "step": 3610,
+      "time_per_iteration": 2.63204026222229
+    },
+    {
+      "auxiliary_loss_clip": 0.01186659,
+      "auxiliary_loss_mlp": 0.01028922,
+      "balance_loss_clip": 1.05375481,
+      "balance_loss_mlp": 1.02075028,
+      "epoch": 0.4341970780977575,
+      "flos": 23108732058240.0,
+      "grad_norm": 1.847288782165669,
+      "language_loss": 0.83564359,
+      "learning_rate": 2.5175126843091534e-06,
+      "loss": 0.85779941,
+      "num_input_tokens_seen": 77811240,
+      "step": 3611,
+      "time_per_iteration": 2.5815610885620117
+    },
+    {
+      "auxiliary_loss_clip": 0.0120866,
+      "auxiliary_loss_mlp": 0.01032479,
+      "balance_loss_clip": 1.05334425,
+      "balance_loss_mlp": 1.0247128,
+      "epoch": 0.43431732098839654,
+      "flos": 37408288406400.0,
+      "grad_norm": 2.3743094309367994,
+      "language_loss": 0.75287199,
+      "learning_rate": 2.5167602031570034e-06,
+      "loss": 0.77528334,
+      "num_input_tokens_seen": 77831425,
+      "step": 3612,
+      "time_per_iteration": 2.794874429702759
+    },
+    {
+      "auxiliary_loss_clip": 0.01187528,
+      "auxiliary_loss_mlp": 0.01031886,
+      "balance_loss_clip": 1.05452871,
+      "balance_loss_mlp": 1.02336574,
+      "epoch": 0.43443756387903565,
+      "flos": 31868206323840.0,
+      "grad_norm": 1.7406351801717914,
+      "language_loss": 0.73937315,
+      "learning_rate": 2.51600764361274e-06,
+      "loss": 0.76156723,
+      "num_input_tokens_seen": 77852950,
+      "step": 3613,
+      "time_per_iteration": 2.703700542449951
+    },
+    {
+      "auxiliary_loss_clip": 0.01188482,
+      "auxiliary_loss_mlp": 0.01024968,
+      "balance_loss_clip": 1.05463827,
+      "balance_loss_mlp": 1.01643312,
+      "epoch": 0.43455780676967476,
+      "flos": 23477139901440.0,
+      "grad_norm": 4.806191469063813,
+      "language_loss": 0.78647673,
+      "learning_rate": 2.5152550057905283e-06,
+      "loss": 0.80861127,
+      "num_input_tokens_seen": 77872840,
+      "step": 3614,
+      "time_per_iteration": 2.6043941974639893
+    },
+    {
+      "auxiliary_loss_clip": 0.01196403,
+      "auxiliary_loss_mlp": 0.01379537,
+      "balance_loss_clip": 1.05261469,
+      "balance_loss_mlp": 1.0000906,
+      "epoch": 0.4346780496603138,
+      "flos": 24207060176640.0,
+      "grad_norm": 2.260836406405554,
+      "language_loss": 0.7679109,
+      "learning_rate": 2.5145022898045415e-06,
+      "loss": 0.7936703,
+      "num_input_tokens_seen": 77892025,
+      "step": 3615,
+      "time_per_iteration": 2.71989369392395
+    },
+    {
+      "auxiliary_loss_clip": 0.01206229,
+      "auxiliary_loss_mlp": 0.01031164,
+      "balance_loss_clip": 1.05084944,
+      "balance_loss_mlp": 1.02211583,
+      "epoch": 0.4347982925509529,
+      "flos": 17092366611840.0,
+      "grad_norm": 2.695798228805677,
+      "language_loss": 0.89893937,
+      "learning_rate": 2.5137494957689664e-06,
+      "loss": 0.92131329,
+      "num_input_tokens_seen": 77907635,
+      "step": 3616,
+      "time_per_iteration": 2.6164746284484863
+    },
+    {
+      "auxiliary_loss_clip": 0.01110077,
+      "auxiliary_loss_mlp": 0.01000565,
+      "balance_loss_clip": 1.02231455,
+      "balance_loss_mlp": 0.99924797,
+      "epoch": 0.43491853544159204,
+      "flos": 60945544696320.0,
+      "grad_norm": 0.7654981100890261,
+      "language_loss": 0.57331467,
+      "learning_rate": 2.5129966237980016e-06,
+      "loss": 0.59442115,
+      "num_input_tokens_seen": 77970630,
+      "step": 3617,
+      "time_per_iteration": 3.270381212234497
+    },
+    {
+      "auxiliary_loss_clip": 0.01217537,
+      "auxiliary_loss_mlp": 0.01025283,
+      "balance_loss_clip": 1.05217624,
+      "balance_loss_mlp": 1.01690292,
+      "epoch": 0.4350387783322311,
+      "flos": 21944652094080.0,
+      "grad_norm": 2.0703294937692758,
+      "language_loss": 0.78121006,
+      "learning_rate": 2.512243674005857e-06,
+      "loss": 0.80363834,
+      "num_input_tokens_seen": 77989995,
+      "step": 3618,
+      "time_per_iteration": 2.684422016143799
+    },
+    {
+      "auxiliary_loss_clip": 0.01229504,
+      "auxiliary_loss_mlp": 0.01030833,
+      "balance_loss_clip": 1.04890335,
+      "balance_loss_mlp": 1.02242839,
+      "epoch": 0.4351590212228702,
+      "flos": 25082705928960.0,
+      "grad_norm": 1.744149823393357,
+      "language_loss": 0.86254644,
+      "learning_rate": 2.5114906465067537e-06,
+      "loss": 0.88514972,
+      "num_input_tokens_seen": 78010980,
+      "step": 3619,
+      "time_per_iteration": 2.8504114151000977
+    },
+    {
+      "auxiliary_loss_clip": 0.01194866,
+      "auxiliary_loss_mlp": 0.01026774,
+      "balance_loss_clip": 1.0506568,
+      "balance_loss_mlp": 1.01890004,
+      "epoch": 0.4352792641135093,
+      "flos": 21506541909120.0,
+      "grad_norm": 2.5891783797284393,
+      "language_loss": 0.74885595,
+      "learning_rate": 2.5107375414149264e-06,
+      "loss": 0.77107227,
+      "num_input_tokens_seen": 78030225,
+      "step": 3620,
+      "time_per_iteration": 2.733981132507324
+    },
+    {
+      "auxiliary_loss_clip": 0.01211864,
+      "auxiliary_loss_mlp": 0.01031624,
+      "balance_loss_clip": 1.04514587,
+      "balance_loss_mlp": 1.02283812,
+      "epoch": 0.43539950700414837,
+      "flos": 16253457494400.0,
+      "grad_norm": 2.3115821331313167,
+      "language_loss": 0.71799755,
+      "learning_rate": 2.5099843588446197e-06,
+      "loss": 0.74043238,
+      "num_input_tokens_seen": 78048545,
+      "step": 3621,
+      "time_per_iteration": 2.8059377670288086
+    },
+    {
+      "auxiliary_loss_clip": 0.01226997,
+      "auxiliary_loss_mlp": 0.01028959,
+      "balance_loss_clip": 1.05018842,
+      "balance_loss_mlp": 1.02124655,
+      "epoch": 0.4355197498947875,
+      "flos": 16691819074560.0,
+      "grad_norm": 2.7425448995929527,
+      "language_loss": 0.61342657,
+      "learning_rate": 2.509231098910091e-06,
+      "loss": 0.63598621,
+      "num_input_tokens_seen": 78068415,
+      "step": 3622,
+      "time_per_iteration": 2.7888357639312744
+    },
+    {
+      "auxiliary_loss_clip": 0.01199665,
+      "auxiliary_loss_mlp": 0.01028003,
+      "balance_loss_clip": 1.05243587,
+      "balance_loss_mlp": 1.01984859,
+      "epoch": 0.4356399927854266,
+      "flos": 16362733645440.0,
+      "grad_norm": 2.265021615240272,
+      "language_loss": 0.75025213,
+      "learning_rate": 2.508477761725611e-06,
+      "loss": 0.77252883,
+      "num_input_tokens_seen": 78086690,
+      "step": 3623,
+      "time_per_iteration": 2.7176413536071777
+    },
+    {
+      "auxiliary_loss_clip": 0.01203029,
+      "auxiliary_loss_mlp": 0.01032967,
+      "balance_loss_clip": 1.05527544,
+      "balance_loss_mlp": 1.0246526,
+      "epoch": 0.43576023567606564,
+      "flos": 17202037812480.0,
+      "grad_norm": 2.2427034382213518,
+      "language_loss": 0.80679637,
+      "learning_rate": 2.507724347405458e-06,
+      "loss": 0.8291564,
+      "num_input_tokens_seen": 78104640,
+      "step": 3624,
+      "time_per_iteration": 2.69073224067688
+    },
+    {
+      "auxiliary_loss_clip": 0.0121194,
+      "auxiliary_loss_mlp": 0.01029452,
+      "balance_loss_clip": 1.04301143,
+      "balance_loss_mlp": 1.02188182,
+      "epoch": 0.43588047856670475,
+      "flos": 15917656222080.0,
+      "grad_norm": 2.2098334682212735,
+      "language_loss": 0.81652921,
+      "learning_rate": 2.5069708560639243e-06,
+      "loss": 0.83894312,
+      "num_input_tokens_seen": 78122550,
+      "step": 3625,
+      "time_per_iteration": 3.640756130218506
+    },
+    {
+      "auxiliary_loss_clip": 0.01218365,
+      "auxiliary_loss_mlp": 0.01028716,
+      "balance_loss_clip": 1.05228972,
+      "balance_loss_mlp": 1.01963842,
+      "epoch": 0.4360007214573438,
+      "flos": 23659566099840.0,
+      "grad_norm": 2.1664482757293246,
+      "language_loss": 0.61016941,
+      "learning_rate": 2.5062172878153158e-06,
+      "loss": 0.63264024,
+      "num_input_tokens_seen": 78141825,
+      "step": 3626,
+      "time_per_iteration": 3.652808666229248
+    },
+    {
+      "auxiliary_loss_clip": 0.012391,
+      "auxiliary_loss_mlp": 0.0102389,
+      "balance_loss_clip": 1.0477519,
+      "balance_loss_mlp": 1.01562333,
+      "epoch": 0.4361209643479829,
+      "flos": 21978767036160.0,
+      "grad_norm": 1.7491968541347107,
+      "language_loss": 0.87258559,
+      "learning_rate": 2.505463642773947e-06,
+      "loss": 0.89521551,
+      "num_input_tokens_seen": 78161790,
+      "step": 3627,
+      "time_per_iteration": 2.8082633018493652
+    },
+    {
+      "auxiliary_loss_clip": 0.01211033,
+      "auxiliary_loss_mlp": 0.01379252,
+      "balance_loss_clip": 1.04816818,
+      "balance_loss_mlp": 0.9999938,
+      "epoch": 0.43624120723862203,
+      "flos": 17420159151360.0,
+      "grad_norm": 2.6879823183210476,
+      "language_loss": 0.7520467,
+      "learning_rate": 2.504709921054146e-06,
+      "loss": 0.77794951,
+      "num_input_tokens_seen": 78178605,
+      "step": 3628,
+      "time_per_iteration": 2.719780683517456
+    },
+    {
+      "auxiliary_loss_clip": 0.01204773,
+      "auxiliary_loss_mlp": 0.01033378,
+      "balance_loss_clip": 1.04597557,
+      "balance_loss_mlp": 1.02394283,
+      "epoch": 0.4363614501292611,
+      "flos": 17895293280000.0,
+      "grad_norm": 2.650678548705882,
+      "language_loss": 0.83825505,
+      "learning_rate": 2.50395612277025e-06,
+      "loss": 0.86063659,
+      "num_input_tokens_seen": 78194460,
+      "step": 3629,
+      "time_per_iteration": 2.759937047958374
+    },
+    {
+      "auxiliary_loss_clip": 0.0121121,
+      "auxiliary_loss_mlp": 0.01036371,
+      "balance_loss_clip": 1.05224133,
+      "balance_loss_mlp": 1.02809787,
+      "epoch": 0.4364816930199002,
+      "flos": 20302888135680.0,
+      "grad_norm": 2.382377957467713,
+      "language_loss": 0.73119235,
+      "learning_rate": 2.503202248036612e-06,
+      "loss": 0.75366813,
+      "num_input_tokens_seen": 78213315,
+      "step": 3630,
+      "time_per_iteration": 2.7164394855499268
+    },
+    {
+      "auxiliary_loss_clip": 0.01189075,
+      "auxiliary_loss_mlp": 0.01028738,
+      "balance_loss_clip": 1.05650306,
+      "balance_loss_mlp": 1.01982737,
+      "epoch": 0.4366019359105393,
+      "flos": 24061334699520.0,
+      "grad_norm": 1.814655250377807,
+      "language_loss": 0.73498923,
+      "learning_rate": 2.5024482969675927e-06,
+      "loss": 0.75716734,
+      "num_input_tokens_seen": 78233270,
+      "step": 3631,
+      "time_per_iteration": 3.6205122470855713
+    },
+    {
+      "auxiliary_loss_clip": 0.0122665,
+      "auxiliary_loss_mlp": 0.01027996,
+      "balance_loss_clip": 1.04820824,
+      "balance_loss_mlp": 1.02008033,
+      "epoch": 0.43672217880117836,
+      "flos": 21754109422080.0,
+      "grad_norm": 2.180437280620313,
+      "language_loss": 0.84128165,
+      "learning_rate": 2.501694269677566e-06,
+      "loss": 0.86382806,
+      "num_input_tokens_seen": 78251040,
+      "step": 3632,
+      "time_per_iteration": 2.7247684001922607
+    },
+    {
+      "auxiliary_loss_clip": 0.01201437,
+      "auxiliary_loss_mlp": 0.01030879,
+      "balance_loss_clip": 1.05382776,
+      "balance_loss_mlp": 1.02223659,
+      "epoch": 0.4368424216918175,
+      "flos": 18035200753920.0,
+      "grad_norm": 2.7291984849642548,
+      "language_loss": 0.80365038,
+      "learning_rate": 2.500940166280918e-06,
+      "loss": 0.82597351,
+      "num_input_tokens_seen": 78269470,
+      "step": 3633,
+      "time_per_iteration": 2.617938995361328
+    },
+    {
+      "auxiliary_loss_clip": 0.01192512,
+      "auxiliary_loss_mlp": 0.01027514,
+      "balance_loss_clip": 1.05205655,
+      "balance_loss_mlp": 1.0190382,
+      "epoch": 0.4369626645824566,
+      "flos": 25447127362560.0,
+      "grad_norm": 1.9788686130910311,
+      "language_loss": 0.7973935,
+      "learning_rate": 2.500185986892045e-06,
+      "loss": 0.81959379,
+      "num_input_tokens_seen": 78288955,
+      "step": 3634,
+      "time_per_iteration": 2.7738595008850098
+    },
+    {
+      "auxiliary_loss_clip": 0.01193978,
+      "auxiliary_loss_mlp": 0.01028659,
+      "balance_loss_clip": 1.05324936,
+      "balance_loss_mlp": 1.01971793,
+      "epoch": 0.43708290747309564,
+      "flos": 25302694775040.0,
+      "grad_norm": 2.105291814603591,
+      "language_loss": 0.77380949,
+      "learning_rate": 2.499431731625355e-06,
+      "loss": 0.79603589,
+      "num_input_tokens_seen": 78307980,
+      "step": 3635,
+      "time_per_iteration": 2.6547489166259766
+    },
+    {
+      "auxiliary_loss_clip": 0.01190913,
+      "auxiliary_loss_mlp": 0.01030123,
+      "balance_loss_clip": 1.05608094,
+      "balance_loss_mlp": 1.02169502,
+      "epoch": 0.43720315036373475,
+      "flos": 31575103344000.0,
+      "grad_norm": 2.0500711545073225,
+      "language_loss": 0.7923677,
+      "learning_rate": 2.4986774005952686e-06,
+      "loss": 0.81457806,
+      "num_input_tokens_seen": 78330355,
+      "step": 3636,
+      "time_per_iteration": 2.7786779403686523
+    },
+    {
+      "auxiliary_loss_clip": 0.01196268,
+      "auxiliary_loss_mlp": 0.01029815,
+      "balance_loss_clip": 1.05499029,
+      "balance_loss_mlp": 1.02176213,
+      "epoch": 0.43732339325437386,
+      "flos": 23112000195840.0,
+      "grad_norm": 2.1227522359920745,
+      "language_loss": 0.84607053,
+      "learning_rate": 2.4979229939162166e-06,
+      "loss": 0.86833137,
+      "num_input_tokens_seen": 78349135,
+      "step": 3637,
+      "time_per_iteration": 2.657740592956543
+    },
+    {
+      "auxiliary_loss_clip": 0.01191698,
+      "auxiliary_loss_mlp": 0.01028943,
+      "balance_loss_clip": 1.05213857,
+      "balance_loss_mlp": 1.02106023,
+      "epoch": 0.4374436361450129,
+      "flos": 27746272080000.0,
+      "grad_norm": 1.5891371037434743,
+      "language_loss": 0.80674624,
+      "learning_rate": 2.4971685117026433e-06,
+      "loss": 0.82895267,
+      "num_input_tokens_seen": 78368900,
+      "step": 3638,
+      "time_per_iteration": 2.747014284133911
+    },
+    {
+      "auxiliary_loss_clip": 0.01202081,
+      "auxiliary_loss_mlp": 0.01027571,
+      "balance_loss_clip": 1.05567157,
+      "balance_loss_mlp": 1.01963162,
+      "epoch": 0.437563879035652,
+      "flos": 24172370616960.0,
+      "grad_norm": 1.5981616171966635,
+      "language_loss": 0.76784205,
+      "learning_rate": 2.4964139540690018e-06,
+      "loss": 0.7901386,
+      "num_input_tokens_seen": 78392235,
+      "step": 3639,
+      "time_per_iteration": 2.674344778060913
+    },
+    {
+      "auxiliary_loss_clip": 0.01216292,
+      "auxiliary_loss_mlp": 0.01031082,
+      "balance_loss_clip": 1.05192482,
+      "balance_loss_mlp": 1.02280951,
+      "epoch": 0.4376841219262911,
+      "flos": 23477211728640.0,
+      "grad_norm": 2.1043080062164226,
+      "language_loss": 0.72889042,
+      "learning_rate": 2.495659321129758e-06,
+      "loss": 0.75136417,
+      "num_input_tokens_seen": 78409980,
+      "step": 3640,
+      "time_per_iteration": 2.7585091590881348
+    },
+    {
+      "auxiliary_loss_clip": 0.01193609,
+      "auxiliary_loss_mlp": 0.01029414,
+      "balance_loss_clip": 1.05342424,
+      "balance_loss_mlp": 1.02130187,
+      "epoch": 0.4378043648169302,
+      "flos": 25447809720960.0,
+      "grad_norm": 1.822642169945931,
+      "language_loss": 0.75623339,
+      "learning_rate": 2.494904612999389e-06,
+      "loss": 0.7784636,
+      "num_input_tokens_seen": 78428690,
+      "step": 3641,
+      "time_per_iteration": 2.6547443866729736
+    },
+    {
+      "auxiliary_loss_clip": 0.01095011,
+      "auxiliary_loss_mlp": 0.01002698,
+      "balance_loss_clip": 1.02315354,
+      "balance_loss_mlp": 1.0013032,
+      "epoch": 0.4379246077075693,
+      "flos": 53914056986880.0,
+      "grad_norm": 0.7490365129493706,
+      "language_loss": 0.56547254,
+      "learning_rate": 2.4941498297923843e-06,
+      "loss": 0.58644962,
+      "num_input_tokens_seen": 78489260,
+      "step": 3642,
+      "time_per_iteration": 3.2083818912506104
+    },
+    {
+      "auxiliary_loss_clip": 0.0119521,
+      "auxiliary_loss_mlp": 0.01026828,
+      "balance_loss_clip": 1.05517113,
+      "balance_loss_mlp": 1.01890099,
+      "epoch": 0.43804485059820836,
+      "flos": 20588305605120.0,
+      "grad_norm": 2.012173828496252,
+      "language_loss": 0.69686431,
+      "learning_rate": 2.4933949716232424e-06,
+      "loss": 0.71908474,
+      "num_input_tokens_seen": 78506785,
+      "step": 3643,
+      "time_per_iteration": 2.703558921813965
+    },
+    {
+      "auxiliary_loss_clip": 0.01214013,
+      "auxiliary_loss_mlp": 0.01025768,
+      "balance_loss_clip": 1.05189633,
+      "balance_loss_mlp": 1.0178045,
+      "epoch": 0.43816509348884747,
+      "flos": 23876214981120.0,
+      "grad_norm": 2.130227807616928,
+      "language_loss": 0.74085844,
+      "learning_rate": 2.492640038606476e-06,
+      "loss": 0.76325631,
+      "num_input_tokens_seen": 78525150,
+      "step": 3644,
+      "time_per_iteration": 2.716697931289673
+    },
+    {
+      "auxiliary_loss_clip": 0.01196831,
+      "auxiliary_loss_mlp": 0.01026006,
+      "balance_loss_clip": 1.05167198,
+      "balance_loss_mlp": 1.01695836,
+      "epoch": 0.4382853363794866,
+      "flos": 14684448533760.0,
+      "grad_norm": 2.214802485243486,
+      "language_loss": 0.78299594,
+      "learning_rate": 2.491885030856608e-06,
+      "loss": 0.8052243,
+      "num_input_tokens_seen": 78543245,
+      "step": 3645,
+      "time_per_iteration": 2.714293956756592
+    },
+    {
+      "auxiliary_loss_clip": 0.01211353,
+      "auxiliary_loss_mlp": 0.01033122,
+      "balance_loss_clip": 1.05638504,
+      "balance_loss_mlp": 1.02415144,
+      "epoch": 0.43840557927012563,
+      "flos": 17165301177600.0,
+      "grad_norm": 2.4523435927139587,
+      "language_loss": 0.82862616,
+      "learning_rate": 2.4911299484881713e-06,
+      "loss": 0.85107094,
+      "num_input_tokens_seen": 78560775,
+      "step": 3646,
+      "time_per_iteration": 2.628676176071167
+    },
+    {
+      "auxiliary_loss_clip": 0.01199311,
+      "auxiliary_loss_mlp": 0.01028968,
+      "balance_loss_clip": 1.04996121,
+      "balance_loss_mlp": 1.02118397,
+      "epoch": 0.43852582216076474,
+      "flos": 19390685316480.0,
+      "grad_norm": 1.6756369912474152,
+      "language_loss": 0.81187809,
+      "learning_rate": 2.490374791615712e-06,
+      "loss": 0.83416092,
+      "num_input_tokens_seen": 78580800,
+      "step": 3647,
+      "time_per_iteration": 2.8086512088775635
+    },
+    {
+      "auxiliary_loss_clip": 0.01191945,
+      "auxiliary_loss_mlp": 0.01379492,
+      "balance_loss_clip": 1.05629897,
+      "balance_loss_mlp": 1.00007987,
+      "epoch": 0.43864606505140386,
+      "flos": 18075133699200.0,
+      "grad_norm": 2.380196550690307,
+      "language_loss": 0.78160805,
+      "learning_rate": 2.4896195603537867e-06,
+      "loss": 0.80732238,
+      "num_input_tokens_seen": 78595410,
+      "step": 3648,
+      "time_per_iteration": 2.6159920692443848
+    },
+    {
+      "auxiliary_loss_clip": 0.01216829,
+      "auxiliary_loss_mlp": 0.01025941,
+      "balance_loss_clip": 1.05188823,
+      "balance_loss_mlp": 1.01736963,
+      "epoch": 0.4387663079420429,
+      "flos": 19644896845440.0,
+      "grad_norm": 1.8195430214182902,
+      "language_loss": 0.73639649,
+      "learning_rate": 2.488864254816964e-06,
+      "loss": 0.75882423,
+      "num_input_tokens_seen": 78614100,
+      "step": 3649,
+      "time_per_iteration": 2.767664670944214
+    },
+    {
+      "auxiliary_loss_clip": 0.01198354,
+      "auxiliary_loss_mlp": 0.01033011,
+      "balance_loss_clip": 1.05424702,
+      "balance_loss_mlp": 1.02355766,
+      "epoch": 0.438886550832682,
+      "flos": 19719339782400.0,
+      "grad_norm": 3.0817345644255667,
+      "language_loss": 0.68291348,
+      "learning_rate": 2.4881088751198218e-06,
+      "loss": 0.70522714,
+      "num_input_tokens_seen": 78632260,
+      "step": 3650,
+      "time_per_iteration": 2.7058041095733643
+    },
+    {
+      "auxiliary_loss_clip": 0.01205583,
+      "auxiliary_loss_mlp": 0.01020955,
+      "balance_loss_clip": 1.050174,
+      "balance_loss_mlp": 1.01278913,
+      "epoch": 0.43900679372332113,
+      "flos": 14536675981440.0,
+      "grad_norm": 2.7768751299689853,
+      "language_loss": 0.63906419,
+      "learning_rate": 2.4873534213769517e-06,
+      "loss": 0.66132963,
+      "num_input_tokens_seen": 78647490,
+      "step": 3651,
+      "time_per_iteration": 3.6441245079040527
+    },
+    {
+      "auxiliary_loss_clip": 0.01214046,
+      "auxiliary_loss_mlp": 0.01026649,
+      "balance_loss_clip": 1.05512607,
+      "balance_loss_mlp": 1.01805997,
+      "epoch": 0.4391270366139602,
+      "flos": 24056234968320.0,
+      "grad_norm": 1.6025442337188793,
+      "language_loss": 0.71914351,
+      "learning_rate": 2.4865978937029547e-06,
+      "loss": 0.74155051,
+      "num_input_tokens_seen": 78666470,
+      "step": 3652,
+      "time_per_iteration": 4.589456558227539
+    },
+    {
+      "auxiliary_loss_clip": 0.01210901,
+      "auxiliary_loss_mlp": 0.01030895,
+      "balance_loss_clip": 1.0488205,
+      "balance_loss_mlp": 1.02215743,
+      "epoch": 0.4392472795045993,
+      "flos": 31538510363520.0,
+      "grad_norm": 1.5586367837588389,
+      "language_loss": 0.66604298,
+      "learning_rate": 2.485842292212445e-06,
+      "loss": 0.68846095,
+      "num_input_tokens_seen": 78687685,
+      "step": 3653,
+      "time_per_iteration": 2.862787961959839
+    },
+    {
+      "auxiliary_loss_clip": 0.01191554,
+      "auxiliary_loss_mlp": 0.01031243,
+      "balance_loss_clip": 1.0575068,
+      "balance_loss_mlp": 1.02296138,
+      "epoch": 0.4393675223952384,
+      "flos": 14866300114560.0,
+      "grad_norm": 2.4539909939609204,
+      "language_loss": 0.80134726,
+      "learning_rate": 2.485086617020045e-06,
+      "loss": 0.8235752,
+      "num_input_tokens_seen": 78706180,
+      "step": 3654,
+      "time_per_iteration": 2.647303819656372
+    },
+    {
+      "auxiliary_loss_clip": 0.01196462,
+      "auxiliary_loss_mlp": 0.01026201,
+      "balance_loss_clip": 1.05100131,
+      "balance_loss_mlp": 1.01723027,
+      "epoch": 0.43948776528587746,
+      "flos": 14825900292480.0,
+      "grad_norm": 2.0817638989512135,
+      "language_loss": 0.82087183,
+      "learning_rate": 2.4843308682403903e-06,
+      "loss": 0.84309846,
+      "num_input_tokens_seen": 78723095,
+      "step": 3655,
+      "time_per_iteration": 2.846405506134033
+    },
+    {
+      "auxiliary_loss_clip": 0.01188066,
+      "auxiliary_loss_mlp": 0.01030053,
+      "balance_loss_clip": 1.05525041,
+      "balance_loss_mlp": 1.02157116,
+      "epoch": 0.4396080081765166,
+      "flos": 13914523486080.0,
+      "grad_norm": 1.6819258980565523,
+      "language_loss": 0.82351792,
+      "learning_rate": 2.4835750459881294e-06,
+      "loss": 0.84569907,
+      "num_input_tokens_seen": 78739720,
+      "step": 3656,
+      "time_per_iteration": 2.573734998703003
+    },
+    {
+      "auxiliary_loss_clip": 0.01196154,
+      "auxiliary_loss_mlp": 0.01028763,
+      "balance_loss_clip": 1.05019736,
+      "balance_loss_mlp": 1.02014971,
+      "epoch": 0.43972825106715563,
+      "flos": 18222978078720.0,
+      "grad_norm": 1.8376565448969984,
+      "language_loss": 0.82116389,
+      "learning_rate": 2.4828191503779177e-06,
+      "loss": 0.843413,
+      "num_input_tokens_seen": 78757820,
+      "step": 3657,
+      "time_per_iteration": 3.573002815246582
+    },
+    {
+      "auxiliary_loss_clip": 0.01212212,
+      "auxiliary_loss_mlp": 0.01025027,
+      "balance_loss_clip": 1.04980421,
+      "balance_loss_mlp": 1.01693273,
+      "epoch": 0.43984849395779474,
+      "flos": 16873239692160.0,
+      "grad_norm": 2.262083573162609,
+      "language_loss": 0.89928102,
+      "learning_rate": 2.482063181524425e-06,
+      "loss": 0.92165339,
+      "num_input_tokens_seen": 78773720,
+      "step": 3658,
+      "time_per_iteration": 2.7116546630859375
+    },
+    {
+      "auxiliary_loss_clip": 0.01191638,
+      "auxiliary_loss_mlp": 0.01027697,
+      "balance_loss_clip": 1.05727315,
+      "balance_loss_mlp": 1.01859498,
+      "epoch": 0.43996873684843385,
+      "flos": 18691504104960.0,
+      "grad_norm": 3.072933714241406,
+      "language_loss": 0.81514072,
+      "learning_rate": 2.4813071395423307e-06,
+      "loss": 0.83733416,
+      "num_input_tokens_seen": 78791285,
+      "step": 3659,
+      "time_per_iteration": 2.683872938156128
+    },
+    {
+      "auxiliary_loss_clip": 0.01199134,
+      "auxiliary_loss_mlp": 0.01033839,
+      "balance_loss_clip": 1.05361462,
+      "balance_loss_mlp": 1.02507114,
+      "epoch": 0.4400889797390729,
+      "flos": 23653460787840.0,
+      "grad_norm": 2.1998647845675157,
+      "language_loss": 0.64279848,
+      "learning_rate": 2.4805510245463263e-06,
+      "loss": 0.66512823,
+      "num_input_tokens_seen": 78811440,
+      "step": 3660,
+      "time_per_iteration": 2.7874951362609863
+    },
+    {
+      "auxiliary_loss_clip": 0.0119783,
+      "auxiliary_loss_mlp": 0.01028767,
+      "balance_loss_clip": 1.05430293,
+      "balance_loss_mlp": 1.01956367,
+      "epoch": 0.440209222629712,
+      "flos": 23149203707520.0,
+      "grad_norm": 1.9328202700742132,
+      "language_loss": 0.60068977,
+      "learning_rate": 2.4797948366511137e-06,
+      "loss": 0.62295574,
+      "num_input_tokens_seen": 78831150,
+      "step": 3661,
+      "time_per_iteration": 2.6881039142608643
+    },
+    {
+      "auxiliary_loss_clip": 0.01209941,
+      "auxiliary_loss_mlp": 0.010287,
+      "balance_loss_clip": 1.04837894,
+      "balance_loss_mlp": 1.02041531,
+      "epoch": 0.4403294655203511,
+      "flos": 24823394668800.0,
+      "grad_norm": 2.037057592497111,
+      "language_loss": 0.76194012,
+      "learning_rate": 2.4790385759714055e-06,
+      "loss": 0.78432655,
+      "num_input_tokens_seen": 78850215,
+      "step": 3662,
+      "time_per_iteration": 2.7816505432128906
+    },
+    {
+      "auxiliary_loss_clip": 0.01196498,
+      "auxiliary_loss_mlp": 0.01028773,
+      "balance_loss_clip": 1.05566764,
+      "balance_loss_mlp": 1.02054811,
+      "epoch": 0.4404497084109902,
+      "flos": 22565080736640.0,
+      "grad_norm": 1.8226516992290251,
+      "language_loss": 0.70965987,
+      "learning_rate": 2.478282242621926e-06,
+      "loss": 0.73191261,
+      "num_input_tokens_seen": 78870675,
+      "step": 3663,
+      "time_per_iteration": 2.648496389389038
+    },
+    {
+      "auxiliary_loss_clip": 0.01120412,
+      "auxiliary_loss_mlp": 0.01000289,
+      "balance_loss_clip": 1.02286732,
+      "balance_loss_mlp": 0.99900132,
+      "epoch": 0.4405699513016293,
+      "flos": 64967073448320.0,
+      "grad_norm": 0.8570630398891631,
+      "language_loss": 0.59631371,
+      "learning_rate": 2.477525836717411e-06,
+      "loss": 0.61752069,
+      "num_input_tokens_seen": 78938440,
+      "step": 3664,
+      "time_per_iteration": 3.4813878536224365
+    },
+    {
+      "auxiliary_loss_clip": 0.01199784,
+      "auxiliary_loss_mlp": 0.01029515,
+      "balance_loss_clip": 1.05475712,
+      "balance_loss_mlp": 1.0206635,
+      "epoch": 0.4406901941922684,
+      "flos": 35661952978560.0,
+      "grad_norm": 2.2525932793204917,
+      "language_loss": 0.79409742,
+      "learning_rate": 2.476769358372606e-06,
+      "loss": 0.8163904,
+      "num_input_tokens_seen": 78960090,
+      "step": 3665,
+      "time_per_iteration": 2.811152219772339
+    },
+    {
+      "auxiliary_loss_clip": 0.01208456,
+      "auxiliary_loss_mlp": 0.01029178,
+      "balance_loss_clip": 1.0509088,
+      "balance_loss_mlp": 1.02168274,
+      "epoch": 0.44081043708290746,
+      "flos": 18040767361920.0,
+      "grad_norm": 2.5520306062461975,
+      "language_loss": 0.74989283,
+      "learning_rate": 2.4760128077022683e-06,
+      "loss": 0.77226919,
+      "num_input_tokens_seen": 78978225,
+      "step": 3666,
+      "time_per_iteration": 2.7623894214630127
+    },
+    {
+      "auxiliary_loss_clip": 0.0121004,
+      "auxiliary_loss_mlp": 0.01026056,
+      "balance_loss_clip": 1.04778945,
+      "balance_loss_mlp": 1.01797938,
+      "epoch": 0.44093067997354657,
+      "flos": 30153507799680.0,
+      "grad_norm": 1.577994973055739,
+      "language_loss": 0.68351102,
+      "learning_rate": 2.4752561848211672e-06,
+      "loss": 0.70587194,
+      "num_input_tokens_seen": 79000625,
+      "step": 3667,
+      "time_per_iteration": 2.8311164379119873
+    },
+    {
+      "auxiliary_loss_clip": 0.01193869,
+      "auxiliary_loss_mlp": 0.01032002,
+      "balance_loss_clip": 1.05547452,
+      "balance_loss_mlp": 1.02449787,
+      "epoch": 0.4410509228641857,
+      "flos": 23255068066560.0,
+      "grad_norm": 1.7945303540358335,
+      "language_loss": 0.70984185,
+      "learning_rate": 2.4744994898440797e-06,
+      "loss": 0.73210061,
+      "num_input_tokens_seen": 79019415,
+      "step": 3668,
+      "time_per_iteration": 2.6450588703155518
+    },
+    {
+      "auxiliary_loss_clip": 0.01218616,
+      "auxiliary_loss_mlp": 0.01029271,
+      "balance_loss_clip": 1.04994977,
+      "balance_loss_mlp": 1.02109337,
+      "epoch": 0.44117116575482473,
+      "flos": 19500571998720.0,
+      "grad_norm": 3.7391123609341785,
+      "language_loss": 0.83712709,
+      "learning_rate": 2.473742722885797e-06,
+      "loss": 0.85960603,
+      "num_input_tokens_seen": 79038435,
+      "step": 3669,
+      "time_per_iteration": 2.740476369857788
+    },
+    {
+      "auxiliary_loss_clip": 0.01199735,
+      "auxiliary_loss_mlp": 0.01379662,
+      "balance_loss_clip": 1.05663216,
+      "balance_loss_mlp": 1.00016868,
+      "epoch": 0.44129140864546385,
+      "flos": 27053124353280.0,
+      "grad_norm": 2.559023726565751,
+      "language_loss": 0.6512534,
+      "learning_rate": 2.4729858840611197e-06,
+      "loss": 0.67704737,
+      "num_input_tokens_seen": 79057345,
+      "step": 3670,
+      "time_per_iteration": 2.679344415664673
+    },
+    {
+      "auxiliary_loss_clip": 0.01188036,
+      "auxiliary_loss_mlp": 0.01031563,
+      "balance_loss_clip": 1.05586004,
+      "balance_loss_mlp": 1.02368307,
+      "epoch": 0.4414116515361029,
+      "flos": 26102101910400.0,
+      "grad_norm": 2.112635342380397,
+      "language_loss": 0.73046261,
+      "learning_rate": 2.4722289734848605e-06,
+      "loss": 0.75265861,
+      "num_input_tokens_seen": 79077810,
+      "step": 3671,
+      "time_per_iteration": 2.6760785579681396
+    },
+    {
+      "auxiliary_loss_clip": 0.01216908,
+      "auxiliary_loss_mlp": 0.01024521,
+      "balance_loss_clip": 1.0549469,
+      "balance_loss_mlp": 1.01639724,
+      "epoch": 0.441531894426742,
+      "flos": 21906083865600.0,
+      "grad_norm": 2.6129939665247814,
+      "language_loss": 0.78230894,
+      "learning_rate": 2.471471991271841e-06,
+      "loss": 0.80472326,
+      "num_input_tokens_seen": 79094935,
+      "step": 3672,
+      "time_per_iteration": 2.746500253677368
+    },
+    {
+      "auxiliary_loss_clip": 0.01188671,
+      "auxiliary_loss_mlp": 0.01031655,
+      "balance_loss_clip": 1.05343521,
+      "balance_loss_mlp": 1.02264261,
+      "epoch": 0.4416521373173811,
+      "flos": 23437099215360.0,
+      "grad_norm": 1.9728557166772114,
+      "language_loss": 0.79772735,
+      "learning_rate": 2.470714937536896e-06,
+      "loss": 0.81993055,
+      "num_input_tokens_seen": 79113660,
+      "step": 3673,
+      "time_per_iteration": 2.6974937915802
+    },
+    {
+      "auxiliary_loss_clip": 0.01220626,
+      "auxiliary_loss_mlp": 0.01029433,
+      "balance_loss_clip": 1.04866958,
+      "balance_loss_mlp": 1.02141023,
+      "epoch": 0.4417723802080202,
+      "flos": 20334345471360.0,
+      "grad_norm": 2.0217752393523973,
+      "language_loss": 0.70719343,
+      "learning_rate": 2.469957812394868e-06,
+      "loss": 0.72969401,
+      "num_input_tokens_seen": 79132470,
+      "step": 3674,
+      "time_per_iteration": 2.734570026397705
+    },
+    {
+      "auxiliary_loss_clip": 0.01192398,
+      "auxiliary_loss_mlp": 0.01024394,
+      "balance_loss_clip": 1.06035924,
+      "balance_loss_mlp": 1.01606464,
+      "epoch": 0.4418926230986593,
+      "flos": 18880682060160.0,
+      "grad_norm": 2.1974032719404004,
+      "language_loss": 0.75864315,
+      "learning_rate": 2.4692006159606148e-06,
+      "loss": 0.78081113,
+      "num_input_tokens_seen": 79150000,
+      "step": 3675,
+      "time_per_iteration": 2.6684296131134033
+    },
+    {
+      "auxiliary_loss_clip": 0.01190312,
+      "auxiliary_loss_mlp": 0.01028129,
+      "balance_loss_clip": 1.05629718,
+      "balance_loss_mlp": 1.01996863,
+      "epoch": 0.4420128659892984,
+      "flos": 19464409981440.0,
+      "grad_norm": 1.8963482612804075,
+      "language_loss": 0.78328735,
+      "learning_rate": 2.468443348349e-06,
+      "loss": 0.80547178,
+      "num_input_tokens_seen": 79167875,
+      "step": 3676,
+      "time_per_iteration": 2.620682716369629
+    },
+    {
+      "auxiliary_loss_clip": 0.01217589,
+      "auxiliary_loss_mlp": 0.01032289,
+      "balance_loss_clip": 1.0461247,
+      "balance_loss_mlp": 1.02331829,
+      "epoch": 0.44213310887993745,
+      "flos": 17894359526400.0,
+      "grad_norm": 2.957901092326129,
+      "language_loss": 0.82633513,
+      "learning_rate": 2.467686009674902e-06,
+      "loss": 0.84883392,
+      "num_input_tokens_seen": 79182325,
+      "step": 3677,
+      "time_per_iteration": 3.696080446243286
+    },
+    {
+      "auxiliary_loss_clip": 0.01192269,
+      "auxiliary_loss_mlp": 0.01034795,
+      "balance_loss_clip": 1.05271983,
+      "balance_loss_mlp": 1.02527595,
+      "epoch": 0.44225335177057656,
+      "flos": 19204667758080.0,
+      "grad_norm": 2.419152919450061,
+      "language_loss": 0.8506549,
+      "learning_rate": 2.466928600053209e-06,
+      "loss": 0.87292552,
+      "num_input_tokens_seen": 79197630,
+      "step": 3678,
+      "time_per_iteration": 3.538076877593994
+    },
+    {
+      "auxiliary_loss_clip": 0.01203854,
+      "auxiliary_loss_mlp": 0.0102555,
+      "balance_loss_clip": 1.05119395,
+      "balance_loss_mlp": 1.01678824,
+      "epoch": 0.4423735946612157,
+      "flos": 23471321898240.0,
+      "grad_norm": 1.9671185164158955,
+      "language_loss": 0.71619433,
+      "learning_rate": 2.466171119598818e-06,
+      "loss": 0.73848832,
+      "num_input_tokens_seen": 79217600,
+      "step": 3679,
+      "time_per_iteration": 2.726132392883301
+    },
+    {
+      "auxiliary_loss_clip": 0.01203637,
+      "auxiliary_loss_mlp": 0.01035034,
+      "balance_loss_clip": 1.05360329,
+      "balance_loss_mlp": 1.0254854,
+      "epoch": 0.44249383755185473,
+      "flos": 26685398868480.0,
+      "grad_norm": 1.7634111394187748,
+      "language_loss": 0.77345884,
+      "learning_rate": 2.465413568426639e-06,
+      "loss": 0.79584551,
+      "num_input_tokens_seen": 79238550,
+      "step": 3680,
+      "time_per_iteration": 2.6657142639160156
+    },
+    {
+      "auxiliary_loss_clip": 0.011953,
+      "auxiliary_loss_mlp": 0.01026769,
+      "balance_loss_clip": 1.05518138,
+      "balance_loss_mlp": 1.01871014,
+      "epoch": 0.44261408044249384,
+      "flos": 23147659422720.0,
+      "grad_norm": 1.98946212753432,
+      "language_loss": 0.81061727,
+      "learning_rate": 2.464655946651591e-06,
+      "loss": 0.832838,
+      "num_input_tokens_seen": 79257555,
+      "step": 3681,
+      "time_per_iteration": 2.653651714324951
+    },
+    {
+      "auxiliary_loss_clip": 0.01198955,
+      "auxiliary_loss_mlp": 0.01032661,
+      "balance_loss_clip": 1.05435276,
+      "balance_loss_mlp": 1.023983,
+      "epoch": 0.44273432333313295,
+      "flos": 24462564595200.0,
+      "grad_norm": 1.9677222226353346,
+      "language_loss": 0.80806649,
+      "learning_rate": 2.4638982543886065e-06,
+      "loss": 0.83038265,
+      "num_input_tokens_seen": 79277595,
+      "step": 3682,
+      "time_per_iteration": 2.690866470336914
+    },
+    {
+      "auxiliary_loss_clip": 0.01204643,
+      "auxiliary_loss_mlp": 0.01033679,
+      "balance_loss_clip": 1.05833268,
+      "balance_loss_mlp": 1.0243094,
+      "epoch": 0.442854566223772,
+      "flos": 17528932512000.0,
+      "grad_norm": 2.2807101653801336,
+      "language_loss": 0.87053114,
+      "learning_rate": 2.4631404917526254e-06,
+      "loss": 0.8929143,
+      "num_input_tokens_seen": 79294550,
+      "step": 3683,
+      "time_per_iteration": 3.639434576034546
+    },
+    {
+      "auxiliary_loss_clip": 0.01188016,
+      "auxiliary_loss_mlp": 0.01025554,
+      "balance_loss_clip": 1.05115378,
+      "balance_loss_mlp": 1.01753116,
+      "epoch": 0.4429748091144111,
+      "flos": 24896293320960.0,
+      "grad_norm": 1.5512658826724446,
+      "language_loss": 0.79332894,
+      "learning_rate": 2.4623826588586e-06,
+      "loss": 0.81546474,
+      "num_input_tokens_seen": 79314820,
+      "step": 3684,
+      "time_per_iteration": 2.671163320541382
+    },
+    {
+      "auxiliary_loss_clip": 0.01198703,
+      "auxiliary_loss_mlp": 0.01028018,
+      "balance_loss_clip": 1.04992843,
+      "balance_loss_mlp": 1.01908362,
+      "epoch": 0.4430950520050502,
+      "flos": 21614704738560.0,
+      "grad_norm": 1.4554385056790606,
+      "language_loss": 0.82498038,
+      "learning_rate": 2.461624755821492e-06,
+      "loss": 0.8472476,
+      "num_input_tokens_seen": 79334300,
+      "step": 3685,
+      "time_per_iteration": 2.6854796409606934
+    },
+    {
+      "auxiliary_loss_clip": 0.01218927,
+      "auxiliary_loss_mlp": 0.01027839,
+      "balance_loss_clip": 1.05400944,
+      "balance_loss_mlp": 1.01947093,
+      "epoch": 0.4432152948956893,
+      "flos": 24572271709440.0,
+      "grad_norm": 1.5495748588029061,
+      "language_loss": 0.76490855,
+      "learning_rate": 2.4608667827562763e-06,
+      "loss": 0.78737628,
+      "num_input_tokens_seen": 79353630,
+      "step": 3686,
+      "time_per_iteration": 2.7353384494781494
+    },
+    {
+      "auxiliary_loss_clip": 0.01205736,
+      "auxiliary_loss_mlp": 0.01029219,
+      "balance_loss_clip": 1.05753851,
+      "balance_loss_mlp": 1.02073717,
+      "epoch": 0.4433355377863284,
+      "flos": 21762261809280.0,
+      "grad_norm": 2.9112736576901077,
+      "language_loss": 0.90244126,
+      "learning_rate": 2.460108739777936e-06,
+      "loss": 0.92479086,
+      "num_input_tokens_seen": 79372765,
+      "step": 3687,
+      "time_per_iteration": 2.6623408794403076
+    },
+    {
+      "auxiliary_loss_clip": 0.01205781,
+      "auxiliary_loss_mlp": 0.01029718,
+      "balance_loss_clip": 1.05315542,
+      "balance_loss_mlp": 1.02141488,
+      "epoch": 0.44345578067696745,
+      "flos": 20084479488000.0,
+      "grad_norm": 1.7289835459919083,
+      "language_loss": 0.76311892,
+      "learning_rate": 2.4593506270014656e-06,
+      "loss": 0.78547394,
+      "num_input_tokens_seen": 79391735,
+      "step": 3688,
+      "time_per_iteration": 2.6701653003692627
+    },
+    {
+      "auxiliary_loss_clip": 0.01207227,
+      "auxiliary_loss_mlp": 0.01025435,
+      "balance_loss_clip": 1.05111146,
+      "balance_loss_mlp": 1.01725101,
+      "epoch": 0.44357602356760656,
+      "flos": 24169497528960.0,
+      "grad_norm": 1.5781137516157528,
+      "language_loss": 0.81838489,
+      "learning_rate": 2.45859244454187e-06,
+      "loss": 0.84071153,
+      "num_input_tokens_seen": 79411525,
+      "step": 3689,
+      "time_per_iteration": 2.7484123706817627
+    },
+    {
+      "auxiliary_loss_clip": 0.01192982,
+      "auxiliary_loss_mlp": 0.01025479,
+      "balance_loss_clip": 1.05443943,
+      "balance_loss_mlp": 1.01746869,
+      "epoch": 0.44369626645824567,
+      "flos": 22707717644160.0,
+      "grad_norm": 1.8487270128508886,
+      "language_loss": 0.66266537,
+      "learning_rate": 2.4578341925141655e-06,
+      "loss": 0.68485004,
+      "num_input_tokens_seen": 79430740,
+      "step": 3690,
+      "time_per_iteration": 2.647047519683838
+    },
+    {
+      "auxiliary_loss_clip": 0.01202498,
+      "auxiliary_loss_mlp": 0.01031874,
+      "balance_loss_clip": 1.05401111,
+      "balance_loss_mlp": 1.02310634,
+      "epoch": 0.4438165093488847,
+      "flos": 38030225420160.0,
+      "grad_norm": 2.564980587405266,
+      "language_loss": 0.72047037,
+      "learning_rate": 2.457075871033378e-06,
+      "loss": 0.74281406,
+      "num_input_tokens_seen": 79452615,
+      "step": 3691,
+      "time_per_iteration": 2.787203073501587
+    },
+    {
+      "auxiliary_loss_clip": 0.01214305,
+      "auxiliary_loss_mlp": 0.01028472,
+      "balance_loss_clip": 1.0535965,
+      "balance_loss_mlp": 1.02010357,
+      "epoch": 0.44393675223952384,
+      "flos": 15523213996800.0,
+      "grad_norm": 1.9382079746543188,
+      "language_loss": 0.88369977,
+      "learning_rate": 2.4563174802145445e-06,
+      "loss": 0.90612757,
+      "num_input_tokens_seen": 79469865,
+      "step": 3692,
+      "time_per_iteration": 2.6969985961914062
+    },
+    {
+      "auxiliary_loss_clip": 0.01108431,
+      "auxiliary_loss_mlp": 0.01005539,
+      "balance_loss_clip": 1.02323294,
+      "balance_loss_mlp": 1.00408483,
+      "epoch": 0.44405699513016295,
+      "flos": 64574893779840.0,
+      "grad_norm": 0.6372330479888297,
+      "language_loss": 0.48610711,
+      "learning_rate": 2.455559020172712e-06,
+      "loss": 0.50724685,
+      "num_input_tokens_seen": 79537220,
+      "step": 3693,
+      "time_per_iteration": 3.3146986961364746
+    },
+    {
+      "auxiliary_loss_clip": 0.01232871,
+      "auxiliary_loss_mlp": 0.0103789,
+      "balance_loss_clip": 1.05821609,
+      "balance_loss_mlp": 1.02907419,
+      "epoch": 0.444177238020802,
+      "flos": 23987394552960.0,
+      "grad_norm": 2.3960069687590986,
+      "language_loss": 0.89399487,
+      "learning_rate": 2.4548004910229385e-06,
+      "loss": 0.91670251,
+      "num_input_tokens_seen": 79554795,
+      "step": 3694,
+      "time_per_iteration": 2.817686080932617
+    },
+    {
+      "auxiliary_loss_clip": 0.01199325,
+      "auxiliary_loss_mlp": 0.01379392,
+      "balance_loss_clip": 1.05390382,
+      "balance_loss_mlp": 1.00022507,
+      "epoch": 0.4442974809114411,
+      "flos": 22563069575040.0,
+      "grad_norm": 1.9200129402340305,
+      "language_loss": 0.87047887,
+      "learning_rate": 2.4540418928802913e-06,
+      "loss": 0.8962661,
+      "num_input_tokens_seen": 79573530,
+      "step": 3695,
+      "time_per_iteration": 2.6836631298065186
+    },
+    {
+      "auxiliary_loss_clip": 0.01205004,
+      "auxiliary_loss_mlp": 0.01033052,
+      "balance_loss_clip": 1.05191898,
+      "balance_loss_mlp": 1.02410579,
+      "epoch": 0.4444177238020802,
+      "flos": 17675699483520.0,
+      "grad_norm": 2.1116014897990483,
+      "language_loss": 0.65883797,
+      "learning_rate": 2.4532832258598506e-06,
+      "loss": 0.68121856,
+      "num_input_tokens_seen": 79591360,
+      "step": 3696,
+      "time_per_iteration": 2.6822662353515625
+    },
+    {
+      "auxiliary_loss_clip": 0.01186155,
+      "auxiliary_loss_mlp": 0.01029943,
+      "balance_loss_clip": 1.05470896,
+      "balance_loss_mlp": 1.02150869,
+      "epoch": 0.4445379666927193,
+      "flos": 28621594609920.0,
+      "grad_norm": 1.736066058196946,
+      "language_loss": 0.81089389,
+      "learning_rate": 2.4525244900767047e-06,
+      "loss": 0.8330549,
+      "num_input_tokens_seen": 79612175,
+      "step": 3697,
+      "time_per_iteration": 2.6124510765075684
+    },
+    {
+      "auxiliary_loss_clip": 0.01109827,
+      "auxiliary_loss_mlp": 0.01000451,
+      "balance_loss_clip": 1.04049706,
+      "balance_loss_mlp": 0.99921721,
+      "epoch": 0.4446582095833584,
+      "flos": 70487370115200.0,
+      "grad_norm": 0.7784131361368414,
+      "language_loss": 0.60469878,
+      "learning_rate": 2.4517656856459536e-06,
+      "loss": 0.62580156,
+      "num_input_tokens_seen": 79678020,
+      "step": 3698,
+      "time_per_iteration": 3.326637029647827
+    },
+    {
+      "auxiliary_loss_clip": 0.0119804,
+      "auxiliary_loss_mlp": 0.01027464,
+      "balance_loss_clip": 1.0537219,
+      "balance_loss_mlp": 1.01885438,
+      "epoch": 0.4447784524739975,
+      "flos": 26505199313280.0,
+      "grad_norm": 1.5808156796791488,
+      "language_loss": 0.67965746,
+      "learning_rate": 2.4510068126827073e-06,
+      "loss": 0.70191246,
+      "num_input_tokens_seen": 79699020,
+      "step": 3699,
+      "time_per_iteration": 2.7146644592285156
+    },
+    {
+      "auxiliary_loss_clip": 0.01201196,
+      "auxiliary_loss_mlp": 0.01029132,
+      "balance_loss_clip": 1.05081201,
+      "balance_loss_mlp": 1.02093041,
+      "epoch": 0.44489869536463655,
+      "flos": 11656209553920.0,
+      "grad_norm": 2.380030049310432,
+      "language_loss": 0.81913733,
+      "learning_rate": 2.450247871302086e-06,
+      "loss": 0.84144068,
+      "num_input_tokens_seen": 79716795,
+      "step": 3700,
+      "time_per_iteration": 2.6823365688323975
+    },
+    {
+      "auxiliary_loss_clip": 0.01199836,
+      "auxiliary_loss_mlp": 0.01030328,
+      "balance_loss_clip": 1.05370188,
+      "balance_loss_mlp": 1.02189994,
+      "epoch": 0.44501893825527566,
+      "flos": 20448469958400.0,
+      "grad_norm": 2.33481180909058,
+      "language_loss": 0.83410037,
+      "learning_rate": 2.44948886161922e-06,
+      "loss": 0.85640204,
+      "num_input_tokens_seen": 79735810,
+      "step": 3701,
+      "time_per_iteration": 2.646738052368164
+    },
+    {
+      "auxiliary_loss_clip": 0.01198804,
+      "auxiliary_loss_mlp": 0.01032826,
+      "balance_loss_clip": 1.05407286,
+      "balance_loss_mlp": 1.02424943,
+      "epoch": 0.4451391811459148,
+      "flos": 18261079430400.0,
+      "grad_norm": 1.7174848439895112,
+      "language_loss": 0.84853679,
+      "learning_rate": 2.4487297837492524e-06,
+      "loss": 0.87085313,
+      "num_input_tokens_seen": 79754975,
+      "step": 3702,
+      "time_per_iteration": 3.564713478088379
+    },
+    {
+      "auxiliary_loss_clip": 0.01212186,
+      "auxiliary_loss_mlp": 0.01030182,
+      "balance_loss_clip": 1.05006707,
+      "balance_loss_mlp": 1.021456,
+      "epoch": 0.44525942403655383,
+      "flos": 16910155895040.0,
+      "grad_norm": 1.852561256797135,
+      "language_loss": 0.62313306,
+      "learning_rate": 2.4479706378073323e-06,
+      "loss": 0.64555681,
+      "num_input_tokens_seen": 79773515,
+      "step": 3703,
+      "time_per_iteration": 4.504130601882935
+    },
+    {
+      "auxiliary_loss_clip": 0.01196553,
+      "auxiliary_loss_mlp": 0.01027474,
+      "balance_loss_clip": 1.04587984,
+      "balance_loss_mlp": 1.01932621,
+      "epoch": 0.44537966692719294,
+      "flos": 23258838994560.0,
+      "grad_norm": 1.637692857160993,
+      "language_loss": 0.84038812,
+      "learning_rate": 2.447211423908623e-06,
+      "loss": 0.86262846,
+      "num_input_tokens_seen": 79793560,
+      "step": 3704,
+      "time_per_iteration": 2.70210862159729
+    },
+    {
+      "auxiliary_loss_clip": 0.0119719,
+      "auxiliary_loss_mlp": 0.010303,
+      "balance_loss_clip": 1.05218208,
+      "balance_loss_mlp": 1.02256906,
+      "epoch": 0.445499909817832,
+      "flos": 21724160457600.0,
+      "grad_norm": 2.5436119346848036,
+      "language_loss": 0.74957949,
+      "learning_rate": 2.4464521421682966e-06,
+      "loss": 0.7718544,
+      "num_input_tokens_seen": 79811150,
+      "step": 3705,
+      "time_per_iteration": 2.619410753250122
+    },
+    {
+      "auxiliary_loss_clip": 0.0118802,
+      "auxiliary_loss_mlp": 0.01028239,
+      "balance_loss_clip": 1.05126297,
+      "balance_loss_mlp": 1.02058625,
+      "epoch": 0.4456201527084711,
+      "flos": 23987969170560.0,
+      "grad_norm": 1.3276122478052141,
+      "language_loss": 0.87671626,
+      "learning_rate": 2.4456927927015345e-06,
+      "loss": 0.89887881,
+      "num_input_tokens_seen": 79832190,
+      "step": 3706,
+      "time_per_iteration": 2.684204339981079
+    },
+    {
+      "auxiliary_loss_clip": 0.01212706,
+      "auxiliary_loss_mlp": 0.01028458,
+      "balance_loss_clip": 1.05601931,
+      "balance_loss_mlp": 1.01930833,
+      "epoch": 0.4457403955991102,
+      "flos": 18807065136000.0,
+      "grad_norm": 2.4716242819115135,
+      "language_loss": 0.76172233,
+      "learning_rate": 2.4449333756235307e-06,
+      "loss": 0.78413403,
+      "num_input_tokens_seen": 79848905,
+      "step": 3707,
+      "time_per_iteration": 2.6597952842712402
+    },
+    {
+      "auxiliary_loss_clip": 0.01202332,
+      "auxiliary_loss_mlp": 0.01030424,
+      "balance_loss_clip": 1.05576313,
+      "balance_loss_mlp": 1.02232695,
+      "epoch": 0.4458606384897493,
+      "flos": 19207756327680.0,
+      "grad_norm": 2.675219495835348,
+      "language_loss": 0.79242158,
+      "learning_rate": 2.4441738910494876e-06,
+      "loss": 0.81474912,
+      "num_input_tokens_seen": 79863640,
+      "step": 3708,
+      "time_per_iteration": 2.6917824745178223
+    },
+    {
+      "auxiliary_loss_clip": 0.01209651,
+      "auxiliary_loss_mlp": 0.01032553,
+      "balance_loss_clip": 1.0506624,
+      "balance_loss_mlp": 1.02298653,
+      "epoch": 0.4459808813803884,
+      "flos": 21361283308800.0,
+      "grad_norm": 6.949435009485993,
+      "language_loss": 0.82160974,
+      "learning_rate": 2.4434143390946176e-06,
+      "loss": 0.84403181,
+      "num_input_tokens_seen": 79882450,
+      "step": 3709,
+      "time_per_iteration": 3.657869338989258
+    },
+    {
+      "auxiliary_loss_clip": 0.01210197,
+      "auxiliary_loss_mlp": 0.01031018,
+      "balance_loss_clip": 1.05010545,
+      "balance_loss_mlp": 1.02291203,
+      "epoch": 0.4461011242710275,
+      "flos": 23288967527040.0,
+      "grad_norm": 2.485359101741412,
+      "language_loss": 0.8551752,
+      "learning_rate": 2.4426547198741457e-06,
+      "loss": 0.87758732,
+      "num_input_tokens_seen": 79900655,
+      "step": 3710,
+      "time_per_iteration": 2.7274398803710938
+    },
+    {
+      "auxiliary_loss_clip": 0.01220415,
+      "auxiliary_loss_mlp": 0.0102844,
+      "balance_loss_clip": 1.05131185,
+      "balance_loss_mlp": 1.01989877,
+      "epoch": 0.44622136716166655,
+      "flos": 20193001453440.0,
+      "grad_norm": 2.0018131292753414,
+      "language_loss": 0.74378526,
+      "learning_rate": 2.441895033503305e-06,
+      "loss": 0.76627386,
+      "num_input_tokens_seen": 79918575,
+      "step": 3711,
+      "time_per_iteration": 2.879054307937622
+    },
+    {
+      "auxiliary_loss_clip": 0.0119457,
+      "auxiliary_loss_mlp": 0.01032291,
+      "balance_loss_clip": 1.051319,
+      "balance_loss_mlp": 1.02310026,
+      "epoch": 0.44634161005230566,
+      "flos": 21283033530240.0,
+      "grad_norm": 1.620987725187861,
+      "language_loss": 0.81971025,
+      "learning_rate": 2.4411352800973375e-06,
+      "loss": 0.84197891,
+      "num_input_tokens_seen": 79937010,
+      "step": 3712,
+      "time_per_iteration": 2.6446096897125244
+    },
+    {
+      "auxiliary_loss_clip": 0.01207162,
+      "auxiliary_loss_mlp": 0.01029824,
+      "balance_loss_clip": 1.04786897,
+      "balance_loss_mlp": 1.02141953,
+      "epoch": 0.44646185294294477,
+      "flos": 22929358515840.0,
+      "grad_norm": 2.566996676805878,
+      "language_loss": 0.75353777,
+      "learning_rate": 2.4403754597715005e-06,
+      "loss": 0.77590764,
+      "num_input_tokens_seen": 79956455,
+      "step": 3713,
+      "time_per_iteration": 2.72251296043396
+    },
+    {
+      "auxiliary_loss_clip": 0.01203493,
+      "auxiliary_loss_mlp": 0.01029843,
+      "balance_loss_clip": 1.04815745,
+      "balance_loss_mlp": 1.02108693,
+      "epoch": 0.4465820958335838,
+      "flos": 22637692080000.0,
+      "grad_norm": 5.057211583878384,
+      "language_loss": 0.93169451,
+      "learning_rate": 2.4396155726410553e-06,
+      "loss": 0.95402789,
+      "num_input_tokens_seen": 79975065,
+      "step": 3714,
+      "time_per_iteration": 2.688377857208252
+    },
+    {
+      "auxiliary_loss_clip": 0.01200684,
+      "auxiliary_loss_mlp": 0.01030638,
+      "balance_loss_clip": 1.05336785,
+      "balance_loss_mlp": 1.02178669,
+      "epoch": 0.44670233872422294,
+      "flos": 22672525294080.0,
+      "grad_norm": 4.273930767696802,
+      "language_loss": 0.90705526,
+      "learning_rate": 2.438855618821278e-06,
+      "loss": 0.9293685,
+      "num_input_tokens_seen": 79990865,
+      "step": 3715,
+      "time_per_iteration": 2.620181083679199
+    },
+    {
+      "auxiliary_loss_clip": 0.01185425,
+      "auxiliary_loss_mlp": 0.01028917,
+      "balance_loss_clip": 1.04868817,
+      "balance_loss_mlp": 1.0208106,
+      "epoch": 0.44682258161486205,
+      "flos": 23582178247680.0,
+      "grad_norm": 1.6251154255080225,
+      "language_loss": 0.67636764,
+      "learning_rate": 2.4380955984274517e-06,
+      "loss": 0.698511,
+      "num_input_tokens_seen": 80009520,
+      "step": 3716,
+      "time_per_iteration": 2.726823568344116
+    },
+    {
+      "auxiliary_loss_clip": 0.01195338,
+      "auxiliary_loss_mlp": 0.01027281,
+      "balance_loss_clip": 1.05376852,
+      "balance_loss_mlp": 1.01872754,
+      "epoch": 0.4469428245055011,
+      "flos": 26501356558080.0,
+      "grad_norm": 1.8700097920062475,
+      "language_loss": 0.76685345,
+      "learning_rate": 2.4373355115748716e-06,
+      "loss": 0.78907967,
+      "num_input_tokens_seen": 80030350,
+      "step": 3717,
+      "time_per_iteration": 2.6929550170898438
+    },
+    {
+      "auxiliary_loss_clip": 0.01195493,
+      "auxiliary_loss_mlp": 0.01029917,
+      "balance_loss_clip": 1.05009091,
+      "balance_loss_mlp": 1.02135146,
+      "epoch": 0.4470630673961402,
+      "flos": 21504925797120.0,
+      "grad_norm": 3.156012840907761,
+      "language_loss": 0.72299147,
+      "learning_rate": 2.436575358378842e-06,
+      "loss": 0.74524552,
+      "num_input_tokens_seen": 80049840,
+      "step": 3718,
+      "time_per_iteration": 2.69863224029541
+    },
+    {
+      "auxiliary_loss_clip": 0.01210926,
+      "auxiliary_loss_mlp": 0.01030683,
+      "balance_loss_clip": 1.05282629,
+      "balance_loss_mlp": 1.0221417,
+      "epoch": 0.44718331028677927,
+      "flos": 16173986653440.0,
+      "grad_norm": 2.8617990418262353,
+      "language_loss": 0.83427095,
+      "learning_rate": 2.4358151389546782e-06,
+      "loss": 0.85668701,
+      "num_input_tokens_seen": 80066525,
+      "step": 3719,
+      "time_per_iteration": 2.631152391433716
+    },
+    {
+      "auxiliary_loss_clip": 0.01186727,
+      "auxiliary_loss_mlp": 0.01031248,
+      "balance_loss_clip": 1.05399239,
+      "balance_loss_mlp": 1.02305818,
+      "epoch": 0.4473035531774184,
+      "flos": 19681238430720.0,
+      "grad_norm": 2.776527888205176,
+      "language_loss": 0.76025409,
+      "learning_rate": 2.4350548534177035e-06,
+      "loss": 0.78243387,
+      "num_input_tokens_seen": 80083355,
+      "step": 3720,
+      "time_per_iteration": 2.7050766944885254
+    },
+    {
+      "auxiliary_loss_clip": 0.01210225,
+      "auxiliary_loss_mlp": 0.0102687,
+      "balance_loss_clip": 1.04845619,
+      "balance_loss_mlp": 1.01845419,
+      "epoch": 0.4474237960680575,
+      "flos": 41427590515200.0,
+      "grad_norm": 1.561574646110216,
+      "language_loss": 0.66840279,
+      "learning_rate": 2.434294501883254e-06,
+      "loss": 0.69077373,
+      "num_input_tokens_seen": 80106450,
+      "step": 3721,
+      "time_per_iteration": 2.87019681930542
+    },
+    {
+      "auxiliary_loss_clip": 0.0119106,
+      "auxiliary_loss_mlp": 0.01030126,
+      "balance_loss_clip": 1.04727316,
+      "balance_loss_mlp": 1.02163219,
+      "epoch": 0.44754403895869654,
+      "flos": 22891328991360.0,
+      "grad_norm": 1.7208822032821733,
+      "language_loss": 0.65780884,
+      "learning_rate": 2.433534084466674e-06,
+      "loss": 0.68002069,
+      "num_input_tokens_seen": 80125670,
+      "step": 3722,
+      "time_per_iteration": 2.7296416759490967
+    },
+    {
+      "auxiliary_loss_clip": 0.0118287,
+      "auxiliary_loss_mlp": 0.01030497,
+      "balance_loss_clip": 1.05212271,
+      "balance_loss_mlp": 1.02242672,
+      "epoch": 0.44766428184933565,
+      "flos": 25630271832960.0,
+      "grad_norm": 1.4585599940711413,
+      "language_loss": 0.70910919,
+      "learning_rate": 2.4327736012833178e-06,
+      "loss": 0.7312429,
+      "num_input_tokens_seen": 80147390,
+      "step": 3723,
+      "time_per_iteration": 2.6065430641174316
+    },
+    {
+      "auxiliary_loss_clip": 0.011944,
+      "auxiliary_loss_mlp": 0.01025201,
+      "balance_loss_clip": 1.0531075,
+      "balance_loss_mlp": 1.01633167,
+      "epoch": 0.44778452473997477,
+      "flos": 20448972748800.0,
+      "grad_norm": 1.9667459951807704,
+      "language_loss": 0.76299095,
+      "learning_rate": 2.4320130524485506e-06,
+      "loss": 0.78518695,
+      "num_input_tokens_seen": 80166185,
+      "step": 3724,
+      "time_per_iteration": 2.675131320953369
+    },
+    {
+      "auxiliary_loss_clip": 0.01197726,
+      "auxiliary_loss_mlp": 0.01028516,
+      "balance_loss_clip": 1.05369043,
+      "balance_loss_mlp": 1.02074409,
+      "epoch": 0.4479047676306138,
+      "flos": 21975462984960.0,
+      "grad_norm": 1.423949724702474,
+      "language_loss": 0.79702741,
+      "learning_rate": 2.431252438077746e-06,
+      "loss": 0.8192898,
+      "num_input_tokens_seen": 80185685,
+      "step": 3725,
+      "time_per_iteration": 2.666611671447754
+    },
+    {
+      "auxiliary_loss_clip": 0.01198368,
+      "auxiliary_loss_mlp": 0.01379473,
+      "balance_loss_clip": 1.05275834,
+      "balance_loss_mlp": 1.00028729,
+      "epoch": 0.44802501052125293,
+      "flos": 21467219495040.0,
+      "grad_norm": 2.643932304124272,
+      "language_loss": 0.77572936,
+      "learning_rate": 2.4304917582862906e-06,
+      "loss": 0.80150777,
+      "num_input_tokens_seen": 80204865,
+      "step": 3726,
+      "time_per_iteration": 2.6545753479003906
+    },
+    {
+      "auxiliary_loss_clip": 0.01189408,
+      "auxiliary_loss_mlp": 0.01027684,
+      "balance_loss_clip": 1.0559051,
+      "balance_loss_mlp": 1.0193038,
+      "epoch": 0.44814525341189204,
+      "flos": 22126970551680.0,
+      "grad_norm": 1.960594925481167,
+      "language_loss": 0.87862539,
+      "learning_rate": 2.4297310131895774e-06,
+      "loss": 0.90079629,
+      "num_input_tokens_seen": 80223410,
+      "step": 3727,
+      "time_per_iteration": 2.5844247341156006
+    },
+    {
+      "auxiliary_loss_clip": 0.01197484,
+      "auxiliary_loss_mlp": 0.01029458,
+      "balance_loss_clip": 1.05485725,
+      "balance_loss_mlp": 1.02095866,
+      "epoch": 0.4482654963025311,
+      "flos": 16653933204480.0,
+      "grad_norm": 2.298805181652212,
+      "language_loss": 0.7447378,
+      "learning_rate": 2.4289702029030113e-06,
+      "loss": 0.76700723,
+      "num_input_tokens_seen": 80240880,
+      "step": 3728,
+      "time_per_iteration": 3.538877248764038
+    },
+    {
+      "auxiliary_loss_clip": 0.0119424,
+      "auxiliary_loss_mlp": 0.01030989,
+      "balance_loss_clip": 1.05389714,
+      "balance_loss_mlp": 1.0221262,
+      "epoch": 0.4483857391931702,
+      "flos": 18841251905280.0,
+      "grad_norm": 1.8199582530779987,
+      "language_loss": 0.82776636,
+      "learning_rate": 2.4282093275420057e-06,
+      "loss": 0.85001868,
+      "num_input_tokens_seen": 80259910,
+      "step": 3729,
+      "time_per_iteration": 3.4563236236572266
+    },
+    {
+      "auxiliary_loss_clip": 0.01199252,
+      "auxiliary_loss_mlp": 0.01027041,
+      "balance_loss_clip": 1.05309927,
+      "balance_loss_mlp": 1.01919127,
+      "epoch": 0.4485059820838093,
+      "flos": 20372590477440.0,
+      "grad_norm": 2.068723254269659,
+      "language_loss": 0.70394385,
+      "learning_rate": 2.4274483872219863e-06,
+      "loss": 0.72620678,
+      "num_input_tokens_seen": 80277270,
+      "step": 3730,
+      "time_per_iteration": 2.498856782913208
+    },
+    {
+      "auxiliary_loss_clip": 0.01192356,
+      "auxiliary_loss_mlp": 0.0102596,
+      "balance_loss_clip": 1.05269504,
+      "balance_loss_mlp": 1.01793694,
+      "epoch": 0.4486262249744484,
+      "flos": 20047742853120.0,
+      "grad_norm": 2.1027318999046765,
+      "language_loss": 0.93652761,
+      "learning_rate": 2.426687382058386e-06,
+      "loss": 0.95871085,
+      "num_input_tokens_seen": 80295550,
+      "step": 3731,
+      "time_per_iteration": 2.5569732189178467
+    },
+    {
+      "auxiliary_loss_clip": 0.01103707,
+      "auxiliary_loss_mlp": 0.01001415,
+      "balance_loss_clip": 1.03534842,
+      "balance_loss_mlp": 1.00009823,
+      "epoch": 0.4487464678650875,
+      "flos": 64595684776320.0,
+      "grad_norm": 0.8584252673701235,
+      "language_loss": 0.59774756,
+      "learning_rate": 2.425926312166649e-06,
+      "loss": 0.61879873,
+      "num_input_tokens_seen": 80348425,
+      "step": 3732,
+      "time_per_iteration": 3.0471301078796387
+    },
+    {
+      "auxiliary_loss_clip": 0.01206819,
+      "auxiliary_loss_mlp": 0.01031616,
+      "balance_loss_clip": 1.0502249,
+      "balance_loss_mlp": 1.02339041,
+      "epoch": 0.4488667107557266,
+      "flos": 20769798049920.0,
+      "grad_norm": 2.8795115458890805,
+      "language_loss": 0.73589993,
+      "learning_rate": 2.42516517766223e-06,
+      "loss": 0.75828433,
+      "num_input_tokens_seen": 80366505,
+      "step": 3733,
+      "time_per_iteration": 2.7534396648406982
+    },
+    {
+      "auxiliary_loss_clip": 0.01188987,
+      "auxiliary_loss_mlp": 0.01028151,
+      "balance_loss_clip": 1.05709755,
+      "balance_loss_mlp": 1.02027738,
+      "epoch": 0.44898695364636565,
+      "flos": 23951735326080.0,
+      "grad_norm": 1.7088837418384584,
+      "language_loss": 0.68204755,
+      "learning_rate": 2.4244039786605907e-06,
+      "loss": 0.70421892,
+      "num_input_tokens_seen": 80387510,
+      "step": 3734,
+      "time_per_iteration": 2.6865015029907227
+    },
+    {
+      "auxiliary_loss_clip": 0.01223662,
+      "auxiliary_loss_mlp": 0.01036042,
+      "balance_loss_clip": 1.047575,
+      "balance_loss_mlp": 1.02733994,
+      "epoch": 0.44910719653700476,
+      "flos": 18624351628800.0,
+      "grad_norm": 2.281741187737899,
+      "language_loss": 0.82391882,
+      "learning_rate": 2.4236427152772055e-06,
+      "loss": 0.84651583,
+      "num_input_tokens_seen": 80405915,
+      "step": 3735,
+      "time_per_iteration": 3.650080919265747
+    },
+    {
+      "auxiliary_loss_clip": 0.01106377,
+      "auxiliary_loss_mlp": 0.01002793,
+      "balance_loss_clip": 1.02175784,
+      "balance_loss_mlp": 1.00150585,
+      "epoch": 0.4492274394276438,
+      "flos": 57033435749760.0,
+      "grad_norm": 0.8208288719140442,
+      "language_loss": 0.57380342,
+      "learning_rate": 2.422881387627557e-06,
+      "loss": 0.59489512,
+      "num_input_tokens_seen": 80458365,
+      "step": 3736,
+      "time_per_iteration": 3.0186078548431396
+    },
+    {
+      "auxiliary_loss_clip": 0.01204698,
+      "auxiliary_loss_mlp": 0.01028127,
+      "balance_loss_clip": 1.05137062,
+      "balance_loss_mlp": 1.01974678,
+      "epoch": 0.4493476823182829,
+      "flos": 23254888498560.0,
+      "grad_norm": 1.5992484938385407,
+      "language_loss": 0.77254182,
+      "learning_rate": 2.422119995827139e-06,
+      "loss": 0.79487002,
+      "num_input_tokens_seen": 80478490,
+      "step": 3737,
+      "time_per_iteration": 2.6563456058502197
+    },
+    {
+      "auxiliary_loss_clip": 0.01201813,
+      "auxiliary_loss_mlp": 0.01025558,
+      "balance_loss_clip": 1.05706406,
+      "balance_loss_mlp": 1.01708198,
+      "epoch": 0.44946792520892204,
+      "flos": 15815131827840.0,
+      "grad_norm": 2.8015282269243778,
+      "language_loss": 0.73922169,
+      "learning_rate": 2.4213585399914528e-06,
+      "loss": 0.76149541,
+      "num_input_tokens_seen": 80495695,
+      "step": 3738,
+      "time_per_iteration": 2.5848000049591064
+    },
+    {
+      "auxiliary_loss_clip": 0.0119584,
+      "auxiliary_loss_mlp": 0.01028381,
+      "balance_loss_clip": 1.05402434,
+      "balance_loss_mlp": 1.02027512,
+      "epoch": 0.4495881680995611,
+      "flos": 19610063631360.0,
+      "grad_norm": 1.717336217688089,
+      "language_loss": 0.8539995,
+      "learning_rate": 2.4205970202360113e-06,
+      "loss": 0.87624168,
+      "num_input_tokens_seen": 80515260,
+      "step": 3739,
+      "time_per_iteration": 2.6338984966278076
+    },
+    {
+      "auxiliary_loss_clip": 0.01214138,
+      "auxiliary_loss_mlp": 0.01031283,
+      "balance_loss_clip": 1.04910827,
+      "balance_loss_mlp": 1.02273607,
+      "epoch": 0.4497084109902002,
+      "flos": 26031465815040.0,
+      "grad_norm": 4.029173269838788,
+      "language_loss": 0.78385162,
+      "learning_rate": 2.4198354366763354e-06,
+      "loss": 0.80630583,
+      "num_input_tokens_seen": 80533900,
+      "step": 3740,
+      "time_per_iteration": 2.8050689697265625
+    },
+    {
+      "auxiliary_loss_clip": 0.01207121,
+      "auxiliary_loss_mlp": 0.01029074,
+      "balance_loss_clip": 1.0529722,
+      "balance_loss_mlp": 1.02086651,
+      "epoch": 0.4498286538808393,
+      "flos": 14793688771200.0,
+      "grad_norm": 2.3237568040435335,
+      "language_loss": 0.78639197,
+      "learning_rate": 2.4190737894279587e-06,
+      "loss": 0.80875397,
+      "num_input_tokens_seen": 80551270,
+      "step": 3741,
+      "time_per_iteration": 2.6748814582824707
+    },
+    {
+      "auxiliary_loss_clip": 0.01196426,
+      "auxiliary_loss_mlp": 0.01032787,
+      "balance_loss_clip": 1.04364467,
+      "balance_loss_mlp": 1.02441823,
+      "epoch": 0.44994889677147837,
+      "flos": 15450171690240.0,
+      "grad_norm": 3.180530195605207,
+      "language_loss": 0.8013494,
+      "learning_rate": 2.4183120786064203e-06,
+      "loss": 0.82364154,
+      "num_input_tokens_seen": 80568145,
+      "step": 3742,
+      "time_per_iteration": 2.856226921081543
+    },
+    {
+      "auxiliary_loss_clip": 0.01197792,
+      "auxiliary_loss_mlp": 0.01379463,
+      "balance_loss_clip": 1.05493093,
+      "balance_loss_mlp": 1.00029564,
+      "epoch": 0.4500691396621175,
+      "flos": 21798316085760.0,
+      "grad_norm": 2.1525400514819455,
+      "language_loss": 0.85224766,
+      "learning_rate": 2.417550304327273e-06,
+      "loss": 0.87802017,
+      "num_input_tokens_seen": 80586185,
+      "step": 3743,
+      "time_per_iteration": 2.681993007659912
+    },
+    {
+      "auxiliary_loss_clip": 0.01190508,
+      "auxiliary_loss_mlp": 0.01028487,
+      "balance_loss_clip": 1.05707681,
+      "balance_loss_mlp": 1.01904559,
+      "epoch": 0.4501893825527566,
+      "flos": 32382016421760.0,
+      "grad_norm": 1.5915577621228274,
+      "language_loss": 0.75780237,
+      "learning_rate": 2.4167884667060763e-06,
+      "loss": 0.77999234,
+      "num_input_tokens_seen": 80608895,
+      "step": 3744,
+      "time_per_iteration": 2.699380397796631
+    },
+    {
+      "auxiliary_loss_clip": 0.01202868,
+      "auxiliary_loss_mlp": 0.01031261,
+      "balance_loss_clip": 1.05043495,
+      "balance_loss_mlp": 1.02179623,
+      "epoch": 0.45030962544339564,
+      "flos": 16544944362240.0,
+      "grad_norm": 2.2125333818583397,
+      "language_loss": 0.8761003,
+      "learning_rate": 2.4160265658584e-06,
+      "loss": 0.89844155,
+      "num_input_tokens_seen": 80623785,
+      "step": 3745,
+      "time_per_iteration": 2.6892099380493164
+    },
+    {
+      "auxiliary_loss_clip": 0.01200009,
+      "auxiliary_loss_mlp": 0.0102803,
+      "balance_loss_clip": 1.05476797,
+      "balance_loss_mlp": 1.01979268,
+      "epoch": 0.45042986833403476,
+      "flos": 19573039687680.0,
+      "grad_norm": 1.9573862219553644,
+      "language_loss": 0.68257868,
+      "learning_rate": 2.4152646018998253e-06,
+      "loss": 0.70485902,
+      "num_input_tokens_seen": 80642735,
+      "step": 3746,
+      "time_per_iteration": 2.772172451019287
+    },
+    {
+      "auxiliary_loss_clip": 0.01191838,
+      "auxiliary_loss_mlp": 0.01026499,
+      "balance_loss_clip": 1.05318499,
+      "balance_loss_mlp": 1.01830947,
+      "epoch": 0.45055011122467387,
+      "flos": 23112467072640.0,
+      "grad_norm": 1.799229184318272,
+      "language_loss": 0.72052729,
+      "learning_rate": 2.4145025749459403e-06,
+      "loss": 0.74271071,
+      "num_input_tokens_seen": 80663760,
+      "step": 3747,
+      "time_per_iteration": 2.746121883392334
+    },
+    {
+      "auxiliary_loss_clip": 0.01238589,
+      "auxiliary_loss_mlp": 0.01025298,
+      "balance_loss_clip": 1.04639041,
+      "balance_loss_mlp": 1.01658392,
+      "epoch": 0.4506703541153129,
+      "flos": 19934623946880.0,
+      "grad_norm": 1.872013875691128,
+      "language_loss": 0.70097822,
+      "learning_rate": 2.413740485112344e-06,
+      "loss": 0.72361708,
+      "num_input_tokens_seen": 80682100,
+      "step": 3748,
+      "time_per_iteration": 2.811337471008301
+    },
+    {
+      "auxiliary_loss_clip": 0.01202792,
+      "auxiliary_loss_mlp": 0.01026092,
+      "balance_loss_clip": 1.05505872,
+      "balance_loss_mlp": 1.01803327,
+      "epoch": 0.45079059700595203,
+      "flos": 19499530504320.0,
+      "grad_norm": 1.5802254310453625,
+      "language_loss": 0.82384229,
+      "learning_rate": 2.412978332514646e-06,
+      "loss": 0.84613115,
+      "num_input_tokens_seen": 80700880,
+      "step": 3749,
+      "time_per_iteration": 2.6944291591644287
+    },
+    {
+      "auxiliary_loss_clip": 0.01208064,
+      "auxiliary_loss_mlp": 0.01024465,
+      "balance_loss_clip": 1.05416512,
+      "balance_loss_mlp": 1.01599503,
+      "epoch": 0.4509108398965911,
+      "flos": 27636313570560.0,
+      "grad_norm": 1.946752076134735,
+      "language_loss": 0.723046,
+      "learning_rate": 2.4122161172684623e-06,
+      "loss": 0.74537128,
+      "num_input_tokens_seen": 80721675,
+      "step": 3750,
+      "time_per_iteration": 2.707136869430542
+    },
+    {
+      "auxiliary_loss_clip": 0.01208564,
+      "auxiliary_loss_mlp": 0.01028936,
+      "balance_loss_clip": 1.05409932,
+      "balance_loss_mlp": 1.02009618,
+      "epoch": 0.4510310827872302,
+      "flos": 20995712640000.0,
+      "grad_norm": 2.2385236476853807,
+      "language_loss": 0.84550881,
+      "learning_rate": 2.4114538394894216e-06,
+      "loss": 0.8678838,
+      "num_input_tokens_seen": 80739315,
+      "step": 3751,
+      "time_per_iteration": 2.666091203689575
+    },
+    {
+      "auxiliary_loss_clip": 0.01197965,
+      "auxiliary_loss_mlp": 0.01030324,
+      "balance_loss_clip": 1.04672313,
+      "balance_loss_mlp": 1.02197337,
+      "epoch": 0.4511513256778693,
+      "flos": 16216684945920.0,
+      "grad_norm": 2.44654534281039,
+      "language_loss": 0.83087969,
+      "learning_rate": 2.410691499293161e-06,
+      "loss": 0.85316253,
+      "num_input_tokens_seen": 80757470,
+      "step": 3752,
+      "time_per_iteration": 2.681516647338867
+    },
+    {
+      "auxiliary_loss_clip": 0.01193764,
+      "auxiliary_loss_mlp": 0.0102631,
+      "balance_loss_clip": 1.05172205,
+      "balance_loss_mlp": 1.01851356,
+      "epoch": 0.45127156856850836,
+      "flos": 25186702780800.0,
+      "grad_norm": 1.586392752283445,
+      "language_loss": 0.74386185,
+      "learning_rate": 2.409929096795326e-06,
+      "loss": 0.76606262,
+      "num_input_tokens_seen": 80777840,
+      "step": 3753,
+      "time_per_iteration": 2.7063841819763184
+    },
+    {
+      "auxiliary_loss_clip": 0.01195518,
+      "auxiliary_loss_mlp": 0.01027114,
+      "balance_loss_clip": 1.05158138,
+      "balance_loss_mlp": 1.01831055,
+      "epoch": 0.4513918114591475,
+      "flos": 20412523422720.0,
+      "grad_norm": 1.9201063046867146,
+      "language_loss": 0.79101706,
+      "learning_rate": 2.409166632111573e-06,
+      "loss": 0.81324339,
+      "num_input_tokens_seen": 80795975,
+      "step": 3754,
+      "time_per_iteration": 2.7380311489105225
+    },
+    {
+      "auxiliary_loss_clip": 0.01204234,
+      "auxiliary_loss_mlp": 0.01028629,
+      "balance_loss_clip": 1.05392396,
+      "balance_loss_mlp": 1.01990294,
+      "epoch": 0.4515120543497866,
+      "flos": 26648482665600.0,
+      "grad_norm": 2.7402587974683112,
+      "language_loss": 0.8044951,
+      "learning_rate": 2.4084041053575674e-06,
+      "loss": 0.82682371,
+      "num_input_tokens_seen": 80815395,
+      "step": 3755,
+      "time_per_iteration": 4.595381736755371
+    },
+    {
+      "auxiliary_loss_clip": 0.01210543,
+      "auxiliary_loss_mlp": 0.01030443,
+      "balance_loss_clip": 1.0543642,
+      "balance_loss_mlp": 1.02223527,
+      "epoch": 0.45163229724042564,
+      "flos": 20595093275520.0,
+      "grad_norm": 2.4542752333162903,
+      "language_loss": 0.72089237,
+      "learning_rate": 2.4076415166489834e-06,
+      "loss": 0.74330223,
+      "num_input_tokens_seen": 80834805,
+      "step": 3756,
+      "time_per_iteration": 2.6670942306518555
+    },
+    {
+      "auxiliary_loss_clip": 0.01229242,
+      "auxiliary_loss_mlp": 0.01028211,
+      "balance_loss_clip": 1.04994071,
+      "balance_loss_mlp": 1.01992583,
+      "epoch": 0.45175254013106475,
+      "flos": 21689004021120.0,
+      "grad_norm": 1.5492965262862866,
+      "language_loss": 0.79070437,
+      "learning_rate": 2.406878866101506e-06,
+      "loss": 0.81327885,
+      "num_input_tokens_seen": 80853770,
+      "step": 3757,
+      "time_per_iteration": 2.7972614765167236
+    },
+    {
+      "auxiliary_loss_clip": 0.01187942,
+      "auxiliary_loss_mlp": 0.01031355,
+      "balance_loss_clip": 1.05585027,
+      "balance_loss_mlp": 1.02323663,
+      "epoch": 0.45187278302170386,
+      "flos": 18878850466560.0,
+      "grad_norm": 1.9212872169468453,
+      "language_loss": 0.78180444,
+      "learning_rate": 2.4061161538308273e-06,
+      "loss": 0.8039974,
+      "num_input_tokens_seen": 80870615,
+      "step": 3758,
+      "time_per_iteration": 2.623138189315796
+    },
+    {
+      "auxiliary_loss_clip": 0.01194719,
+      "auxiliary_loss_mlp": 0.01028668,
+      "balance_loss_clip": 1.05198503,
+      "balance_loss_mlp": 1.01979852,
+      "epoch": 0.4519930259123429,
+      "flos": 18582479349120.0,
+      "grad_norm": 1.9547224988294605,
+      "language_loss": 0.8895992,
+      "learning_rate": 2.4053533799526523e-06,
+      "loss": 0.91183305,
+      "num_input_tokens_seen": 80886335,
+      "step": 3759,
+      "time_per_iteration": 2.6533939838409424
+    },
+    {
+      "auxiliary_loss_clip": 0.01196435,
+      "auxiliary_loss_mlp": 0.01024878,
+      "balance_loss_clip": 1.04982877,
+      "balance_loss_mlp": 1.01681376,
+      "epoch": 0.452113268802982,
+      "flos": 25192377129600.0,
+      "grad_norm": 1.632012112591302,
+      "language_loss": 0.86336803,
+      "learning_rate": 2.404590544582691e-06,
+      "loss": 0.8855812,
+      "num_input_tokens_seen": 80904570,
+      "step": 3760,
+      "time_per_iteration": 2.7153921127319336
+    },
+    {
+      "auxiliary_loss_clip": 0.01219291,
+      "auxiliary_loss_mlp": 0.01034461,
+      "balance_loss_clip": 1.04490018,
+      "balance_loss_mlp": 1.02597332,
+      "epoch": 0.45223351169362114,
+      "flos": 39378922312320.0,
+      "grad_norm": 1.7791637298314593,
+      "language_loss": 0.80996591,
+      "learning_rate": 2.403827647836666e-06,
+      "loss": 0.83250344,
+      "num_input_tokens_seen": 80925125,
+      "step": 3761,
+      "time_per_iteration": 3.828139066696167
+    },
+    {
+      "auxiliary_loss_clip": 0.01187209,
+      "auxiliary_loss_mlp": 0.01028977,
+      "balance_loss_clip": 1.05374074,
+      "balance_loss_mlp": 1.02064466,
+      "epoch": 0.4523537545842602,
+      "flos": 21582169994880.0,
+      "grad_norm": 1.8774990827853522,
+      "language_loss": 0.69278812,
+      "learning_rate": 2.4030646898303075e-06,
+      "loss": 0.71494997,
+      "num_input_tokens_seen": 80946615,
+      "step": 3762,
+      "time_per_iteration": 2.6818454265594482
+    },
+    {
+      "auxiliary_loss_clip": 0.01205737,
+      "auxiliary_loss_mlp": 0.01025221,
+      "balance_loss_clip": 1.04927278,
+      "balance_loss_mlp": 1.0166018,
+      "epoch": 0.4524739974748993,
+      "flos": 28439527547520.0,
+      "grad_norm": 2.0810120464566215,
+      "language_loss": 0.82121134,
+      "learning_rate": 2.4023016706793566e-06,
+      "loss": 0.84352088,
+      "num_input_tokens_seen": 80966410,
+      "step": 3763,
+      "time_per_iteration": 2.740304470062256
+    },
+    {
+      "auxiliary_loss_clip": 0.01122265,
+      "auxiliary_loss_mlp": 0.01003054,
+      "balance_loss_clip": 1.02022386,
+      "balance_loss_mlp": 1.00177813,
+      "epoch": 0.4525942403655384,
+      "flos": 61556492148480.0,
+      "grad_norm": 0.7932476344604141,
+      "language_loss": 0.56881869,
+      "learning_rate": 2.401538590499561e-06,
+      "loss": 0.59007186,
+      "num_input_tokens_seen": 81026865,
+      "step": 3764,
+      "time_per_iteration": 3.3312273025512695
+    },
+    {
+      "auxiliary_loss_clip": 0.01197087,
+      "auxiliary_loss_mlp": 0.01379623,
+      "balance_loss_clip": 1.05260754,
+      "balance_loss_mlp": 1.00024652,
+      "epoch": 0.45271448325617747,
+      "flos": 27529838680320.0,
+      "grad_norm": 1.7853660596930285,
+      "language_loss": 0.71737158,
+      "learning_rate": 2.400775449406682e-06,
+      "loss": 0.74313867,
+      "num_input_tokens_seen": 81050060,
+      "step": 3765,
+      "time_per_iteration": 2.711268901824951
+    },
+    {
+      "auxiliary_loss_clip": 0.01191029,
+      "auxiliary_loss_mlp": 0.01028666,
+      "balance_loss_clip": 1.04840243,
+      "balance_loss_mlp": 1.02114964,
+      "epoch": 0.4528347261468166,
+      "flos": 22452608275200.0,
+      "grad_norm": 2.06895259188629,
+      "language_loss": 0.73052466,
+      "learning_rate": 2.400012247516485e-06,
+      "loss": 0.75272155,
+      "num_input_tokens_seen": 81070625,
+      "step": 3766,
+      "time_per_iteration": 2.701770067214966
+    },
+    {
+      "auxiliary_loss_clip": 0.01215945,
+      "auxiliary_loss_mlp": 0.01028183,
+      "balance_loss_clip": 1.04959476,
+      "balance_loss_mlp": 1.01980591,
+      "epoch": 0.45295496903745563,
+      "flos": 21103875469440.0,
+      "grad_norm": 1.8518736904325548,
+      "language_loss": 0.90418637,
+      "learning_rate": 2.3992489849447484e-06,
+      "loss": 0.92662764,
+      "num_input_tokens_seen": 81089080,
+      "step": 3767,
+      "time_per_iteration": 2.7284703254699707
+    },
+    {
+      "auxiliary_loss_clip": 0.01220693,
+      "auxiliary_loss_mlp": 0.01034389,
+      "balance_loss_clip": 1.05237937,
+      "balance_loss_mlp": 1.02467942,
+      "epoch": 0.45307521192809475,
+      "flos": 23221168606080.0,
+      "grad_norm": 1.6911707113642709,
+      "language_loss": 0.79006457,
+      "learning_rate": 2.3984856618072584e-06,
+      "loss": 0.81261539,
+      "num_input_tokens_seen": 81109115,
+      "step": 3768,
+      "time_per_iteration": 2.735497236251831
+    },
+    {
+      "auxiliary_loss_clip": 0.01213561,
+      "auxiliary_loss_mlp": 0.01029343,
+      "balance_loss_clip": 1.04780698,
+      "balance_loss_mlp": 1.02114177,
+      "epoch": 0.45319545481873386,
+      "flos": 15560094286080.0,
+      "grad_norm": 1.7585099684478342,
+      "language_loss": 0.73789132,
+      "learning_rate": 2.3977222782198098e-06,
+      "loss": 0.76032031,
+      "num_input_tokens_seen": 81127750,
+      "step": 3769,
+      "time_per_iteration": 2.6750869750976562
+    },
+    {
+      "auxiliary_loss_clip": 0.01201529,
+      "auxiliary_loss_mlp": 0.01025854,
+      "balance_loss_clip": 1.04896379,
+      "balance_loss_mlp": 1.01732481,
+      "epoch": 0.4533156977093729,
+      "flos": 21944759834880.0,
+      "grad_norm": 1.7779295486900708,
+      "language_loss": 0.7526859,
+      "learning_rate": 2.3969588342982077e-06,
+      "loss": 0.7749598,
+      "num_input_tokens_seen": 81147125,
+      "step": 3770,
+      "time_per_iteration": 2.730757474899292
+    },
+    {
+      "auxiliary_loss_clip": 0.01192637,
+      "auxiliary_loss_mlp": 0.01028525,
+      "balance_loss_clip": 1.05359113,
+      "balance_loss_mlp": 1.02050257,
+      "epoch": 0.453435940600012,
+      "flos": 24242180699520.0,
+      "grad_norm": 1.8344593997313412,
+      "language_loss": 0.72681844,
+      "learning_rate": 2.396195330158267e-06,
+      "loss": 0.74903011,
+      "num_input_tokens_seen": 81167015,
+      "step": 3771,
+      "time_per_iteration": 2.687596559524536
+    },
+    {
+      "auxiliary_loss_clip": 0.01189753,
+      "auxiliary_loss_mlp": 0.01029603,
+      "balance_loss_clip": 1.05678391,
+      "balance_loss_mlp": 1.02065659,
+      "epoch": 0.45355618349065113,
+      "flos": 23440367352960.0,
+      "grad_norm": 9.058413007715439,
+      "language_loss": 0.79505318,
+      "learning_rate": 2.3954317659158094e-06,
+      "loss": 0.81724679,
+      "num_input_tokens_seen": 81187350,
+      "step": 3772,
+      "time_per_iteration": 2.6342484951019287
+    },
+    {
+      "auxiliary_loss_clip": 0.01081842,
+      "auxiliary_loss_mlp": 0.01003548,
+      "balance_loss_clip": 1.02105439,
+      "balance_loss_mlp": 1.00211132,
+      "epoch": 0.4536764263812902,
+      "flos": 66903161448960.0,
+      "grad_norm": 0.9269300004362739,
+      "language_loss": 0.56983393,
+      "learning_rate": 2.394668141686667e-06,
+      "loss": 0.59068787,
+      "num_input_tokens_seen": 81249315,
+      "step": 3773,
+      "time_per_iteration": 3.1885299682617188
+    },
+    {
+      "auxiliary_loss_clip": 0.01190206,
+      "auxiliary_loss_mlp": 0.01032774,
+      "balance_loss_clip": 1.05186701,
+      "balance_loss_mlp": 1.02456653,
+      "epoch": 0.4537966692719293,
+      "flos": 42739766254080.0,
+      "grad_norm": 2.1451590185733096,
+      "language_loss": 0.70172703,
+      "learning_rate": 2.3939044575866813e-06,
+      "loss": 0.72395682,
+      "num_input_tokens_seen": 81272065,
+      "step": 3774,
+      "time_per_iteration": 2.800583600997925
+    },
+    {
+      "auxiliary_loss_clip": 0.01198732,
+      "auxiliary_loss_mlp": 0.0137937,
+      "balance_loss_clip": 1.04961109,
+      "balance_loss_mlp": 1.00018334,
+      "epoch": 0.4539169121625684,
+      "flos": 35549480517120.0,
+      "grad_norm": 5.291183414572345,
+      "language_loss": 0.75668424,
+      "learning_rate": 2.3931407137317024e-06,
+      "loss": 0.78246534,
+      "num_input_tokens_seen": 81292220,
+      "step": 3775,
+      "time_per_iteration": 2.8589096069335938
+    },
+    {
+      "auxiliary_loss_clip": 0.01205569,
+      "auxiliary_loss_mlp": 0.01026708,
+      "balance_loss_clip": 1.04724288,
+      "balance_loss_mlp": 1.01839328,
+      "epoch": 0.45403715505320746,
+      "flos": 18514716341760.0,
+      "grad_norm": 1.8095383495037414,
+      "language_loss": 0.84886765,
+      "learning_rate": 2.3923769102375907e-06,
+      "loss": 0.87119043,
+      "num_input_tokens_seen": 81311085,
+      "step": 3776,
+      "time_per_iteration": 2.69923996925354
+    },
+    {
+      "auxiliary_loss_clip": 0.01211224,
+      "auxiliary_loss_mlp": 0.01030128,
+      "balance_loss_clip": 1.04837847,
+      "balance_loss_mlp": 1.02200437,
+      "epoch": 0.4541573979438466,
+      "flos": 25045825639680.0,
+      "grad_norm": 4.993143344465535,
+      "language_loss": 0.78538203,
+      "learning_rate": 2.391613047220213e-06,
+      "loss": 0.80779552,
+      "num_input_tokens_seen": 81330985,
+      "step": 3777,
+      "time_per_iteration": 2.7335386276245117
+    },
+    {
+      "auxiliary_loss_clip": 0.01232328,
+      "auxiliary_loss_mlp": 0.01027748,
+      "balance_loss_clip": 1.05067825,
+      "balance_loss_mlp": 1.01899266,
+      "epoch": 0.4542776408344857,
+      "flos": 18332397884160.0,
+      "grad_norm": 1.780761601580375,
+      "language_loss": 0.78882933,
+      "learning_rate": 2.390849124795447e-06,
+      "loss": 0.8114301,
+      "num_input_tokens_seen": 81346985,
+      "step": 3778,
+      "time_per_iteration": 2.6789822578430176
+    },
+    {
+      "auxiliary_loss_clip": 0.01189944,
+      "auxiliary_loss_mlp": 0.01028331,
+      "balance_loss_clip": 1.05641329,
+      "balance_loss_mlp": 1.02011788,
+      "epoch": 0.45439788372512474,
+      "flos": 20701173116160.0,
+      "grad_norm": 1.8870703837302418,
+      "language_loss": 0.84746337,
+      "learning_rate": 2.3900851430791804e-06,
+      "loss": 0.86964607,
+      "num_input_tokens_seen": 81365005,
+      "step": 3779,
+      "time_per_iteration": 2.6341006755828857
+    },
+    {
+      "auxiliary_loss_clip": 0.01191221,
+      "auxiliary_loss_mlp": 0.01033176,
+      "balance_loss_clip": 1.05715942,
+      "balance_loss_mlp": 1.02435434,
+      "epoch": 0.45451812661576385,
+      "flos": 22309432663680.0,
+      "grad_norm": 2.1191762138099097,
+      "language_loss": 0.84559023,
+      "learning_rate": 2.389321102187307e-06,
+      "loss": 0.86783415,
+      "num_input_tokens_seen": 81383785,
+      "step": 3780,
+      "time_per_iteration": 3.5856573581695557
+    },
+    {
+      "auxiliary_loss_clip": 0.0120463,
+      "auxiliary_loss_mlp": 0.01379965,
+      "balance_loss_clip": 1.05255556,
+      "balance_loss_mlp": 1.00022578,
+      "epoch": 0.4546383695064029,
+      "flos": 21763303303680.0,
+      "grad_norm": 1.8676596294120922,
+      "language_loss": 0.81404293,
+      "learning_rate": 2.3885570022357326e-06,
+      "loss": 0.83988887,
+      "num_input_tokens_seen": 81402915,
+      "step": 3781,
+      "time_per_iteration": 3.6090729236602783
+    },
+    {
+      "auxiliary_loss_clip": 0.01120176,
+      "auxiliary_loss_mlp": 0.01000931,
+      "balance_loss_clip": 1.01839757,
+      "balance_loss_mlp": 0.99958962,
+      "epoch": 0.454758612397042,
+      "flos": 64242755694720.0,
+      "grad_norm": 0.8558324775381786,
+      "language_loss": 0.6087631,
+      "learning_rate": 2.38779284334037e-06,
+      "loss": 0.62997413,
+      "num_input_tokens_seen": 81467890,
+      "step": 3782,
+      "time_per_iteration": 4.330377817153931
+    },
+    {
+      "auxiliary_loss_clip": 0.01204824,
+      "auxiliary_loss_mlp": 0.01027759,
+      "balance_loss_clip": 1.04532385,
+      "balance_loss_mlp": 1.01936042,
+      "epoch": 0.4548788552876811,
+      "flos": 27304175485440.0,
+      "grad_norm": 1.8086463568393745,
+      "language_loss": 0.78907025,
+      "learning_rate": 2.387028625617141e-06,
+      "loss": 0.811396,
+      "num_input_tokens_seen": 81487105,
+      "step": 3783,
+      "time_per_iteration": 2.796022653579712
+    },
+    {
+      "auxiliary_loss_clip": 0.01188826,
+      "auxiliary_loss_mlp": 0.01030436,
+      "balance_loss_clip": 1.04786062,
+      "balance_loss_mlp": 1.02209115,
+      "epoch": 0.4549990981783202,
+      "flos": 22857142222080.0,
+      "grad_norm": 5.723010136386818,
+      "language_loss": 0.84787691,
+      "learning_rate": 2.3862643491819766e-06,
+      "loss": 0.87006956,
+      "num_input_tokens_seen": 81505670,
+      "step": 3784,
+      "time_per_iteration": 2.657317876815796
+    },
+    {
+      "auxiliary_loss_clip": 0.01193022,
+      "auxiliary_loss_mlp": 0.01027138,
+      "balance_loss_clip": 1.05317497,
+      "balance_loss_mlp": 1.01892471,
+      "epoch": 0.4551193410689593,
+      "flos": 23258587599360.0,
+      "grad_norm": 1.9012158812107895,
+      "language_loss": 0.84600794,
+      "learning_rate": 2.3855000141508186e-06,
+      "loss": 0.86820954,
+      "num_input_tokens_seen": 81525825,
+      "step": 3785,
+      "time_per_iteration": 2.6715967655181885
+    },
+    {
+      "auxiliary_loss_clip": 0.01208862,
+      "auxiliary_loss_mlp": 0.01031021,
+      "balance_loss_clip": 1.05567169,
+      "balance_loss_mlp": 1.02247977,
+      "epoch": 0.4552395839595984,
+      "flos": 20777519473920.0,
+      "grad_norm": 2.57939430381117,
+      "language_loss": 0.83752084,
+      "learning_rate": 2.3847356206396143e-06,
+      "loss": 0.85991967,
+      "num_input_tokens_seen": 81543135,
+      "step": 3786,
+      "time_per_iteration": 3.6224236488342285
+    },
+    {
+      "auxiliary_loss_clip": 0.01188218,
+      "auxiliary_loss_mlp": 0.01028419,
+      "balance_loss_clip": 1.05659974,
+      "balance_loss_mlp": 1.01969898,
+      "epoch": 0.45535982685023746,
+      "flos": 23257510191360.0,
+      "grad_norm": 1.505268203683487,
+      "language_loss": 0.7840727,
+      "learning_rate": 2.3839711687643227e-06,
+      "loss": 0.80623913,
+      "num_input_tokens_seen": 81564360,
+      "step": 3787,
+      "time_per_iteration": 2.6389896869659424
+    },
+    {
+      "auxiliary_loss_clip": 0.01201021,
+      "auxiliary_loss_mlp": 0.01029122,
+      "balance_loss_clip": 1.05827451,
+      "balance_loss_mlp": 1.01987159,
+      "epoch": 0.45548006974087657,
+      "flos": 19646117907840.0,
+      "grad_norm": 2.90414586087923,
+      "language_loss": 0.74261642,
+      "learning_rate": 2.38320665864091e-06,
+      "loss": 0.76491779,
+      "num_input_tokens_seen": 81583710,
+      "step": 3788,
+      "time_per_iteration": 2.704502582550049
+    },
+    {
+      "auxiliary_loss_clip": 0.01234149,
+      "auxiliary_loss_mlp": 0.01031603,
+      "balance_loss_clip": 1.04733157,
+      "balance_loss_mlp": 1.02294302,
+      "epoch": 0.4556003126315157,
+      "flos": 20047778766720.0,
+      "grad_norm": 1.7227119238950324,
+      "language_loss": 0.81901503,
+      "learning_rate": 2.3824420903853516e-06,
+      "loss": 0.84167254,
+      "num_input_tokens_seen": 81602175,
+      "step": 3789,
+      "time_per_iteration": 2.8030292987823486
+    },
+    {
+      "auxiliary_loss_clip": 0.01196377,
+      "auxiliary_loss_mlp": 0.0103153,
+      "balance_loss_clip": 1.0554657,
+      "balance_loss_mlp": 1.02332878,
+      "epoch": 0.45572055552215474,
+      "flos": 22959738443520.0,
+      "grad_norm": 2.3558075969870553,
+      "language_loss": 0.81909692,
+      "learning_rate": 2.3816774641136324e-06,
+      "loss": 0.84137607,
+      "num_input_tokens_seen": 81619430,
+      "step": 3790,
+      "time_per_iteration": 2.711970806121826
+    },
+    {
+      "auxiliary_loss_clip": 0.01195096,
+      "auxiliary_loss_mlp": 0.01379567,
+      "balance_loss_clip": 1.05434108,
+      "balance_loss_mlp": 1.00022209,
+      "epoch": 0.45584079841279385,
+      "flos": 33109925535360.0,
+      "grad_norm": 1.7234023635412417,
+      "language_loss": 0.71635652,
+      "learning_rate": 2.380912779941745e-06,
+      "loss": 0.7421031,
+      "num_input_tokens_seen": 81642550,
+      "step": 3791,
+      "time_per_iteration": 2.8364346027374268
+    },
+    {
+      "auxiliary_loss_clip": 0.01196407,
+      "auxiliary_loss_mlp": 0.01041017,
+      "balance_loss_clip": 1.05174911,
+      "balance_loss_mlp": 1.03153408,
+      "epoch": 0.45596104130343296,
+      "flos": 27272179445760.0,
+      "grad_norm": 2.568484358698114,
+      "language_loss": 0.83089691,
+      "learning_rate": 2.3801480379856918e-06,
+      "loss": 0.85327113,
+      "num_input_tokens_seen": 81664260,
+      "step": 3792,
+      "time_per_iteration": 2.7267165184020996
+    },
+    {
+      "auxiliary_loss_clip": 0.01207315,
+      "auxiliary_loss_mlp": 0.01028471,
+      "balance_loss_clip": 1.0540055,
+      "balance_loss_mlp": 1.01996493,
+      "epoch": 0.456081284194072,
+      "flos": 21579799697280.0,
+      "grad_norm": 1.6855968423453078,
+      "language_loss": 0.83701068,
+      "learning_rate": 2.379383238361484e-06,
+      "loss": 0.85936856,
+      "num_input_tokens_seen": 81683620,
+      "step": 3793,
+      "time_per_iteration": 2.6948025226593018
+    },
+    {
+      "auxiliary_loss_clip": 0.01191137,
+      "auxiliary_loss_mlp": 0.0103129,
+      "balance_loss_clip": 1.05201447,
+      "balance_loss_mlp": 1.02283835,
+      "epoch": 0.4562015270847111,
+      "flos": 35918822113920.0,
+      "grad_norm": 1.8352249607053603,
+      "language_loss": 0.79850698,
+      "learning_rate": 2.3786183811851407e-06,
+      "loss": 0.82073128,
+      "num_input_tokens_seen": 81704325,
+      "step": 3794,
+      "time_per_iteration": 2.7473297119140625
+    },
+    {
+      "auxiliary_loss_clip": 0.01191043,
+      "auxiliary_loss_mlp": 0.01034934,
+      "balance_loss_clip": 1.05908144,
+      "balance_loss_mlp": 1.0254513,
+      "epoch": 0.45632176997535023,
+      "flos": 13589783602560.0,
+      "grad_norm": 1.7728314788917396,
+      "language_loss": 0.80291438,
+      "learning_rate": 2.3778534665726892e-06,
+      "loss": 0.82517421,
+      "num_input_tokens_seen": 81721155,
+      "step": 3795,
+      "time_per_iteration": 2.5893068313598633
+    },
+    {
+      "auxiliary_loss_clip": 0.01185836,
+      "auxiliary_loss_mlp": 0.01025311,
+      "balance_loss_clip": 1.05439436,
+      "balance_loss_mlp": 1.01741886,
+      "epoch": 0.4564420128659893,
+      "flos": 32635401937920.0,
+      "grad_norm": 2.1062057547210737,
+      "language_loss": 0.72775924,
+      "learning_rate": 2.377088494640168e-06,
+      "loss": 0.74987066,
+      "num_input_tokens_seen": 81742905,
+      "step": 3796,
+      "time_per_iteration": 2.726823329925537
+    },
+    {
+      "auxiliary_loss_clip": 0.01193962,
+      "auxiliary_loss_mlp": 0.01025964,
+      "balance_loss_clip": 1.05541825,
+      "balance_loss_mlp": 1.01814365,
+      "epoch": 0.4565622557566284,
+      "flos": 20377690208640.0,
+      "grad_norm": 1.8546962117731065,
+      "language_loss": 0.78198814,
+      "learning_rate": 2.3763234655036216e-06,
+      "loss": 0.80418742,
+      "num_input_tokens_seen": 81762105,
+      "step": 3797,
+      "time_per_iteration": 2.6834259033203125
+    },
+    {
+      "auxiliary_loss_clip": 0.01207633,
+      "auxiliary_loss_mlp": 0.01029454,
+      "balance_loss_clip": 1.04590726,
+      "balance_loss_mlp": 1.0212642,
+      "epoch": 0.45668249864726745,
+      "flos": 25374372364800.0,
+      "grad_norm": 1.8373830368488537,
+      "language_loss": 0.86752951,
+      "learning_rate": 2.3755583792791046e-06,
+      "loss": 0.88990033,
+      "num_input_tokens_seen": 81781975,
+      "step": 3798,
+      "time_per_iteration": 2.7261831760406494
+    },
+    {
+      "auxiliary_loss_clip": 0.01199442,
+      "auxiliary_loss_mlp": 0.01027967,
+      "balance_loss_clip": 1.05558705,
+      "balance_loss_mlp": 1.01950908,
+      "epoch": 0.45680274153790656,
+      "flos": 15559806977280.0,
+      "grad_norm": 2.0030616870333007,
+      "language_loss": 0.74705708,
+      "learning_rate": 2.3747932360826803e-06,
+      "loss": 0.7693311,
+      "num_input_tokens_seen": 81798905,
+      "step": 3799,
+      "time_per_iteration": 2.681525230407715
+    },
+    {
+      "auxiliary_loss_clip": 0.01197186,
+      "auxiliary_loss_mlp": 0.01027002,
+      "balance_loss_clip": 1.05575645,
+      "balance_loss_mlp": 1.01827002,
+      "epoch": 0.4569229844285457,
+      "flos": 19792884879360.0,
+      "grad_norm": 1.9651913469688747,
+      "language_loss": 0.82127833,
+      "learning_rate": 2.3740280360304205e-06,
+      "loss": 0.84352022,
+      "num_input_tokens_seen": 81816630,
+      "step": 3800,
+      "time_per_iteration": 2.602782726287842
+    },
+    {
+      "auxiliary_loss_clip": 0.01211052,
+      "auxiliary_loss_mlp": 0.01029832,
+      "balance_loss_clip": 1.05199051,
+      "balance_loss_mlp": 1.02163005,
+      "epoch": 0.45704322731918473,
+      "flos": 24093941270400.0,
+      "grad_norm": 1.6275884560420801,
+      "language_loss": 0.67931175,
+      "learning_rate": 2.3732627792384038e-06,
+      "loss": 0.7017206,
+      "num_input_tokens_seen": 81837700,
+      "step": 3801,
+      "time_per_iteration": 2.7638015747070312
+    },
+    {
+      "auxiliary_loss_clip": 0.01188818,
+      "auxiliary_loss_mlp": 0.01028078,
+      "balance_loss_clip": 1.05627489,
+      "balance_loss_mlp": 1.01960242,
+      "epoch": 0.45716347020982384,
+      "flos": 31317803245440.0,
+      "grad_norm": 1.8991749805647313,
+      "language_loss": 0.75636917,
+      "learning_rate": 2.3724974658227207e-06,
+      "loss": 0.77853811,
+      "num_input_tokens_seen": 81858490,
+      "step": 3802,
+      "time_per_iteration": 2.6652779579162598
+    },
+    {
+      "auxiliary_loss_clip": 0.01208467,
+      "auxiliary_loss_mlp": 0.01379513,
+      "balance_loss_clip": 1.05655122,
+      "balance_loss_mlp": 1.00019264,
+      "epoch": 0.45728371310046295,
+      "flos": 26501392471680.0,
+      "grad_norm": 2.0936042131741357,
+      "language_loss": 0.71237528,
+      "learning_rate": 2.3717320958994687e-06,
+      "loss": 0.73825508,
+      "num_input_tokens_seen": 81876050,
+      "step": 3803,
+      "time_per_iteration": 2.7391650676727295
+    },
+    {
+      "auxiliary_loss_clip": 0.01207814,
+      "auxiliary_loss_mlp": 0.01025309,
+      "balance_loss_clip": 1.04528415,
+      "balance_loss_mlp": 1.01709569,
+      "epoch": 0.457403955991102,
+      "flos": 17929408222080.0,
+      "grad_norm": 1.8281019571713433,
+      "language_loss": 0.70430231,
+      "learning_rate": 2.3709666695847534e-06,
+      "loss": 0.72663343,
+      "num_input_tokens_seen": 81894230,
+      "step": 3804,
+      "time_per_iteration": 2.75313663482666
+    },
+    {
+      "auxiliary_loss_clip": 0.01212628,
+      "auxiliary_loss_mlp": 0.01028464,
+      "balance_loss_clip": 1.04703522,
+      "balance_loss_mlp": 1.02052426,
+      "epoch": 0.4575241988817411,
+      "flos": 42230660837760.0,
+      "grad_norm": 1.6669169843992588,
+      "language_loss": 0.70282829,
+      "learning_rate": 2.370201186994689e-06,
+      "loss": 0.72523916,
+      "num_input_tokens_seen": 81917915,
+      "step": 3805,
+      "time_per_iteration": 2.9236996173858643
+    },
+    {
+      "auxiliary_loss_clip": 0.01195654,
+      "auxiliary_loss_mlp": 0.01028267,
+      "balance_loss_clip": 1.0536499,
+      "balance_loss_mlp": 1.0199765,
+      "epoch": 0.45764444177238023,
+      "flos": 30117309868800.0,
+      "grad_norm": 1.721323437646134,
+      "language_loss": 0.70060062,
+      "learning_rate": 2.369435648245399e-06,
+      "loss": 0.72283989,
+      "num_input_tokens_seen": 81938130,
+      "step": 3806,
+      "time_per_iteration": 3.714301347732544
+    },
+    {
+      "auxiliary_loss_clip": 0.01203155,
+      "auxiliary_loss_mlp": 0.0103622,
+      "balance_loss_clip": 1.05179846,
+      "balance_loss_mlp": 1.02740502,
+      "epoch": 0.4577646846630193,
+      "flos": 24060293205120.0,
+      "grad_norm": 1.6247356576344953,
+      "language_loss": 0.85047442,
+      "learning_rate": 2.368670053453015e-06,
+      "loss": 0.87286818,
+      "num_input_tokens_seen": 81959820,
+      "step": 3807,
+      "time_per_iteration": 3.58158540725708
+    },
+    {
+      "auxiliary_loss_clip": 0.01205401,
+      "auxiliary_loss_mlp": 0.01026188,
+      "balance_loss_clip": 1.05883491,
+      "balance_loss_mlp": 1.01815319,
+      "epoch": 0.4578849275536584,
+      "flos": 17418578952960.0,
+      "grad_norm": 2.091536086805311,
+      "language_loss": 0.74262148,
+      "learning_rate": 2.3679044027336757e-06,
+      "loss": 0.7649374,
+      "num_input_tokens_seen": 81975710,
+      "step": 3808,
+      "time_per_iteration": 3.479231357574463
+    },
+    {
+      "auxiliary_loss_clip": 0.01189401,
+      "auxiliary_loss_mlp": 0.01027392,
+      "balance_loss_clip": 1.05581808,
+      "balance_loss_mlp": 1.01936936,
+      "epoch": 0.4580051704442975,
+      "flos": 13510169107200.0,
+      "grad_norm": 2.556490167406868,
+      "language_loss": 0.68924904,
+      "learning_rate": 2.3671386962035326e-06,
+      "loss": 0.71141696,
+      "num_input_tokens_seen": 81993180,
+      "step": 3809,
+      "time_per_iteration": 2.6062498092651367
+    },
+    {
+      "auxiliary_loss_clip": 0.01199205,
+      "auxiliary_loss_mlp": 0.01036673,
+      "balance_loss_clip": 1.05575728,
+      "balance_loss_mlp": 1.02734506,
+      "epoch": 0.45812541333493656,
+      "flos": 18037606965120.0,
+      "grad_norm": 1.8767514878591076,
+      "language_loss": 0.68614918,
+      "learning_rate": 2.3663729339787405e-06,
+      "loss": 0.70850796,
+      "num_input_tokens_seen": 82010115,
+      "step": 3810,
+      "time_per_iteration": 2.6042275428771973
+    },
+    {
+      "auxiliary_loss_clip": 0.01187949,
+      "auxiliary_loss_mlp": 0.01031972,
+      "balance_loss_clip": 1.05623245,
+      "balance_loss_mlp": 1.02304947,
+      "epoch": 0.45824565622557567,
+      "flos": 20222196232320.0,
+      "grad_norm": 2.144001803140168,
+      "language_loss": 0.73180544,
+      "learning_rate": 2.365607116175466e-06,
+      "loss": 0.75400466,
+      "num_input_tokens_seen": 82025540,
+      "step": 3811,
+      "time_per_iteration": 2.6566452980041504
+    },
+    {
+      "auxiliary_loss_clip": 0.01186238,
+      "auxiliary_loss_mlp": 0.01029493,
+      "balance_loss_clip": 1.05500495,
+      "balance_loss_mlp": 1.02159548,
+      "epoch": 0.4583658991162148,
+      "flos": 19864885691520.0,
+      "grad_norm": 2.2085988948330946,
+      "language_loss": 0.66857958,
+      "learning_rate": 2.3648412429098825e-06,
+      "loss": 0.69073689,
+      "num_input_tokens_seen": 82043890,
+      "step": 3812,
+      "time_per_iteration": 2.6122543811798096
+    },
+    {
+      "auxiliary_loss_clip": 0.01211905,
+      "auxiliary_loss_mlp": 0.01030123,
+      "balance_loss_clip": 1.0539515,
+      "balance_loss_mlp": 1.02106309,
+      "epoch": 0.45848614200685384,
+      "flos": 21029935322880.0,
+      "grad_norm": 1.7058913333378085,
+      "language_loss": 0.81677443,
+      "learning_rate": 2.364075314298172e-06,
+      "loss": 0.83919472,
+      "num_input_tokens_seen": 82061345,
+      "step": 3813,
+      "time_per_iteration": 3.6316702365875244
+    },
+    {
+      "auxiliary_loss_clip": 0.01200031,
+      "auxiliary_loss_mlp": 0.01379218,
+      "balance_loss_clip": 1.05586171,
+      "balance_loss_mlp": 1.00005257,
+      "epoch": 0.45860638489749295,
+      "flos": 21069293650560.0,
+      "grad_norm": 2.0112598495155494,
+      "language_loss": 0.70093846,
+      "learning_rate": 2.3633093304565267e-06,
+      "loss": 0.726731,
+      "num_input_tokens_seen": 82080400,
+      "step": 3814,
+      "time_per_iteration": 2.6663029193878174
+    },
+    {
+      "auxiliary_loss_clip": 0.01193893,
+      "auxiliary_loss_mlp": 0.0104078,
+      "balance_loss_clip": 1.05968106,
+      "balance_loss_mlp": 1.03233433,
+      "epoch": 0.458726627788132,
+      "flos": 26833889692800.0,
+      "grad_norm": 2.209131934214169,
+      "language_loss": 0.62349629,
+      "learning_rate": 2.3625432915011443e-06,
+      "loss": 0.64584297,
+      "num_input_tokens_seen": 82102310,
+      "step": 3815,
+      "time_per_iteration": 2.6730897426605225
+    },
+    {
+      "auxiliary_loss_clip": 0.01196352,
+      "auxiliary_loss_mlp": 0.0103303,
+      "balance_loss_clip": 1.0515461,
+      "balance_loss_mlp": 1.02373791,
+      "epoch": 0.4588468706787711,
+      "flos": 24097927680000.0,
+      "grad_norm": 1.634699643324753,
+      "language_loss": 0.65174454,
+      "learning_rate": 2.3617771975482334e-06,
+      "loss": 0.67403835,
+      "num_input_tokens_seen": 82121140,
+      "step": 3816,
+      "time_per_iteration": 2.72660493850708
+    },
+    {
+      "auxiliary_loss_clip": 0.01217639,
+      "auxiliary_loss_mlp": 0.01031316,
+      "balance_loss_clip": 1.04849589,
+      "balance_loss_mlp": 1.02304864,
+      "epoch": 0.4589671135694102,
+      "flos": 17889331622400.0,
+      "grad_norm": 1.5280173819384004,
+      "language_loss": 0.74362135,
+      "learning_rate": 2.3610110487140083e-06,
+      "loss": 0.7661109,
+      "num_input_tokens_seen": 82139575,
+      "step": 3817,
+      "time_per_iteration": 2.744433879852295
+    },
+    {
+      "auxiliary_loss_clip": 0.01202993,
+      "auxiliary_loss_mlp": 0.01029197,
+      "balance_loss_clip": 1.05195332,
+      "balance_loss_mlp": 1.02066207,
+      "epoch": 0.4590873564600493,
+      "flos": 25626967781760.0,
+      "grad_norm": 1.6307001822860516,
+      "language_loss": 0.81013179,
+      "learning_rate": 2.360244845114695e-06,
+      "loss": 0.83245373,
+      "num_input_tokens_seen": 82159195,
+      "step": 3818,
+      "time_per_iteration": 2.715616464614868
+    },
+    {
+      "auxiliary_loss_clip": 0.01200054,
+      "auxiliary_loss_mlp": 0.01030045,
+      "balance_loss_clip": 1.05395222,
+      "balance_loss_mlp": 1.02140498,
+      "epoch": 0.4592075993506884,
+      "flos": 18514788168960.0,
+      "grad_norm": 3.0481681217389647,
+      "language_loss": 0.6841284,
+      "learning_rate": 2.3594785868665245e-06,
+      "loss": 0.70642936,
+      "num_input_tokens_seen": 82175500,
+      "step": 3819,
+      "time_per_iteration": 2.667027235031128
+    },
+    {
+      "auxiliary_loss_clip": 0.01216243,
+      "auxiliary_loss_mlp": 0.01379609,
+      "balance_loss_clip": 1.05207574,
+      "balance_loss_mlp": 1.00012779,
+      "epoch": 0.4593278422413275,
+      "flos": 20631111638400.0,
+      "grad_norm": 2.4103799741228946,
+      "language_loss": 0.80595541,
+      "learning_rate": 2.3587122740857386e-06,
+      "loss": 0.83191395,
+      "num_input_tokens_seen": 82192600,
+      "step": 3820,
+      "time_per_iteration": 2.830845832824707
+    },
+    {
+      "auxiliary_loss_clip": 0.01195732,
+      "auxiliary_loss_mlp": 0.01029056,
+      "balance_loss_clip": 1.05388474,
+      "balance_loss_mlp": 1.02131319,
+      "epoch": 0.45944808513196655,
+      "flos": 21358517961600.0,
+      "grad_norm": 1.8259260984271954,
+      "language_loss": 0.78047675,
+      "learning_rate": 2.357945906888586e-06,
+      "loss": 0.80272466,
+      "num_input_tokens_seen": 82212040,
+      "step": 3821,
+      "time_per_iteration": 2.6365814208984375
+    },
+    {
+      "auxiliary_loss_clip": 0.01199176,
+      "auxiliary_loss_mlp": 0.01026526,
+      "balance_loss_clip": 1.0561564,
+      "balance_loss_mlp": 1.01775193,
+      "epoch": 0.45956832802260567,
+      "flos": 21427789340160.0,
+      "grad_norm": 2.4672067318162085,
+      "language_loss": 0.79736781,
+      "learning_rate": 2.357179485391324e-06,
+      "loss": 0.81962478,
+      "num_input_tokens_seen": 82229895,
+      "step": 3822,
+      "time_per_iteration": 2.676821231842041
+    },
+    {
+      "auxiliary_loss_clip": 0.011852,
+      "auxiliary_loss_mlp": 0.01032526,
+      "balance_loss_clip": 1.05594754,
+      "balance_loss_mlp": 1.02460504,
+      "epoch": 0.4596885709132448,
+      "flos": 22382654538240.0,
+      "grad_norm": 1.79813696164669,
+      "language_loss": 0.86382419,
+      "learning_rate": 2.3564130097102173e-06,
+      "loss": 0.88600147,
+      "num_input_tokens_seen": 82249550,
+      "step": 3823,
+      "time_per_iteration": 2.6026313304901123
+    },
+    {
+      "auxiliary_loss_clip": 0.01194842,
+      "auxiliary_loss_mlp": 0.01027969,
+      "balance_loss_clip": 1.05129719,
+      "balance_loss_mlp": 1.01993978,
+      "epoch": 0.45980881380388383,
+      "flos": 28981957806720.0,
+      "grad_norm": 2.066174819258397,
+      "language_loss": 0.7517637,
+      "learning_rate": 2.355646479961541e-06,
+      "loss": 0.77399182,
+      "num_input_tokens_seen": 82268860,
+      "step": 3824,
+      "time_per_iteration": 2.7754480838775635
+    },
+    {
+      "auxiliary_loss_clip": 0.01186004,
+      "auxiliary_loss_mlp": 0.01024292,
+      "balance_loss_clip": 1.05412459,
+      "balance_loss_mlp": 1.01601267,
+      "epoch": 0.45992905669452294,
+      "flos": 33396599980800.0,
+      "grad_norm": 1.7816835225742387,
+      "language_loss": 0.71202248,
+      "learning_rate": 2.354879896261576e-06,
+      "loss": 0.73412544,
+      "num_input_tokens_seen": 82289070,
+      "step": 3825,
+      "time_per_iteration": 2.67010498046875
+    },
+    {
+      "auxiliary_loss_clip": 0.01207037,
+      "auxiliary_loss_mlp": 0.01034791,
+      "balance_loss_clip": 1.05087066,
+      "balance_loss_mlp": 1.02652991,
+      "epoch": 0.46004929958516205,
+      "flos": 36318184502400.0,
+      "grad_norm": 1.8428919483118322,
+      "language_loss": 0.5706557,
+      "learning_rate": 2.3541132587266133e-06,
+      "loss": 0.59307396,
+      "num_input_tokens_seen": 82311790,
+      "step": 3826,
+      "time_per_iteration": 2.7985970973968506
+    },
+    {
+      "auxiliary_loss_clip": 0.01218745,
+      "auxiliary_loss_mlp": 0.01025496,
+      "balance_loss_clip": 1.05195761,
+      "balance_loss_mlp": 1.01679397,
+      "epoch": 0.4601695424758011,
+      "flos": 17238451224960.0,
+      "grad_norm": 1.9046528500150963,
+      "language_loss": 0.69262666,
+      "learning_rate": 2.3533465674729515e-06,
+      "loss": 0.71506912,
+      "num_input_tokens_seen": 82329020,
+      "step": 3827,
+      "time_per_iteration": 2.71631121635437
+    },
+    {
+      "auxiliary_loss_clip": 0.01189626,
+      "auxiliary_loss_mlp": 0.01034658,
+      "balance_loss_clip": 1.05735898,
+      "balance_loss_mlp": 1.02584898,
+      "epoch": 0.4602897853664402,
+      "flos": 15888425529600.0,
+      "grad_norm": 2.155173923819626,
+      "language_loss": 0.72716415,
+      "learning_rate": 2.352579822616895e-06,
+      "loss": 0.74940699,
+      "num_input_tokens_seen": 82346455,
+      "step": 3828,
+      "time_per_iteration": 2.603438377380371
+    },
+    {
+      "auxiliary_loss_clip": 0.01203964,
+      "auxiliary_loss_mlp": 0.01028893,
+      "balance_loss_clip": 1.05150259,
+      "balance_loss_mlp": 1.02074516,
+      "epoch": 0.4604100282570793,
+      "flos": 25412617370880.0,
+      "grad_norm": 1.7644036283540223,
+      "language_loss": 0.77871788,
+      "learning_rate": 2.351813024274761e-06,
+      "loss": 0.80104643,
+      "num_input_tokens_seen": 82367810,
+      "step": 3829,
+      "time_per_iteration": 2.736706018447876
+    },
+    {
+      "auxiliary_loss_clip": 0.0121743,
+      "auxiliary_loss_mlp": 0.01034522,
+      "balance_loss_clip": 1.05199909,
+      "balance_loss_mlp": 1.02629042,
+      "epoch": 0.4605302711477184,
+      "flos": 27630711048960.0,
+      "grad_norm": 1.7652884629049768,
+      "language_loss": 0.73676544,
+      "learning_rate": 2.3510461725628693e-06,
+      "loss": 0.75928497,
+      "num_input_tokens_seen": 82388275,
+      "step": 3830,
+      "time_per_iteration": 2.7504844665527344
+    },
+    {
+      "auxiliary_loss_clip": 0.01216878,
+      "auxiliary_loss_mlp": 0.0102548,
+      "balance_loss_clip": 1.05124235,
+      "balance_loss_mlp": 1.01694417,
+      "epoch": 0.4606505140383575,
+      "flos": 23839657914240.0,
+      "grad_norm": 1.7782980587642712,
+      "language_loss": 0.70979989,
+      "learning_rate": 2.350279267597554e-06,
+      "loss": 0.73222351,
+      "num_input_tokens_seen": 82408915,
+      "step": 3831,
+      "time_per_iteration": 2.7624588012695312
+    },
+    {
+      "auxiliary_loss_clip": 0.01199126,
+      "auxiliary_loss_mlp": 0.01026054,
+      "balance_loss_clip": 1.05608892,
+      "balance_loss_mlp": 1.01717854,
+      "epoch": 0.46077075692899655,
+      "flos": 16107013745280.0,
+      "grad_norm": 2.1605835272897744,
+      "language_loss": 0.82970113,
+      "learning_rate": 2.3495123094951515e-06,
+      "loss": 0.85195291,
+      "num_input_tokens_seen": 82427260,
+      "step": 3832,
+      "time_per_iteration": 3.552168607711792
+    },
+    {
+      "auxiliary_loss_clip": 0.0119456,
+      "auxiliary_loss_mlp": 0.01031485,
+      "balance_loss_clip": 1.05024779,
+      "balance_loss_mlp": 1.02266335,
+      "epoch": 0.46089099981963566,
+      "flos": 48798147634560.0,
+      "grad_norm": 2.070824345862937,
+      "language_loss": 0.75902236,
+      "learning_rate": 2.34874529837201e-06,
+      "loss": 0.78128278,
+      "num_input_tokens_seen": 82450805,
+      "step": 3833,
+      "time_per_iteration": 4.728445768356323
+    },
+    {
+      "auxiliary_loss_clip": 0.0122338,
+      "auxiliary_loss_mlp": 0.01034549,
+      "balance_loss_clip": 1.0459373,
+      "balance_loss_mlp": 1.02682424,
+      "epoch": 0.46101124271027477,
+      "flos": 19099234362240.0,
+      "grad_norm": 1.9113924095573207,
+      "language_loss": 0.78822005,
+      "learning_rate": 2.347978234344483e-06,
+      "loss": 0.81079936,
+      "num_input_tokens_seen": 82467010,
+      "step": 3834,
+      "time_per_iteration": 2.7612178325653076
+    },
+    {
+      "auxiliary_loss_clip": 0.01201148,
+      "auxiliary_loss_mlp": 0.01035326,
+      "balance_loss_clip": 1.05595446,
+      "balance_loss_mlp": 1.02690125,
+      "epoch": 0.4611314856009138,
+      "flos": 39347931853440.0,
+      "grad_norm": 1.8318025451246998,
+      "language_loss": 0.69062817,
+      "learning_rate": 2.347211117528935e-06,
+      "loss": 0.71299291,
+      "num_input_tokens_seen": 82489310,
+      "step": 3835,
+      "time_per_iteration": 2.776599407196045
+    },
+    {
+      "auxiliary_loss_clip": 0.01227492,
+      "auxiliary_loss_mlp": 0.0102743,
+      "balance_loss_clip": 1.05690193,
+      "balance_loss_mlp": 1.01943672,
+      "epoch": 0.46125172849155294,
+      "flos": 20810772489600.0,
+      "grad_norm": 2.311613763529573,
+      "language_loss": 0.71480238,
+      "learning_rate": 2.3464439480417374e-06,
+      "loss": 0.73735166,
+      "num_input_tokens_seen": 82508830,
+      "step": 3836,
+      "time_per_iteration": 2.7576661109924316
+    },
+    {
+      "auxiliary_loss_clip": 0.01200161,
+      "auxiliary_loss_mlp": 0.01027497,
+      "balance_loss_clip": 1.05488932,
+      "balance_loss_mlp": 1.01867509,
+      "epoch": 0.46137197138219205,
+      "flos": 17930808852480.0,
+      "grad_norm": 3.5115580740446575,
+      "language_loss": 0.7721622,
+      "learning_rate": 2.3456767259992676e-06,
+      "loss": 0.79443872,
+      "num_input_tokens_seen": 82526475,
+      "step": 3837,
+      "time_per_iteration": 2.653097152709961
+    },
+    {
+      "auxiliary_loss_clip": 0.01187792,
+      "auxiliary_loss_mlp": 0.01379254,
+      "balance_loss_clip": 1.05407,
+      "balance_loss_mlp": 1.00008452,
+      "epoch": 0.4614922142728311,
+      "flos": 16836610798080.0,
+      "grad_norm": 2.0373739874654038,
+      "language_loss": 0.8877874,
+      "learning_rate": 2.3449094515179135e-06,
+      "loss": 0.91345787,
+      "num_input_tokens_seen": 82543935,
+      "step": 3838,
+      "time_per_iteration": 2.578526496887207
+    },
+    {
+      "auxiliary_loss_clip": 0.01209307,
+      "auxiliary_loss_mlp": 0.01030986,
+      "balance_loss_clip": 1.05221128,
+      "balance_loss_mlp": 1.02245688,
+      "epoch": 0.4616124571634702,
+      "flos": 26614906427520.0,
+      "grad_norm": 1.619435636345467,
+      "language_loss": 0.81813514,
+      "learning_rate": 2.34414212471407e-06,
+      "loss": 0.84053802,
+      "num_input_tokens_seen": 82563730,
+      "step": 3839,
+      "time_per_iteration": 3.6854357719421387
+    },
+    {
+      "auxiliary_loss_clip": 0.01203795,
+      "auxiliary_loss_mlp": 0.01036959,
+      "balance_loss_clip": 1.05477238,
+      "balance_loss_mlp": 1.0283103,
+      "epoch": 0.4617327000541093,
+      "flos": 20340127560960.0,
+      "grad_norm": 2.136610205994255,
+      "language_loss": 0.72927433,
+      "learning_rate": 2.3433747457041394e-06,
+      "loss": 0.75168192,
+      "num_input_tokens_seen": 82582435,
+      "step": 3840,
+      "time_per_iteration": 2.6587071418762207
+    },
+    {
+      "auxiliary_loss_clip": 0.01214633,
+      "auxiliary_loss_mlp": 0.01026101,
+      "balance_loss_clip": 1.05413342,
+      "balance_loss_mlp": 1.01725006,
+      "epoch": 0.4618529429447484,
+      "flos": 29570749545600.0,
+      "grad_norm": 1.6392162045846665,
+      "language_loss": 0.8509165,
+      "learning_rate": 2.342607314604533e-06,
+      "loss": 0.87332386,
+      "num_input_tokens_seen": 82602185,
+      "step": 3841,
+      "time_per_iteration": 2.764845609664917
+    },
+    {
+      "auxiliary_loss_clip": 0.01196554,
+      "auxiliary_loss_mlp": 0.01026264,
+      "balance_loss_clip": 1.05574441,
+      "balance_loss_mlp": 1.01743054,
+      "epoch": 0.4619731858353875,
+      "flos": 19787030962560.0,
+      "grad_norm": 1.650423562918002,
+      "language_loss": 0.84521586,
+      "learning_rate": 2.3418398315316694e-06,
+      "loss": 0.86744404,
+      "num_input_tokens_seen": 82620005,
+      "step": 3842,
+      "time_per_iteration": 2.6173105239868164
+    },
+    {
+      "auxiliary_loss_clip": 0.01188649,
+      "auxiliary_loss_mlp": 0.01037297,
+      "balance_loss_clip": 1.05715609,
+      "balance_loss_mlp": 1.0286665,
+      "epoch": 0.4620934287260266,
+      "flos": 18951138587520.0,
+      "grad_norm": 2.2932458434944114,
+      "language_loss": 0.78189003,
+      "learning_rate": 2.3410722966019755e-06,
+      "loss": 0.80414951,
+      "num_input_tokens_seen": 82635120,
+      "step": 3843,
+      "time_per_iteration": 2.5884244441986084
+    },
+    {
+      "auxiliary_loss_clip": 0.01197169,
+      "auxiliary_loss_mlp": 0.0102784,
+      "balance_loss_clip": 1.05589461,
+      "balance_loss_mlp": 1.01925063,
+      "epoch": 0.46221367161666566,
+      "flos": 37341674634240.0,
+      "grad_norm": 1.7311424386060705,
+      "language_loss": 0.65558147,
+      "learning_rate": 2.3403047099318848e-06,
+      "loss": 0.67783153,
+      "num_input_tokens_seen": 82659190,
+      "step": 3844,
+      "time_per_iteration": 2.8087539672851562
+    },
+    {
+      "auxiliary_loss_clip": 0.0121145,
+      "auxiliary_loss_mlp": 0.01028457,
+      "balance_loss_clip": 1.04494929,
+      "balance_loss_mlp": 1.02019596,
+      "epoch": 0.46233391450730477,
+      "flos": 14428549065600.0,
+      "grad_norm": 2.2512698434873166,
+      "language_loss": 0.74944097,
+      "learning_rate": 2.3395370716378405e-06,
+      "loss": 0.77184004,
+      "num_input_tokens_seen": 82676635,
+      "step": 3845,
+      "time_per_iteration": 2.7717528343200684
+    },
+    {
+      "auxiliary_loss_clip": 0.01198821,
+      "auxiliary_loss_mlp": 0.01026381,
+      "balance_loss_clip": 1.05296803,
+      "balance_loss_mlp": 1.01831329,
+      "epoch": 0.4624541573979438,
+      "flos": 22493044010880.0,
+      "grad_norm": 2.37328760231734,
+      "language_loss": 0.72544062,
+      "learning_rate": 2.338769381836292e-06,
+      "loss": 0.7476927,
+      "num_input_tokens_seen": 82696245,
+      "step": 3846,
+      "time_per_iteration": 2.7076408863067627
+    },
+    {
+      "auxiliary_loss_clip": 0.01215161,
+      "auxiliary_loss_mlp": 0.01031599,
+      "balance_loss_clip": 1.05566072,
+      "balance_loss_mlp": 1.02281356,
+      "epoch": 0.46257440028858293,
+      "flos": 14465070218880.0,
+      "grad_norm": 2.1408062697918404,
+      "language_loss": 0.73461711,
+      "learning_rate": 2.3380016406436984e-06,
+      "loss": 0.75708467,
+      "num_input_tokens_seen": 82713725,
+      "step": 3847,
+      "time_per_iteration": 2.7252984046936035
+    },
+    {
+      "auxiliary_loss_clip": 0.01223226,
+      "auxiliary_loss_mlp": 0.01030517,
+      "balance_loss_clip": 1.05391288,
+      "balance_loss_mlp": 1.02248812,
+      "epoch": 0.46269464317922204,
+      "flos": 23332204523520.0,
+      "grad_norm": 1.8012393179129886,
+      "language_loss": 0.81355751,
+      "learning_rate": 2.337233848176524e-06,
+      "loss": 0.83609492,
+      "num_input_tokens_seen": 82731495,
+      "step": 3848,
+      "time_per_iteration": 2.784196615219116
+    },
+    {
+      "auxiliary_loss_clip": 0.0120985,
+      "auxiliary_loss_mlp": 0.01028021,
+      "balance_loss_clip": 1.04446363,
+      "balance_loss_mlp": 1.0193603,
+      "epoch": 0.4628148860698611,
+      "flos": 18552027594240.0,
+      "grad_norm": 1.7885911188238142,
+      "language_loss": 0.8313669,
+      "learning_rate": 2.3364660045512435e-06,
+      "loss": 0.85374558,
+      "num_input_tokens_seen": 82750255,
+      "step": 3849,
+      "time_per_iteration": 2.855077028274536
+    },
+    {
+      "auxiliary_loss_clip": 0.01106981,
+      "auxiliary_loss_mlp": 0.01005329,
+      "balance_loss_clip": 1.02321875,
+      "balance_loss_mlp": 1.00405908,
+      "epoch": 0.4629351289605002,
+      "flos": 70667569670400.0,
+      "grad_norm": 0.7422436846305349,
+      "language_loss": 0.58204216,
+      "learning_rate": 2.335698109884337e-06,
+      "loss": 0.60316527,
+      "num_input_tokens_seen": 82815460,
+      "step": 3850,
+      "time_per_iteration": 3.4108567237854004
+    },
+    {
+      "auxiliary_loss_clip": 0.01130075,
+      "auxiliary_loss_mlp": 0.01000021,
+      "balance_loss_clip": 1.02294886,
+      "balance_loss_mlp": 0.99874514,
+      "epoch": 0.4630553718511393,
+      "flos": 59687200465920.0,
+      "grad_norm": 0.7871069341823179,
+      "language_loss": 0.59851515,
+      "learning_rate": 2.334930164292294e-06,
+      "loss": 0.61981606,
+      "num_input_tokens_seen": 82878010,
+      "step": 3851,
+      "time_per_iteration": 3.405941963195801
+    },
+    {
+      "auxiliary_loss_clip": 0.01210338,
+      "auxiliary_loss_mlp": 0.01027389,
+      "balance_loss_clip": 1.04566669,
+      "balance_loss_mlp": 1.01887178,
+      "epoch": 0.4631756147417784,
+      "flos": 15960605909760.0,
+      "grad_norm": 2.037474881007636,
+      "language_loss": 0.80312377,
+      "learning_rate": 2.334162167891612e-06,
+      "loss": 0.82550108,
+      "num_input_tokens_seen": 82895275,
+      "step": 3852,
+      "time_per_iteration": 2.703423261642456
+    },
+    {
+      "auxiliary_loss_clip": 0.01206523,
+      "auxiliary_loss_mlp": 0.0103122,
+      "balance_loss_clip": 1.05260038,
+      "balance_loss_mlp": 1.02258921,
+      "epoch": 0.4632958576324175,
+      "flos": 16472907636480.0,
+      "grad_norm": 1.988792736125431,
+      "language_loss": 0.7469039,
+      "learning_rate": 2.333394120798795e-06,
+      "loss": 0.76928139,
+      "num_input_tokens_seen": 82914010,
+      "step": 3853,
+      "time_per_iteration": 2.6949682235717773
+    },
+    {
+      "auxiliary_loss_clip": 0.01204232,
+      "auxiliary_loss_mlp": 0.01031271,
+      "balance_loss_clip": 1.0512197,
+      "balance_loss_mlp": 1.02321231,
+      "epoch": 0.4634161005230566,
+      "flos": 22346492520960.0,
+      "grad_norm": 3.6492523445826617,
+      "language_loss": 0.71749508,
+      "learning_rate": 2.3326260231303545e-06,
+      "loss": 0.73985016,
+      "num_input_tokens_seen": 82932610,
+      "step": 3854,
+      "time_per_iteration": 2.6930580139160156
+    },
+    {
+      "auxiliary_loss_clip": 0.01185738,
+      "auxiliary_loss_mlp": 0.01025602,
+      "balance_loss_clip": 1.05595303,
+      "balance_loss_mlp": 1.01741219,
+      "epoch": 0.46353634341369565,
+      "flos": 15742233175680.0,
+      "grad_norm": 1.6496207144703618,
+      "language_loss": 0.8662914,
+      "learning_rate": 2.331857875002811e-06,
+      "loss": 0.88840473,
+      "num_input_tokens_seen": 82951210,
+      "step": 3855,
+      "time_per_iteration": 2.687845230102539
+    },
+    {
+      "auxiliary_loss_clip": 0.01206824,
+      "auxiliary_loss_mlp": 0.01029652,
+      "balance_loss_clip": 1.05616701,
+      "balance_loss_mlp": 1.02152801,
+      "epoch": 0.46365658630433476,
+      "flos": 28329820433280.0,
+      "grad_norm": 2.537519016800457,
+      "language_loss": 0.76168555,
+      "learning_rate": 2.3310896765326916e-06,
+      "loss": 0.78405029,
+      "num_input_tokens_seen": 82972210,
+      "step": 3856,
+      "time_per_iteration": 2.7167418003082275
+    },
+    {
+      "auxiliary_loss_clip": 0.01210943,
+      "auxiliary_loss_mlp": 0.01029675,
+      "balance_loss_clip": 1.05332983,
+      "balance_loss_mlp": 1.02044201,
+      "epoch": 0.46377682919497387,
+      "flos": 24608074590720.0,
+      "grad_norm": 1.661985004604568,
+      "language_loss": 0.83952665,
+      "learning_rate": 2.330321427836531e-06,
+      "loss": 0.86193275,
+      "num_input_tokens_seen": 82994080,
+      "step": 3857,
+      "time_per_iteration": 2.7596828937530518
+    },
+    {
+      "auxiliary_loss_clip": 0.01192238,
+      "auxiliary_loss_mlp": 0.01029131,
+      "balance_loss_clip": 1.05402875,
+      "balance_loss_mlp": 1.02101326,
+      "epoch": 0.4638970720856129,
+      "flos": 19060953442560.0,
+      "grad_norm": 2.413561210382297,
+      "language_loss": 0.82777071,
+      "learning_rate": 2.3295531290308733e-06,
+      "loss": 0.84998441,
+      "num_input_tokens_seen": 83012230,
+      "step": 3858,
+      "time_per_iteration": 3.643411636352539
+    },
+    {
+      "auxiliary_loss_clip": 0.01192357,
+      "auxiliary_loss_mlp": 0.01379634,
+      "balance_loss_clip": 1.05858552,
+      "balance_loss_mlp": 1.00010991,
+      "epoch": 0.46401731497625204,
+      "flos": 18471012468480.0,
+      "grad_norm": 3.219460863983722,
+      "language_loss": 0.75325912,
+      "learning_rate": 2.3287847802322678e-06,
+      "loss": 0.77897906,
+      "num_input_tokens_seen": 83027800,
+      "step": 3859,
+      "time_per_iteration": 3.444770097732544
+    },
+    {
+      "auxiliary_loss_clip": 0.01212929,
+      "auxiliary_loss_mlp": 0.01032192,
+      "balance_loss_clip": 1.05586481,
+      "balance_loss_mlp": 1.02283978,
+      "epoch": 0.4641375578668911,
+      "flos": 26067053214720.0,
+      "grad_norm": 1.8210293954317347,
+      "language_loss": 0.84289694,
+      "learning_rate": 2.3280163815572723e-06,
+      "loss": 0.8653481,
+      "num_input_tokens_seen": 83048395,
+      "step": 3860,
+      "time_per_iteration": 3.615009307861328
+    },
+    {
+      "auxiliary_loss_clip": 0.01192618,
+      "auxiliary_loss_mlp": 0.01025476,
+      "balance_loss_clip": 1.04976547,
+      "balance_loss_mlp": 1.01740599,
+      "epoch": 0.4642578007575302,
+      "flos": 19570382081280.0,
+      "grad_norm": 1.957858283141778,
+      "language_loss": 0.76768327,
+      "learning_rate": 2.3272479331224522e-06,
+      "loss": 0.78986418,
+      "num_input_tokens_seen": 83065825,
+      "step": 3861,
+      "time_per_iteration": 2.676604986190796
+    },
+    {
+      "auxiliary_loss_clip": 0.0119021,
+      "auxiliary_loss_mlp": 0.01033188,
+      "balance_loss_clip": 1.05600059,
+      "balance_loss_mlp": 1.0246166,
+      "epoch": 0.4643780436481693,
+      "flos": 28186249772160.0,
+      "grad_norm": 1.6415136497704446,
+      "language_loss": 0.7858398,
+      "learning_rate": 2.3264794350443817e-06,
+      "loss": 0.80807376,
+      "num_input_tokens_seen": 83087920,
+      "step": 3862,
+      "time_per_iteration": 2.640301465988159
+    },
+    {
+      "auxiliary_loss_clip": 0.0119686,
+      "auxiliary_loss_mlp": 0.01032097,
+      "balance_loss_clip": 1.05223298,
+      "balance_loss_mlp": 1.02361488,
+      "epoch": 0.46449828653880837,
+      "flos": 25375270204800.0,
+      "grad_norm": 1.873209927043117,
+      "language_loss": 0.78220332,
+      "learning_rate": 2.3257108874396396e-06,
+      "loss": 0.80449295,
+      "num_input_tokens_seen": 83109015,
+      "step": 3863,
+      "time_per_iteration": 2.7010011672973633
+    },
+    {
+      "auxiliary_loss_clip": 0.01204437,
+      "auxiliary_loss_mlp": 0.01031226,
+      "balance_loss_clip": 1.05108833,
+      "balance_loss_mlp": 1.02158237,
+      "epoch": 0.4646185294294475,
+      "flos": 16034330574720.0,
+      "grad_norm": 1.952236115782581,
+      "language_loss": 0.73637831,
+      "learning_rate": 2.3249422904248152e-06,
+      "loss": 0.75873494,
+      "num_input_tokens_seen": 83127450,
+      "step": 3864,
+      "time_per_iteration": 2.6262400150299072
+    },
+    {
+      "auxiliary_loss_clip": 0.01199628,
+      "auxiliary_loss_mlp": 0.010254,
+      "balance_loss_clip": 1.05386269,
+      "balance_loss_mlp": 1.01697147,
+      "epoch": 0.4647387723200866,
+      "flos": 26363101109760.0,
+      "grad_norm": 1.3156252043234875,
+      "language_loss": 0.87188363,
+      "learning_rate": 2.324173644116504e-06,
+      "loss": 0.89413387,
+      "num_input_tokens_seen": 83150300,
+      "step": 3865,
+      "time_per_iteration": 3.6132705211639404
+    },
+    {
+      "auxiliary_loss_clip": 0.01191056,
+      "auxiliary_loss_mlp": 0.01025275,
+      "balance_loss_clip": 1.0541271,
+      "balance_loss_mlp": 1.01695991,
+      "epoch": 0.46485901521072565,
+      "flos": 27160209774720.0,
+      "grad_norm": 1.8544908197236625,
+      "language_loss": 0.81385756,
+      "learning_rate": 2.3234049486313087e-06,
+      "loss": 0.83602083,
+      "num_input_tokens_seen": 83171750,
+      "step": 3866,
+      "time_per_iteration": 2.715825319290161
+    },
+    {
+      "auxiliary_loss_clip": 0.01196554,
+      "auxiliary_loss_mlp": 0.01029842,
+      "balance_loss_clip": 1.05461276,
+      "balance_loss_mlp": 1.02204013,
+      "epoch": 0.46497925810136476,
+      "flos": 24279851088000.0,
+      "grad_norm": 1.913340100302243,
+      "language_loss": 0.75949603,
+      "learning_rate": 2.322636204085839e-06,
+      "loss": 0.78175998,
+      "num_input_tokens_seen": 83191820,
+      "step": 3867,
+      "time_per_iteration": 2.632784128189087
+    },
+    {
+      "auxiliary_loss_clip": 0.01192533,
+      "auxiliary_loss_mlp": 0.01026854,
+      "balance_loss_clip": 1.04875553,
+      "balance_loss_mlp": 1.01871836,
+      "epoch": 0.46509950099200387,
+      "flos": 16253134272000.0,
+      "grad_norm": 2.2726860440799856,
+      "language_loss": 0.79042864,
+      "learning_rate": 2.3218674105967143e-06,
+      "loss": 0.81262255,
+      "num_input_tokens_seen": 83210085,
+      "step": 3868,
+      "time_per_iteration": 2.686399459838867
+    },
+    {
+      "auxiliary_loss_clip": 0.01197736,
+      "auxiliary_loss_mlp": 0.01035127,
+      "balance_loss_clip": 1.050717,
+      "balance_loss_mlp": 1.02705622,
+      "epoch": 0.4652197438826429,
+      "flos": 23442270773760.0,
+      "grad_norm": 1.650242350982332,
+      "language_loss": 0.83778697,
+      "learning_rate": 2.3210985682805593e-06,
+      "loss": 0.86011565,
+      "num_input_tokens_seen": 83231865,
+      "step": 3869,
+      "time_per_iteration": 2.7161362171173096
+    },
+    {
+      "auxiliary_loss_clip": 0.0119252,
+      "auxiliary_loss_mlp": 0.01027672,
+      "balance_loss_clip": 1.0600605,
+      "balance_loss_mlp": 1.01899409,
+      "epoch": 0.46533998677328203,
+      "flos": 16216397637120.0,
+      "grad_norm": 2.479718097381875,
+      "language_loss": 0.68393064,
+      "learning_rate": 2.320329677254007e-06,
+      "loss": 0.70613253,
+      "num_input_tokens_seen": 83249195,
+      "step": 3870,
+      "time_per_iteration": 2.5672481060028076
+    },
+    {
+      "auxiliary_loss_clip": 0.0118993,
+      "auxiliary_loss_mlp": 0.01028929,
+      "balance_loss_clip": 1.05841458,
+      "balance_loss_mlp": 1.02048326,
+      "epoch": 0.46546022966392114,
+      "flos": 21141869080320.0,
+      "grad_norm": 2.258350547360003,
+      "language_loss": 0.72385955,
+      "learning_rate": 2.319560737633697e-06,
+      "loss": 0.74604809,
+      "num_input_tokens_seen": 83267915,
+      "step": 3871,
+      "time_per_iteration": 2.607752799987793
+    },
+    {
+      "auxiliary_loss_clip": 0.01218619,
+      "auxiliary_loss_mlp": 0.01034497,
+      "balance_loss_clip": 1.04853952,
+      "balance_loss_mlp": 1.02565193,
+      "epoch": 0.4655804725545602,
+      "flos": 41171942442240.0,
+      "grad_norm": 1.5240921999002763,
+      "language_loss": 0.68046445,
+      "learning_rate": 2.3187917495362775e-06,
+      "loss": 0.70299566,
+      "num_input_tokens_seen": 83292325,
+      "step": 3872,
+      "time_per_iteration": 2.8714752197265625
+    },
+    {
+      "auxiliary_loss_clip": 0.01219882,
+      "auxiliary_loss_mlp": 0.01031438,
+      "balance_loss_clip": 1.05035734,
+      "balance_loss_mlp": 1.02258658,
+      "epoch": 0.4657007154451993,
+      "flos": 19570956698880.0,
+      "grad_norm": 2.2746585289921852,
+      "language_loss": 0.76358318,
+      "learning_rate": 2.318022713078403e-06,
+      "loss": 0.78609633,
+      "num_input_tokens_seen": 83306905,
+      "step": 3873,
+      "time_per_iteration": 2.7562286853790283
+    },
+    {
+      "auxiliary_loss_clip": 0.012038,
+      "auxiliary_loss_mlp": 0.01025685,
+      "balance_loss_clip": 1.05217481,
+      "balance_loss_mlp": 1.01711369,
+      "epoch": 0.4658209583358384,
+      "flos": 15517826956800.0,
+      "grad_norm": 2.2035175075308593,
+      "language_loss": 0.85428607,
+      "learning_rate": 2.3172536283767354e-06,
+      "loss": 0.87658095,
+      "num_input_tokens_seen": 83320665,
+      "step": 3874,
+      "time_per_iteration": 2.641903877258301
+    },
+    {
+      "auxiliary_loss_clip": 0.0120843,
+      "auxiliary_loss_mlp": 0.01034323,
+      "balance_loss_clip": 1.05101013,
+      "balance_loss_mlp": 1.02553177,
+      "epoch": 0.4659412012264775,
+      "flos": 14903180403840.0,
+      "grad_norm": 2.424904418583078,
+      "language_loss": 0.80677587,
+      "learning_rate": 2.3164844955479447e-06,
+      "loss": 0.82920343,
+      "num_input_tokens_seen": 83336475,
+      "step": 3875,
+      "time_per_iteration": 2.721898317337036
+    },
+    {
+      "auxiliary_loss_clip": 0.01233103,
+      "auxiliary_loss_mlp": 0.0102525,
+      "balance_loss_clip": 1.05141878,
+      "balance_loss_mlp": 1.01696467,
+      "epoch": 0.4660614441171166,
+      "flos": 24425612478720.0,
+      "grad_norm": 1.6600168482051587,
+      "language_loss": 0.70718282,
+      "learning_rate": 2.3157153147087082e-06,
+      "loss": 0.72976637,
+      "num_input_tokens_seen": 83358365,
+      "step": 3876,
+      "time_per_iteration": 2.805201768875122
+    },
+    {
+      "auxiliary_loss_clip": 0.01232649,
+      "auxiliary_loss_mlp": 0.01032016,
+      "balance_loss_clip": 1.05344319,
+      "balance_loss_mlp": 1.02376103,
+      "epoch": 0.46618168700775564,
+      "flos": 22091095843200.0,
+      "grad_norm": 1.6504707602212925,
+      "language_loss": 0.83026302,
+      "learning_rate": 2.314946085975709e-06,
+      "loss": 0.85290968,
+      "num_input_tokens_seen": 83377345,
+      "step": 3877,
+      "time_per_iteration": 2.754513740539551
+    },
+    {
+      "auxiliary_loss_clip": 0.01199435,
+      "auxiliary_loss_mlp": 0.01031719,
+      "balance_loss_clip": 1.04850364,
+      "balance_loss_mlp": 1.0236541,
+      "epoch": 0.46630192989839475,
+      "flos": 26176975810560.0,
+      "grad_norm": 1.686686997944895,
+      "language_loss": 0.82398742,
+      "learning_rate": 2.3141768094656393e-06,
+      "loss": 0.84629899,
+      "num_input_tokens_seen": 83395920,
+      "step": 3878,
+      "time_per_iteration": 2.7721269130706787
+    },
+    {
+      "auxiliary_loss_clip": 0.0124081,
+      "auxiliary_loss_mlp": 0.01026583,
+      "balance_loss_clip": 1.04201674,
+      "balance_loss_mlp": 1.01850367,
+      "epoch": 0.46642217278903386,
+      "flos": 11509622150400.0,
+      "grad_norm": 2.7657299866902143,
+      "language_loss": 0.8349458,
+      "learning_rate": 2.3134074852951966e-06,
+      "loss": 0.85761964,
+      "num_input_tokens_seen": 83412510,
+      "step": 3879,
+      "time_per_iteration": 2.839672565460205
+    },
+    {
+      "auxiliary_loss_clip": 0.01214446,
+      "auxiliary_loss_mlp": 0.01030645,
+      "balance_loss_clip": 1.04757428,
+      "balance_loss_mlp": 1.02275968,
+      "epoch": 0.4665424156796729,
+      "flos": 32306819299200.0,
+      "grad_norm": 2.7876294247546136,
+      "language_loss": 0.77861416,
+      "learning_rate": 2.312638113581088e-06,
+      "loss": 0.80106509,
+      "num_input_tokens_seen": 83432995,
+      "step": 3880,
+      "time_per_iteration": 3.042231559753418
+    },
+    {
+      "auxiliary_loss_clip": 0.01192431,
+      "auxiliary_loss_mlp": 0.01027231,
+      "balance_loss_clip": 1.04999781,
+      "balance_loss_mlp": 1.01902914,
+      "epoch": 0.46666265857031203,
+      "flos": 18436179254400.0,
+      "grad_norm": 2.7838657136011107,
+      "language_loss": 0.78413439,
+      "learning_rate": 2.311868694440027e-06,
+      "loss": 0.80633104,
+      "num_input_tokens_seen": 83447415,
+      "step": 3881,
+      "time_per_iteration": 2.6308724880218506
+    },
+    {
+      "auxiliary_loss_clip": 0.01078859,
+      "auxiliary_loss_mlp": 0.01002113,
+      "balance_loss_clip": 1.018296,
+      "balance_loss_mlp": 1.00060487,
+      "epoch": 0.46678290146095114,
+      "flos": 68438989221120.0,
+      "grad_norm": 0.7367841281012419,
+      "language_loss": 0.62473893,
+      "learning_rate": 2.3110992279887323e-06,
+      "loss": 0.64554858,
+      "num_input_tokens_seen": 83519340,
+      "step": 3882,
+      "time_per_iteration": 3.2969276905059814
+    },
+    {
+      "auxiliary_loss_clip": 0.0122251,
+      "auxiliary_loss_mlp": 0.01032836,
+      "balance_loss_clip": 1.05554044,
+      "balance_loss_mlp": 1.02348948,
+      "epoch": 0.4669031443515902,
+      "flos": 17712507945600.0,
+      "grad_norm": 2.3613630498771494,
+      "language_loss": 0.84966701,
+      "learning_rate": 2.310329714343932e-06,
+      "loss": 0.87222046,
+      "num_input_tokens_seen": 83535490,
+      "step": 3883,
+      "time_per_iteration": 3.58286452293396
+    },
+    {
+      "auxiliary_loss_clip": 0.0119638,
+      "auxiliary_loss_mlp": 0.01029941,
+      "balance_loss_clip": 1.05121398,
+      "balance_loss_mlp": 1.02131605,
+      "epoch": 0.4670233872422293,
+      "flos": 23947748916480.0,
+      "grad_norm": 2.0148838621526814,
+      "language_loss": 0.81897938,
+      "learning_rate": 2.309560153622361e-06,
+      "loss": 0.84124261,
+      "num_input_tokens_seen": 83552400,
+      "step": 3884,
+      "time_per_iteration": 2.7029848098754883
+    },
+    {
+      "auxiliary_loss_clip": 0.01211607,
+      "auxiliary_loss_mlp": 0.01030503,
+      "balance_loss_clip": 1.05113316,
+      "balance_loss_mlp": 1.02174747,
+      "epoch": 0.4671436301328684,
+      "flos": 28111268131200.0,
+      "grad_norm": 1.9478365042252956,
+      "language_loss": 0.74582541,
+      "learning_rate": 2.3087905459407602e-06,
+      "loss": 0.76824647,
+      "num_input_tokens_seen": 83571340,
+      "step": 3885,
+      "time_per_iteration": 2.735626459121704
+    },
+    {
+      "auxiliary_loss_clip": 0.01092038,
+      "auxiliary_loss_mlp": 0.01000771,
+      "balance_loss_clip": 1.01761067,
+      "balance_loss_mlp": 0.99953097,
+      "epoch": 0.46726387302350747,
+      "flos": 69369684566400.0,
+      "grad_norm": 0.8002896852850424,
+      "language_loss": 0.62964064,
+      "learning_rate": 2.3080208914158795e-06,
+      "loss": 0.65056872,
+      "num_input_tokens_seen": 83634340,
+      "step": 3886,
+      "time_per_iteration": 4.1714842319488525
+    },
+    {
+      "auxiliary_loss_clip": 0.0120282,
+      "auxiliary_loss_mlp": 0.01031753,
+      "balance_loss_clip": 1.05505919,
+      "balance_loss_mlp": 1.02355182,
+      "epoch": 0.4673841159141466,
+      "flos": 25519666878720.0,
+      "grad_norm": 3.3420123724741786,
+      "language_loss": 0.72094274,
+      "learning_rate": 2.3072511901644753e-06,
+      "loss": 0.7432884,
+      "num_input_tokens_seen": 83653410,
+      "step": 3887,
+      "time_per_iteration": 2.6971869468688965
+    },
+    {
+      "auxiliary_loss_clip": 0.01184462,
+      "auxiliary_loss_mlp": 0.01030369,
+      "balance_loss_clip": 1.05551314,
+      "balance_loss_mlp": 1.02234018,
+      "epoch": 0.4675043588047857,
+      "flos": 24499265316480.0,
+      "grad_norm": 2.4744526552245447,
+      "language_loss": 0.81009763,
+      "learning_rate": 2.306481442303309e-06,
+      "loss": 0.83224595,
+      "num_input_tokens_seen": 83672985,
+      "step": 3888,
+      "time_per_iteration": 2.738474130630493
+    },
+    {
+      "auxiliary_loss_clip": 0.01196826,
+      "auxiliary_loss_mlp": 0.01028908,
+      "balance_loss_clip": 1.05247736,
+      "balance_loss_mlp": 1.01978827,
+      "epoch": 0.46762460169542475,
+      "flos": 20960771685120.0,
+      "grad_norm": 1.8174146756870837,
+      "language_loss": 0.7320261,
+      "learning_rate": 2.3057116479491515e-06,
+      "loss": 0.75428343,
+      "num_input_tokens_seen": 83692395,
+      "step": 3889,
+      "time_per_iteration": 2.6743357181549072
+    },
+    {
+      "auxiliary_loss_clip": 0.01187909,
+      "auxiliary_loss_mlp": 0.01028192,
+      "balance_loss_clip": 1.04952931,
+      "balance_loss_mlp": 1.01972198,
+      "epoch": 0.46774484458606386,
+      "flos": 19171666137600.0,
+      "grad_norm": 1.9554944127246285,
+      "language_loss": 0.76057088,
+      "learning_rate": 2.30494180721878e-06,
+      "loss": 0.78273195,
+      "num_input_tokens_seen": 83709735,
+      "step": 3890,
+      "time_per_iteration": 2.627511978149414
+    },
+    {
+      "auxiliary_loss_clip": 0.01195143,
+      "auxiliary_loss_mlp": 0.01034608,
+      "balance_loss_clip": 1.05468702,
+      "balance_loss_mlp": 1.02626324,
+      "epoch": 0.4678650874767029,
+      "flos": 17967689141760.0,
+      "grad_norm": 1.9567350276830058,
+      "language_loss": 0.89745212,
+      "learning_rate": 2.3041719202289794e-06,
+      "loss": 0.91974956,
+      "num_input_tokens_seen": 83725910,
+      "step": 3891,
+      "time_per_iteration": 3.5575923919677734
+    },
+    {
+      "auxiliary_loss_clip": 0.01197099,
+      "auxiliary_loss_mlp": 0.01024193,
+      "balance_loss_clip": 1.05423009,
+      "balance_loss_mlp": 1.01665866,
+      "epoch": 0.467985330367342,
+      "flos": 21360816432000.0,
+      "grad_norm": 2.7181778350544294,
+      "language_loss": 0.80440545,
+      "learning_rate": 2.30340198709654e-06,
+      "loss": 0.82661843,
+      "num_input_tokens_seen": 83745745,
+      "step": 3892,
+      "time_per_iteration": 2.6282036304473877
+    },
+    {
+      "auxiliary_loss_clip": 0.01204601,
+      "auxiliary_loss_mlp": 0.01034025,
+      "balance_loss_clip": 1.04897833,
+      "balance_loss_mlp": 1.02499461,
+      "epoch": 0.46810557325798113,
+      "flos": 20521835487360.0,
+      "grad_norm": 2.3229393694797373,
+      "language_loss": 0.74217224,
+      "learning_rate": 2.3026320079382605e-06,
+      "loss": 0.76455843,
+      "num_input_tokens_seen": 83762680,
+      "step": 3893,
+      "time_per_iteration": 2.63836932182312
+    },
+    {
+      "auxiliary_loss_clip": 0.01186989,
+      "auxiliary_loss_mlp": 0.010297,
+      "balance_loss_clip": 1.05694556,
+      "balance_loss_mlp": 1.02107525,
+      "epoch": 0.4682258161486202,
+      "flos": 30117848572800.0,
+      "grad_norm": 2.9684329508910077,
+      "language_loss": 0.76326621,
+      "learning_rate": 2.3018619828709454e-06,
+      "loss": 0.78543317,
+      "num_input_tokens_seen": 83784220,
+      "step": 3894,
+      "time_per_iteration": 2.6700332164764404
+    },
+    {
+      "auxiliary_loss_clip": 0.01193277,
+      "auxiliary_loss_mlp": 0.01379418,
+      "balance_loss_clip": 1.05578542,
+      "balance_loss_mlp": 1.00011218,
+      "epoch": 0.4683460590392593,
+      "flos": 25293357239040.0,
+      "grad_norm": 2.0248760817431997,
+      "language_loss": 0.82078266,
+      "learning_rate": 2.3010919120114084e-06,
+      "loss": 0.84650964,
+      "num_input_tokens_seen": 83800750,
+      "step": 3895,
+      "time_per_iteration": 2.673952341079712
+    },
+    {
+      "auxiliary_loss_clip": 0.01189227,
+      "auxiliary_loss_mlp": 0.01026612,
+      "balance_loss_clip": 1.04963136,
+      "balance_loss_mlp": 1.01787353,
+      "epoch": 0.4684663019298984,
+      "flos": 15368330551680.0,
+      "grad_norm": 2.222493110568683,
+      "language_loss": 0.65890878,
+      "learning_rate": 2.3003217954764672e-06,
+      "loss": 0.68106723,
+      "num_input_tokens_seen": 83815455,
+      "step": 3896,
+      "time_per_iteration": 2.56559157371521
+    },
+    {
+      "auxiliary_loss_clip": 0.01196354,
+      "auxiliary_loss_mlp": 0.01033143,
+      "balance_loss_clip": 1.05093062,
+      "balance_loss_mlp": 1.0244348,
+      "epoch": 0.46858654482053747,
+      "flos": 27778842737280.0,
+      "grad_norm": 1.5787980358556089,
+      "language_loss": 0.79531878,
+      "learning_rate": 2.299551633382949e-06,
+      "loss": 0.81761378,
+      "num_input_tokens_seen": 83835765,
+      "step": 3897,
+      "time_per_iteration": 2.688716411590576
+    },
+    {
+      "auxiliary_loss_clip": 0.01195947,
+      "auxiliary_loss_mlp": 0.01032199,
+      "balance_loss_clip": 1.0507468,
+      "balance_loss_mlp": 1.02366972,
+      "epoch": 0.4687067877111766,
+      "flos": 18040623707520.0,
+      "grad_norm": 1.8080187699570842,
+      "language_loss": 0.85596347,
+      "learning_rate": 2.2987814258476854e-06,
+      "loss": 0.87824494,
+      "num_input_tokens_seen": 83853565,
+      "step": 3898,
+      "time_per_iteration": 2.642289638519287
+    },
+    {
+      "auxiliary_loss_clip": 0.01224941,
+      "auxiliary_loss_mlp": 0.01028781,
+      "balance_loss_clip": 1.0479424,
+      "balance_loss_mlp": 1.01948309,
+      "epoch": 0.4688270306018157,
+      "flos": 16977380198400.0,
+      "grad_norm": 2.7389954436222252,
+      "language_loss": 0.68030602,
+      "learning_rate": 2.2980111729875177e-06,
+      "loss": 0.70284325,
+      "num_input_tokens_seen": 83869815,
+      "step": 3899,
+      "time_per_iteration": 2.753114700317383
+    },
+    {
+      "auxiliary_loss_clip": 0.01199938,
+      "auxiliary_loss_mlp": 0.01027281,
+      "balance_loss_clip": 1.05335999,
+      "balance_loss_mlp": 1.01866221,
+      "epoch": 0.46894727349245474,
+      "flos": 17821640442240.0,
+      "grad_norm": 1.6215063314109939,
+      "language_loss": 0.82114351,
+      "learning_rate": 2.2972408749192917e-06,
+      "loss": 0.84341568,
+      "num_input_tokens_seen": 83887545,
+      "step": 3900,
+      "time_per_iteration": 2.661888360977173
+    },
+    {
+      "auxiliary_loss_clip": 0.01193093,
+      "auxiliary_loss_mlp": 0.01378633,
+      "balance_loss_clip": 1.0545342,
+      "balance_loss_mlp": 1.00004911,
+      "epoch": 0.46906751638309385,
+      "flos": 21471349559040.0,
+      "grad_norm": 2.0658124853859094,
+      "language_loss": 0.6672653,
+      "learning_rate": 2.296470531759861e-06,
+      "loss": 0.69298255,
+      "num_input_tokens_seen": 83905645,
+      "step": 3901,
+      "time_per_iteration": 2.648991346359253
+    },
+    {
+      "auxiliary_loss_clip": 0.01206855,
+      "auxiliary_loss_mlp": 0.01027047,
+      "balance_loss_clip": 1.04923415,
+      "balance_loss_mlp": 1.01846409,
+      "epoch": 0.46918775927373296,
+      "flos": 20337829090560.0,
+      "grad_norm": 1.8681039579106036,
+      "language_loss": 0.79540616,
+      "learning_rate": 2.2957001436260866e-06,
+      "loss": 0.81774521,
+      "num_input_tokens_seen": 83922705,
+      "step": 3902,
+      "time_per_iteration": 2.748497247695923
+    },
+    {
+      "auxiliary_loss_clip": 0.01201326,
+      "auxiliary_loss_mlp": 0.01034668,
+      "balance_loss_clip": 1.05287075,
+      "balance_loss_mlp": 1.0254885,
+      "epoch": 0.469308002164372,
+      "flos": 18403249461120.0,
+      "grad_norm": 1.6150049430088373,
+      "language_loss": 0.73243904,
+      "learning_rate": 2.294929710634836e-06,
+      "loss": 0.75479901,
+      "num_input_tokens_seen": 83940795,
+      "step": 3903,
+      "time_per_iteration": 2.6758100986480713
+    },
+    {
+      "auxiliary_loss_clip": 0.01195306,
+      "auxiliary_loss_mlp": 0.01032511,
+      "balance_loss_clip": 1.05329978,
+      "balance_loss_mlp": 1.0233916,
+      "epoch": 0.46942824505501113,
+      "flos": 37962067363200.0,
+      "grad_norm": 1.7256028503486858,
+      "language_loss": 0.61001438,
+      "learning_rate": 2.2941592329029823e-06,
+      "loss": 0.63229251,
+      "num_input_tokens_seen": 83961900,
+      "step": 3904,
+      "time_per_iteration": 2.828697443008423
+    },
+    {
+      "auxiliary_loss_clip": 0.01188738,
+      "auxiliary_loss_mlp": 0.01030689,
+      "balance_loss_clip": 1.05140996,
+      "balance_loss_mlp": 1.02202868,
+      "epoch": 0.46954848794565024,
+      "flos": 21872507627520.0,
+      "grad_norm": 1.8365856137082337,
+      "language_loss": 0.78901517,
+      "learning_rate": 2.2933887105474067e-06,
+      "loss": 0.8112095,
+      "num_input_tokens_seen": 83980075,
+      "step": 3905,
+      "time_per_iteration": 2.655167818069458
+    },
+    {
+      "auxiliary_loss_clip": 0.01194973,
+      "auxiliary_loss_mlp": 0.01027491,
+      "balance_loss_clip": 1.05556285,
+      "balance_loss_mlp": 1.01949763,
+      "epoch": 0.4696687308362893,
+      "flos": 22016545165440.0,
+      "grad_norm": 1.8149596337414597,
+      "language_loss": 0.81613433,
+      "learning_rate": 2.2926181436849974e-06,
+      "loss": 0.838359,
+      "num_input_tokens_seen": 83999430,
+      "step": 3906,
+      "time_per_iteration": 2.6683034896850586
+    },
+    {
+      "auxiliary_loss_clip": 0.01192426,
+      "auxiliary_loss_mlp": 0.01031861,
+      "balance_loss_clip": 1.05221152,
+      "balance_loss_mlp": 1.0235287,
+      "epoch": 0.4697889737269284,
+      "flos": 21613663244160.0,
+      "grad_norm": 2.0690005810388774,
+      "language_loss": 0.73019606,
+      "learning_rate": 2.2918475324326478e-06,
+      "loss": 0.7524389,
+      "num_input_tokens_seen": 84019150,
+      "step": 3907,
+      "time_per_iteration": 2.6147570610046387
+    },
+    {
+      "auxiliary_loss_clip": 0.01199834,
+      "auxiliary_loss_mlp": 0.01379519,
+      "balance_loss_clip": 1.05606616,
+      "balance_loss_mlp": 1.00015199,
+      "epoch": 0.46990921661756746,
+      "flos": 25228323665280.0,
+      "grad_norm": 3.827046717276994,
+      "language_loss": 0.91763622,
+      "learning_rate": 2.2910768769072603e-06,
+      "loss": 0.94342971,
+      "num_input_tokens_seen": 84037930,
+      "step": 3908,
+      "time_per_iteration": 2.681093215942383
+    },
+    {
+      "auxiliary_loss_clip": 0.01186821,
+      "auxiliary_loss_mlp": 0.01030042,
+      "balance_loss_clip": 1.05156362,
+      "balance_loss_mlp": 1.02209675,
+      "epoch": 0.47002945950820657,
+      "flos": 13844031045120.0,
+      "grad_norm": 2.7611236851994723,
+      "language_loss": 0.75992364,
+      "learning_rate": 2.2903061772257417e-06,
+      "loss": 0.78209227,
+      "num_input_tokens_seen": 84055915,
+      "step": 3909,
+      "time_per_iteration": 3.5736706256866455
+    },
+    {
+      "auxiliary_loss_clip": 0.01196487,
+      "auxiliary_loss_mlp": 0.01029092,
+      "balance_loss_clip": 1.05531693,
+      "balance_loss_mlp": 1.02047348,
+      "epoch": 0.4701497023988457,
+      "flos": 26247001374720.0,
+      "grad_norm": 1.521474711261687,
+      "language_loss": 0.78736842,
+      "learning_rate": 2.289535433505007e-06,
+      "loss": 0.8096242,
+      "num_input_tokens_seen": 84077270,
+      "step": 3910,
+      "time_per_iteration": 2.723522424697876
+    },
+    {
+      "auxiliary_loss_clip": 0.01204116,
+      "auxiliary_loss_mlp": 0.01028274,
+      "balance_loss_clip": 1.05076659,
+      "balance_loss_mlp": 1.01995301,
+      "epoch": 0.47026994528948474,
+      "flos": 25629517647360.0,
+      "grad_norm": 1.833575960212562,
+      "language_loss": 0.63910389,
+      "learning_rate": 2.2887646458619767e-06,
+      "loss": 0.66142786,
+      "num_input_tokens_seen": 84098635,
+      "step": 3911,
+      "time_per_iteration": 2.749619483947754
+    },
+    {
+      "auxiliary_loss_clip": 0.01217858,
+      "auxiliary_loss_mlp": 0.01025985,
+      "balance_loss_clip": 1.0515784,
+      "balance_loss_mlp": 1.01752162,
+      "epoch": 0.47039018818012385,
+      "flos": 20554406144640.0,
+      "grad_norm": 1.7744084436135954,
+      "language_loss": 0.76501215,
+      "learning_rate": 2.2879938144135797e-06,
+      "loss": 0.78745061,
+      "num_input_tokens_seen": 84114740,
+      "step": 3912,
+      "time_per_iteration": 4.403128147125244
+    },
+    {
+      "auxiliary_loss_clip": 0.01206772,
+      "auxiliary_loss_mlp": 0.01378859,
+      "balance_loss_clip": 1.04741514,
+      "balance_loss_mlp": 1.00012469,
+      "epoch": 0.47051043107076296,
+      "flos": 21577249831680.0,
+      "grad_norm": 1.5063906745978428,
+      "language_loss": 0.75234365,
+      "learning_rate": 2.2872229392767496e-06,
+      "loss": 0.77819991,
+      "num_input_tokens_seen": 84134845,
+      "step": 3913,
+      "time_per_iteration": 2.777387857437134
+    },
+    {
+      "auxiliary_loss_clip": 0.01200784,
+      "auxiliary_loss_mlp": 0.01024694,
+      "balance_loss_clip": 1.05619764,
+      "balance_loss_mlp": 1.01664758,
+      "epoch": 0.470630673961402,
+      "flos": 18953185662720.0,
+      "grad_norm": 1.949048476711205,
+      "language_loss": 0.74436414,
+      "learning_rate": 2.286452020568428e-06,
+      "loss": 0.76661891,
+      "num_input_tokens_seen": 84152920,
+      "step": 3914,
+      "time_per_iteration": 2.628553867340088
+    },
+    {
+      "auxiliary_loss_clip": 0.01189952,
+      "auxiliary_loss_mlp": 0.01024857,
+      "balance_loss_clip": 1.05454135,
+      "balance_loss_mlp": 1.01591015,
+      "epoch": 0.4707509168520411,
+      "flos": 19938969492480.0,
+      "grad_norm": 1.6592808985784278,
+      "language_loss": 0.73235291,
+      "learning_rate": 2.2856810584055637e-06,
+      "loss": 0.75450099,
+      "num_input_tokens_seen": 84170455,
+      "step": 3915,
+      "time_per_iteration": 2.6027941703796387
+    },
+    {
+      "auxiliary_loss_clip": 0.01198833,
+      "auxiliary_loss_mlp": 0.01032486,
+      "balance_loss_clip": 1.05585051,
+      "balance_loss_mlp": 1.02408218,
+      "epoch": 0.47087115974268023,
+      "flos": 40118754741120.0,
+      "grad_norm": 1.5081859749612958,
+      "language_loss": 0.67891926,
+      "learning_rate": 2.2849100529051085e-06,
+      "loss": 0.70123243,
+      "num_input_tokens_seen": 84197390,
+      "step": 3916,
+      "time_per_iteration": 2.8903160095214844
+    },
+    {
+      "auxiliary_loss_clip": 0.01184845,
+      "auxiliary_loss_mlp": 0.01025725,
+      "balance_loss_clip": 1.05539346,
+      "balance_loss_mlp": 1.0176959,
+      "epoch": 0.4709914026333193,
+      "flos": 13552723745280.0,
+      "grad_norm": 2.437392422097086,
+      "language_loss": 0.80112386,
+      "learning_rate": 2.284139004184026e-06,
+      "loss": 0.82322955,
+      "num_input_tokens_seen": 84214620,
+      "step": 3917,
+      "time_per_iteration": 3.483503580093384
+    },
+    {
+      "auxiliary_loss_clip": 0.01189199,
+      "auxiliary_loss_mlp": 0.01030206,
+      "balance_loss_clip": 1.05774307,
+      "balance_loss_mlp": 1.02099705,
+      "epoch": 0.4711116455239584,
+      "flos": 19974628719360.0,
+      "grad_norm": 2.102243235771973,
+      "language_loss": 0.74603295,
+      "learning_rate": 2.2833679123592814e-06,
+      "loss": 0.76822698,
+      "num_input_tokens_seen": 84231880,
+      "step": 3918,
+      "time_per_iteration": 2.712010145187378
+    },
+    {
+      "auxiliary_loss_clip": 0.0120115,
+      "auxiliary_loss_mlp": 0.01036037,
+      "balance_loss_clip": 1.05270731,
+      "balance_loss_mlp": 1.02742386,
+      "epoch": 0.4712318884145975,
+      "flos": 32124824064000.0,
+      "grad_norm": 1.6111044608121452,
+      "language_loss": 0.63605702,
+      "learning_rate": 2.2825967775478508e-06,
+      "loss": 0.65842891,
+      "num_input_tokens_seen": 84252980,
+      "step": 3919,
+      "time_per_iteration": 2.7660961151123047
+    },
+    {
+      "auxiliary_loss_clip": 0.01189384,
+      "auxiliary_loss_mlp": 0.01032511,
+      "balance_loss_clip": 1.05672121,
+      "balance_loss_mlp": 1.0240829,
+      "epoch": 0.47135213130523657,
+      "flos": 20047850593920.0,
+      "grad_norm": 2.1417112185652503,
+      "language_loss": 0.839414,
+      "learning_rate": 2.2818255998667135e-06,
+      "loss": 0.86163294,
+      "num_input_tokens_seen": 84271490,
+      "step": 3920,
+      "time_per_iteration": 2.5765039920806885
+    },
+    {
+      "auxiliary_loss_clip": 0.01196335,
+      "auxiliary_loss_mlp": 0.01031459,
+      "balance_loss_clip": 1.05549288,
+      "balance_loss_mlp": 1.02331114,
+      "epoch": 0.4714723741958757,
+      "flos": 19426990988160.0,
+      "grad_norm": 1.5816582323213613,
+      "language_loss": 0.79183686,
+      "learning_rate": 2.2810543794328566e-06,
+      "loss": 0.81411481,
+      "num_input_tokens_seen": 84290525,
+      "step": 3921,
+      "time_per_iteration": 2.7177865505218506
+    },
+    {
+      "auxiliary_loss_clip": 0.0119886,
+      "auxiliary_loss_mlp": 0.01025597,
+      "balance_loss_clip": 1.05448306,
+      "balance_loss_mlp": 1.01742542,
+      "epoch": 0.4715926170865148,
+      "flos": 20373883367040.0,
+      "grad_norm": 2.1493263508789724,
+      "language_loss": 0.82246184,
+      "learning_rate": 2.2802831163632735e-06,
+      "loss": 0.84470642,
+      "num_input_tokens_seen": 84309245,
+      "step": 3922,
+      "time_per_iteration": 2.6596460342407227
+    },
+    {
+      "auxiliary_loss_clip": 0.01231798,
+      "auxiliary_loss_mlp": 0.01028739,
+      "balance_loss_clip": 1.04888213,
+      "balance_loss_mlp": 1.01973271,
+      "epoch": 0.47171285997715384,
+      "flos": 22672884430080.0,
+      "grad_norm": 1.6213040768207352,
+      "language_loss": 0.74489474,
+      "learning_rate": 2.279511810774965e-06,
+      "loss": 0.76750016,
+      "num_input_tokens_seen": 84330775,
+      "step": 3923,
+      "time_per_iteration": 2.834542751312256
+    },
+    {
+      "auxiliary_loss_clip": 0.0118777,
+      "auxiliary_loss_mlp": 0.0102451,
+      "balance_loss_clip": 1.05523443,
+      "balance_loss_mlp": 1.01666594,
+      "epoch": 0.47183310286779295,
+      "flos": 21105419754240.0,
+      "grad_norm": 1.9870450121336884,
+      "language_loss": 0.714284,
+      "learning_rate": 2.2787404627849364e-06,
+      "loss": 0.7364068,
+      "num_input_tokens_seen": 84349985,
+      "step": 3924,
+      "time_per_iteration": 2.642305850982666
+    },
+    {
+      "auxiliary_loss_clip": 0.01201264,
+      "auxiliary_loss_mlp": 0.01024828,
+      "balance_loss_clip": 1.05212367,
+      "balance_loss_mlp": 1.01657891,
+      "epoch": 0.471953345758432,
+      "flos": 21726566668800.0,
+      "grad_norm": 1.7670035079306472,
+      "language_loss": 0.78950548,
+      "learning_rate": 2.277969072510202e-06,
+      "loss": 0.81176633,
+      "num_input_tokens_seen": 84368965,
+      "step": 3925,
+      "time_per_iteration": 2.7439370155334473
+    },
+    {
+      "auxiliary_loss_clip": 0.0120402,
+      "auxiliary_loss_mlp": 0.0103062,
+      "balance_loss_clip": 1.05183673,
+      "balance_loss_mlp": 1.02253199,
+      "epoch": 0.4720735886490711,
+      "flos": 19861078849920.0,
+      "grad_norm": 1.6640547682762925,
+      "language_loss": 0.81512868,
+      "learning_rate": 2.2771976400677803e-06,
+      "loss": 0.83747506,
+      "num_input_tokens_seen": 84387795,
+      "step": 3926,
+      "time_per_iteration": 2.820774555206299
+    },
+    {
+      "auxiliary_loss_clip": 0.01208551,
+      "auxiliary_loss_mlp": 0.01027029,
+      "balance_loss_clip": 1.04764366,
+      "balance_loss_mlp": 1.01904833,
+      "epoch": 0.47219383153971023,
+      "flos": 19171809792000.0,
+      "grad_norm": 2.43072767747785,
+      "language_loss": 0.78712201,
+      "learning_rate": 2.2764261655746965e-06,
+      "loss": 0.80947781,
+      "num_input_tokens_seen": 84405290,
+      "step": 3927,
+      "time_per_iteration": 2.790609359741211
+    },
+    {
+      "auxiliary_loss_clip": 0.01208684,
+      "auxiliary_loss_mlp": 0.0103241,
+      "balance_loss_clip": 1.0502305,
+      "balance_loss_mlp": 1.02358818,
+      "epoch": 0.4723140744303493,
+      "flos": 23224005780480.0,
+      "grad_norm": 1.7402412272012913,
+      "language_loss": 0.75971615,
+      "learning_rate": 2.2756546491479832e-06,
+      "loss": 0.78212714,
+      "num_input_tokens_seen": 84426205,
+      "step": 3928,
+      "time_per_iteration": 2.7192537784576416
+    },
+    {
+      "auxiliary_loss_clip": 0.01187038,
+      "auxiliary_loss_mlp": 0.01379066,
+      "balance_loss_clip": 1.05469263,
+      "balance_loss_mlp": 1.00015187,
+      "epoch": 0.4724343173209884,
+      "flos": 18223265387520.0,
+      "grad_norm": 2.5083621806811287,
+      "language_loss": 0.80537343,
+      "learning_rate": 2.274883090904679e-06,
+      "loss": 0.83103448,
+      "num_input_tokens_seen": 84443970,
+      "step": 3929,
+      "time_per_iteration": 2.723403215408325
+    },
+    {
+      "auxiliary_loss_clip": 0.01193355,
+      "auxiliary_loss_mlp": 0.01028509,
+      "balance_loss_clip": 1.06009817,
+      "balance_loss_mlp": 1.02000988,
+      "epoch": 0.4725545602116275,
+      "flos": 21251037490560.0,
+      "grad_norm": 2.709552304393561,
+      "language_loss": 0.68042815,
+      "learning_rate": 2.2741114909618283e-06,
+      "loss": 0.70264679,
+      "num_input_tokens_seen": 84459865,
+      "step": 3930,
+      "time_per_iteration": 2.588667154312134
+    },
+    {
+      "auxiliary_loss_clip": 0.01212687,
+      "auxiliary_loss_mlp": 0.01026292,
+      "balance_loss_clip": 1.05201328,
+      "balance_loss_mlp": 1.01819193,
+      "epoch": 0.47267480310226656,
+      "flos": 21434002392960.0,
+      "grad_norm": 1.676884089787824,
+      "language_loss": 0.72072697,
+      "learning_rate": 2.2733398494364828e-06,
+      "loss": 0.74311674,
+      "num_input_tokens_seen": 84479110,
+      "step": 3931,
+      "time_per_iteration": 2.733689069747925
+    },
+    {
+      "auxiliary_loss_clip": 0.01202188,
+      "auxiliary_loss_mlp": 0.01027681,
+      "balance_loss_clip": 1.0564388,
+      "balance_loss_mlp": 1.01934242,
+      "epoch": 0.47279504599290567,
+      "flos": 18770508069120.0,
+      "grad_norm": 2.1533759032540036,
+      "language_loss": 0.84574497,
+      "learning_rate": 2.272568166445699e-06,
+      "loss": 0.8680436,
+      "num_input_tokens_seen": 84497675,
+      "step": 3932,
+      "time_per_iteration": 2.6663224697113037
+    },
+    {
+      "auxiliary_loss_clip": 0.01197267,
+      "auxiliary_loss_mlp": 0.01024337,
+      "balance_loss_clip": 1.05468595,
+      "balance_loss_mlp": 1.01578331,
+      "epoch": 0.4729152888835448,
+      "flos": 21105742976640.0,
+      "grad_norm": 3.2323042101765282,
+      "language_loss": 0.64439201,
+      "learning_rate": 2.271796442106541e-06,
+      "loss": 0.66660798,
+      "num_input_tokens_seen": 84517030,
+      "step": 3933,
+      "time_per_iteration": 2.6592607498168945
+    },
+    {
+      "auxiliary_loss_clip": 0.01114737,
+      "auxiliary_loss_mlp": 0.01003928,
+      "balance_loss_clip": 1.02016091,
+      "balance_loss_mlp": 1.00267637,
+      "epoch": 0.47303553177418384,
+      "flos": 70201877840640.0,
+      "grad_norm": 0.804680485966181,
+      "language_loss": 0.56556255,
+      "learning_rate": 2.271024676536079e-06,
+      "loss": 0.5867492,
+      "num_input_tokens_seen": 84577290,
+      "step": 3934,
+      "time_per_iteration": 3.2786622047424316
+    },
+    {
+      "auxiliary_loss_clip": 0.01213651,
+      "auxiliary_loss_mlp": 0.01033877,
+      "balance_loss_clip": 1.05870461,
+      "balance_loss_mlp": 1.02471018,
+      "epoch": 0.47315577466482295,
+      "flos": 22455122227200.0,
+      "grad_norm": 1.712410456795444,
+      "language_loss": 0.73383707,
+      "learning_rate": 2.2702528698513894e-06,
+      "loss": 0.75631237,
+      "num_input_tokens_seen": 84598415,
+      "step": 3935,
+      "time_per_iteration": 3.598966360092163
+    },
+    {
+      "auxiliary_loss_clip": 0.0119998,
+      "auxiliary_loss_mlp": 0.01027461,
+      "balance_loss_clip": 1.04837811,
+      "balance_loss_mlp": 1.01901531,
+      "epoch": 0.47327601755546206,
+      "flos": 24352857480960.0,
+      "grad_norm": 1.7973287829556122,
+      "language_loss": 0.78625035,
+      "learning_rate": 2.269481022169554e-06,
+      "loss": 0.80852485,
+      "num_input_tokens_seen": 84617010,
+      "step": 3936,
+      "time_per_iteration": 2.7467665672302246
+    },
+    {
+      "auxiliary_loss_clip": 0.01212328,
+      "auxiliary_loss_mlp": 0.01025879,
+      "balance_loss_clip": 1.05349851,
+      "balance_loss_mlp": 1.01750445,
+      "epoch": 0.4733962604461011,
+      "flos": 22926772736640.0,
+      "grad_norm": 2.3597696363263223,
+      "language_loss": 0.80190253,
+      "learning_rate": 2.2687091336076614e-06,
+      "loss": 0.82428455,
+      "num_input_tokens_seen": 84636350,
+      "step": 3937,
+      "time_per_iteration": 3.653892993927002
+    },
+    {
+      "auxiliary_loss_clip": 0.01194404,
+      "auxiliary_loss_mlp": 0.01029332,
+      "balance_loss_clip": 1.05435467,
+      "balance_loss_mlp": 1.02058148,
+      "epoch": 0.4735165033367402,
+      "flos": 18327369980160.0,
+      "grad_norm": 2.489160679757962,
+      "language_loss": 0.79930592,
+      "learning_rate": 2.267937204282807e-06,
+      "loss": 0.82154322,
+      "num_input_tokens_seen": 84653490,
+      "step": 3938,
+      "time_per_iteration": 3.569016695022583
+    },
+    {
+      "auxiliary_loss_clip": 0.01202559,
+      "auxiliary_loss_mlp": 0.0103039,
+      "balance_loss_clip": 1.05607891,
+      "balance_loss_mlp": 1.02141929,
+      "epoch": 0.4736367462273793,
+      "flos": 23037018554880.0,
+      "grad_norm": 3.4803686872611745,
+      "language_loss": 0.79101121,
+      "learning_rate": 2.2671652343120926e-06,
+      "loss": 0.81334066,
+      "num_input_tokens_seen": 84673965,
+      "step": 3939,
+      "time_per_iteration": 2.66329288482666
+    },
+    {
+      "auxiliary_loss_clip": 0.01187073,
+      "auxiliary_loss_mlp": 0.01032414,
+      "balance_loss_clip": 1.05670631,
+      "balance_loss_mlp": 1.02428412,
+      "epoch": 0.4737569891180184,
+      "flos": 25374336451200.0,
+      "grad_norm": 1.577735475297266,
+      "language_loss": 0.80473018,
+      "learning_rate": 2.2663932238126236e-06,
+      "loss": 0.82692504,
+      "num_input_tokens_seen": 84692525,
+      "step": 3940,
+      "time_per_iteration": 2.679069995880127
+    },
+    {
+      "auxiliary_loss_clip": 0.01190932,
+      "auxiliary_loss_mlp": 0.01030638,
+      "balance_loss_clip": 1.05123889,
+      "balance_loss_mlp": 1.02180457,
+      "epoch": 0.4738772320086575,
+      "flos": 25849326925440.0,
+      "grad_norm": 1.37916225923516,
+      "language_loss": 0.8030268,
+      "learning_rate": 2.265621172901515e-06,
+      "loss": 0.82524252,
+      "num_input_tokens_seen": 84715640,
+      "step": 3941,
+      "time_per_iteration": 2.7348101139068604
+    },
+    {
+      "auxiliary_loss_clip": 0.01192193,
+      "auxiliary_loss_mlp": 0.01036108,
+      "balance_loss_clip": 1.06044984,
+      "balance_loss_mlp": 1.02764988,
+      "epoch": 0.47399747489929656,
+      "flos": 27564420499200.0,
+      "grad_norm": 2.042463864562623,
+      "language_loss": 0.71043915,
+      "learning_rate": 2.2648490816958854e-06,
+      "loss": 0.73272216,
+      "num_input_tokens_seen": 84736635,
+      "step": 3942,
+      "time_per_iteration": 2.704622268676758
+    },
+    {
+      "auxiliary_loss_clip": 0.01192894,
+      "auxiliary_loss_mlp": 0.01028186,
+      "balance_loss_clip": 1.05188966,
+      "balance_loss_mlp": 1.01910806,
+      "epoch": 0.47411771778993567,
+      "flos": 24863650836480.0,
+      "grad_norm": 2.183063000554017,
+      "language_loss": 0.73425984,
+      "learning_rate": 2.264076950312861e-06,
+      "loss": 0.75647056,
+      "num_input_tokens_seen": 84755445,
+      "step": 3943,
+      "time_per_iteration": 3.5991692543029785
+    },
+    {
+      "auxiliary_loss_clip": 0.01210555,
+      "auxiliary_loss_mlp": 0.01029753,
+      "balance_loss_clip": 1.05379629,
+      "balance_loss_mlp": 1.02043653,
+      "epoch": 0.4742379606805748,
+      "flos": 22748009725440.0,
+      "grad_norm": 2.100036312524487,
+      "language_loss": 0.82321,
+      "learning_rate": 2.2633047788695727e-06,
+      "loss": 0.84561306,
+      "num_input_tokens_seen": 84775750,
+      "step": 3944,
+      "time_per_iteration": 2.7507524490356445
+    },
+    {
+      "auxiliary_loss_clip": 0.01206965,
+      "auxiliary_loss_mlp": 0.01033423,
+      "balance_loss_clip": 1.0550344,
+      "balance_loss_mlp": 1.02468491,
+      "epoch": 0.47435820357121383,
+      "flos": 19681130689920.0,
+      "grad_norm": 1.7551349200526625,
+      "language_loss": 0.64033568,
+      "learning_rate": 2.262532567483159e-06,
+      "loss": 0.66273957,
+      "num_input_tokens_seen": 84794310,
+      "step": 3945,
+      "time_per_iteration": 2.655146837234497
+    },
+    {
+      "auxiliary_loss_clip": 0.01191836,
+      "auxiliary_loss_mlp": 0.01379284,
+      "balance_loss_clip": 1.05916119,
+      "balance_loss_mlp": 1.00010455,
+      "epoch": 0.47447844646185294,
+      "flos": 25228718714880.0,
+      "grad_norm": 2.2801040973988136,
+      "language_loss": 0.80334085,
+      "learning_rate": 2.2617603162707635e-06,
+      "loss": 0.82905203,
+      "num_input_tokens_seen": 84814720,
+      "step": 3946,
+      "time_per_iteration": 2.6631171703338623
+    },
+    {
+      "auxiliary_loss_clip": 0.01188555,
+      "auxiliary_loss_mlp": 0.01027968,
+      "balance_loss_clip": 1.05798876,
+      "balance_loss_mlp": 1.01940298,
+      "epoch": 0.47459868935249205,
+      "flos": 24570619683840.0,
+      "grad_norm": 2.1442291821824435,
+      "language_loss": 0.82622117,
+      "learning_rate": 2.2609880253495363e-06,
+      "loss": 0.84838641,
+      "num_input_tokens_seen": 84834355,
+      "step": 3947,
+      "time_per_iteration": 2.637608766555786
+    },
+    {
+      "auxiliary_loss_clip": 0.01224217,
+      "auxiliary_loss_mlp": 0.01033188,
+      "balance_loss_clip": 1.05259454,
+      "balance_loss_mlp": 1.02474248,
+      "epoch": 0.4747189322431311,
+      "flos": 20558500295040.0,
+      "grad_norm": 1.889461491684202,
+      "language_loss": 0.86573029,
+      "learning_rate": 2.260215694836633e-06,
+      "loss": 0.88830435,
+      "num_input_tokens_seen": 84853530,
+      "step": 3948,
+      "time_per_iteration": 2.802537679672241
+    },
+    {
+      "auxiliary_loss_clip": 0.01220416,
+      "auxiliary_loss_mlp": 0.01379489,
+      "balance_loss_clip": 1.04614782,
+      "balance_loss_mlp": 1.00006366,
+      "epoch": 0.4748391751337702,
+      "flos": 25995231970560.0,
+      "grad_norm": 2.075881972540693,
+      "language_loss": 0.65073204,
+      "learning_rate": 2.2594433248492157e-06,
+      "loss": 0.67673117,
+      "num_input_tokens_seen": 84872505,
+      "step": 3949,
+      "time_per_iteration": 2.826805591583252
+    },
+    {
+      "auxiliary_loss_clip": 0.0120273,
+      "auxiliary_loss_mlp": 0.01029017,
+      "balance_loss_clip": 1.05546355,
+      "balance_loss_mlp": 1.02055955,
+      "epoch": 0.47495941802440933,
+      "flos": 22821052032000.0,
+      "grad_norm": 1.672247362017447,
+      "language_loss": 0.80280662,
+      "learning_rate": 2.2586709155044527e-06,
+      "loss": 0.82512403,
+      "num_input_tokens_seen": 84893105,
+      "step": 3950,
+      "time_per_iteration": 2.704745292663574
+    },
+    {
+      "auxiliary_loss_clip": 0.01189849,
+      "auxiliary_loss_mlp": 0.01029495,
+      "balance_loss_clip": 1.05708373,
+      "balance_loss_mlp": 1.02146006,
+      "epoch": 0.4750796609150484,
+      "flos": 27891782075520.0,
+      "grad_norm": 1.6783668643575047,
+      "language_loss": 0.75945526,
+      "learning_rate": 2.2578984669195167e-06,
+      "loss": 0.78164876,
+      "num_input_tokens_seen": 84914070,
+      "step": 3951,
+      "time_per_iteration": 2.669102907180786
+    },
+    {
+      "auxiliary_loss_clip": 0.01192934,
+      "auxiliary_loss_mlp": 0.01030543,
+      "balance_loss_clip": 1.05199325,
+      "balance_loss_mlp": 1.0225172,
+      "epoch": 0.4751999038056875,
+      "flos": 35660085471360.0,
+      "grad_norm": 1.8981050129435553,
+      "language_loss": 0.68055713,
+      "learning_rate": 2.2571259792115887e-06,
+      "loss": 0.70279193,
+      "num_input_tokens_seen": 84935290,
+      "step": 3952,
+      "time_per_iteration": 2.749060869216919
+    },
+    {
+      "auxiliary_loss_clip": 0.01192878,
+      "auxiliary_loss_mlp": 0.0102794,
+      "balance_loss_clip": 1.05674613,
+      "balance_loss_mlp": 1.02026856,
+      "epoch": 0.4753201466963266,
+      "flos": 22090880361600.0,
+      "grad_norm": 1.8158815163772777,
+      "language_loss": 0.79527682,
+      "learning_rate": 2.2563534524978544e-06,
+      "loss": 0.81748497,
+      "num_input_tokens_seen": 84952760,
+      "step": 3953,
+      "time_per_iteration": 2.75516676902771
+    },
+    {
+      "auxiliary_loss_clip": 0.01211407,
+      "auxiliary_loss_mlp": 0.01026038,
+      "balance_loss_clip": 1.05441999,
+      "balance_loss_mlp": 1.01823568,
+      "epoch": 0.47544038958696566,
+      "flos": 30190854965760.0,
+      "grad_norm": 1.816836657925347,
+      "language_loss": 0.70745325,
+      "learning_rate": 2.2555808868955052e-06,
+      "loss": 0.7298277,
+      "num_input_tokens_seen": 84974890,
+      "step": 3954,
+      "time_per_iteration": 2.7840991020202637
+    },
+    {
+      "auxiliary_loss_clip": 0.01223487,
+      "auxiliary_loss_mlp": 0.01025328,
+      "balance_loss_clip": 1.05080414,
+      "balance_loss_mlp": 1.01647031,
+      "epoch": 0.47556063247760477,
+      "flos": 23472219738240.0,
+      "grad_norm": 2.084843932088766,
+      "language_loss": 0.73823988,
+      "learning_rate": 2.254808282521738e-06,
+      "loss": 0.760728,
+      "num_input_tokens_seen": 84993640,
+      "step": 3955,
+      "time_per_iteration": 2.828917980194092
+    },
+    {
+      "auxiliary_loss_clip": 0.01214042,
+      "auxiliary_loss_mlp": 0.01378971,
+      "balance_loss_clip": 1.04917085,
+      "balance_loss_mlp": 1.00006676,
+      "epoch": 0.4756808753682438,
+      "flos": 25155209531520.0,
+      "grad_norm": 1.9336657000345157,
+      "language_loss": 0.81274009,
+      "learning_rate": 2.2540356394937573e-06,
+      "loss": 0.83867025,
+      "num_input_tokens_seen": 85012340,
+      "step": 3956,
+      "time_per_iteration": 2.7513856887817383
+    },
+    {
+      "auxiliary_loss_clip": 0.01217253,
+      "auxiliary_loss_mlp": 0.0103051,
+      "balance_loss_clip": 1.05079889,
+      "balance_loss_mlp": 1.02170658,
+      "epoch": 0.47580111825888294,
+      "flos": 15669729573120.0,
+      "grad_norm": 2.0307636389791828,
+      "language_loss": 0.84151632,
+      "learning_rate": 2.253262957928772e-06,
+      "loss": 0.86399388,
+      "num_input_tokens_seen": 85029225,
+      "step": 3957,
+      "time_per_iteration": 2.651515483856201
+    },
+    {
+      "auxiliary_loss_clip": 0.01193125,
+      "auxiliary_loss_mlp": 0.01030016,
+      "balance_loss_clip": 1.04786682,
+      "balance_loss_mlp": 1.02148652,
+      "epoch": 0.47592136114952205,
+      "flos": 17636556637440.0,
+      "grad_norm": 1.5921981806496168,
+      "language_loss": 0.72373247,
+      "learning_rate": 2.2524902379439976e-06,
+      "loss": 0.74596393,
+      "num_input_tokens_seen": 85047895,
+      "step": 3958,
+      "time_per_iteration": 2.725433588027954
+    },
+    {
+      "auxiliary_loss_clip": 0.01136591,
+      "auxiliary_loss_mlp": 0.01006227,
+      "balance_loss_clip": 1.0203805,
+      "balance_loss_mlp": 1.00476098,
+      "epoch": 0.4760416040401611,
+      "flos": 61417159292160.0,
+      "grad_norm": 0.7405076928949336,
+      "language_loss": 0.63634658,
+      "learning_rate": 2.251717479656655e-06,
+      "loss": 0.65777469,
+      "num_input_tokens_seen": 85112690,
+      "step": 3959,
+      "time_per_iteration": 3.439265489578247
+    },
+    {
+      "auxiliary_loss_clip": 0.01190745,
+      "auxiliary_loss_mlp": 0.0103139,
+      "balance_loss_clip": 1.0570513,
+      "balance_loss_mlp": 1.02314115,
+      "epoch": 0.4761618469308002,
+      "flos": 18405871153920.0,
+      "grad_norm": 2.7511977525599507,
+      "language_loss": 0.76537216,
+      "learning_rate": 2.2509446831839704e-06,
+      "loss": 0.7875936,
+      "num_input_tokens_seen": 85132130,
+      "step": 3960,
+      "time_per_iteration": 2.8824398517608643
+    },
+    {
+      "auxiliary_loss_clip": 0.01208809,
+      "auxiliary_loss_mlp": 0.01029736,
+      "balance_loss_clip": 1.05311596,
+      "balance_loss_mlp": 1.02137339,
+      "epoch": 0.4762820898214393,
+      "flos": 18040911016320.0,
+      "grad_norm": 2.378072911069231,
+      "language_loss": 0.82353091,
+      "learning_rate": 2.250171848643177e-06,
+      "loss": 0.84591639,
+      "num_input_tokens_seen": 85149420,
+      "step": 3961,
+      "time_per_iteration": 3.610095500946045
+    },
+    {
+      "auxiliary_loss_clip": 0.01200942,
+      "auxiliary_loss_mlp": 0.01028565,
+      "balance_loss_clip": 1.05350447,
+      "balance_loss_mlp": 1.0204289,
+      "epoch": 0.4764023327120784,
+      "flos": 19318253541120.0,
+      "grad_norm": 1.8307902725825902,
+      "language_loss": 0.85890031,
+      "learning_rate": 2.249398976151513e-06,
+      "loss": 0.88119543,
+      "num_input_tokens_seen": 85166970,
+      "step": 3962,
+      "time_per_iteration": 2.664104461669922
+    },
+    {
+      "auxiliary_loss_clip": 0.01184518,
+      "auxiliary_loss_mlp": 0.01025056,
+      "balance_loss_clip": 1.05494237,
+      "balance_loss_mlp": 1.01663041,
+      "epoch": 0.4765225756027175,
+      "flos": 22747255539840.0,
+      "grad_norm": 2.8371742730208465,
+      "language_loss": 0.7823717,
+      "learning_rate": 2.248626065826223e-06,
+      "loss": 0.80446744,
+      "num_input_tokens_seen": 85185175,
+      "step": 3963,
+      "time_per_iteration": 3.9514071941375732
+    },
+    {
+      "auxiliary_loss_clip": 0.01081648,
+      "auxiliary_loss_mlp": 0.01003809,
+      "balance_loss_clip": 1.02039027,
+      "balance_loss_mlp": 1.00242615,
+      "epoch": 0.4766428184933566,
+      "flos": 65933392106880.0,
+      "grad_norm": 0.7576928650127284,
+      "language_loss": 0.62566817,
+      "learning_rate": 2.2478531177845564e-06,
+      "loss": 0.6465227,
+      "num_input_tokens_seen": 85246170,
+      "step": 3964,
+      "time_per_iteration": 4.033729076385498
+    },
+    {
+      "auxiliary_loss_clip": 0.01210406,
+      "auxiliary_loss_mlp": 0.0103145,
+      "balance_loss_clip": 1.0558157,
+      "balance_loss_mlp": 1.0228852,
+      "epoch": 0.47676306138399566,
+      "flos": 24136495908480.0,
+      "grad_norm": 1.6761149693579391,
+      "language_loss": 0.85078132,
+      "learning_rate": 2.247080132143769e-06,
+      "loss": 0.87319988,
+      "num_input_tokens_seen": 85268525,
+      "step": 3965,
+      "time_per_iteration": 2.775510311126709
+    },
+    {
+      "auxiliary_loss_clip": 0.01211091,
+      "auxiliary_loss_mlp": 0.01035803,
+      "balance_loss_clip": 1.04827845,
+      "balance_loss_mlp": 1.02701688,
+      "epoch": 0.47688330427463477,
+      "flos": 12604322995200.0,
+      "grad_norm": 2.3598144007822457,
+      "language_loss": 0.69229114,
+      "learning_rate": 2.246307109021121e-06,
+      "loss": 0.71476007,
+      "num_input_tokens_seen": 85285930,
+      "step": 3966,
+      "time_per_iteration": 2.7246809005737305
+    },
+    {
+      "auxiliary_loss_clip": 0.01198297,
+      "auxiliary_loss_mlp": 0.01028717,
+      "balance_loss_clip": 1.05005443,
+      "balance_loss_mlp": 1.02064061,
+      "epoch": 0.4770035471652739,
+      "flos": 21390585828480.0,
+      "grad_norm": 1.720214876602117,
+      "language_loss": 0.82306051,
+      "learning_rate": 2.2455340485338817e-06,
+      "loss": 0.8453306,
+      "num_input_tokens_seen": 85303565,
+      "step": 3967,
+      "time_per_iteration": 2.649258613586426
+    },
+    {
+      "auxiliary_loss_clip": 0.01197663,
+      "auxiliary_loss_mlp": 0.01025646,
+      "balance_loss_clip": 1.05421638,
+      "balance_loss_mlp": 1.01764703,
+      "epoch": 0.47712379005591293,
+      "flos": 25156251025920.0,
+      "grad_norm": 1.7167097658109014,
+      "language_loss": 0.67759925,
+      "learning_rate": 2.244760950799322e-06,
+      "loss": 0.69983232,
+      "num_input_tokens_seen": 85321835,
+      "step": 3968,
+      "time_per_iteration": 2.7050259113311768
+    },
+    {
+      "auxiliary_loss_clip": 0.01194537,
+      "auxiliary_loss_mlp": 0.01027156,
+      "balance_loss_clip": 1.04887843,
+      "balance_loss_mlp": 1.01913345,
+      "epoch": 0.47724403294655204,
+      "flos": 22054323294720.0,
+      "grad_norm": 2.2778573165756493,
+      "language_loss": 0.72778553,
+      "learning_rate": 2.2439878159347203e-06,
+      "loss": 0.7500025,
+      "num_input_tokens_seen": 85341260,
+      "step": 3969,
+      "time_per_iteration": 3.6221234798431396
+    },
+    {
+      "auxiliary_loss_clip": 0.01080525,
+      "auxiliary_loss_mlp": 0.01001009,
+      "balance_loss_clip": 1.01944184,
+      "balance_loss_mlp": 0.99955493,
+      "epoch": 0.4773642758371911,
+      "flos": 70229387658240.0,
+      "grad_norm": 0.7260634283178538,
+      "language_loss": 0.55294144,
+      "learning_rate": 2.2432146440573616e-06,
+      "loss": 0.57375681,
+      "num_input_tokens_seen": 85407220,
+      "step": 3970,
+      "time_per_iteration": 3.2875587940216064
+    },
+    {
+      "auxiliary_loss_clip": 0.01208342,
+      "auxiliary_loss_mlp": 0.01027766,
+      "balance_loss_clip": 1.05566919,
+      "balance_loss_mlp": 1.01931977,
+      "epoch": 0.4774845187278302,
+      "flos": 23548602009600.0,
+      "grad_norm": 1.6337820445138225,
+      "language_loss": 0.66503251,
+      "learning_rate": 2.242441435284534e-06,
+      "loss": 0.68739361,
+      "num_input_tokens_seen": 85426095,
+      "step": 3971,
+      "time_per_iteration": 2.6873204708099365
+    },
+    {
+      "auxiliary_loss_clip": 0.01197459,
+      "auxiliary_loss_mlp": 0.0102987,
+      "balance_loss_clip": 1.05465174,
+      "balance_loss_mlp": 1.0207026,
+      "epoch": 0.4776047616184693,
+      "flos": 23075371301760.0,
+      "grad_norm": 2.522162245854249,
+      "language_loss": 0.85265672,
+      "learning_rate": 2.2416681897335337e-06,
+      "loss": 0.87493002,
+      "num_input_tokens_seen": 85444245,
+      "step": 3972,
+      "time_per_iteration": 2.624922275543213
+    },
+    {
+      "auxiliary_loss_clip": 0.01222156,
+      "auxiliary_loss_mlp": 0.01033689,
+      "balance_loss_clip": 1.05257559,
+      "balance_loss_mlp": 1.02504039,
+      "epoch": 0.4777250045091084,
+      "flos": 31898119374720.0,
+      "grad_norm": 1.784817408023579,
+      "language_loss": 0.66967154,
+      "learning_rate": 2.240894907521661e-06,
+      "loss": 0.69222999,
+      "num_input_tokens_seen": 85463325,
+      "step": 3973,
+      "time_per_iteration": 2.853975534439087
+    },
+    {
+      "auxiliary_loss_clip": 0.0120539,
+      "auxiliary_loss_mlp": 0.01031979,
+      "balance_loss_clip": 1.05275428,
+      "balance_loss_mlp": 1.02346754,
+      "epoch": 0.4778452473997475,
+      "flos": 24278163148800.0,
+      "grad_norm": 1.6285735694429637,
+      "language_loss": 0.63528162,
+      "learning_rate": 2.240121588766223e-06,
+      "loss": 0.65765536,
+      "num_input_tokens_seen": 85483375,
+      "step": 3974,
+      "time_per_iteration": 2.771697759628296
+    },
+    {
+      "auxiliary_loss_clip": 0.0119667,
+      "auxiliary_loss_mlp": 0.01026367,
+      "balance_loss_clip": 1.05112362,
+      "balance_loss_mlp": 1.01867485,
+      "epoch": 0.4779654902903866,
+      "flos": 31575031516800.0,
+      "grad_norm": 1.8127296364816117,
+      "language_loss": 0.71490669,
+      "learning_rate": 2.239348233584531e-06,
+      "loss": 0.73713696,
+      "num_input_tokens_seen": 85504230,
+      "step": 3975,
+      "time_per_iteration": 2.7348899841308594
+    },
+    {
+      "auxiliary_loss_clip": 0.01199813,
+      "auxiliary_loss_mlp": 0.01027626,
+      "balance_loss_clip": 1.05476534,
+      "balance_loss_mlp": 1.01923347,
+      "epoch": 0.47808573318102565,
+      "flos": 19500428344320.0,
+      "grad_norm": 1.7911694351334644,
+      "language_loss": 0.8065691,
+      "learning_rate": 2.2385748420939013e-06,
+      "loss": 0.82884347,
+      "num_input_tokens_seen": 85523425,
+      "step": 3976,
+      "time_per_iteration": 2.6516335010528564
+    },
+    {
+      "auxiliary_loss_clip": 0.01185122,
+      "auxiliary_loss_mlp": 0.01029426,
+      "balance_loss_clip": 1.05763805,
+      "balance_loss_mlp": 1.02151036,
+      "epoch": 0.47820597607166476,
+      "flos": 22601135013120.0,
+      "grad_norm": 1.718712730377452,
+      "language_loss": 0.72704256,
+      "learning_rate": 2.2378014144116583e-06,
+      "loss": 0.74918795,
+      "num_input_tokens_seen": 85542235,
+      "step": 3977,
+      "time_per_iteration": 2.647268772125244
+    },
+    {
+      "auxiliary_loss_clip": 0.01193932,
+      "auxiliary_loss_mlp": 0.01027946,
+      "balance_loss_clip": 1.0593189,
+      "balance_loss_mlp": 1.01941049,
+      "epoch": 0.4783262189623039,
+      "flos": 23003011353600.0,
+      "grad_norm": 1.830522371201697,
+      "language_loss": 0.79795146,
+      "learning_rate": 2.23702795065513e-06,
+      "loss": 0.82017016,
+      "num_input_tokens_seen": 85561815,
+      "step": 3978,
+      "time_per_iteration": 2.6253790855407715
+    },
+    {
+      "auxiliary_loss_clip": 0.01093078,
+      "auxiliary_loss_mlp": 0.01001411,
+      "balance_loss_clip": 1.01817346,
+      "balance_loss_mlp": 0.99995655,
+      "epoch": 0.47844646185294293,
+      "flos": 49772801226240.0,
+      "grad_norm": 0.9871351721153075,
+      "language_loss": 0.67509449,
+      "learning_rate": 2.2362544509416493e-06,
+      "loss": 0.69603938,
+      "num_input_tokens_seen": 85613930,
+      "step": 3979,
+      "time_per_iteration": 3.058589458465576
+    },
+    {
+      "auxiliary_loss_clip": 0.01195826,
+      "auxiliary_loss_mlp": 0.01022557,
+      "balance_loss_clip": 1.05061769,
+      "balance_loss_mlp": 1.01467109,
+      "epoch": 0.47856670474358204,
+      "flos": 20229558520320.0,
+      "grad_norm": 2.147668144312348,
+      "language_loss": 0.82903314,
+      "learning_rate": 2.2354809153885572e-06,
+      "loss": 0.85121703,
+      "num_input_tokens_seen": 85631000,
+      "step": 3980,
+      "time_per_iteration": 2.688519239425659
+    },
+    {
+      "auxiliary_loss_clip": 0.0119476,
+      "auxiliary_loss_mlp": 0.01032136,
+      "balance_loss_clip": 1.05374455,
+      "balance_loss_mlp": 1.02355909,
+      "epoch": 0.47868694763422115,
+      "flos": 20990936131200.0,
+      "grad_norm": 2.773624800008385,
+      "language_loss": 0.83086783,
+      "learning_rate": 2.234707344113197e-06,
+      "loss": 0.85313678,
+      "num_input_tokens_seen": 85649095,
+      "step": 3981,
+      "time_per_iteration": 2.645754098892212
+    },
+    {
+      "auxiliary_loss_clip": 0.01188004,
+      "auxiliary_loss_mlp": 0.01033111,
+      "balance_loss_clip": 1.05783355,
+      "balance_loss_mlp": 1.02505851,
+      "epoch": 0.4788071905248602,
+      "flos": 19026551191680.0,
+      "grad_norm": 2.256695127288715,
+      "language_loss": 0.77716064,
+      "learning_rate": 2.233933737232919e-06,
+      "loss": 0.79937184,
+      "num_input_tokens_seen": 85666875,
+      "step": 3982,
+      "time_per_iteration": 2.629584789276123
+    },
+    {
+      "auxiliary_loss_clip": 0.01210523,
+      "auxiliary_loss_mlp": 0.01379028,
+      "balance_loss_clip": 1.04663062,
+      "balance_loss_mlp": 1.00000739,
+      "epoch": 0.4789274334154993,
+      "flos": 23002221254400.0,
+      "grad_norm": 1.6175908930129337,
+      "language_loss": 0.78382152,
+      "learning_rate": 2.2331600948650793e-06,
+      "loss": 0.809717,
+      "num_input_tokens_seen": 85687020,
+      "step": 3983,
+      "time_per_iteration": 2.805901050567627
+    },
+    {
+      "auxiliary_loss_clip": 0.01198924,
+      "auxiliary_loss_mlp": 0.01379901,
+      "balance_loss_clip": 1.05035639,
+      "balance_loss_mlp": 1.00009727,
+      "epoch": 0.4790476763061384,
+      "flos": 23075586783360.0,
+      "grad_norm": 1.6400145855169137,
+      "language_loss": 0.80308604,
+      "learning_rate": 2.2323864171270386e-06,
+      "loss": 0.82887435,
+      "num_input_tokens_seen": 85708290,
+      "step": 3984,
+      "time_per_iteration": 2.807756185531616
+    },
+    {
+      "auxiliary_loss_clip": 0.01215135,
+      "auxiliary_loss_mlp": 0.01028076,
+      "balance_loss_clip": 1.04875827,
+      "balance_loss_mlp": 1.01920056,
+      "epoch": 0.4791679191967775,
+      "flos": 21179288073600.0,
+      "grad_norm": 2.0764683259899006,
+      "language_loss": 0.72866297,
+      "learning_rate": 2.231612704136164e-06,
+      "loss": 0.75109512,
+      "num_input_tokens_seen": 85728660,
+      "step": 3985,
+      "time_per_iteration": 2.736104965209961
+    },
+    {
+      "auxiliary_loss_clip": 0.01189098,
+      "auxiliary_loss_mlp": 0.01033643,
+      "balance_loss_clip": 1.05203259,
+      "balance_loss_mlp": 1.02490461,
+      "epoch": 0.4792881620874166,
+      "flos": 22301495758080.0,
+      "grad_norm": 3.3745988338488067,
+      "language_loss": 0.75255907,
+      "learning_rate": 2.2308389560098253e-06,
+      "loss": 0.77478647,
+      "num_input_tokens_seen": 85745035,
+      "step": 3986,
+      "time_per_iteration": 2.646017074584961
+    },
+    {
+      "auxiliary_loss_clip": 0.01216881,
+      "auxiliary_loss_mlp": 0.01027712,
+      "balance_loss_clip": 1.0525341,
+      "balance_loss_mlp": 1.01906919,
+      "epoch": 0.47940840497805565,
+      "flos": 17420877423360.0,
+      "grad_norm": 2.208903680300497,
+      "language_loss": 0.77137017,
+      "learning_rate": 2.2300651728654008e-06,
+      "loss": 0.79381609,
+      "num_input_tokens_seen": 85760295,
+      "step": 3987,
+      "time_per_iteration": 3.7155263423919678
+    },
+    {
+      "auxiliary_loss_clip": 0.01086319,
+      "auxiliary_loss_mlp": 0.01374184,
+      "balance_loss_clip": 1.01886082,
+      "balance_loss_mlp": 0.99984664,
+      "epoch": 0.47952864786869476,
+      "flos": 65358175708800.0,
+      "grad_norm": 0.7342146157766606,
+      "language_loss": 0.60218132,
+      "learning_rate": 2.229291354820272e-06,
+      "loss": 0.62678635,
+      "num_input_tokens_seen": 85821305,
+      "step": 3988,
+      "time_per_iteration": 3.215177297592163
+    },
+    {
+      "auxiliary_loss_clip": 0.01193956,
+      "auxiliary_loss_mlp": 0.01028223,
+      "balance_loss_clip": 1.05334496,
+      "balance_loss_mlp": 1.01890707,
+      "epoch": 0.47964889075933387,
+      "flos": 16799802336000.0,
+      "grad_norm": 2.128300496322706,
+      "language_loss": 0.75638789,
+      "learning_rate": 2.228517501991828e-06,
+      "loss": 0.77860969,
+      "num_input_tokens_seen": 85840105,
+      "step": 3989,
+      "time_per_iteration": 2.654399871826172
+    },
+    {
+      "auxiliary_loss_clip": 0.01101189,
+      "auxiliary_loss_mlp": 0.01005345,
+      "balance_loss_clip": 1.02020943,
+      "balance_loss_mlp": 1.00387311,
+      "epoch": 0.4797691336499729,
+      "flos": 70079244808320.0,
+      "grad_norm": 0.8231372385461946,
+      "language_loss": 0.61076432,
+      "learning_rate": 2.22774361449746e-06,
+      "loss": 0.63182968,
+      "num_input_tokens_seen": 85896585,
+      "step": 3990,
+      "time_per_iteration": 4.956457614898682
+    },
+    {
+      "auxiliary_loss_clip": 0.01232046,
+      "auxiliary_loss_mlp": 0.01030829,
+      "balance_loss_clip": 1.0485785,
+      "balance_loss_mlp": 1.02264547,
+      "epoch": 0.47988937654061203,
+      "flos": 18953329317120.0,
+      "grad_norm": 2.537925413508939,
+      "language_loss": 0.7060712,
+      "learning_rate": 2.2269696924545668e-06,
+      "loss": 0.72869998,
+      "num_input_tokens_seen": 85914415,
+      "step": 3991,
+      "time_per_iteration": 2.7462825775146484
+    },
+    {
+      "auxiliary_loss_clip": 0.01212781,
+      "auxiliary_loss_mlp": 0.01031942,
+      "balance_loss_clip": 1.0533042,
+      "balance_loss_mlp": 1.02416396,
+      "epoch": 0.48000961943125114,
+      "flos": 14461981649280.0,
+      "grad_norm": 2.2743325867350275,
+      "language_loss": 0.78152508,
+      "learning_rate": 2.2261957359805523e-06,
+      "loss": 0.80397224,
+      "num_input_tokens_seen": 85931650,
+      "step": 3992,
+      "time_per_iteration": 2.7044103145599365
+    },
+    {
+      "auxiliary_loss_clip": 0.01190202,
+      "auxiliary_loss_mlp": 0.01027672,
+      "balance_loss_clip": 1.05702305,
+      "balance_loss_mlp": 1.01839781,
+      "epoch": 0.4801298623218902,
+      "flos": 27051149105280.0,
+      "grad_norm": 1.8086487908713962,
+      "language_loss": 0.73974001,
+      "learning_rate": 2.225421745192823e-06,
+      "loss": 0.76191878,
+      "num_input_tokens_seen": 85951805,
+      "step": 3993,
+      "time_per_iteration": 2.6321301460266113
+    },
+    {
+      "auxiliary_loss_clip": 0.01194098,
+      "auxiliary_loss_mlp": 0.0102342,
+      "balance_loss_clip": 1.05465794,
+      "balance_loss_mlp": 1.01462245,
+      "epoch": 0.4802501052125293,
+      "flos": 26355236031360.0,
+      "grad_norm": 2.647850263273101,
+      "language_loss": 0.78180397,
+      "learning_rate": 2.2246477202087955e-06,
+      "loss": 0.80397916,
+      "num_input_tokens_seen": 85972485,
+      "step": 3994,
+      "time_per_iteration": 2.7007360458374023
+    },
+    {
+      "auxiliary_loss_clip": 0.01205186,
+      "auxiliary_loss_mlp": 0.01025088,
+      "balance_loss_clip": 1.05247343,
+      "balance_loss_mlp": 1.01605749,
+      "epoch": 0.4803703481031684,
+      "flos": 20993916960000.0,
+      "grad_norm": 1.58886417366864,
+      "language_loss": 0.83182085,
+      "learning_rate": 2.223873661145887e-06,
+      "loss": 0.85412365,
+      "num_input_tokens_seen": 85992540,
+      "step": 3995,
+      "time_per_iteration": 3.6473886966705322
+    },
+    {
+      "auxiliary_loss_clip": 0.01203223,
+      "auxiliary_loss_mlp": 0.01378754,
+      "balance_loss_clip": 1.0545361,
+      "balance_loss_mlp": 1.0000248,
+      "epoch": 0.4804905909938075,
+      "flos": 20703722981760.0,
+      "grad_norm": 1.543749694183363,
+      "language_loss": 0.71391106,
+      "learning_rate": 2.2230995681215226e-06,
+      "loss": 0.73973083,
+      "num_input_tokens_seen": 86012065,
+      "step": 3996,
+      "time_per_iteration": 2.6710197925567627
+    },
+    {
+      "auxiliary_loss_clip": 0.01207252,
+      "auxiliary_loss_mlp": 0.01024728,
+      "balance_loss_clip": 1.04908156,
+      "balance_loss_mlp": 1.0168488,
+      "epoch": 0.4806108338844466,
+      "flos": 16654831044480.0,
+      "grad_norm": 2.422138348966122,
+      "language_loss": 0.77453429,
+      "learning_rate": 2.2223254412531305e-06,
+      "loss": 0.79685414,
+      "num_input_tokens_seen": 86029435,
+      "step": 3997,
+      "time_per_iteration": 2.7243261337280273
+    },
+    {
+      "auxiliary_loss_clip": 0.01187663,
+      "auxiliary_loss_mlp": 0.01022333,
+      "balance_loss_clip": 1.04904556,
+      "balance_loss_mlp": 1.01472187,
+      "epoch": 0.4807310767750857,
+      "flos": 20011329440640.0,
+      "grad_norm": 1.7285589610568215,
+      "language_loss": 0.82179821,
+      "learning_rate": 2.221551280658146e-06,
+      "loss": 0.84389818,
+      "num_input_tokens_seen": 86048495,
+      "step": 3998,
+      "time_per_iteration": 2.6611218452453613
+    },
+    {
+      "auxiliary_loss_clip": 0.01217552,
+      "auxiliary_loss_mlp": 0.01027627,
+      "balance_loss_clip": 1.04870236,
+      "balance_loss_mlp": 1.01877558,
+      "epoch": 0.48085131966572475,
+      "flos": 23185257984000.0,
+      "grad_norm": 1.6738669009864975,
+      "language_loss": 0.74391139,
+      "learning_rate": 2.2207770864540085e-06,
+      "loss": 0.76636314,
+      "num_input_tokens_seen": 86067470,
+      "step": 3999,
+      "time_per_iteration": 2.786311149597168
+    },
+    {
+      "auxiliary_loss_clip": 0.01194013,
+      "auxiliary_loss_mlp": 0.01021731,
+      "balance_loss_clip": 1.05103755,
+      "balance_loss_mlp": 1.01413763,
+      "epoch": 0.48097156255636386,
+      "flos": 20558643949440.0,
+      "grad_norm": 1.8560472378516728,
+      "language_loss": 0.73239964,
+      "learning_rate": 2.220002858758162e-06,
+      "loss": 0.75455707,
+      "num_input_tokens_seen": 86085460,
+      "step": 4000,
+      "time_per_iteration": 2.6336822509765625
+    },
+    {
+      "auxiliary_loss_clip": 0.01091269,
+      "auxiliary_loss_mlp": 0.01000771,
+      "balance_loss_clip": 1.01818359,
+      "balance_loss_mlp": 0.99946576,
+      "epoch": 0.481091805447003,
+      "flos": 70511608817280.0,
+      "grad_norm": 0.8774923693143801,
+      "language_loss": 0.60866898,
+      "learning_rate": 2.2192285976880573e-06,
+      "loss": 0.62958944,
+      "num_input_tokens_seen": 86149715,
+      "step": 4001,
+      "time_per_iteration": 3.238496780395508
+    },
+    {
+      "auxiliary_loss_clip": 0.0121469,
+      "auxiliary_loss_mlp": 0.01378506,
+      "balance_loss_clip": 1.05063593,
+      "balance_loss_mlp": 1.00005984,
+      "epoch": 0.48121204833764203,
+      "flos": 36428214839040.0,
+      "grad_norm": 1.697096450426754,
+      "language_loss": 0.81054717,
+      "learning_rate": 2.2184543033611485e-06,
+      "loss": 0.83647919,
+      "num_input_tokens_seen": 86170795,
+      "step": 4002,
+      "time_per_iteration": 2.8754026889801025
+    },
+    {
+      "auxiliary_loss_clip": 0.01197194,
+      "auxiliary_loss_mlp": 0.01024953,
+      "balance_loss_clip": 1.05293202,
+      "balance_loss_mlp": 1.01690638,
+      "epoch": 0.48133229122828114,
+      "flos": 27490264871040.0,
+      "grad_norm": 2.029948022053734,
+      "language_loss": 0.81614566,
+      "learning_rate": 2.2176799758948957e-06,
+      "loss": 0.83836716,
+      "num_input_tokens_seen": 86190955,
+      "step": 4003,
+      "time_per_iteration": 2.6826062202453613
+    },
+    {
+      "auxiliary_loss_clip": 0.01198398,
+      "auxiliary_loss_mlp": 0.01034715,
+      "balance_loss_clip": 1.05351686,
+      "balance_loss_mlp": 1.02650714,
+      "epoch": 0.4814525341189202,
+      "flos": 43072802179200.0,
+      "grad_norm": 1.7924484962428302,
+      "language_loss": 0.7310046,
+      "learning_rate": 2.2169056154067635e-06,
+      "loss": 0.75333577,
+      "num_input_tokens_seen": 86214875,
+      "step": 4004,
+      "time_per_iteration": 2.8711371421813965
+    },
+    {
+      "auxiliary_loss_clip": 0.01195304,
+      "auxiliary_loss_mlp": 0.01379185,
+      "balance_loss_clip": 1.05523038,
+      "balance_loss_mlp": 1.00005102,
+      "epoch": 0.4815727770095593,
+      "flos": 24236901400320.0,
+      "grad_norm": 1.6783724062834156,
+      "language_loss": 0.82333022,
+      "learning_rate": 2.216131222014222e-06,
+      "loss": 0.84907508,
+      "num_input_tokens_seen": 86232950,
+      "step": 4005,
+      "time_per_iteration": 2.6278460025787354
+    },
+    {
+      "auxiliary_loss_clip": 0.01208093,
+      "auxiliary_loss_mlp": 0.0102956,
+      "balance_loss_clip": 1.05131602,
+      "balance_loss_mlp": 1.02091765,
+      "epoch": 0.4816930199001984,
+      "flos": 18113630100480.0,
+      "grad_norm": 2.1564502982904257,
+      "language_loss": 0.8036381,
+      "learning_rate": 2.2153567958347455e-06,
+      "loss": 0.82601464,
+      "num_input_tokens_seen": 86249160,
+      "step": 4006,
+      "time_per_iteration": 2.7005972862243652
+    },
+    {
+      "auxiliary_loss_clip": 0.01203252,
+      "auxiliary_loss_mlp": 0.0102787,
+      "balance_loss_clip": 1.05320334,
+      "balance_loss_mlp": 1.01966882,
+      "epoch": 0.48181326279083747,
+      "flos": 17274720983040.0,
+      "grad_norm": 3.1756232631486356,
+      "language_loss": 0.79735655,
+      "learning_rate": 2.214582336985815e-06,
+      "loss": 0.81966782,
+      "num_input_tokens_seen": 86267060,
+      "step": 4007,
+      "time_per_iteration": 2.641435146331787
+    },
+    {
+      "auxiliary_loss_clip": 0.0119426,
+      "auxiliary_loss_mlp": 0.01034473,
+      "balance_loss_clip": 1.05128372,
+      "balance_loss_mlp": 1.02546108,
+      "epoch": 0.4819335056814766,
+      "flos": 14903252231040.0,
+      "grad_norm": 2.6215342947165348,
+      "language_loss": 0.66028088,
+      "learning_rate": 2.2138078455849142e-06,
+      "loss": 0.68256819,
+      "num_input_tokens_seen": 86285055,
+      "step": 4008,
+      "time_per_iteration": 2.670074939727783
+    },
+    {
+      "auxiliary_loss_clip": 0.01201191,
+      "auxiliary_loss_mlp": 0.01031458,
+      "balance_loss_clip": 1.0548898,
+      "balance_loss_mlp": 1.02337527,
+      "epoch": 0.4820537485721157,
+      "flos": 19244888012160.0,
+      "grad_norm": 2.024071169521747,
+      "language_loss": 0.78426749,
+      "learning_rate": 2.2130333217495334e-06,
+      "loss": 0.80659395,
+      "num_input_tokens_seen": 86304225,
+      "step": 4009,
+      "time_per_iteration": 2.628000497817993
+    },
+    {
+      "auxiliary_loss_clip": 0.0119792,
+      "auxiliary_loss_mlp": 0.01027693,
+      "balance_loss_clip": 1.05086315,
+      "balance_loss_mlp": 1.01920545,
+      "epoch": 0.48217399146275475,
+      "flos": 16033791870720.0,
+      "grad_norm": 2.551426429254802,
+      "language_loss": 0.67703754,
+      "learning_rate": 2.2122587655971665e-06,
+      "loss": 0.69929361,
+      "num_input_tokens_seen": 86319170,
+      "step": 4010,
+      "time_per_iteration": 2.6392502784729004
+    },
+    {
+      "auxiliary_loss_clip": 0.01201165,
+      "auxiliary_loss_mlp": 0.01027344,
+      "balance_loss_clip": 1.04869199,
+      "balance_loss_mlp": 1.01912463,
+      "epoch": 0.48229423435339386,
+      "flos": 24134197438080.0,
+      "grad_norm": 1.5238830963253591,
+      "language_loss": 0.64132857,
+      "learning_rate": 2.211484177245314e-06,
+      "loss": 0.66361362,
+      "num_input_tokens_seen": 86338760,
+      "step": 4011,
+      "time_per_iteration": 2.7328648567199707
+    },
+    {
+      "auxiliary_loss_clip": 0.01188439,
+      "auxiliary_loss_mlp": 0.01029077,
+      "balance_loss_clip": 1.05626225,
+      "balance_loss_mlp": 1.02050626,
+      "epoch": 0.48241447724403297,
+      "flos": 23805435231360.0,
+      "grad_norm": 2.249692564713587,
+      "language_loss": 0.71601021,
+      "learning_rate": 2.21070955681148e-06,
+      "loss": 0.73818535,
+      "num_input_tokens_seen": 86357865,
+      "step": 4012,
+      "time_per_iteration": 2.6249351501464844
+    },
+    {
+      "auxiliary_loss_clip": 0.0120361,
+      "auxiliary_loss_mlp": 0.01031312,
+      "balance_loss_clip": 1.05035579,
+      "balance_loss_mlp": 1.02339697,
+      "epoch": 0.482534720134672,
+      "flos": 23110312256640.0,
+      "grad_norm": 1.5429654307303222,
+      "language_loss": 0.77784818,
+      "learning_rate": 2.209934904413174e-06,
+      "loss": 0.80019742,
+      "num_input_tokens_seen": 86379470,
+      "step": 4013,
+      "time_per_iteration": 3.686549186706543
+    },
+    {
+      "auxiliary_loss_clip": 0.01219373,
+      "auxiliary_loss_mlp": 0.01029036,
+      "balance_loss_clip": 1.03996408,
+      "balance_loss_mlp": 1.02014887,
+      "epoch": 0.48265496302531113,
+      "flos": 20923819568640.0,
+      "grad_norm": 3.1982698730553394,
+      "language_loss": 0.71290529,
+      "learning_rate": 2.2091602201679095e-06,
+      "loss": 0.73538935,
+      "num_input_tokens_seen": 86399080,
+      "step": 4014,
+      "time_per_iteration": 2.78442120552063
+    },
+    {
+      "auxiliary_loss_clip": 0.0121451,
+      "auxiliary_loss_mlp": 0.01027345,
+      "balance_loss_clip": 1.05036879,
+      "balance_loss_mlp": 1.01943851,
+      "epoch": 0.48277520591595025,
+      "flos": 15231152511360.0,
+      "grad_norm": 2.2998983710140934,
+      "language_loss": 0.83391929,
+      "learning_rate": 2.208385504193206e-06,
+      "loss": 0.85633779,
+      "num_input_tokens_seen": 86416580,
+      "step": 4015,
+      "time_per_iteration": 4.629103422164917
+    },
+    {
+      "auxiliary_loss_clip": 0.01186361,
+      "auxiliary_loss_mlp": 0.01030871,
+      "balance_loss_clip": 1.05372739,
+      "balance_loss_mlp": 1.02268076,
+      "epoch": 0.4828954488065893,
+      "flos": 17858664385920.0,
+      "grad_norm": 2.1489642060671987,
+      "language_loss": 0.81327736,
+      "learning_rate": 2.2076107566065873e-06,
+      "loss": 0.8354497,
+      "num_input_tokens_seen": 86434365,
+      "step": 4016,
+      "time_per_iteration": 2.607558488845825
+    },
+    {
+      "auxiliary_loss_clip": 0.01196891,
+      "auxiliary_loss_mlp": 0.01026787,
+      "balance_loss_clip": 1.0537138,
+      "balance_loss_mlp": 1.0190506,
+      "epoch": 0.4830156916972284,
+      "flos": 32087405070720.0,
+      "grad_norm": 2.0834038647690964,
+      "language_loss": 0.75481296,
+      "learning_rate": 2.2068359775255816e-06,
+      "loss": 0.77704972,
+      "num_input_tokens_seen": 86452675,
+      "step": 4017,
+      "time_per_iteration": 2.7287943363189697
+    },
+    {
+      "auxiliary_loss_clip": 0.01213305,
+      "auxiliary_loss_mlp": 0.01023054,
+      "balance_loss_clip": 1.04703927,
+      "balance_loss_mlp": 1.01531744,
+      "epoch": 0.48313593458786747,
+      "flos": 21871717528320.0,
+      "grad_norm": 2.723973587254907,
+      "language_loss": 0.78538835,
+      "learning_rate": 2.206061167067723e-06,
+      "loss": 0.80775201,
+      "num_input_tokens_seen": 86470785,
+      "step": 4018,
+      "time_per_iteration": 2.808082103729248
+    },
+    {
+      "auxiliary_loss_clip": 0.01208207,
+      "auxiliary_loss_mlp": 0.01026417,
+      "balance_loss_clip": 1.04752612,
+      "balance_loss_mlp": 1.01800704,
+      "epoch": 0.4832561774785066,
+      "flos": 22601206840320.0,
+      "grad_norm": 2.294909182388478,
+      "language_loss": 0.79553688,
+      "learning_rate": 2.205286325350549e-06,
+      "loss": 0.81788307,
+      "num_input_tokens_seen": 86489850,
+      "step": 4019,
+      "time_per_iteration": 2.7502071857452393
+    },
+    {
+      "auxiliary_loss_clip": 0.01220498,
+      "auxiliary_loss_mlp": 0.01031995,
+      "balance_loss_clip": 1.04963207,
+      "balance_loss_mlp": 1.02276182,
+      "epoch": 0.4833764203691457,
+      "flos": 13437342282240.0,
+      "grad_norm": 1.97380515778772,
+      "language_loss": 0.72835469,
+      "learning_rate": 2.204511452491603e-06,
+      "loss": 0.75087965,
+      "num_input_tokens_seen": 86506475,
+      "step": 4020,
+      "time_per_iteration": 2.7511558532714844
+    },
+    {
+      "auxiliary_loss_clip": 0.01184453,
+      "auxiliary_loss_mlp": 0.01026801,
+      "balance_loss_clip": 1.05683744,
+      "balance_loss_mlp": 1.01835549,
+      "epoch": 0.48349666325978474,
+      "flos": 44128036955520.0,
+      "grad_norm": 1.5084749371573944,
+      "language_loss": 0.74988472,
+      "learning_rate": 2.2037365486084316e-06,
+      "loss": 0.77199727,
+      "num_input_tokens_seen": 86529715,
+      "step": 4021,
+      "time_per_iteration": 3.8004562854766846
+    },
+    {
+      "auxiliary_loss_clip": 0.01216739,
+      "auxiliary_loss_mlp": 0.01026404,
+      "balance_loss_clip": 1.04647899,
+      "balance_loss_mlp": 1.01832795,
+      "epoch": 0.48361690615042385,
+      "flos": 26028377245440.0,
+      "grad_norm": 1.8437160870287188,
+      "language_loss": 0.77944672,
+      "learning_rate": 2.2029616138185886e-06,
+      "loss": 0.80187809,
+      "num_input_tokens_seen": 86548715,
+      "step": 4022,
+      "time_per_iteration": 2.7321720123291016
+    },
+    {
+      "auxiliary_loss_clip": 0.01210862,
+      "auxiliary_loss_mlp": 0.01030481,
+      "balance_loss_clip": 1.05410647,
+      "balance_loss_mlp": 1.02179635,
+      "epoch": 0.48373714904106296,
+      "flos": 22273306560000.0,
+      "grad_norm": 2.555151538521395,
+      "language_loss": 0.82731223,
+      "learning_rate": 2.202186648239629e-06,
+      "loss": 0.8497256,
+      "num_input_tokens_seen": 86568650,
+      "step": 4023,
+      "time_per_iteration": 2.698425531387329
+    },
+    {
+      "auxiliary_loss_clip": 0.01193046,
+      "auxiliary_loss_mlp": 0.01027447,
+      "balance_loss_clip": 1.05390024,
+      "balance_loss_mlp": 1.01908445,
+      "epoch": 0.483857391931702,
+      "flos": 28292293699200.0,
+      "grad_norm": 1.7362202598638143,
+      "language_loss": 0.71475494,
+      "learning_rate": 2.201411651989117e-06,
+      "loss": 0.73695982,
+      "num_input_tokens_seen": 86590630,
+      "step": 4024,
+      "time_per_iteration": 2.702458143234253
+    },
+    {
+      "auxiliary_loss_clip": 0.01200353,
+      "auxiliary_loss_mlp": 0.01378819,
+      "balance_loss_clip": 1.05271769,
+      "balance_loss_mlp": 0.99999237,
+      "epoch": 0.48397763482234113,
+      "flos": 27418048577280.0,
+      "grad_norm": 6.862433825855763,
+      "language_loss": 0.78051823,
+      "learning_rate": 2.2006366251846167e-06,
+      "loss": 0.80630994,
+      "num_input_tokens_seen": 86611270,
+      "step": 4025,
+      "time_per_iteration": 2.753336191177368
+    },
+    {
+      "auxiliary_loss_clip": 0.01203315,
+      "auxiliary_loss_mlp": 0.01025532,
+      "balance_loss_clip": 1.05509746,
+      "balance_loss_mlp": 1.01805472,
+      "epoch": 0.48409787771298024,
+      "flos": 16797252470400.0,
+      "grad_norm": 1.791195939922571,
+      "language_loss": 0.75770813,
+      "learning_rate": 2.1998615679436997e-06,
+      "loss": 0.77999663,
+      "num_input_tokens_seen": 86628810,
+      "step": 4026,
+      "time_per_iteration": 2.640428304672241
+    },
+    {
+      "auxiliary_loss_clip": 0.012091,
+      "auxiliary_loss_mlp": 0.01031947,
+      "balance_loss_clip": 1.05167007,
+      "balance_loss_mlp": 1.02385294,
+      "epoch": 0.4842181206036193,
+      "flos": 25083496028160.0,
+      "grad_norm": 4.38156785803652,
+      "language_loss": 0.76713395,
+      "learning_rate": 2.199086480383942e-06,
+      "loss": 0.78954446,
+      "num_input_tokens_seen": 86648185,
+      "step": 4027,
+      "time_per_iteration": 2.7067136764526367
+    },
+    {
+      "auxiliary_loss_clip": 0.01212364,
+      "auxiliary_loss_mlp": 0.01032636,
+      "balance_loss_clip": 1.0525887,
+      "balance_loss_mlp": 1.02358222,
+      "epoch": 0.4843383634942584,
+      "flos": 30372311496960.0,
+      "grad_norm": 4.296613325722817,
+      "language_loss": 0.6763072,
+      "learning_rate": 2.1983113626229234e-06,
+      "loss": 0.69875717,
+      "num_input_tokens_seen": 86667435,
+      "step": 4028,
+      "time_per_iteration": 2.7620105743408203
+    },
+    {
+      "auxiliary_loss_clip": 0.01203159,
+      "auxiliary_loss_mlp": 0.01378939,
+      "balance_loss_clip": 1.04808438,
+      "balance_loss_mlp": 1.00005579,
+      "epoch": 0.4844586063848975,
+      "flos": 20413564917120.0,
+      "grad_norm": 1.6469740969060458,
+      "language_loss": 0.78427577,
+      "learning_rate": 2.1975362147782293e-06,
+      "loss": 0.81009674,
+      "num_input_tokens_seen": 86686630,
+      "step": 4029,
+      "time_per_iteration": 2.7586495876312256
+    },
+    {
+      "auxiliary_loss_clip": 0.01099507,
+      "auxiliary_loss_mlp": 0.01001815,
+      "balance_loss_clip": 1.01953959,
+      "balance_loss_mlp": 1.00040841,
+      "epoch": 0.48457884927553657,
+      "flos": 70303722854400.0,
+      "grad_norm": 0.690061126690983,
+      "language_loss": 0.54182088,
+      "learning_rate": 2.196761036967448e-06,
+      "loss": 0.56283414,
+      "num_input_tokens_seen": 86754595,
+      "step": 4030,
+      "time_per_iteration": 3.3436391353607178
+    },
+    {
+      "auxiliary_loss_clip": 0.01188157,
+      "auxiliary_loss_mlp": 0.01021983,
+      "balance_loss_clip": 1.05143094,
+      "balance_loss_mlp": 1.01462793,
+      "epoch": 0.4846990921661757,
+      "flos": 19934516206080.0,
+      "grad_norm": 1.6711270962323121,
+      "language_loss": 0.77687287,
+      "learning_rate": 2.1959858293081743e-06,
+      "loss": 0.79897428,
+      "num_input_tokens_seen": 86773730,
+      "step": 4031,
+      "time_per_iteration": 2.6954457759857178
+    },
+    {
+      "auxiliary_loss_clip": 0.0121048,
+      "auxiliary_loss_mlp": 0.0103123,
+      "balance_loss_clip": 1.05349123,
+      "balance_loss_mlp": 1.02351403,
+      "epoch": 0.4848193350568148,
+      "flos": 23075945919360.0,
+      "grad_norm": 1.6019148405361823,
+      "language_loss": 0.75845945,
+      "learning_rate": 2.1952105919180056e-06,
+      "loss": 0.78087652,
+      "num_input_tokens_seen": 86792985,
+      "step": 4032,
+      "time_per_iteration": 2.754845380783081
+    },
+    {
+      "auxiliary_loss_clip": 0.01204149,
+      "auxiliary_loss_mlp": 0.01030818,
+      "balance_loss_clip": 1.05513263,
+      "balance_loss_mlp": 1.0228188,
+      "epoch": 0.48493957794745385,
+      "flos": 22455481363200.0,
+      "grad_norm": 2.672710053050955,
+      "language_loss": 0.67632365,
+      "learning_rate": 2.1944353249145456e-06,
+      "loss": 0.69867331,
+      "num_input_tokens_seen": 86812095,
+      "step": 4033,
+      "time_per_iteration": 2.707043409347534
+    },
+    {
+      "auxiliary_loss_clip": 0.01185925,
+      "auxiliary_loss_mlp": 0.01026363,
+      "balance_loss_clip": 1.05747843,
+      "balance_loss_mlp": 1.01869214,
+      "epoch": 0.48505982083809296,
+      "flos": 25046112948480.0,
+      "grad_norm": 1.634656841966451,
+      "language_loss": 0.74724239,
+      "learning_rate": 2.193660028415401e-06,
+      "loss": 0.76936531,
+      "num_input_tokens_seen": 86832875,
+      "step": 4034,
+      "time_per_iteration": 2.6452691555023193
+    },
+    {
+      "auxiliary_loss_clip": 0.01190963,
+      "auxiliary_loss_mlp": 0.01033083,
+      "balance_loss_clip": 1.04960871,
+      "balance_loss_mlp": 1.02506661,
+      "epoch": 0.485180063728732,
+      "flos": 26761386090240.0,
+      "grad_norm": 1.807776600470654,
+      "language_loss": 0.82226121,
+      "learning_rate": 2.1928847025381852e-06,
+      "loss": 0.84450173,
+      "num_input_tokens_seen": 86853480,
+      "step": 4035,
+      "time_per_iteration": 2.6600446701049805
+    },
+    {
+      "auxiliary_loss_clip": 0.0118963,
+      "auxiliary_loss_mlp": 0.01026512,
+      "balance_loss_clip": 1.04969382,
+      "balance_loss_mlp": 1.01809573,
+      "epoch": 0.4853003066193711,
+      "flos": 24059143969920.0,
+      "grad_norm": 1.6663789790666785,
+      "language_loss": 0.83996052,
+      "learning_rate": 2.192109347400512e-06,
+      "loss": 0.86212194,
+      "num_input_tokens_seen": 86873695,
+      "step": 4036,
+      "time_per_iteration": 2.6686551570892334
+    },
+    {
+      "auxiliary_loss_clip": 0.01203657,
+      "auxiliary_loss_mlp": 0.010335,
+      "balance_loss_clip": 1.05010676,
+      "balance_loss_mlp": 1.02431488,
+      "epoch": 0.48542054951001024,
+      "flos": 23076376882560.0,
+      "grad_norm": 3.2991944666981627,
+      "language_loss": 0.79026443,
+      "learning_rate": 2.191333963120004e-06,
+      "loss": 0.81263602,
+      "num_input_tokens_seen": 86892675,
+      "step": 4037,
+      "time_per_iteration": 2.6492738723754883
+    },
+    {
+      "auxiliary_loss_clip": 0.01200517,
+      "auxiliary_loss_mlp": 0.01027397,
+      "balance_loss_clip": 1.05020928,
+      "balance_loss_mlp": 1.01924324,
+      "epoch": 0.4855407924006493,
+      "flos": 25664889565440.0,
+      "grad_norm": 2.128219744048363,
+      "language_loss": 0.70302814,
+      "learning_rate": 2.190558549814286e-06,
+      "loss": 0.72530735,
+      "num_input_tokens_seen": 86912835,
+      "step": 4038,
+      "time_per_iteration": 2.7697198390960693
+    },
+    {
+      "auxiliary_loss_clip": 0.01197198,
+      "auxiliary_loss_mlp": 0.01028655,
+      "balance_loss_clip": 1.04948711,
+      "balance_loss_mlp": 1.02051258,
+      "epoch": 0.4856610352912884,
+      "flos": 23987933256960.0,
+      "grad_norm": 1.793407949379741,
+      "language_loss": 0.79416662,
+      "learning_rate": 2.1897831076009872e-06,
+      "loss": 0.81642514,
+      "num_input_tokens_seen": 86932475,
+      "step": 4039,
+      "time_per_iteration": 3.642223834991455
+    },
+    {
+      "auxiliary_loss_clip": 0.01193578,
+      "auxiliary_loss_mlp": 0.01028284,
+      "balance_loss_clip": 1.05296242,
+      "balance_loss_mlp": 1.02071452,
+      "epoch": 0.4857812781819275,
+      "flos": 24096814358400.0,
+      "grad_norm": 1.6968537006415914,
+      "language_loss": 0.79842401,
+      "learning_rate": 2.1890076365977426e-06,
+      "loss": 0.82064265,
+      "num_input_tokens_seen": 86952300,
+      "step": 4040,
+      "time_per_iteration": 2.6263539791107178
+    },
+    {
+      "auxiliary_loss_clip": 0.01099205,
+      "auxiliary_loss_mlp": 0.01003799,
+      "balance_loss_clip": 1.01732326,
+      "balance_loss_mlp": 1.00272584,
+      "epoch": 0.48590152107256657,
+      "flos": 56266635185280.0,
+      "grad_norm": 0.856228729591407,
+      "language_loss": 0.52794152,
+      "learning_rate": 2.188232136922189e-06,
+      "loss": 0.54897153,
+      "num_input_tokens_seen": 87010420,
+      "step": 4041,
+      "time_per_iteration": 4.987253189086914
+    },
+    {
+      "auxiliary_loss_clip": 0.01223129,
+      "auxiliary_loss_mlp": 0.01027033,
+      "balance_loss_clip": 1.04676914,
+      "balance_loss_mlp": 1.0189625,
+      "epoch": 0.4860217639632057,
+      "flos": 20046988667520.0,
+      "grad_norm": 2.262384524001389,
+      "language_loss": 0.75513095,
+      "learning_rate": 2.187456608691971e-06,
+      "loss": 0.77763259,
+      "num_input_tokens_seen": 87029295,
+      "step": 4042,
+      "time_per_iteration": 2.8197128772735596
+    },
+    {
+      "auxiliary_loss_clip": 0.01215876,
+      "auxiliary_loss_mlp": 0.01026544,
+      "balance_loss_clip": 1.05270052,
+      "balance_loss_mlp": 1.0185982,
+      "epoch": 0.4861420068538448,
+      "flos": 17822143232640.0,
+      "grad_norm": 1.784289884533091,
+      "language_loss": 0.87823129,
+      "learning_rate": 2.1866810520247334e-06,
+      "loss": 0.90065551,
+      "num_input_tokens_seen": 87048165,
+      "step": 4043,
+      "time_per_iteration": 2.7449793815612793
+    },
+    {
+      "auxiliary_loss_clip": 0.01195823,
+      "auxiliary_loss_mlp": 0.01028694,
+      "balance_loss_clip": 1.05187154,
+      "balance_loss_mlp": 1.01996231,
+      "epoch": 0.48626224974448384,
+      "flos": 26250125857920.0,
+      "grad_norm": 1.88667810682891,
+      "language_loss": 0.64679825,
+      "learning_rate": 2.185905467038129e-06,
+      "loss": 0.66904348,
+      "num_input_tokens_seen": 87067070,
+      "step": 4044,
+      "time_per_iteration": 2.6914145946502686
+    },
+    {
+      "auxiliary_loss_clip": 0.01183066,
+      "auxiliary_loss_mlp": 0.01032219,
+      "balance_loss_clip": 1.05593348,
+      "balance_loss_mlp": 1.02503061,
+      "epoch": 0.48638249263512295,
+      "flos": 22054502862720.0,
+      "grad_norm": 1.629298175081544,
+      "language_loss": 0.77358115,
+      "learning_rate": 2.1851298538498127e-06,
+      "loss": 0.79573399,
+      "num_input_tokens_seen": 87086785,
+      "step": 4045,
+      "time_per_iteration": 2.711026906967163
+    },
+    {
+      "auxiliary_loss_clip": 0.01199822,
+      "auxiliary_loss_mlp": 0.01379244,
+      "balance_loss_clip": 1.05504608,
+      "balance_loss_mlp": 0.99999839,
+      "epoch": 0.48650273552576206,
+      "flos": 25119945354240.0,
+      "grad_norm": 1.9731891536012145,
+      "language_loss": 0.80151939,
+      "learning_rate": 2.184354212577446e-06,
+      "loss": 0.82731009,
+      "num_input_tokens_seen": 87107090,
+      "step": 4046,
+      "time_per_iteration": 2.705065965652466
+    },
+    {
+      "auxiliary_loss_clip": 0.01186857,
+      "auxiliary_loss_mlp": 0.01024958,
+      "balance_loss_clip": 1.05434465,
+      "balance_loss_mlp": 1.01651764,
+      "epoch": 0.4866229784164011,
+      "flos": 17456931699840.0,
+      "grad_norm": 3.2661541443212863,
+      "language_loss": 0.62442249,
+      "learning_rate": 2.1835785433386907e-06,
+      "loss": 0.64654064,
+      "num_input_tokens_seen": 87125905,
+      "step": 4047,
+      "time_per_iteration": 3.5088858604431152
+    },
+    {
+      "auxiliary_loss_clip": 0.01203397,
+      "auxiliary_loss_mlp": 0.01043161,
+      "balance_loss_clip": 1.05270052,
+      "balance_loss_mlp": 1.03436971,
+      "epoch": 0.48674322130704023,
+      "flos": 23331127115520.0,
+      "grad_norm": 2.188629230459578,
+      "language_loss": 0.65258968,
+      "learning_rate": 2.182802846251216e-06,
+      "loss": 0.67505527,
+      "num_input_tokens_seen": 87146175,
+      "step": 4048,
+      "time_per_iteration": 2.708760976791382
+    },
+    {
+      "auxiliary_loss_clip": 0.01211842,
+      "auxiliary_loss_mlp": 0.01026151,
+      "balance_loss_clip": 1.04855871,
+      "balance_loss_mlp": 1.0181936,
+      "epoch": 0.4868634641976793,
+      "flos": 28804344030720.0,
+      "grad_norm": 2.5947255357079277,
+      "language_loss": 0.72296858,
+      "learning_rate": 2.182027121432696e-06,
+      "loss": 0.74534857,
+      "num_input_tokens_seen": 87166800,
+      "step": 4049,
+      "time_per_iteration": 2.7688403129577637
+    },
+    {
+      "auxiliary_loss_clip": 0.01187518,
+      "auxiliary_loss_mlp": 0.01030184,
+      "balance_loss_clip": 1.05488575,
+      "balance_loss_mlp": 1.02139223,
+      "epoch": 0.4869837070883184,
+      "flos": 19025976574080.0,
+      "grad_norm": 1.8345304909133686,
+      "language_loss": 0.82258731,
+      "learning_rate": 2.1812513690008054e-06,
+      "loss": 0.84476435,
+      "num_input_tokens_seen": 87185920,
+      "step": 4050,
+      "time_per_iteration": 2.7076950073242188
+    },
+    {
+      "auxiliary_loss_clip": 0.01199631,
+      "auxiliary_loss_mlp": 0.01026529,
+      "balance_loss_clip": 1.05272567,
+      "balance_loss_mlp": 1.01831555,
+      "epoch": 0.4871039499789575,
+      "flos": 15121409483520.0,
+      "grad_norm": 2.0758915532105213,
+      "language_loss": 0.79744381,
+      "learning_rate": 2.180475589073227e-06,
+      "loss": 0.81970543,
+      "num_input_tokens_seen": 87203620,
+      "step": 4051,
+      "time_per_iteration": 2.660015344619751
+    },
+    {
+      "auxiliary_loss_clip": 0.01181618,
+      "auxiliary_loss_mlp": 0.01029784,
+      "balance_loss_clip": 1.05064464,
+      "balance_loss_mlp": 1.02161181,
+      "epoch": 0.48722419286959656,
+      "flos": 26174066808960.0,
+      "grad_norm": 1.570991456871379,
+      "language_loss": 0.73414755,
+      "learning_rate": 2.1796997817676456e-06,
+      "loss": 0.75626153,
+      "num_input_tokens_seen": 87224630,
+      "step": 4052,
+      "time_per_iteration": 2.80029296875
+    },
+    {
+      "auxiliary_loss_clip": 0.01196886,
+      "auxiliary_loss_mlp": 0.01378546,
+      "balance_loss_clip": 1.05536962,
+      "balance_loss_mlp": 1.00001967,
+      "epoch": 0.4873444357602357,
+      "flos": 24026142349440.0,
+      "grad_norm": 1.5766947815651626,
+      "language_loss": 0.67305022,
+      "learning_rate": 2.1789239472017494e-06,
+      "loss": 0.69880456,
+      "num_input_tokens_seen": 87246280,
+      "step": 4053,
+      "time_per_iteration": 2.741328001022339
+    },
+    {
+      "auxiliary_loss_clip": 0.01208712,
+      "auxiliary_loss_mlp": 0.01029237,
+      "balance_loss_clip": 1.04988325,
+      "balance_loss_mlp": 1.02164352,
+      "epoch": 0.4874646786508748,
+      "flos": 22820441500800.0,
+      "grad_norm": 1.904974225179331,
+      "language_loss": 0.7264266,
+      "learning_rate": 2.1781480854932326e-06,
+      "loss": 0.74880612,
+      "num_input_tokens_seen": 87266045,
+      "step": 4054,
+      "time_per_iteration": 2.745450735092163
+    },
+    {
+      "auxiliary_loss_clip": 0.0122135,
+      "auxiliary_loss_mlp": 0.01029369,
+      "balance_loss_clip": 1.05054092,
+      "balance_loss_mlp": 1.02176976,
+      "epoch": 0.48758492154151384,
+      "flos": 21287594557440.0,
+      "grad_norm": 2.199116782815037,
+      "language_loss": 0.79285288,
+      "learning_rate": 2.1773721967597933e-06,
+      "loss": 0.81536007,
+      "num_input_tokens_seen": 87284495,
+      "step": 4055,
+      "time_per_iteration": 2.719606399536133
+    },
+    {
+      "auxiliary_loss_clip": 0.01094924,
+      "auxiliary_loss_mlp": 0.01006044,
+      "balance_loss_clip": 1.01867211,
+      "balance_loss_mlp": 1.00476825,
+      "epoch": 0.48770516443215295,
+      "flos": 62244109180800.0,
+      "grad_norm": 0.8454982804152404,
+      "language_loss": 0.57395917,
+      "learning_rate": 2.1765962811191322e-06,
+      "loss": 0.59496886,
+      "num_input_tokens_seen": 87338960,
+      "step": 4056,
+      "time_per_iteration": 3.1759209632873535
+    },
+    {
+      "auxiliary_loss_clip": 0.01132433,
+      "auxiliary_loss_mlp": 0.01002782,
+      "balance_loss_clip": 1.02900457,
+      "balance_loss_mlp": 1.00154269,
+      "epoch": 0.48782540732279206,
+      "flos": 66133451882880.0,
+      "grad_norm": 0.8326160700352394,
+      "language_loss": 0.6213733,
+      "learning_rate": 2.1758203386889566e-06,
+      "loss": 0.64272547,
+      "num_input_tokens_seen": 87401730,
+      "step": 4057,
+      "time_per_iteration": 3.3095898628234863
+    },
+    {
+      "auxiliary_loss_clip": 0.01210005,
+      "auxiliary_loss_mlp": 0.01379086,
+      "balance_loss_clip": 1.04927659,
+      "balance_loss_mlp": 1.00006616,
+      "epoch": 0.4879456502134311,
+      "flos": 14607922608000.0,
+      "grad_norm": 1.8435295038057615,
+      "language_loss": 0.84214836,
+      "learning_rate": 2.1750443695869746e-06,
+      "loss": 0.86803925,
+      "num_input_tokens_seen": 87417300,
+      "step": 4058,
+      "time_per_iteration": 2.7194571495056152
+    },
+    {
+      "auxiliary_loss_clip": 0.01196839,
+      "auxiliary_loss_mlp": 0.01029146,
+      "balance_loss_clip": 1.0530107,
+      "balance_loss_mlp": 1.02090871,
+      "epoch": 0.4880658931040702,
+      "flos": 19500464257920.0,
+      "grad_norm": 1.67840353232838,
+      "language_loss": 0.85867202,
+      "learning_rate": 2.174268373930901e-06,
+      "loss": 0.88093185,
+      "num_input_tokens_seen": 87434815,
+      "step": 4059,
+      "time_per_iteration": 2.610496997833252
+    },
+    {
+      "auxiliary_loss_clip": 0.01203889,
+      "auxiliary_loss_mlp": 0.01378911,
+      "balance_loss_clip": 1.05036378,
+      "balance_loss_mlp": 1.00001097,
+      "epoch": 0.48818613599470934,
+      "flos": 16723060928640.0,
+      "grad_norm": 2.0801904951075443,
+      "language_loss": 0.79959095,
+      "learning_rate": 2.1734923518384537e-06,
+      "loss": 0.82541901,
+      "num_input_tokens_seen": 87451420,
+      "step": 4060,
+      "time_per_iteration": 2.7056198120117188
+    },
+    {
+      "auxiliary_loss_clip": 0.01195806,
+      "auxiliary_loss_mlp": 0.01026427,
+      "balance_loss_clip": 1.05147159,
+      "balance_loss_mlp": 1.01805878,
+      "epoch": 0.4883063788853484,
+      "flos": 26756932803840.0,
+      "grad_norm": 8.990649178548908,
+      "language_loss": 0.82206154,
+      "learning_rate": 2.1727163034273547e-06,
+      "loss": 0.84428388,
+      "num_input_tokens_seen": 87469585,
+      "step": 4061,
+      "time_per_iteration": 2.756807565689087
+    },
+    {
+      "auxiliary_loss_clip": 0.01194816,
+      "auxiliary_loss_mlp": 0.01029832,
+      "balance_loss_clip": 1.0517633,
+      "balance_loss_mlp": 1.02150559,
+      "epoch": 0.4884266217759875,
+      "flos": 16763388923520.0,
+      "grad_norm": 2.135692142074251,
+      "language_loss": 0.78630811,
+      "learning_rate": 2.17194022881533e-06,
+      "loss": 0.80855465,
+      "num_input_tokens_seen": 87485675,
+      "step": 4062,
+      "time_per_iteration": 2.6087701320648193
+    },
+    {
+      "auxiliary_loss_clip": 0.01202126,
+      "auxiliary_loss_mlp": 0.01027492,
+      "balance_loss_clip": 1.05034399,
+      "balance_loss_mlp": 1.01912975,
+      "epoch": 0.4885468646666266,
+      "flos": 24207132003840.0,
+      "grad_norm": 2.0496488411872233,
+      "language_loss": 0.67352211,
+      "learning_rate": 2.1711641281201092e-06,
+      "loss": 0.69581831,
+      "num_input_tokens_seen": 87505605,
+      "step": 4063,
+      "time_per_iteration": 2.716963052749634
+    },
+    {
+      "auxiliary_loss_clip": 0.0119465,
+      "auxiliary_loss_mlp": 0.01027506,
+      "balance_loss_clip": 1.05479574,
+      "balance_loss_mlp": 1.0191555,
+      "epoch": 0.48866710755726567,
+      "flos": 14610795696000.0,
+      "grad_norm": 2.402211242382241,
+      "language_loss": 0.79488128,
+      "learning_rate": 2.1703880014594264e-06,
+      "loss": 0.81710285,
+      "num_input_tokens_seen": 87523195,
+      "step": 4064,
+      "time_per_iteration": 2.6127371788024902
+    },
+    {
+      "auxiliary_loss_clip": 0.01211906,
+      "auxiliary_loss_mlp": 0.01033291,
+      "balance_loss_clip": 1.04949331,
+      "balance_loss_mlp": 1.02546453,
+      "epoch": 0.4887873504479048,
+      "flos": 28804451771520.0,
+      "grad_norm": 1.9443206042911543,
+      "language_loss": 0.7380656,
+      "learning_rate": 2.1696118489510182e-06,
+      "loss": 0.7605176,
+      "num_input_tokens_seen": 87544125,
+      "step": 4065,
+      "time_per_iteration": 3.7384510040283203
+    },
+    {
+      "auxiliary_loss_clip": 0.01216014,
+      "auxiliary_loss_mlp": 0.01379038,
+      "balance_loss_clip": 1.05080724,
+      "balance_loss_mlp": 0.99997985,
+      "epoch": 0.48890759333854383,
+      "flos": 22784387224320.0,
+      "grad_norm": 1.809832150395393,
+      "language_loss": 0.72162104,
+      "learning_rate": 2.1688356707126286e-06,
+      "loss": 0.74757159,
+      "num_input_tokens_seen": 87563745,
+      "step": 4066,
+      "time_per_iteration": 2.7227325439453125
+    },
+    {
+      "auxiliary_loss_clip": 0.0120605,
+      "auxiliary_loss_mlp": 0.01033978,
+      "balance_loss_clip": 1.05106831,
+      "balance_loss_mlp": 1.02473307,
+      "epoch": 0.48902783622918294,
+      "flos": 17786088956160.0,
+      "grad_norm": 1.8458617553369894,
+      "language_loss": 0.69720352,
+      "learning_rate": 2.168059466862001e-06,
+      "loss": 0.71960372,
+      "num_input_tokens_seen": 87581895,
+      "step": 4067,
+      "time_per_iteration": 3.6311304569244385
+    },
+    {
+      "auxiliary_loss_clip": 0.01202617,
+      "auxiliary_loss_mlp": 0.01028789,
+      "balance_loss_clip": 1.04872918,
+      "balance_loss_mlp": 1.02105832,
+      "epoch": 0.48914807911982205,
+      "flos": 22310294590080.0,
+      "grad_norm": 2.0066941199440675,
+      "language_loss": 0.81903481,
+      "learning_rate": 2.167283237516887e-06,
+      "loss": 0.84134889,
+      "num_input_tokens_seen": 87600170,
+      "step": 4068,
+      "time_per_iteration": 3.5883328914642334
+    },
+    {
+      "auxiliary_loss_clip": 0.01204387,
+      "auxiliary_loss_mlp": 0.0103187,
+      "balance_loss_clip": 1.05070913,
+      "balance_loss_mlp": 1.02367401,
+      "epoch": 0.4892683220104611,
+      "flos": 16363020954240.0,
+      "grad_norm": 1.8927564662459002,
+      "language_loss": 0.74917841,
+      "learning_rate": 2.1665069827950383e-06,
+      "loss": 0.771541,
+      "num_input_tokens_seen": 87617455,
+      "step": 4069,
+      "time_per_iteration": 2.693417549133301
+    },
+    {
+      "auxiliary_loss_clip": 0.01200501,
+      "auxiliary_loss_mlp": 0.01027075,
+      "balance_loss_clip": 1.05177402,
+      "balance_loss_mlp": 1.0189867,
+      "epoch": 0.4893885649011002,
+      "flos": 15739144606080.0,
+      "grad_norm": 1.9741420707667676,
+      "language_loss": 0.86440051,
+      "learning_rate": 2.1657307028142126e-06,
+      "loss": 0.88667619,
+      "num_input_tokens_seen": 87634995,
+      "step": 4070,
+      "time_per_iteration": 2.6951730251312256
+    },
+    {
+      "auxiliary_loss_clip": 0.01202839,
+      "auxiliary_loss_mlp": 0.01025953,
+      "balance_loss_clip": 1.0518899,
+      "balance_loss_mlp": 1.01815033,
+      "epoch": 0.48950880779173933,
+      "flos": 28581984887040.0,
+      "grad_norm": 2.1412896517844593,
+      "language_loss": 0.67564034,
+      "learning_rate": 2.164954397692171e-06,
+      "loss": 0.69792825,
+      "num_input_tokens_seen": 87654420,
+      "step": 4071,
+      "time_per_iteration": 2.725050449371338
+    },
+    {
+      "auxiliary_loss_clip": 0.01102074,
+      "auxiliary_loss_mlp": 0.01003549,
+      "balance_loss_clip": 1.01579642,
+      "balance_loss_mlp": 1.00217235,
+      "epoch": 0.4896290506823784,
+      "flos": 66186310746240.0,
+      "grad_norm": 1.472498886739176,
+      "language_loss": 0.77435112,
+      "learning_rate": 2.164178067546678e-06,
+      "loss": 0.79540741,
+      "num_input_tokens_seen": 87713585,
+      "step": 4072,
+      "time_per_iteration": 3.299318313598633
+    },
+    {
+      "auxiliary_loss_clip": 0.01208235,
+      "auxiliary_loss_mlp": 0.01028755,
+      "balance_loss_clip": 1.04998064,
+      "balance_loss_mlp": 1.0201,
+      "epoch": 0.4897492935730175,
+      "flos": 12531065207040.0,
+      "grad_norm": 1.8118939305453186,
+      "language_loss": 0.90700293,
+      "learning_rate": 2.163401712495504e-06,
+      "loss": 0.92937279,
+      "num_input_tokens_seen": 87731280,
+      "step": 4073,
+      "time_per_iteration": 3.586562395095825
+    },
+    {
+      "auxiliary_loss_clip": 0.01224508,
+      "auxiliary_loss_mlp": 0.01027114,
+      "balance_loss_clip": 1.05001342,
+      "balance_loss_mlp": 1.01860225,
+      "epoch": 0.4898695364636566,
+      "flos": 23476816679040.0,
+      "grad_norm": 1.7143501070846574,
+      "language_loss": 0.7911377,
+      "learning_rate": 2.1626253326564194e-06,
+      "loss": 0.81365395,
+      "num_input_tokens_seen": 87750230,
+      "step": 4074,
+      "time_per_iteration": 2.7047998905181885
+    },
+    {
+      "auxiliary_loss_clip": 0.01202587,
+      "auxiliary_loss_mlp": 0.01030363,
+      "balance_loss_clip": 1.05095506,
+      "balance_loss_mlp": 1.02132094,
+      "epoch": 0.48998977935429566,
+      "flos": 27160209774720.0,
+      "grad_norm": 1.7117630259622476,
+      "language_loss": 0.76886457,
+      "learning_rate": 2.161848928147201e-06,
+      "loss": 0.79119408,
+      "num_input_tokens_seen": 87770500,
+      "step": 4075,
+      "time_per_iteration": 2.7957990169525146
+    },
+    {
+      "auxiliary_loss_clip": 0.01194808,
+      "auxiliary_loss_mlp": 0.01033242,
+      "balance_loss_clip": 1.05475473,
+      "balance_loss_mlp": 1.02443814,
+      "epoch": 0.4901100222449348,
+      "flos": 20339588856960.0,
+      "grad_norm": 3.0545926256683655,
+      "language_loss": 0.80387211,
+      "learning_rate": 2.161072499085629e-06,
+      "loss": 0.82615262,
+      "num_input_tokens_seen": 87789495,
+      "step": 4076,
+      "time_per_iteration": 2.6655232906341553
+    },
+    {
+      "auxiliary_loss_clip": 0.01214092,
+      "auxiliary_loss_mlp": 0.01034599,
+      "balance_loss_clip": 1.05103874,
+      "balance_loss_mlp": 1.02620697,
+      "epoch": 0.4902302651355739,
+      "flos": 30446359384320.0,
+      "grad_norm": 1.7725506956290058,
+      "language_loss": 0.83046299,
+      "learning_rate": 2.160296045589487e-06,
+      "loss": 0.85294986,
+      "num_input_tokens_seen": 87812955,
+      "step": 4077,
+      "time_per_iteration": 2.8435654640197754
+    },
+    {
+      "auxiliary_loss_clip": 0.01193929,
+      "auxiliary_loss_mlp": 0.01028086,
+      "balance_loss_clip": 1.05476999,
+      "balance_loss_mlp": 1.01925254,
+      "epoch": 0.49035050802621294,
+      "flos": 19174180089600.0,
+      "grad_norm": 1.7266874139881254,
+      "language_loss": 0.6990701,
+      "learning_rate": 2.159519567776562e-06,
+      "loss": 0.72129023,
+      "num_input_tokens_seen": 87832605,
+      "step": 4078,
+      "time_per_iteration": 2.629971742630005
+    },
+    {
+      "auxiliary_loss_clip": 0.01223081,
+      "auxiliary_loss_mlp": 0.01030335,
+      "balance_loss_clip": 1.04680467,
+      "balance_loss_mlp": 1.02218139,
+      "epoch": 0.49047075091685205,
+      "flos": 22228489365120.0,
+      "grad_norm": 3.076420683820157,
+      "language_loss": 0.71278173,
+      "learning_rate": 2.1587430657646463e-06,
+      "loss": 0.73531592,
+      "num_input_tokens_seen": 87846040,
+      "step": 4079,
+      "time_per_iteration": 2.6840767860412598
+    },
+    {
+      "auxiliary_loss_clip": 0.01206761,
+      "auxiliary_loss_mlp": 0.01027346,
+      "balance_loss_clip": 1.05587971,
+      "balance_loss_mlp": 1.01924586,
+      "epoch": 0.4905909938074911,
+      "flos": 20156516213760.0,
+      "grad_norm": 2.0114517217032173,
+      "language_loss": 0.77899945,
+      "learning_rate": 2.157966539671533e-06,
+      "loss": 0.80134046,
+      "num_input_tokens_seen": 87865680,
+      "step": 4080,
+      "time_per_iteration": 2.731659173965454
+    },
+    {
+      "auxiliary_loss_clip": 0.01216092,
+      "auxiliary_loss_mlp": 0.010283,
+      "balance_loss_clip": 1.0510006,
+      "balance_loss_mlp": 1.02045035,
+      "epoch": 0.4907112366981302,
+      "flos": 17202217380480.0,
+      "grad_norm": 1.765375731464323,
+      "language_loss": 0.67636889,
+      "learning_rate": 2.157189989615021e-06,
+      "loss": 0.69881284,
+      "num_input_tokens_seen": 87884270,
+      "step": 4081,
+      "time_per_iteration": 2.674849271774292
+    },
+    {
+      "auxiliary_loss_clip": 0.01197566,
+      "auxiliary_loss_mlp": 0.01379902,
+      "balance_loss_clip": 1.05402148,
+      "balance_loss_mlp": 1.00006318,
+      "epoch": 0.4908314795887693,
+      "flos": 21688968107520.0,
+      "grad_norm": 2.1483197999608374,
+      "language_loss": 0.75308537,
+      "learning_rate": 2.156413415712913e-06,
+      "loss": 0.77886009,
+      "num_input_tokens_seen": 87906320,
+      "step": 4082,
+      "time_per_iteration": 2.6825852394104004
+    },
+    {
+      "auxiliary_loss_clip": 0.01209304,
+      "auxiliary_loss_mlp": 0.01379195,
+      "balance_loss_clip": 1.05275059,
+      "balance_loss_mlp": 1.00004911,
+      "epoch": 0.4909517224794084,
+      "flos": 26213676531840.0,
+      "grad_norm": 1.5283164808705194,
+      "language_loss": 0.78433383,
+      "learning_rate": 2.155636818083014e-06,
+      "loss": 0.81021881,
+      "num_input_tokens_seen": 87927690,
+      "step": 4083,
+      "time_per_iteration": 2.6813859939575195
+    },
+    {
+      "auxiliary_loss_clip": 0.01196554,
+      "auxiliary_loss_mlp": 0.0102789,
+      "balance_loss_clip": 1.0521785,
+      "balance_loss_mlp": 1.02033198,
+      "epoch": 0.4910719653700475,
+      "flos": 23148377694720.0,
+      "grad_norm": 1.7520665071479924,
+      "language_loss": 0.84217536,
+      "learning_rate": 2.154860196843134e-06,
+      "loss": 0.86441982,
+      "num_input_tokens_seen": 87946885,
+      "step": 4084,
+      "time_per_iteration": 2.6570565700531006
+    },
+    {
+      "auxiliary_loss_clip": 0.01186599,
+      "auxiliary_loss_mlp": 0.01031521,
+      "balance_loss_clip": 1.05505753,
+      "balance_loss_mlp": 1.02287841,
+      "epoch": 0.4911922082606866,
+      "flos": 23331845387520.0,
+      "grad_norm": 1.97381130561222,
+      "language_loss": 0.76638067,
+      "learning_rate": 2.154083552111085e-06,
+      "loss": 0.78856182,
+      "num_input_tokens_seen": 87966055,
+      "step": 4085,
+      "time_per_iteration": 2.5868475437164307
+    },
+    {
+      "auxiliary_loss_clip": 0.01187577,
+      "auxiliary_loss_mlp": 0.01033914,
+      "balance_loss_clip": 1.05424213,
+      "balance_loss_mlp": 1.02502084,
+      "epoch": 0.49131245115132566,
+      "flos": 29203239542400.0,
+      "grad_norm": 2.204239402316025,
+      "language_loss": 0.81669545,
+      "learning_rate": 2.1533068840046834e-06,
+      "loss": 0.83891034,
+      "num_input_tokens_seen": 87986320,
+      "step": 4086,
+      "time_per_iteration": 2.645230531692505
+    },
+    {
+      "auxiliary_loss_clip": 0.01194105,
+      "auxiliary_loss_mlp": 0.01379533,
+      "balance_loss_clip": 1.05027342,
+      "balance_loss_mlp": 1.00002944,
+      "epoch": 0.49143269404196477,
+      "flos": 20147465986560.0,
+      "grad_norm": 2.4042687797998687,
+      "language_loss": 0.61470103,
+      "learning_rate": 2.152530192641749e-06,
+      "loss": 0.64043748,
+      "num_input_tokens_seen": 88001230,
+      "step": 4087,
+      "time_per_iteration": 2.6679961681365967
+    },
+    {
+      "auxiliary_loss_clip": 0.01198244,
+      "auxiliary_loss_mlp": 0.01028993,
+      "balance_loss_clip": 1.0534122,
+      "balance_loss_mlp": 1.021119,
+      "epoch": 0.4915529369326039,
+      "flos": 24389809597440.0,
+      "grad_norm": 1.6423627557939,
+      "language_loss": 0.72361732,
+      "learning_rate": 2.1517534781401068e-06,
+      "loss": 0.74588966,
+      "num_input_tokens_seen": 88019110,
+      "step": 4088,
+      "time_per_iteration": 2.7487401962280273
+    },
+    {
+      "auxiliary_loss_clip": 0.01195911,
+      "auxiliary_loss_mlp": 0.01026862,
+      "balance_loss_clip": 1.0540123,
+      "balance_loss_mlp": 1.01867282,
+      "epoch": 0.49167317982324293,
+      "flos": 10524305197440.0,
+      "grad_norm": 2.096015685451598,
+      "language_loss": 0.69681334,
+      "learning_rate": 2.150976740617581e-06,
+      "loss": 0.71904111,
+      "num_input_tokens_seen": 88035670,
+      "step": 4089,
+      "time_per_iteration": 2.602532386779785
+    },
+    {
+      "auxiliary_loss_clip": 0.01207771,
+      "auxiliary_loss_mlp": 0.01028316,
+      "balance_loss_clip": 1.05337501,
+      "balance_loss_mlp": 1.02074659,
+      "epoch": 0.49179342271388204,
+      "flos": 25593427457280.0,
+      "grad_norm": 2.1655305590203375,
+      "language_loss": 0.71590698,
+      "learning_rate": 2.150199980192006e-06,
+      "loss": 0.7382679,
+      "num_input_tokens_seen": 88054790,
+      "step": 4090,
+      "time_per_iteration": 2.6982667446136475
+    },
+    {
+      "auxiliary_loss_clip": 0.01197482,
+      "auxiliary_loss_mlp": 0.01033968,
+      "balance_loss_clip": 1.0506289,
+      "balance_loss_mlp": 1.0259037,
+      "epoch": 0.49191366560452116,
+      "flos": 21102043875840.0,
+      "grad_norm": 1.6805436150578754,
+      "language_loss": 0.8072055,
+      "learning_rate": 2.1494231969812114e-06,
+      "loss": 0.82951999,
+      "num_input_tokens_seen": 88073780,
+      "step": 4091,
+      "time_per_iteration": 3.5481083393096924
+    },
+    {
+      "auxiliary_loss_clip": 0.01220131,
+      "auxiliary_loss_mlp": 0.01025554,
+      "balance_loss_clip": 1.05360484,
+      "balance_loss_mlp": 1.01822281,
+      "epoch": 0.4920339084951602,
+      "flos": 26067520091520.0,
+      "grad_norm": 2.4663788877782045,
+      "language_loss": 0.81128067,
+      "learning_rate": 2.1486463911030372e-06,
+      "loss": 0.83373749,
+      "num_input_tokens_seen": 88094430,
+      "step": 4092,
+      "time_per_iteration": 2.69838809967041
+    },
+    {
+      "auxiliary_loss_clip": 0.01200349,
+      "auxiliary_loss_mlp": 0.0103178,
+      "balance_loss_clip": 1.04994154,
+      "balance_loss_mlp": 1.02373934,
+      "epoch": 0.4921541513857993,
+      "flos": 25081269384960.0,
+      "grad_norm": 1.7329758263146982,
+      "language_loss": 0.74445045,
+      "learning_rate": 2.147869562675324e-06,
+      "loss": 0.76677167,
+      "num_input_tokens_seen": 88113400,
+      "step": 4093,
+      "time_per_iteration": 3.5853514671325684
+    },
+    {
+      "auxiliary_loss_clip": 0.01193611,
+      "auxiliary_loss_mlp": 0.01026595,
+      "balance_loss_clip": 1.05336809,
+      "balance_loss_mlp": 1.01797009,
+      "epoch": 0.49227439427643843,
+      "flos": 24389809597440.0,
+      "grad_norm": 2.6418848890731774,
+      "language_loss": 0.72412014,
+      "learning_rate": 2.147092711815915e-06,
+      "loss": 0.74632221,
+      "num_input_tokens_seen": 88132750,
+      "step": 4094,
+      "time_per_iteration": 3.621061325073242
+    },
+    {
+      "auxiliary_loss_clip": 0.01214282,
+      "auxiliary_loss_mlp": 0.01031976,
+      "balance_loss_clip": 1.054847,
+      "balance_loss_mlp": 1.0236969,
+      "epoch": 0.4923946371670775,
+      "flos": 11363753018880.0,
+      "grad_norm": 3.015569938379485,
+      "language_loss": 0.86746848,
+      "learning_rate": 2.1463158386426593e-06,
+      "loss": 0.88993108,
+      "num_input_tokens_seen": 88150560,
+      "step": 4095,
+      "time_per_iteration": 2.6778886318206787
+    },
+    {
+      "auxiliary_loss_clip": 0.01209396,
+      "auxiliary_loss_mlp": 0.01030316,
+      "balance_loss_clip": 1.05370462,
+      "balance_loss_mlp": 1.02154839,
+      "epoch": 0.4925148800577166,
+      "flos": 30445964334720.0,
+      "grad_norm": 2.1791231322794387,
+      "language_loss": 0.77183694,
+      "learning_rate": 2.145538943273407e-06,
+      "loss": 0.79423404,
+      "num_input_tokens_seen": 88170835,
+      "step": 4096,
+      "time_per_iteration": 2.7587337493896484
+    },
+    {
+      "auxiliary_loss_clip": 0.01191266,
+      "auxiliary_loss_mlp": 0.01030489,
+      "balance_loss_clip": 1.05841184,
+      "balance_loss_mlp": 1.02225208,
+      "epoch": 0.49263512294835565,
+      "flos": 20850454039680.0,
+      "grad_norm": 1.7640585621564882,
+      "language_loss": 0.71900547,
+      "learning_rate": 2.144762025826013e-06,
+      "loss": 0.74122298,
+      "num_input_tokens_seen": 88189925,
+      "step": 4097,
+      "time_per_iteration": 2.5823607444763184
+    },
+    {
+      "auxiliary_loss_clip": 0.01199317,
+      "auxiliary_loss_mlp": 0.01031152,
+      "balance_loss_clip": 1.0538795,
+      "balance_loss_mlp": 1.02219367,
+      "epoch": 0.49275536583899476,
+      "flos": 23767477534080.0,
+      "grad_norm": 2.0830297692840993,
+      "language_loss": 0.86902505,
+      "learning_rate": 2.143985086418334e-06,
+      "loss": 0.89132977,
+      "num_input_tokens_seen": 88205105,
+      "step": 4098,
+      "time_per_iteration": 2.728403329849243
+    },
+    {
+      "auxiliary_loss_clip": 0.0120868,
+      "auxiliary_loss_mlp": 0.01027597,
+      "balance_loss_clip": 1.05244434,
+      "balance_loss_mlp": 1.01983905,
+      "epoch": 0.4928756087296339,
+      "flos": 22273522041600.0,
+      "grad_norm": 1.3776857968533511,
+      "language_loss": 0.76558888,
+      "learning_rate": 2.1432081251682324e-06,
+      "loss": 0.78795159,
+      "num_input_tokens_seen": 88225475,
+      "step": 4099,
+      "time_per_iteration": 3.6642649173736572
+    },
+    {
+      "auxiliary_loss_clip": 0.01195535,
+      "auxiliary_loss_mlp": 0.01033042,
+      "balance_loss_clip": 1.05675614,
+      "balance_loss_mlp": 1.02486467,
+      "epoch": 0.49299585162027293,
+      "flos": 19645471463040.0,
+      "grad_norm": 1.8273621908022266,
+      "language_loss": 0.8725276,
+      "learning_rate": 2.142431142193572e-06,
+      "loss": 0.89481342,
+      "num_input_tokens_seen": 88243255,
+      "step": 4100,
+      "time_per_iteration": 2.5900557041168213
+    },
+    {
+      "auxiliary_loss_clip": 0.01183553,
+      "auxiliary_loss_mlp": 0.01029466,
+      "balance_loss_clip": 1.05482936,
+      "balance_loss_mlp": 1.02150929,
+      "epoch": 0.49311609451091204,
+      "flos": 38837138497920.0,
+      "grad_norm": 3.587552756398963,
+      "language_loss": 0.71459937,
+      "learning_rate": 2.1416541376122207e-06,
+      "loss": 0.73672956,
+      "num_input_tokens_seen": 88263435,
+      "step": 4101,
+      "time_per_iteration": 2.7433743476867676
+    },
+    {
+      "auxiliary_loss_clip": 0.0118449,
+      "auxiliary_loss_mlp": 0.01026796,
+      "balance_loss_clip": 1.05255604,
+      "balance_loss_mlp": 1.01795065,
+      "epoch": 0.49323633740155115,
+      "flos": 28329102161280.0,
+      "grad_norm": 2.0133103875439775,
+      "language_loss": 0.72989953,
+      "learning_rate": 2.1408771115420496e-06,
+      "loss": 0.75201237,
+      "num_input_tokens_seen": 88283295,
+      "step": 4102,
+      "time_per_iteration": 2.6262929439544678
+    },
+    {
+      "auxiliary_loss_clip": 0.01229248,
+      "auxiliary_loss_mlp": 0.01033305,
+      "balance_loss_clip": 1.05444741,
+      "balance_loss_mlp": 1.02495456,
+      "epoch": 0.4933565802921902,
+      "flos": 21135584200320.0,
+      "grad_norm": 1.9394901128646307,
+      "language_loss": 0.64613557,
+      "learning_rate": 2.140100064100932e-06,
+      "loss": 0.66876113,
+      "num_input_tokens_seen": 88299270,
+      "step": 4103,
+      "time_per_iteration": 2.7790772914886475
+    },
+    {
+      "auxiliary_loss_clip": 0.01192478,
+      "auxiliary_loss_mlp": 0.01031802,
+      "balance_loss_clip": 1.05284178,
+      "balance_loss_mlp": 1.02336216,
+      "epoch": 0.4934768231828293,
+      "flos": 18039007595520.0,
+      "grad_norm": 2.3110166860001713,
+      "language_loss": 0.76161474,
+      "learning_rate": 2.139322995406746e-06,
+      "loss": 0.78385752,
+      "num_input_tokens_seen": 88316905,
+      "step": 4104,
+      "time_per_iteration": 2.619035243988037
+    },
+    {
+      "auxiliary_loss_clip": 0.01189552,
+      "auxiliary_loss_mlp": 0.01032283,
+      "balance_loss_clip": 1.05944383,
+      "balance_loss_mlp": 1.02359867,
+      "epoch": 0.4935970660734684,
+      "flos": 23469957181440.0,
+      "grad_norm": 2.4978626880813173,
+      "language_loss": 0.7934767,
+      "learning_rate": 2.1385459055773727e-06,
+      "loss": 0.81569505,
+      "num_input_tokens_seen": 88335095,
+      "step": 4105,
+      "time_per_iteration": 2.6143131256103516
+    },
+    {
+      "auxiliary_loss_clip": 0.01201345,
+      "auxiliary_loss_mlp": 0.01378859,
+      "balance_loss_clip": 1.04512393,
+      "balance_loss_mlp": 1.00007486,
+      "epoch": 0.4937173089641075,
+      "flos": 64479258840960.0,
+      "grad_norm": 2.040283250287074,
+      "language_loss": 0.74135411,
+      "learning_rate": 2.137768794730696e-06,
+      "loss": 0.76715612,
+      "num_input_tokens_seen": 88358545,
+      "step": 4106,
+      "time_per_iteration": 3.1091487407684326
+    },
+    {
+      "auxiliary_loss_clip": 0.01209946,
+      "auxiliary_loss_mlp": 0.01035009,
+      "balance_loss_clip": 1.05647492,
+      "balance_loss_mlp": 1.02579391,
+      "epoch": 0.4938375518547466,
+      "flos": 22346025644160.0,
+      "grad_norm": 1.9010934892682936,
+      "language_loss": 0.80135524,
+      "learning_rate": 2.1369916629846026e-06,
+      "loss": 0.82380474,
+      "num_input_tokens_seen": 88378295,
+      "step": 4107,
+      "time_per_iteration": 2.679724931716919
+    },
+    {
+      "auxiliary_loss_clip": 0.01202447,
+      "auxiliary_loss_mlp": 0.01028303,
+      "balance_loss_clip": 1.05055642,
+      "balance_loss_mlp": 1.02016664,
+      "epoch": 0.4939577947453857,
+      "flos": 17858700299520.0,
+      "grad_norm": 1.784397066898016,
+      "language_loss": 0.75278598,
+      "learning_rate": 2.136214510456983e-06,
+      "loss": 0.77509344,
+      "num_input_tokens_seen": 88396750,
+      "step": 4108,
+      "time_per_iteration": 2.6857285499572754
+    },
+    {
+      "auxiliary_loss_clip": 0.0113326,
+      "auxiliary_loss_mlp": 0.01374404,
+      "balance_loss_clip": 1.02028203,
+      "balance_loss_mlp": 0.99973756,
+      "epoch": 0.49407803763602476,
+      "flos": 70066746875520.0,
+      "grad_norm": 0.9141912857026216,
+      "language_loss": 0.6312862,
+      "learning_rate": 2.1354373372657296e-06,
+      "loss": 0.65636277,
+      "num_input_tokens_seen": 88455190,
+      "step": 4109,
+      "time_per_iteration": 3.4064900875091553
+    },
+    {
+      "auxiliary_loss_clip": 0.01187192,
+      "auxiliary_loss_mlp": 0.01030359,
+      "balance_loss_clip": 1.05773497,
+      "balance_loss_mlp": 1.02247906,
+      "epoch": 0.49419828052666387,
+      "flos": 24317485562880.0,
+      "grad_norm": 1.4527617732688187,
+      "language_loss": 0.70996487,
+      "learning_rate": 2.1346601435287404e-06,
+      "loss": 0.73214042,
+      "num_input_tokens_seen": 88477460,
+      "step": 4110,
+      "time_per_iteration": 2.757537841796875
+    },
+    {
+      "auxiliary_loss_clip": 0.01201499,
+      "auxiliary_loss_mlp": 0.01027745,
+      "balance_loss_clip": 1.04998672,
+      "balance_loss_mlp": 1.01966858,
+      "epoch": 0.494318523417303,
+      "flos": 29386060790400.0,
+      "grad_norm": 1.7806356754659232,
+      "language_loss": 0.80038512,
+      "learning_rate": 2.1338829293639144e-06,
+      "loss": 0.82267761,
+      "num_input_tokens_seen": 88497820,
+      "step": 4111,
+      "time_per_iteration": 2.7443673610687256
+    },
+    {
+      "auxiliary_loss_clip": 0.01217422,
+      "auxiliary_loss_mlp": 0.01034618,
+      "balance_loss_clip": 1.04800105,
+      "balance_loss_mlp": 1.02604699,
+      "epoch": 0.49443876630794203,
+      "flos": 15268284195840.0,
+      "grad_norm": 2.9702893528555014,
+      "language_loss": 0.82503688,
+      "learning_rate": 2.1331056948891547e-06,
+      "loss": 0.84755731,
+      "num_input_tokens_seen": 88514920,
+      "step": 4112,
+      "time_per_iteration": 2.7566633224487305
+    },
+    {
+      "auxiliary_loss_clip": 0.01202933,
+      "auxiliary_loss_mlp": 0.01030629,
+      "balance_loss_clip": 1.05424213,
+      "balance_loss_mlp": 1.02164018,
+      "epoch": 0.49455900919858115,
+      "flos": 12347453859840.0,
+      "grad_norm": 2.756435426271533,
+      "language_loss": 0.76978791,
+      "learning_rate": 2.1323284402223666e-06,
+      "loss": 0.7921235,
+      "num_input_tokens_seen": 88530910,
+      "step": 4113,
+      "time_per_iteration": 2.647545576095581
+    },
+    {
+      "auxiliary_loss_clip": 0.01185531,
+      "auxiliary_loss_mlp": 0.01378595,
+      "balance_loss_clip": 1.05879068,
+      "balance_loss_mlp": 1.00003648,
+      "epoch": 0.4946792520892202,
+      "flos": 22779610715520.0,
+      "grad_norm": 1.8370313499065385,
+      "language_loss": 0.88045889,
+      "learning_rate": 2.1315511654814597e-06,
+      "loss": 0.90610015,
+      "num_input_tokens_seen": 88549320,
+      "step": 4114,
+      "time_per_iteration": 2.6235127449035645
+    },
+    {
+      "auxiliary_loss_clip": 0.01196657,
+      "auxiliary_loss_mlp": 0.01025699,
+      "balance_loss_clip": 1.05268955,
+      "balance_loss_mlp": 1.01787877,
+      "epoch": 0.4947994949798593,
+      "flos": 23148126299520.0,
+      "grad_norm": 1.8929233090596678,
+      "language_loss": 0.78285384,
+      "learning_rate": 2.1307738707843456e-06,
+      "loss": 0.80507731,
+      "num_input_tokens_seen": 88568985,
+      "step": 4115,
+      "time_per_iteration": 2.6435940265655518
+    },
+    {
+      "auxiliary_loss_clip": 0.01201793,
+      "auxiliary_loss_mlp": 0.01032976,
+      "balance_loss_clip": 1.05583525,
+      "balance_loss_mlp": 1.02409506,
+      "epoch": 0.4949197378704984,
+      "flos": 23659997063040.0,
+      "grad_norm": 1.916878009706913,
+      "language_loss": 0.69479543,
+      "learning_rate": 2.1299965562489385e-06,
+      "loss": 0.71714312,
+      "num_input_tokens_seen": 88588790,
+      "step": 4116,
+      "time_per_iteration": 2.6589534282684326
+    },
+    {
+      "auxiliary_loss_clip": 0.01191149,
+      "auxiliary_loss_mlp": 0.01023548,
+      "balance_loss_clip": 1.05237842,
+      "balance_loss_mlp": 1.01523948,
+      "epoch": 0.4950399807611375,
+      "flos": 26911493026560.0,
+      "grad_norm": 1.3830724448274434,
+      "language_loss": 0.78926814,
+      "learning_rate": 2.129219221993158e-06,
+      "loss": 0.8114152,
+      "num_input_tokens_seen": 88613575,
+      "step": 4117,
+      "time_per_iteration": 2.665494441986084
+    },
+    {
+      "auxiliary_loss_clip": 0.01118404,
+      "auxiliary_loss_mlp": 0.01002651,
+      "balance_loss_clip": 1.0248127,
+      "balance_loss_mlp": 1.00137508,
+      "epoch": 0.4951602236517766,
+      "flos": 67315270187520.0,
+      "grad_norm": 0.7839380653714775,
+      "language_loss": 0.59918964,
+      "learning_rate": 2.128441868134924e-06,
+      "loss": 0.62040019,
+      "num_input_tokens_seen": 88675510,
+      "step": 4118,
+      "time_per_iteration": 4.386830806732178
+    },
+    {
+      "auxiliary_loss_clip": 0.01212936,
+      "auxiliary_loss_mlp": 0.01028039,
+      "balance_loss_clip": 1.04901958,
+      "balance_loss_mlp": 1.02029693,
+      "epoch": 0.4952804665424157,
+      "flos": 19901442758400.0,
+      "grad_norm": 2.0520577260937083,
+      "language_loss": 0.82883656,
+      "learning_rate": 2.1276644947921606e-06,
+      "loss": 0.85124636,
+      "num_input_tokens_seen": 88694425,
+      "step": 4119,
+      "time_per_iteration": 3.5982189178466797
+    },
+    {
+      "auxiliary_loss_clip": 0.01195689,
+      "auxiliary_loss_mlp": 0.01032755,
+      "balance_loss_clip": 1.05392325,
+      "balance_loss_mlp": 1.02377534,
+      "epoch": 0.49540070943305475,
+      "flos": 18806813740800.0,
+      "grad_norm": 2.8706683149201107,
+      "language_loss": 0.82448876,
+      "learning_rate": 2.126887102082795e-06,
+      "loss": 0.84677321,
+      "num_input_tokens_seen": 88714450,
+      "step": 4120,
+      "time_per_iteration": 3.762740135192871
+    },
+    {
+      "auxiliary_loss_clip": 0.01204558,
+      "auxiliary_loss_mlp": 0.01031392,
+      "balance_loss_clip": 1.04631448,
+      "balance_loss_mlp": 1.02303553,
+      "epoch": 0.49552095232369386,
+      "flos": 24934179191040.0,
+      "grad_norm": 1.6101132999862995,
+      "language_loss": 0.70397842,
+      "learning_rate": 2.126109690124757e-06,
+      "loss": 0.72633791,
+      "num_input_tokens_seen": 88735265,
+      "step": 4121,
+      "time_per_iteration": 2.741595983505249
+    },
+    {
+      "auxiliary_loss_clip": 0.01221536,
+      "auxiliary_loss_mlp": 0.01031528,
+      "balance_loss_clip": 1.04919732,
+      "balance_loss_mlp": 1.0233202,
+      "epoch": 0.495641195214333,
+      "flos": 22857249962880.0,
+      "grad_norm": 1.690297368764054,
+      "language_loss": 0.71245909,
+      "learning_rate": 2.1253322590359786e-06,
+      "loss": 0.73498976,
+      "num_input_tokens_seen": 88754600,
+      "step": 4122,
+      "time_per_iteration": 2.877530097961426
+    },
+    {
+      "auxiliary_loss_clip": 0.01187784,
+      "auxiliary_loss_mlp": 0.01033882,
+      "balance_loss_clip": 1.05080283,
+      "balance_loss_mlp": 1.02587676,
+      "epoch": 0.49576143810497203,
+      "flos": 25769748343680.0,
+      "grad_norm": 1.7672441249944542,
+      "language_loss": 0.73964554,
+      "learning_rate": 2.124554808934397e-06,
+      "loss": 0.76186216,
+      "num_input_tokens_seen": 88775180,
+      "step": 4123,
+      "time_per_iteration": 2.663856267929077
+    },
+    {
+      "auxiliary_loss_clip": 0.01207151,
+      "auxiliary_loss_mlp": 0.01030325,
+      "balance_loss_clip": 1.04375613,
+      "balance_loss_mlp": 1.0222367,
+      "epoch": 0.49588168099561114,
+      "flos": 22128838058880.0,
+      "grad_norm": 1.846752949688217,
+      "language_loss": 0.72977376,
+      "learning_rate": 2.1237773399379496e-06,
+      "loss": 0.75214857,
+      "num_input_tokens_seen": 88796145,
+      "step": 4124,
+      "time_per_iteration": 2.771059989929199
+    },
+    {
+      "auxiliary_loss_clip": 0.01205545,
+      "auxiliary_loss_mlp": 0.01027802,
+      "balance_loss_clip": 1.04883623,
+      "balance_loss_mlp": 1.01968956,
+      "epoch": 0.49600192388625025,
+      "flos": 24387331559040.0,
+      "grad_norm": 1.75654615273294,
+      "language_loss": 0.86816323,
+      "learning_rate": 2.122999852164578e-06,
+      "loss": 0.89049673,
+      "num_input_tokens_seen": 88816765,
+      "step": 4125,
+      "time_per_iteration": 3.6723387241363525
+    },
+    {
+      "auxiliary_loss_clip": 0.01216171,
+      "auxiliary_loss_mlp": 0.01026268,
+      "balance_loss_clip": 1.0485543,
+      "balance_loss_mlp": 1.01785159,
+      "epoch": 0.4961221667768893,
+      "flos": 22857429530880.0,
+      "grad_norm": 2.119752038072088,
+      "language_loss": 0.58555323,
+      "learning_rate": 2.122222345732227e-06,
+      "loss": 0.60797763,
+      "num_input_tokens_seen": 88836680,
+      "step": 4126,
+      "time_per_iteration": 2.716444253921509
+    },
+    {
+      "auxiliary_loss_clip": 0.0121319,
+      "auxiliary_loss_mlp": 0.01030045,
+      "balance_loss_clip": 1.05070245,
+      "balance_loss_mlp": 1.02091932,
+      "epoch": 0.4962424096675284,
+      "flos": 17858089768320.0,
+      "grad_norm": 2.072453219457427,
+      "language_loss": 0.83159792,
+      "learning_rate": 2.121444820758843e-06,
+      "loss": 0.85403025,
+      "num_input_tokens_seen": 88855320,
+      "step": 4127,
+      "time_per_iteration": 2.714040756225586
+    },
+    {
+      "auxiliary_loss_clip": 0.01221252,
+      "auxiliary_loss_mlp": 0.01031844,
+      "balance_loss_clip": 1.05188632,
+      "balance_loss_mlp": 1.02304626,
+      "epoch": 0.49636265255816747,
+      "flos": 21793611404160.0,
+      "grad_norm": 5.606498170784628,
+      "language_loss": 0.7898519,
+      "learning_rate": 2.120667277362376e-06,
+      "loss": 0.81238288,
+      "num_input_tokens_seen": 88874035,
+      "step": 4128,
+      "time_per_iteration": 2.7045094966888428
+    },
+    {
+      "auxiliary_loss_clip": 0.01186766,
+      "auxiliary_loss_mlp": 0.01028445,
+      "balance_loss_clip": 1.05600691,
+      "balance_loss_mlp": 1.01991582,
+      "epoch": 0.4964828954488066,
+      "flos": 16358603581440.0,
+      "grad_norm": 2.8572294753512284,
+      "language_loss": 0.85265487,
+      "learning_rate": 2.1198897156607796e-06,
+      "loss": 0.874807,
+      "num_input_tokens_seen": 88891390,
+      "step": 4129,
+      "time_per_iteration": 2.619225263595581
+    },
+    {
+      "auxiliary_loss_clip": 0.01196212,
+      "auxiliary_loss_mlp": 0.01028814,
+      "balance_loss_clip": 1.05213451,
+      "balance_loss_mlp": 1.02031422,
+      "epoch": 0.4966031383394457,
+      "flos": 24711101775360.0,
+      "grad_norm": 1.921275795109575,
+      "language_loss": 0.74370277,
+      "learning_rate": 2.1191121357720085e-06,
+      "loss": 0.765953,
+      "num_input_tokens_seen": 88909450,
+      "step": 4130,
+      "time_per_iteration": 2.6443333625793457
+    },
+    {
+      "auxiliary_loss_clip": 0.01207711,
+      "auxiliary_loss_mlp": 0.01030411,
+      "balance_loss_clip": 1.0448637,
+      "balance_loss_mlp": 1.02236462,
+      "epoch": 0.49672338123008475,
+      "flos": 22930615491840.0,
+      "grad_norm": 5.6620623687632365,
+      "language_loss": 0.74590755,
+      "learning_rate": 2.1183345378140206e-06,
+      "loss": 0.76828873,
+      "num_input_tokens_seen": 88929195,
+      "step": 4131,
+      "time_per_iteration": 2.7540040016174316
+    },
+    {
+      "auxiliary_loss_clip": 0.0108841,
+      "auxiliary_loss_mlp": 0.01003351,
+      "balance_loss_clip": 1.0168848,
+      "balance_loss_mlp": 1.00199151,
+      "epoch": 0.49684362412072386,
+      "flos": 65976736844160.0,
+      "grad_norm": 0.877873550019601,
+      "language_loss": 0.62018478,
+      "learning_rate": 2.1175569219047783e-06,
+      "loss": 0.64110237,
+      "num_input_tokens_seen": 88990635,
+      "step": 4132,
+      "time_per_iteration": 3.316274404525757
+    },
+    {
+      "auxiliary_loss_clip": 0.01185088,
+      "auxiliary_loss_mlp": 0.01030137,
+      "balance_loss_clip": 1.05440879,
+      "balance_loss_mlp": 1.02177489,
+      "epoch": 0.49696386701136297,
+      "flos": 19971288754560.0,
+      "grad_norm": 1.7928929227968031,
+      "language_loss": 0.73356557,
+      "learning_rate": 2.1167792881622437e-06,
+      "loss": 0.75571775,
+      "num_input_tokens_seen": 89009655,
+      "step": 4133,
+      "time_per_iteration": 2.592923164367676
+    },
+    {
+      "auxiliary_loss_clip": 0.01202551,
+      "auxiliary_loss_mlp": 0.01031344,
+      "balance_loss_clip": 1.05494988,
+      "balance_loss_mlp": 1.02304101,
+      "epoch": 0.497084109902002,
+      "flos": 24750819239040.0,
+      "grad_norm": 1.800783449942406,
+      "language_loss": 0.80996013,
+      "learning_rate": 2.116001636704384e-06,
+      "loss": 0.83229911,
+      "num_input_tokens_seen": 89030040,
+      "step": 4134,
+      "time_per_iteration": 2.9168925285339355
+    },
+    {
+      "auxiliary_loss_clip": 0.01226613,
+      "auxiliary_loss_mlp": 0.01028723,
+      "balance_loss_clip": 1.04840803,
+      "balance_loss_mlp": 1.02091742,
+      "epoch": 0.49720435279264114,
+      "flos": 21871825269120.0,
+      "grad_norm": 1.8604904756924816,
+      "language_loss": 0.8039639,
+      "learning_rate": 2.1152239676491685e-06,
+      "loss": 0.82651722,
+      "num_input_tokens_seen": 89048145,
+      "step": 4135,
+      "time_per_iteration": 2.772793769836426
+    },
+    {
+      "auxiliary_loss_clip": 0.01204402,
+      "auxiliary_loss_mlp": 0.01029496,
+      "balance_loss_clip": 1.0500052,
+      "balance_loss_mlp": 1.02200413,
+      "epoch": 0.49732459568328025,
+      "flos": 23805794367360.0,
+      "grad_norm": 1.717645925596415,
+      "language_loss": 0.7326166,
+      "learning_rate": 2.114446281114569e-06,
+      "loss": 0.75495559,
+      "num_input_tokens_seen": 89067165,
+      "step": 4136,
+      "time_per_iteration": 2.7236850261688232
+    },
+    {
+      "auxiliary_loss_clip": 0.01192082,
+      "auxiliary_loss_mlp": 0.01028488,
+      "balance_loss_clip": 1.05005789,
+      "balance_loss_mlp": 1.02070928,
+      "epoch": 0.4974448385739193,
+      "flos": 20047742853120.0,
+      "grad_norm": 1.8601666324604884,
+      "language_loss": 0.76008475,
+      "learning_rate": 2.1136685772185587e-06,
+      "loss": 0.78229046,
+      "num_input_tokens_seen": 89086190,
+      "step": 4137,
+      "time_per_iteration": 2.6581485271453857
+    },
+    {
+      "auxiliary_loss_clip": 0.01201427,
+      "auxiliary_loss_mlp": 0.01379232,
+      "balance_loss_clip": 1.04727972,
+      "balance_loss_mlp": 1.00004411,
+      "epoch": 0.4975650814645584,
+      "flos": 24821347593600.0,
+      "grad_norm": 1.786738174091656,
+      "language_loss": 0.78049123,
+      "learning_rate": 2.1128908560791163e-06,
+      "loss": 0.80629784,
+      "num_input_tokens_seen": 89106020,
+      "step": 4138,
+      "time_per_iteration": 2.6800360679626465
+    },
+    {
+      "auxiliary_loss_clip": 0.0118399,
+      "auxiliary_loss_mlp": 0.01026741,
+      "balance_loss_clip": 1.05376792,
+      "balance_loss_mlp": 1.01845646,
+      "epoch": 0.4976853243551975,
+      "flos": 19829477859840.0,
+      "grad_norm": 2.171050278855522,
+      "language_loss": 0.78199661,
+      "learning_rate": 2.1121131178142203e-06,
+      "loss": 0.80410385,
+      "num_input_tokens_seen": 89125385,
+      "step": 4139,
+      "time_per_iteration": 2.5700595378875732
+    },
+    {
+      "auxiliary_loss_clip": 0.01200396,
+      "auxiliary_loss_mlp": 0.01027769,
+      "balance_loss_clip": 1.04962707,
+      "balance_loss_mlp": 1.01916194,
+      "epoch": 0.4978055672458366,
+      "flos": 23142990654720.0,
+      "grad_norm": 1.479575902469834,
+      "language_loss": 0.82424593,
+      "learning_rate": 2.1113353625418544e-06,
+      "loss": 0.84652758,
+      "num_input_tokens_seen": 89143935,
+      "step": 4140,
+      "time_per_iteration": 2.680753469467163
+    },
+    {
+      "auxiliary_loss_clip": 0.01187534,
+      "auxiliary_loss_mlp": 0.01031295,
+      "balance_loss_clip": 1.05490685,
+      "balance_loss_mlp": 1.02386272,
+      "epoch": 0.4979258101364757,
+      "flos": 15559914718080.0,
+      "grad_norm": 1.654214703447195,
+      "language_loss": 0.78865451,
+      "learning_rate": 2.1105575903800017e-06,
+      "loss": 0.81084275,
+      "num_input_tokens_seen": 89162655,
+      "step": 4141,
+      "time_per_iteration": 2.5808866024017334
+    },
+    {
+      "auxiliary_loss_clip": 0.0119674,
+      "auxiliary_loss_mlp": 0.01034608,
+      "balance_loss_clip": 1.05170691,
+      "balance_loss_mlp": 1.02684188,
+      "epoch": 0.4980460530271148,
+      "flos": 26356169784960.0,
+      "grad_norm": 1.8904107766289813,
+      "language_loss": 0.85143882,
+      "learning_rate": 2.1097798014466502e-06,
+      "loss": 0.87375236,
+      "num_input_tokens_seen": 89182255,
+      "step": 4142,
+      "time_per_iteration": 2.6865124702453613
+    },
+    {
+      "auxiliary_loss_clip": 0.01197522,
+      "auxiliary_loss_mlp": 0.01029448,
+      "balance_loss_clip": 1.05312204,
+      "balance_loss_mlp": 1.02098441,
+      "epoch": 0.49816629591775385,
+      "flos": 17274541415040.0,
+      "grad_norm": 2.1095995699638346,
+      "language_loss": 0.58818245,
+      "learning_rate": 2.109001995859791e-06,
+      "loss": 0.61045212,
+      "num_input_tokens_seen": 89201155,
+      "step": 4143,
+      "time_per_iteration": 3.584520101547241
+    },
+    {
+      "auxiliary_loss_clip": 0.01099527,
+      "auxiliary_loss_mlp": 0.01003867,
+      "balance_loss_clip": 1.0180074,
+      "balance_loss_mlp": 1.00261521,
+      "epoch": 0.49828653880839296,
+      "flos": 64930947344640.0,
+      "grad_norm": 0.7950445490191317,
+      "language_loss": 0.6006965,
+      "learning_rate": 2.108224173737415e-06,
+      "loss": 0.62173045,
+      "num_input_tokens_seen": 89264455,
+      "step": 4144,
+      "time_per_iteration": 3.199357748031616
+    },
+    {
+      "auxiliary_loss_clip": 0.01197584,
+      "auxiliary_loss_mlp": 0.0103159,
+      "balance_loss_clip": 1.04821706,
+      "balance_loss_mlp": 1.02312338,
+      "epoch": 0.498406781699032,
+      "flos": 27484806003840.0,
+      "grad_norm": 2.049056827073844,
+      "language_loss": 0.7616325,
+      "learning_rate": 2.1074463351975183e-06,
+      "loss": 0.78392422,
+      "num_input_tokens_seen": 89283340,
+      "step": 4145,
+      "time_per_iteration": 4.578942775726318
+    },
+    {
+      "auxiliary_loss_clip": 0.01215951,
+      "auxiliary_loss_mlp": 0.01029614,
+      "balance_loss_clip": 1.04998302,
+      "balance_loss_mlp": 1.0222466,
+      "epoch": 0.49852702458967113,
+      "flos": 31499870307840.0,
+      "grad_norm": 3.7039765845465937,
+      "language_loss": 0.71319455,
+      "learning_rate": 2.106668480358098e-06,
+      "loss": 0.73565024,
+      "num_input_tokens_seen": 89303565,
+      "step": 4146,
+      "time_per_iteration": 2.757716178894043
+    },
+    {
+      "auxiliary_loss_clip": 0.01219499,
+      "auxiliary_loss_mlp": 0.010287,
+      "balance_loss_clip": 1.04831815,
+      "balance_loss_mlp": 1.01995885,
+      "epoch": 0.49864726748031024,
+      "flos": 22852868503680.0,
+      "grad_norm": 1.9162188558935542,
+      "language_loss": 0.71283138,
+      "learning_rate": 2.105890609337154e-06,
+      "loss": 0.73531342,
+      "num_input_tokens_seen": 89322080,
+      "step": 4147,
+      "time_per_iteration": 2.6820857524871826
+    },
+    {
+      "auxiliary_loss_clip": 0.01076738,
+      "auxiliary_loss_mlp": 0.01003526,
+      "balance_loss_clip": 1.01825309,
+      "balance_loss_mlp": 1.00227439,
+      "epoch": 0.4987675103709493,
+      "flos": 70405708544640.0,
+      "grad_norm": 0.7001097478581746,
+      "language_loss": 0.63798225,
+      "learning_rate": 2.1051127222526883e-06,
+      "loss": 0.65878487,
+      "num_input_tokens_seen": 89394195,
+      "step": 4148,
+      "time_per_iteration": 3.2663002014160156
+    },
+    {
+      "auxiliary_loss_clip": 0.01190768,
+      "auxiliary_loss_mlp": 0.01029111,
+      "balance_loss_clip": 1.05467534,
+      "balance_loss_mlp": 1.0213685,
+      "epoch": 0.4988877532615884,
+      "flos": 28767571482240.0,
+      "grad_norm": 1.6969694638616297,
+      "language_loss": 0.80918145,
+      "learning_rate": 2.1043348192227067e-06,
+      "loss": 0.83138031,
+      "num_input_tokens_seen": 89414565,
+      "step": 4149,
+      "time_per_iteration": 2.670266628265381
+    },
+    {
+      "auxiliary_loss_clip": 0.01197183,
+      "auxiliary_loss_mlp": 0.01030017,
+      "balance_loss_clip": 1.0488627,
+      "balance_loss_mlp": 1.02228642,
+      "epoch": 0.4990079961522275,
+      "flos": 16872700988160.0,
+      "grad_norm": 1.900913773424562,
+      "language_loss": 0.61869848,
+      "learning_rate": 2.1035569003652156e-06,
+      "loss": 0.64097047,
+      "num_input_tokens_seen": 89433195,
+      "step": 4150,
+      "time_per_iteration": 2.653658390045166
+    },
+    {
+      "auxiliary_loss_clip": 0.01213671,
+      "auxiliary_loss_mlp": 0.01031495,
+      "balance_loss_clip": 1.04665446,
+      "balance_loss_mlp": 1.02172017,
+      "epoch": 0.4991282390428666,
+      "flos": 13291042187520.0,
+      "grad_norm": 1.9240670295602251,
+      "language_loss": 0.82155621,
+      "learning_rate": 2.1027789657982255e-06,
+      "loss": 0.84400785,
+      "num_input_tokens_seen": 89447410,
+      "step": 4151,
+      "time_per_iteration": 3.5947303771972656
+    },
+    {
+      "auxiliary_loss_clip": 0.01221058,
+      "auxiliary_loss_mlp": 0.01028331,
+      "balance_loss_clip": 1.04985797,
+      "balance_loss_mlp": 1.02049327,
+      "epoch": 0.4992484819335057,
+      "flos": 21537496454400.0,
+      "grad_norm": 2.130740952887998,
+      "language_loss": 0.77365756,
+      "learning_rate": 2.1020010156397482e-06,
+      "loss": 0.7961514,
+      "num_input_tokens_seen": 89464630,
+      "step": 4152,
+      "time_per_iteration": 2.8064076900482178
+    },
+    {
+      "auxiliary_loss_clip": 0.01195771,
+      "auxiliary_loss_mlp": 0.01028312,
+      "balance_loss_clip": 1.0539099,
+      "balance_loss_mlp": 1.01981878,
+      "epoch": 0.4993687248241448,
+      "flos": 24860095390080.0,
+      "grad_norm": 1.537147154043513,
+      "language_loss": 0.77546537,
+      "learning_rate": 2.101223050007797e-06,
+      "loss": 0.79770625,
+      "num_input_tokens_seen": 89483180,
+      "step": 4153,
+      "time_per_iteration": 2.7286603450775146
+    },
+    {
+      "auxiliary_loss_clip": 0.01074201,
+      "auxiliary_loss_mlp": 0.01002961,
+      "balance_loss_clip": 1.01575398,
+      "balance_loss_mlp": 1.00170934,
+      "epoch": 0.49948896771478385,
+      "flos": 62941602453120.0,
+      "grad_norm": 0.8264342144769382,
+      "language_loss": 0.53817439,
+      "learning_rate": 2.1004450690203904e-06,
+      "loss": 0.55894601,
+      "num_input_tokens_seen": 89539260,
+      "step": 4154,
+      "time_per_iteration": 3.2810051441192627
+    },
+    {
+      "auxiliary_loss_clip": 0.01073761,
+      "auxiliary_loss_mlp": 0.01001636,
+      "balance_loss_clip": 1.01540554,
+      "balance_loss_mlp": 1.00034285,
+      "epoch": 0.49960921060542296,
+      "flos": 68284213516800.0,
+      "grad_norm": 0.8735426965207918,
+      "language_loss": 0.63309169,
+      "learning_rate": 2.099667072795546e-06,
+      "loss": 0.65384567,
+      "num_input_tokens_seen": 89601380,
+      "step": 4155,
+      "time_per_iteration": 3.2312095165252686
+    },
+    {
+      "auxiliary_loss_clip": 0.01192438,
+      "auxiliary_loss_mlp": 0.01029005,
+      "balance_loss_clip": 1.05081105,
+      "balance_loss_mlp": 1.02066076,
+      "epoch": 0.49972945349606207,
+      "flos": 23659350618240.0,
+      "grad_norm": 2.7617982560022623,
+      "language_loss": 0.79551947,
+      "learning_rate": 2.0988890614512864e-06,
+      "loss": 0.81773388,
+      "num_input_tokens_seen": 89621270,
+      "step": 4156,
+      "time_per_iteration": 2.8203470706939697
+    },
+    {
+      "auxiliary_loss_clip": 0.01204121,
+      "auxiliary_loss_mlp": 0.01027448,
+      "balance_loss_clip": 1.05314136,
+      "balance_loss_mlp": 1.01897788,
+      "epoch": 0.4998496963867011,
+      "flos": 19755825022080.0,
+      "grad_norm": 2.0277482728909866,
+      "language_loss": 0.8398459,
+      "learning_rate": 2.098111035105635e-06,
+      "loss": 0.86216152,
+      "num_input_tokens_seen": 89639695,
+      "step": 4157,
+      "time_per_iteration": 2.636061906814575
+    },
+    {
+      "auxiliary_loss_clip": 0.0121834,
+      "auxiliary_loss_mlp": 0.01032221,
+      "balance_loss_clip": 1.05151582,
+      "balance_loss_mlp": 1.02353024,
+      "epoch": 0.49996993927734024,
+      "flos": 22265728790400.0,
+      "grad_norm": 1.7392748049271256,
+      "language_loss": 0.73203611,
+      "learning_rate": 2.0973329938766176e-06,
+      "loss": 0.75454175,
+      "num_input_tokens_seen": 89657125,
+      "step": 4158,
+      "time_per_iteration": 2.744764566421509
+    },
+    {
+      "auxiliary_loss_clip": 0.01198679,
+      "auxiliary_loss_mlp": 0.01027423,
+      "balance_loss_clip": 1.05398715,
+      "balance_loss_mlp": 1.01832771,
+      "epoch": 0.5000901821679793,
+      "flos": 23327212533120.0,
+      "grad_norm": 1.8788892006732707,
+      "language_loss": 0.7884469,
+      "learning_rate": 2.0965549378822618e-06,
+      "loss": 0.81070787,
+      "num_input_tokens_seen": 89678415,
+      "step": 4159,
+      "time_per_iteration": 2.6801350116729736
+    },
+    {
+      "auxiliary_loss_clip": 0.01246315,
+      "auxiliary_loss_mlp": 0.01026711,
+      "balance_loss_clip": 1.04620957,
+      "balance_loss_mlp": 1.01802111,
+      "epoch": 0.5002104250586185,
+      "flos": 20339014239360.0,
+      "grad_norm": 1.9951874797360132,
+      "language_loss": 0.83935165,
+      "learning_rate": 2.095776867240599e-06,
+      "loss": 0.86208194,
+      "num_input_tokens_seen": 89695405,
+      "step": 4160,
+      "time_per_iteration": 3.092473030090332
+    },
+    {
+      "auxiliary_loss_clip": 0.01203586,
+      "auxiliary_loss_mlp": 0.01031443,
+      "balance_loss_clip": 1.04914165,
+      "balance_loss_mlp": 1.02331901,
+      "epoch": 0.5003306679492575,
+      "flos": 13991372634240.0,
+      "grad_norm": 2.1669098138689993,
+      "language_loss": 0.82978964,
+      "learning_rate": 2.094998782069661e-06,
+      "loss": 0.85213995,
+      "num_input_tokens_seen": 89713110,
+      "step": 4161,
+      "time_per_iteration": 2.9164085388183594
+    },
+    {
+      "auxiliary_loss_clip": 0.01184517,
+      "auxiliary_loss_mlp": 0.01031715,
+      "balance_loss_clip": 1.05521703,
+      "balance_loss_mlp": 1.02326345,
+      "epoch": 0.5004509108398966,
+      "flos": 27672762896640.0,
+      "grad_norm": 1.6730589091141241,
+      "language_loss": 0.75457203,
+      "learning_rate": 2.0942206824874845e-06,
+      "loss": 0.77673429,
+      "num_input_tokens_seen": 89735885,
+      "step": 4162,
+      "time_per_iteration": 2.6426703929901123
+    },
+    {
+      "auxiliary_loss_clip": 0.01189498,
+      "auxiliary_loss_mlp": 0.01028186,
+      "balance_loss_clip": 1.05141079,
+      "balance_loss_mlp": 1.01951373,
+      "epoch": 0.5005711537305357,
+      "flos": 14976186796800.0,
+      "grad_norm": 2.271569678709389,
+      "language_loss": 0.79489672,
+      "learning_rate": 2.093442568612105e-06,
+      "loss": 0.81707358,
+      "num_input_tokens_seen": 89753690,
+      "step": 4163,
+      "time_per_iteration": 2.720627546310425
+    },
+    {
+      "auxiliary_loss_clip": 0.01183597,
+      "auxiliary_loss_mlp": 0.01025582,
+      "balance_loss_clip": 1.05204463,
+      "balance_loss_mlp": 1.01748741,
+      "epoch": 0.5006913966211748,
+      "flos": 26503259978880.0,
+      "grad_norm": 2.1530586056419203,
+      "language_loss": 0.8540687,
+      "learning_rate": 2.0926644405615613e-06,
+      "loss": 0.8761605,
+      "num_input_tokens_seen": 89774590,
+      "step": 4164,
+      "time_per_iteration": 2.6350209712982178
+    },
+    {
+      "auxiliary_loss_clip": 0.01208113,
+      "auxiliary_loss_mlp": 0.01028027,
+      "balance_loss_clip": 1.05168915,
+      "balance_loss_mlp": 1.02005756,
+      "epoch": 0.5008116395118138,
+      "flos": 20449295971200.0,
+      "grad_norm": 1.6802859809808044,
+      "language_loss": 0.81371111,
+      "learning_rate": 2.091886298453897e-06,
+      "loss": 0.8360725,
+      "num_input_tokens_seen": 89792775,
+      "step": 4165,
+      "time_per_iteration": 2.728499412536621
+    },
+    {
+      "auxiliary_loss_clip": 0.01188711,
+      "auxiliary_loss_mlp": 0.01031253,
+      "balance_loss_clip": 1.05061209,
+      "balance_loss_mlp": 1.02318215,
+      "epoch": 0.500931882402453,
+      "flos": 21579871524480.0,
+      "grad_norm": 1.7534048759308924,
+      "language_loss": 0.7276119,
+      "learning_rate": 2.091108142407153e-06,
+      "loss": 0.74981153,
+      "num_input_tokens_seen": 89811515,
+      "step": 4166,
+      "time_per_iteration": 2.6581478118896484
+    },
+    {
+      "auxiliary_loss_clip": 0.01101446,
+      "auxiliary_loss_mlp": 0.0100204,
+      "balance_loss_clip": 1.0208776,
+      "balance_loss_mlp": 1.00077057,
+      "epoch": 0.5010521252930921,
+      "flos": 57785011925760.0,
+      "grad_norm": 0.8470511922342652,
+      "language_loss": 0.62414753,
+      "learning_rate": 2.090329972539377e-06,
+      "loss": 0.64518237,
+      "num_input_tokens_seen": 89870080,
+      "step": 4167,
+      "time_per_iteration": 3.3752589225769043
+    },
+    {
+      "auxiliary_loss_clip": 0.01236458,
+      "auxiliary_loss_mlp": 0.01028327,
+      "balance_loss_clip": 1.04392862,
+      "balance_loss_mlp": 1.02000666,
+      "epoch": 0.5011723681837311,
+      "flos": 18625500864000.0,
+      "grad_norm": 1.8439223356787446,
+      "language_loss": 0.68728232,
+      "learning_rate": 2.089551788968616e-06,
+      "loss": 0.70993012,
+      "num_input_tokens_seen": 89888045,
+      "step": 4168,
+      "time_per_iteration": 3.0597009658813477
+    },
+    {
+      "auxiliary_loss_clip": 0.01072595,
+      "auxiliary_loss_mlp": 0.01001473,
+      "balance_loss_clip": 1.01423764,
+      "balance_loss_mlp": 1.00013757,
+      "epoch": 0.5012926110743702,
+      "flos": 55883146608000.0,
+      "grad_norm": 0.8369582570301688,
+      "language_loss": 0.60759568,
+      "learning_rate": 2.08877359181292e-06,
+      "loss": 0.62833631,
+      "num_input_tokens_seen": 89944610,
+      "step": 4169,
+      "time_per_iteration": 3.863163948059082
+    },
+    {
+      "auxiliary_loss_clip": 0.01212087,
+      "auxiliary_loss_mlp": 0.01028191,
+      "balance_loss_clip": 1.04635227,
+      "balance_loss_mlp": 1.02011466,
+      "epoch": 0.5014128539650093,
+      "flos": 24238266117120.0,
+      "grad_norm": 2.876812507086548,
+      "language_loss": 0.85618323,
+      "learning_rate": 2.0879953811903396e-06,
+      "loss": 0.87858605,
+      "num_input_tokens_seen": 89959495,
+      "step": 4170,
+      "time_per_iteration": 3.8428854942321777
+    },
+    {
+      "auxiliary_loss_clip": 0.01190193,
+      "auxiliary_loss_mlp": 0.01031088,
+      "balance_loss_clip": 1.05220342,
+      "balance_loss_mlp": 1.0223496,
+      "epoch": 0.5015330968556484,
+      "flos": 27527468382720.0,
+      "grad_norm": 1.8302992096489146,
+      "language_loss": 0.78687465,
+      "learning_rate": 2.08721715721893e-06,
+      "loss": 0.80908746,
+      "num_input_tokens_seen": 89978820,
+      "step": 4171,
+      "time_per_iteration": 3.6044836044311523
+    },
+    {
+      "auxiliary_loss_clip": 0.0118938,
+      "auxiliary_loss_mlp": 0.0102634,
+      "balance_loss_clip": 1.05129516,
+      "balance_loss_mlp": 1.01823974,
+      "epoch": 0.5016533397462875,
+      "flos": 23800802376960.0,
+      "grad_norm": 1.866549148834846,
+      "language_loss": 0.77148724,
+      "learning_rate": 2.0864389200167477e-06,
+      "loss": 0.79364443,
+      "num_input_tokens_seen": 89997075,
+      "step": 4172,
+      "time_per_iteration": 2.612589120864868
+    },
+    {
+      "auxiliary_loss_clip": 0.01193999,
+      "auxiliary_loss_mlp": 0.01378725,
+      "balance_loss_clip": 1.05308974,
+      "balance_loss_mlp": 1.00011444,
+      "epoch": 0.5017735826369266,
+      "flos": 25295009264640.0,
+      "grad_norm": 1.7327922480836042,
+      "language_loss": 0.79210263,
+      "learning_rate": 2.0856606697018504e-06,
+      "loss": 0.81782985,
+      "num_input_tokens_seen": 90015085,
+      "step": 4173,
+      "time_per_iteration": 2.715695858001709
+    },
+    {
+      "auxiliary_loss_clip": 0.01195161,
+      "auxiliary_loss_mlp": 0.01029705,
+      "balance_loss_clip": 1.04986835,
+      "balance_loss_mlp": 1.02117586,
+      "epoch": 0.5018938255275657,
+      "flos": 16873203778560.0,
+      "grad_norm": 2.199373621693502,
+      "language_loss": 0.72977757,
+      "learning_rate": 2.084882406392297e-06,
+      "loss": 0.7520262,
+      "num_input_tokens_seen": 90033045,
+      "step": 4174,
+      "time_per_iteration": 2.625715970993042
+    },
+    {
+      "auxiliary_loss_clip": 0.01194193,
+      "auxiliary_loss_mlp": 0.01034622,
+      "balance_loss_clip": 1.05356669,
+      "balance_loss_mlp": 1.02644444,
+      "epoch": 0.5020140684182047,
+      "flos": 25515429073920.0,
+      "grad_norm": 2.511431450406713,
+      "language_loss": 0.70769036,
+      "learning_rate": 2.0841041302061496e-06,
+      "loss": 0.7299785,
+      "num_input_tokens_seen": 90052505,
+      "step": 4175,
+      "time_per_iteration": 2.681112289428711
+    },
+    {
+      "auxiliary_loss_clip": 0.01184665,
+      "auxiliary_loss_mlp": 0.01029973,
+      "balance_loss_clip": 1.04596341,
+      "balance_loss_mlp": 1.02167034,
+      "epoch": 0.5021343113088439,
+      "flos": 23659278791040.0,
+      "grad_norm": 1.7430344418466175,
+      "language_loss": 0.75240082,
+      "learning_rate": 2.083325841261473e-06,
+      "loss": 0.77454716,
+      "num_input_tokens_seen": 90071565,
+      "step": 4176,
+      "time_per_iteration": 3.59285831451416
+    },
+    {
+      "auxiliary_loss_clip": 0.01190251,
+      "auxiliary_loss_mlp": 0.01026269,
+      "balance_loss_clip": 1.04620862,
+      "balance_loss_mlp": 1.01819825,
+      "epoch": 0.502254554199483,
+      "flos": 24534673148160.0,
+      "grad_norm": 1.803483913253401,
+      "language_loss": 0.65694654,
+      "learning_rate": 2.0825475396763322e-06,
+      "loss": 0.67911172,
+      "num_input_tokens_seen": 90092215,
+      "step": 4177,
+      "time_per_iteration": 2.6792399883270264
+    },
+    {
+      "auxiliary_loss_clip": 0.01228444,
+      "auxiliary_loss_mlp": 0.01027852,
+      "balance_loss_clip": 1.03829443,
+      "balance_loss_mlp": 1.01984167,
+      "epoch": 0.502374797090122,
+      "flos": 34240285607040.0,
+      "grad_norm": 1.3604828878155926,
+      "language_loss": 0.65599179,
+      "learning_rate": 2.081769225568796e-06,
+      "loss": 0.67855477,
+      "num_input_tokens_seen": 90114665,
+      "step": 4178,
+      "time_per_iteration": 3.3385097980499268
+    },
+    {
+      "auxiliary_loss_clip": 0.01189447,
+      "auxiliary_loss_mlp": 0.01030811,
+      "balance_loss_clip": 1.04792619,
+      "balance_loss_mlp": 1.0229311,
+      "epoch": 0.5024950399807612,
+      "flos": 26031106679040.0,
+      "grad_norm": 1.4723376157169787,
+      "language_loss": 0.7599169,
+      "learning_rate": 2.0809908990569327e-06,
+      "loss": 0.78211939,
+      "num_input_tokens_seen": 90136445,
+      "step": 4179,
+      "time_per_iteration": 3.2573533058166504
+    },
+    {
+      "auxiliary_loss_clip": 0.01198294,
+      "auxiliary_loss_mlp": 0.01028872,
+      "balance_loss_clip": 1.0512042,
+      "balance_loss_mlp": 1.02046156,
+      "epoch": 0.5026152828714002,
+      "flos": 21252438120960.0,
+      "grad_norm": 2.207292024674372,
+      "language_loss": 0.78967702,
+      "learning_rate": 2.0802125602588146e-06,
+      "loss": 0.8119486,
+      "num_input_tokens_seen": 90155710,
+      "step": 4180,
+      "time_per_iteration": 2.7208211421966553
+    },
+    {
+      "auxiliary_loss_clip": 0.01183157,
+      "auxiliary_loss_mlp": 0.01028815,
+      "balance_loss_clip": 1.05297828,
+      "balance_loss_mlp": 1.02099538,
+      "epoch": 0.5027355257620393,
+      "flos": 30956111245440.0,
+      "grad_norm": 1.8192926814681456,
+      "language_loss": 0.66846609,
+      "learning_rate": 2.0794342092925146e-06,
+      "loss": 0.69058585,
+      "num_input_tokens_seen": 90176845,
+      "step": 4181,
+      "time_per_iteration": 2.733980417251587
+    },
+    {
+      "auxiliary_loss_clip": 0.01194046,
+      "auxiliary_loss_mlp": 0.01029141,
+      "balance_loss_clip": 1.05410123,
+      "balance_loss_mlp": 1.02104688,
+      "epoch": 0.5028557686526784,
+      "flos": 24791147233920.0,
+      "grad_norm": 2.9031398201760896,
+      "language_loss": 0.67778802,
+      "learning_rate": 2.078655846276108e-06,
+      "loss": 0.7000199,
+      "num_input_tokens_seen": 90197175,
+      "step": 4182,
+      "time_per_iteration": 2.6474199295043945
+    },
+    {
+      "auxiliary_loss_clip": 0.0119504,
+      "auxiliary_loss_mlp": 0.01022862,
+      "balance_loss_clip": 1.04913163,
+      "balance_loss_mlp": 1.01433861,
+      "epoch": 0.5029760115433175,
+      "flos": 22966992990720.0,
+      "grad_norm": 1.9859089512149288,
+      "language_loss": 0.68570924,
+      "learning_rate": 2.0778774713276727e-06,
+      "loss": 0.70788825,
+      "num_input_tokens_seen": 90216650,
+      "step": 4183,
+      "time_per_iteration": 2.7469139099121094
+    },
+    {
+      "auxiliary_loss_clip": 0.01185055,
+      "auxiliary_loss_mlp": 0.01035109,
+      "balance_loss_clip": 1.04785228,
+      "balance_loss_mlp": 1.0266571,
+      "epoch": 0.5030962544339566,
+      "flos": 15305164485120.0,
+      "grad_norm": 2.2036266318288913,
+      "language_loss": 0.68169582,
+      "learning_rate": 2.077099084565287e-06,
+      "loss": 0.70389748,
+      "num_input_tokens_seen": 90234055,
+      "step": 4184,
+      "time_per_iteration": 2.581916332244873
+    },
+    {
+      "auxiliary_loss_clip": 0.01190243,
+      "auxiliary_loss_mlp": 0.01025071,
+      "balance_loss_clip": 1.04644084,
+      "balance_loss_mlp": 1.01658309,
+      "epoch": 0.5032164973245957,
+      "flos": 24494847943680.0,
+      "grad_norm": 2.160041498070599,
+      "language_loss": 0.65321255,
+      "learning_rate": 2.0763206861070313e-06,
+      "loss": 0.67536563,
+      "num_input_tokens_seen": 90253115,
+      "step": 4185,
+      "time_per_iteration": 2.7438180446624756
+    },
+    {
+      "auxiliary_loss_clip": 0.01183793,
+      "auxiliary_loss_mlp": 0.01029589,
+      "balance_loss_clip": 1.05392122,
+      "balance_loss_mlp": 1.02147698,
+      "epoch": 0.5033367402152348,
+      "flos": 16213452721920.0,
+      "grad_norm": 1.9028012000849146,
+      "language_loss": 0.74994385,
+      "learning_rate": 2.0755422760709876e-06,
+      "loss": 0.77207762,
+      "num_input_tokens_seen": 90270515,
+      "step": 4186,
+      "time_per_iteration": 2.5779714584350586
+    },
+    {
+      "auxiliary_loss_clip": 0.01208207,
+      "auxiliary_loss_mlp": 0.01032022,
+      "balance_loss_clip": 1.0454216,
+      "balance_loss_mlp": 1.02402294,
+      "epoch": 0.5034569831058738,
+      "flos": 21391375927680.0,
+      "grad_norm": 1.9272742785702048,
+      "language_loss": 0.77094871,
+      "learning_rate": 2.0747638545752417e-06,
+      "loss": 0.79335105,
+      "num_input_tokens_seen": 90289075,
+      "step": 4187,
+      "time_per_iteration": 2.8046255111694336
+    },
+    {
+      "auxiliary_loss_clip": 0.01198297,
+      "auxiliary_loss_mlp": 0.01028958,
+      "balance_loss_clip": 1.05094385,
+      "balance_loss_mlp": 1.02082515,
+      "epoch": 0.503577225996513,
+      "flos": 20558751690240.0,
+      "grad_norm": 1.9499905273283713,
+      "language_loss": 0.83387184,
+      "learning_rate": 2.073985421737878e-06,
+      "loss": 0.85614443,
+      "num_input_tokens_seen": 90306385,
+      "step": 4188,
+      "time_per_iteration": 2.6772778034210205
+    },
+    {
+      "auxiliary_loss_clip": 0.01194282,
+      "auxiliary_loss_mlp": 0.01028242,
+      "balance_loss_clip": 1.05294919,
+      "balance_loss_mlp": 1.02012396,
+      "epoch": 0.5036974688871521,
+      "flos": 27229157930880.0,
+      "grad_norm": 2.3099353066453685,
+      "language_loss": 0.74252772,
+      "learning_rate": 2.0732069776769844e-06,
+      "loss": 0.76475298,
+      "num_input_tokens_seen": 90323795,
+      "step": 4189,
+      "time_per_iteration": 2.7222442626953125
+    },
+    {
+      "auxiliary_loss_clip": 0.01183676,
+      "auxiliary_loss_mlp": 0.01031397,
+      "balance_loss_clip": 1.05484951,
+      "balance_loss_mlp": 1.0235889,
+      "epoch": 0.5038177117777911,
+      "flos": 20412164286720.0,
+      "grad_norm": 2.2046957662008593,
+      "language_loss": 0.73019892,
+      "learning_rate": 2.072428522510651e-06,
+      "loss": 0.75234967,
+      "num_input_tokens_seen": 90340360,
+      "step": 4190,
+      "time_per_iteration": 2.5828685760498047
+    },
+    {
+      "auxiliary_loss_clip": 0.0120428,
+      "auxiliary_loss_mlp": 0.0103324,
+      "balance_loss_clip": 1.05003464,
+      "balance_loss_mlp": 1.02449596,
+      "epoch": 0.5039379546684303,
+      "flos": 21907987286400.0,
+      "grad_norm": 2.21822791567805,
+      "language_loss": 0.76308161,
+      "learning_rate": 2.071650056356968e-06,
+      "loss": 0.78545678,
+      "num_input_tokens_seen": 90357900,
+      "step": 4191,
+      "time_per_iteration": 2.7816150188446045
+    },
+    {
+      "auxiliary_loss_clip": 0.01185952,
+      "auxiliary_loss_mlp": 0.01028232,
+      "balance_loss_clip": 1.05533767,
+      "balance_loss_mlp": 1.02068019,
+      "epoch": 0.5040581975590693,
+      "flos": 20010718909440.0,
+      "grad_norm": 1.8677542116316441,
+      "language_loss": 0.80058891,
+      "learning_rate": 2.070871579334028e-06,
+      "loss": 0.82273078,
+      "num_input_tokens_seen": 90377010,
+      "step": 4192,
+      "time_per_iteration": 2.6574864387512207
+    },
+    {
+      "auxiliary_loss_clip": 0.01181821,
+      "auxiliary_loss_mlp": 0.01028945,
+      "balance_loss_clip": 1.05258906,
+      "balance_loss_mlp": 1.02070725,
+      "epoch": 0.5041784404497084,
+      "flos": 20959837931520.0,
+      "grad_norm": 1.5890414929765648,
+      "language_loss": 0.71957028,
+      "learning_rate": 2.0700930915599264e-06,
+      "loss": 0.74167794,
+      "num_input_tokens_seen": 90396740,
+      "step": 4193,
+      "time_per_iteration": 2.606353759765625
+    },
+    {
+      "auxiliary_loss_clip": 0.01181082,
+      "auxiliary_loss_mlp": 0.01027879,
+      "balance_loss_clip": 1.05233431,
+      "balance_loss_mlp": 1.01954627,
+      "epoch": 0.5042986833403476,
+      "flos": 12495082757760.0,
+      "grad_norm": 2.415063964299962,
+      "language_loss": 0.78366131,
+      "learning_rate": 2.0693145931527583e-06,
+      "loss": 0.80575085,
+      "num_input_tokens_seen": 90413220,
+      "step": 4194,
+      "time_per_iteration": 2.5975489616394043
+    },
+    {
+      "auxiliary_loss_clip": 0.01195696,
+      "auxiliary_loss_mlp": 0.01023885,
+      "balance_loss_clip": 1.04954588,
+      "balance_loss_mlp": 1.01584458,
+      "epoch": 0.5044189262309866,
+      "flos": 29202305788800.0,
+      "grad_norm": 1.548855649335128,
+      "language_loss": 0.77898717,
+      "learning_rate": 2.068536084230622e-06,
+      "loss": 0.80118299,
+      "num_input_tokens_seen": 90435085,
+      "step": 4195,
+      "time_per_iteration": 2.7075090408325195
+    },
+    {
+      "auxiliary_loss_clip": 0.01191305,
+      "auxiliary_loss_mlp": 0.01027814,
+      "balance_loss_clip": 1.05206537,
+      "balance_loss_mlp": 1.01953518,
+      "epoch": 0.5045391691216257,
+      "flos": 23873198238720.0,
+      "grad_norm": 2.041508815146441,
+      "language_loss": 0.88616765,
+      "learning_rate": 2.067757564911616e-06,
+      "loss": 0.90835887,
+      "num_input_tokens_seen": 90453660,
+      "step": 4196,
+      "time_per_iteration": 3.5742573738098145
+    },
+    {
+      "auxiliary_loss_clip": 0.0120743,
+      "auxiliary_loss_mlp": 0.0137894,
+      "balance_loss_clip": 1.05072427,
+      "balance_loss_mlp": 1.00020337,
+      "epoch": 0.5046594120122648,
+      "flos": 24644990793600.0,
+      "grad_norm": 2.22933762188639,
+      "language_loss": 0.9279412,
+      "learning_rate": 2.0669790353138407e-06,
+      "loss": 0.95380485,
+      "num_input_tokens_seen": 90472625,
+      "step": 4197,
+      "time_per_iteration": 3.6386640071868896
+    },
+    {
+      "auxiliary_loss_clip": 0.01202771,
+      "auxiliary_loss_mlp": 0.01379079,
+      "balance_loss_clip": 1.04970586,
+      "balance_loss_mlp": 1.00014937,
+      "epoch": 0.5047796549029039,
+      "flos": 23362835846400.0,
+      "grad_norm": 5.203059265483145,
+      "language_loss": 0.73089796,
+      "learning_rate": 2.0662004955553995e-06,
+      "loss": 0.75671649,
+      "num_input_tokens_seen": 90492325,
+      "step": 4198,
+      "time_per_iteration": 2.6833908557891846
+    },
+    {
+      "auxiliary_loss_clip": 0.01195279,
+      "auxiliary_loss_mlp": 0.01023116,
+      "balance_loss_clip": 1.04916108,
+      "balance_loss_mlp": 1.01563549,
+      "epoch": 0.5048998977935429,
+      "flos": 17304095329920.0,
+      "grad_norm": 1.9717738953388206,
+      "language_loss": 0.76846743,
+      "learning_rate": 2.065421945754395e-06,
+      "loss": 0.79065132,
+      "num_input_tokens_seen": 90510055,
+      "step": 4199,
+      "time_per_iteration": 2.6621265411376953
+    },
+    {
+      "auxiliary_loss_clip": 0.01221961,
+      "auxiliary_loss_mlp": 0.0103059,
+      "balance_loss_clip": 1.05097985,
+      "balance_loss_mlp": 1.02322304,
+      "epoch": 0.505020140684182,
+      "flos": 34856979235200.0,
+      "grad_norm": 1.6200746120054,
+      "language_loss": 0.77825332,
+      "learning_rate": 2.0646433860289344e-06,
+      "loss": 0.80077881,
+      "num_input_tokens_seen": 90528980,
+      "step": 4200,
+      "time_per_iteration": 2.8580482006073
+    },
+    {
+      "auxiliary_loss_clip": 0.01195915,
+      "auxiliary_loss_mlp": 0.01378908,
+      "balance_loss_clip": 1.0517478,
+      "balance_loss_mlp": 1.00020063,
+      "epoch": 0.5051403835748212,
+      "flos": 24863974058880.0,
+      "grad_norm": 1.8605652709869227,
+      "language_loss": 0.82237375,
+      "learning_rate": 2.0638648164971233e-06,
+      "loss": 0.84812188,
+      "num_input_tokens_seen": 90547445,
+      "step": 4201,
+      "time_per_iteration": 2.731656074523926
+    },
+    {
+      "auxiliary_loss_clip": 0.01197796,
+      "auxiliary_loss_mlp": 0.01025889,
+      "balance_loss_clip": 1.05063784,
+      "balance_loss_mlp": 1.01781249,
+      "epoch": 0.5052606264654602,
+      "flos": 20959694277120.0,
+      "grad_norm": 1.8659191317496833,
+      "language_loss": 0.88594878,
+      "learning_rate": 2.06308623727707e-06,
+      "loss": 0.9081856,
+      "num_input_tokens_seen": 90567545,
+      "step": 4202,
+      "time_per_iteration": 3.578005313873291
+    },
+    {
+      "auxiliary_loss_clip": 0.01188057,
+      "auxiliary_loss_mlp": 0.01032353,
+      "balance_loss_clip": 1.05104983,
+      "balance_loss_mlp": 1.02411556,
+      "epoch": 0.5053808693560993,
+      "flos": 19642382893440.0,
+      "grad_norm": 2.624907402181854,
+      "language_loss": 0.76461703,
+      "learning_rate": 2.0623076484868846e-06,
+      "loss": 0.78682113,
+      "num_input_tokens_seen": 90585000,
+      "step": 4203,
+      "time_per_iteration": 2.6581549644470215
+    },
+    {
+      "auxiliary_loss_clip": 0.01102948,
+      "auxiliary_loss_mlp": 0.01002341,
+      "balance_loss_clip": 1.02408814,
+      "balance_loss_mlp": 1.00112462,
+      "epoch": 0.5055011122467384,
+      "flos": 67504915019520.0,
+      "grad_norm": 0.8312215852847408,
+      "language_loss": 0.60719287,
+      "learning_rate": 2.061529050244679e-06,
+      "loss": 0.62824583,
+      "num_input_tokens_seen": 90644745,
+      "step": 4204,
+      "time_per_iteration": 3.186854362487793
+    },
+    {
+      "auxiliary_loss_clip": 0.01214261,
+      "auxiliary_loss_mlp": 0.01022755,
+      "balance_loss_clip": 1.04931366,
+      "balance_loss_mlp": 1.0154233,
+      "epoch": 0.5056213551373775,
+      "flos": 16872952383360.0,
+      "grad_norm": 1.8844299833910358,
+      "language_loss": 0.73947453,
+      "learning_rate": 2.060750442668565e-06,
+      "loss": 0.76184464,
+      "num_input_tokens_seen": 90662500,
+      "step": 4205,
+      "time_per_iteration": 2.639244794845581
+    },
+    {
+      "auxiliary_loss_clip": 0.01192466,
+      "auxiliary_loss_mlp": 0.01024678,
+      "balance_loss_clip": 1.0533917,
+      "balance_loss_mlp": 1.01688766,
+      "epoch": 0.5057415980280165,
+      "flos": 15334179696000.0,
+      "grad_norm": 2.0860630702150593,
+      "language_loss": 0.63940305,
+      "learning_rate": 2.059971825876657e-06,
+      "loss": 0.66157454,
+      "num_input_tokens_seen": 90677010,
+      "step": 4206,
+      "time_per_iteration": 2.5846738815307617
+    },
+    {
+      "auxiliary_loss_clip": 0.01195646,
+      "auxiliary_loss_mlp": 0.01025722,
+      "balance_loss_clip": 1.05389953,
+      "balance_loss_mlp": 1.01837015,
+      "epoch": 0.5058618409186557,
+      "flos": 19025976574080.0,
+      "grad_norm": 1.8944856613905996,
+      "language_loss": 0.7622571,
+      "learning_rate": 2.0591931999870713e-06,
+      "loss": 0.7844708,
+      "num_input_tokens_seen": 90695935,
+      "step": 4207,
+      "time_per_iteration": 2.625774383544922
+    },
+    {
+      "auxiliary_loss_clip": 0.0108932,
+      "auxiliary_loss_mlp": 0.01002194,
+      "balance_loss_clip": 1.02373183,
+      "balance_loss_mlp": 1.00098443,
+      "epoch": 0.5059820838092948,
+      "flos": 63453114080640.0,
+      "grad_norm": 0.8189266150537097,
+      "language_loss": 0.57602072,
+      "learning_rate": 2.0584145651179234e-06,
+      "loss": 0.59693587,
+      "num_input_tokens_seen": 90751645,
+      "step": 4208,
+      "time_per_iteration": 3.26898193359375
+    },
+    {
+      "auxiliary_loss_clip": 0.01199808,
+      "auxiliary_loss_mlp": 0.01379208,
+      "balance_loss_clip": 1.05189741,
+      "balance_loss_mlp": 1.00021577,
+      "epoch": 0.5061023266999338,
+      "flos": 15441803821440.0,
+      "grad_norm": 2.1773639363124455,
+      "language_loss": 0.79969376,
+      "learning_rate": 2.0576359213873327e-06,
+      "loss": 0.82548392,
+      "num_input_tokens_seen": 90766795,
+      "step": 4209,
+      "time_per_iteration": 2.596806764602661
+    },
+    {
+      "auxiliary_loss_clip": 0.0120603,
+      "auxiliary_loss_mlp": 0.01023577,
+      "balance_loss_clip": 1.04847383,
+      "balance_loss_mlp": 1.01486254,
+      "epoch": 0.506222569590573,
+      "flos": 22451063990400.0,
+      "grad_norm": 3.513519291064929,
+      "language_loss": 0.70292211,
+      "learning_rate": 2.056857268913419e-06,
+      "loss": 0.72521818,
+      "num_input_tokens_seen": 90786845,
+      "step": 4210,
+      "time_per_iteration": 2.7465686798095703
+    },
+    {
+      "auxiliary_loss_clip": 0.01193391,
+      "auxiliary_loss_mlp": 0.01026059,
+      "balance_loss_clip": 1.0533551,
+      "balance_loss_mlp": 1.01810789,
+      "epoch": 0.506342812481212,
+      "flos": 17558665994880.0,
+      "grad_norm": 2.051502297501611,
+      "language_loss": 0.84287244,
+      "learning_rate": 2.056078607814303e-06,
+      "loss": 0.86506689,
+      "num_input_tokens_seen": 90802630,
+      "step": 4211,
+      "time_per_iteration": 2.563680410385132
+    },
+    {
+      "auxiliary_loss_clip": 0.01188693,
+      "auxiliary_loss_mlp": 0.01025321,
+      "balance_loss_clip": 1.05235839,
+      "balance_loss_mlp": 1.01714945,
+      "epoch": 0.5064630553718511,
+      "flos": 23402050519680.0,
+      "grad_norm": 1.7655655525784133,
+      "language_loss": 0.78387988,
+      "learning_rate": 2.055299938208106e-06,
+      "loss": 0.80602002,
+      "num_input_tokens_seen": 90823620,
+      "step": 4212,
+      "time_per_iteration": 2.6358232498168945
+    },
+    {
+      "auxiliary_loss_clip": 0.01197664,
+      "auxiliary_loss_mlp": 0.01031336,
+      "balance_loss_clip": 1.05446839,
+      "balance_loss_mlp": 1.02299094,
+      "epoch": 0.5065832982624903,
+      "flos": 23987035416960.0,
+      "grad_norm": 1.814544053183134,
+      "language_loss": 0.86333054,
+      "learning_rate": 2.0545212602129526e-06,
+      "loss": 0.88562053,
+      "num_input_tokens_seen": 90843475,
+      "step": 4213,
+      "time_per_iteration": 2.6932077407836914
+    },
+    {
+      "auxiliary_loss_clip": 0.0119176,
+      "auxiliary_loss_mlp": 0.01026011,
+      "balance_loss_clip": 1.04816175,
+      "balance_loss_mlp": 1.01801753,
+      "epoch": 0.5067035411531293,
+      "flos": 21503058289920.0,
+      "grad_norm": 2.5467333480862915,
+      "language_loss": 0.66420746,
+      "learning_rate": 2.0537425739469673e-06,
+      "loss": 0.68638521,
+      "num_input_tokens_seen": 90862410,
+      "step": 4214,
+      "time_per_iteration": 2.648442029953003
+    },
+    {
+      "auxiliary_loss_clip": 0.01087173,
+      "auxiliary_loss_mlp": 0.01004974,
+      "balance_loss_clip": 1.01508737,
+      "balance_loss_mlp": 1.00365722,
+      "epoch": 0.5068237840437684,
+      "flos": 65934397687680.0,
+      "grad_norm": 0.8369795297594648,
+      "language_loss": 0.59478855,
+      "learning_rate": 2.052963879528276e-06,
+      "loss": 0.61571002,
+      "num_input_tokens_seen": 90922280,
+      "step": 4215,
+      "time_per_iteration": 3.14144229888916
+    },
+    {
+      "auxiliary_loss_clip": 0.01193579,
+      "auxiliary_loss_mlp": 0.01027158,
+      "balance_loss_clip": 1.05340612,
+      "balance_loss_mlp": 1.01902819,
+      "epoch": 0.5069440269344075,
+      "flos": 27264206626560.0,
+      "grad_norm": 2.0444915881870265,
+      "language_loss": 0.76787794,
+      "learning_rate": 2.052185177075007e-06,
+      "loss": 0.79008532,
+      "num_input_tokens_seen": 90941850,
+      "step": 4216,
+      "time_per_iteration": 2.653721809387207
+    },
+    {
+      "auxiliary_loss_clip": 0.01191144,
+      "auxiliary_loss_mlp": 0.01030543,
+      "balance_loss_clip": 1.04982519,
+      "balance_loss_mlp": 1.0224669,
+      "epoch": 0.5070642698250466,
+      "flos": 23366319465600.0,
+      "grad_norm": 2.7671847664660287,
+      "language_loss": 0.83070576,
+      "learning_rate": 2.051406466705288e-06,
+      "loss": 0.85292262,
+      "num_input_tokens_seen": 90961390,
+      "step": 4217,
+      "time_per_iteration": 2.659158229827881
+    },
+    {
+      "auxiliary_loss_clip": 0.01181443,
+      "auxiliary_loss_mlp": 0.01029751,
+      "balance_loss_clip": 1.05142593,
+      "balance_loss_mlp": 1.02204728,
+      "epoch": 0.5071845127156857,
+      "flos": 20340127560960.0,
+      "grad_norm": 1.8862319385345128,
+      "language_loss": 0.80824143,
+      "learning_rate": 2.0506277485372486e-06,
+      "loss": 0.83035338,
+      "num_input_tokens_seen": 90980215,
+      "step": 4218,
+      "time_per_iteration": 2.549957752227783
+    },
+    {
+      "auxiliary_loss_clip": 0.01183666,
+      "auxiliary_loss_mlp": 0.01027825,
+      "balance_loss_clip": 1.05037713,
+      "balance_loss_mlp": 1.01958752,
+      "epoch": 0.5073047556063248,
+      "flos": 12092955022080.0,
+      "grad_norm": 1.6846218843206282,
+      "language_loss": 0.66703296,
+      "learning_rate": 2.04984902268902e-06,
+      "loss": 0.68914789,
+      "num_input_tokens_seen": 90997415,
+      "step": 4219,
+      "time_per_iteration": 2.690603256225586
+    },
+    {
+      "auxiliary_loss_clip": 0.01198169,
+      "auxiliary_loss_mlp": 0.01029843,
+      "balance_loss_clip": 1.04981887,
+      "balance_loss_mlp": 1.02127206,
+      "epoch": 0.5074249984969639,
+      "flos": 19682854542720.0,
+      "grad_norm": 2.108960464643654,
+      "language_loss": 0.75453663,
+      "learning_rate": 2.0490702892787345e-06,
+      "loss": 0.77681673,
+      "num_input_tokens_seen": 91016475,
+      "step": 4220,
+      "time_per_iteration": 2.5813379287719727
+    },
+    {
+      "auxiliary_loss_clip": 0.01180678,
+      "auxiliary_loss_mlp": 0.01026051,
+      "balance_loss_clip": 1.04776907,
+      "balance_loss_mlp": 1.01809931,
+      "epoch": 0.5075452413876029,
+      "flos": 28765703975040.0,
+      "grad_norm": 1.6920425620266961,
+      "language_loss": 0.62302315,
+      "learning_rate": 2.0482915484245246e-06,
+      "loss": 0.64509046,
+      "num_input_tokens_seen": 91038095,
+      "step": 4221,
+      "time_per_iteration": 2.6778907775878906
+    },
+    {
+      "auxiliary_loss_clip": 0.01208067,
+      "auxiliary_loss_mlp": 0.01033971,
+      "balance_loss_clip": 1.04715228,
+      "balance_loss_mlp": 1.02503073,
+      "epoch": 0.5076654842782421,
+      "flos": 20339445202560.0,
+      "grad_norm": 2.187823650943413,
+      "language_loss": 0.8447926,
+      "learning_rate": 2.047512800244526e-06,
+      "loss": 0.86721301,
+      "num_input_tokens_seen": 91053360,
+      "step": 4222,
+      "time_per_iteration": 4.478796005249023
+    },
+    {
+      "auxiliary_loss_clip": 0.01193617,
+      "auxiliary_loss_mlp": 0.01031012,
+      "balance_loss_clip": 1.05403328,
+      "balance_loss_mlp": 1.02211261,
+      "epoch": 0.5077857271688812,
+      "flos": 26359653404160.0,
+      "grad_norm": 2.065036462573562,
+      "language_loss": 0.78999931,
+      "learning_rate": 2.046734044856873e-06,
+      "loss": 0.81224561,
+      "num_input_tokens_seen": 91072770,
+      "step": 4223,
+      "time_per_iteration": 3.598926305770874
+    },
+    {
+      "auxiliary_loss_clip": 0.01191134,
+      "auxiliary_loss_mlp": 0.01029034,
+      "balance_loss_clip": 1.0532546,
+      "balance_loss_mlp": 1.02143478,
+      "epoch": 0.5079059700595202,
+      "flos": 21798962530560.0,
+      "grad_norm": 2.2657351198672204,
+      "language_loss": 0.81351215,
+      "learning_rate": 2.045955282379702e-06,
+      "loss": 0.83571386,
+      "num_input_tokens_seen": 91091430,
+      "step": 4224,
+      "time_per_iteration": 2.6534054279327393
+    },
+    {
+      "auxiliary_loss_clip": 0.01184435,
+      "auxiliary_loss_mlp": 0.01026233,
+      "balance_loss_clip": 1.04696965,
+      "balance_loss_mlp": 1.01811433,
+      "epoch": 0.5080262129501594,
+      "flos": 13187943175680.0,
+      "grad_norm": 3.283106013495537,
+      "language_loss": 0.75033176,
+      "learning_rate": 2.045176512931152e-06,
+      "loss": 0.77243835,
+      "num_input_tokens_seen": 91106060,
+      "step": 4225,
+      "time_per_iteration": 2.5693135261535645
+    },
+    {
+      "auxiliary_loss_clip": 0.01209548,
+      "auxiliary_loss_mlp": 0.01029604,
+      "balance_loss_clip": 1.04785323,
+      "balance_loss_mlp": 1.02205169,
+      "epoch": 0.5081464558407984,
+      "flos": 25301473712640.0,
+      "grad_norm": 1.837881498020555,
+      "language_loss": 0.75779283,
+      "learning_rate": 2.0443977366293604e-06,
+      "loss": 0.78018433,
+      "num_input_tokens_seen": 91124100,
+      "step": 4226,
+      "time_per_iteration": 2.724564790725708
+    },
+    {
+      "auxiliary_loss_clip": 0.01226668,
+      "auxiliary_loss_mlp": 0.0102965,
+      "balance_loss_clip": 1.04517484,
+      "balance_loss_mlp": 1.0205667,
+      "epoch": 0.5082666987314375,
+      "flos": 30951226995840.0,
+      "grad_norm": 1.8530646650637663,
+      "language_loss": 0.76890373,
+      "learning_rate": 2.043618953592468e-06,
+      "loss": 0.79146695,
+      "num_input_tokens_seen": 91146555,
+      "step": 4227,
+      "time_per_iteration": 2.8553354740142822
+    },
+    {
+      "auxiliary_loss_clip": 0.01202464,
+      "auxiliary_loss_mlp": 0.01031742,
+      "balance_loss_clip": 1.0522604,
+      "balance_loss_mlp": 1.0228014,
+      "epoch": 0.5083869416220766,
+      "flos": 19682495406720.0,
+      "grad_norm": 1.983143002443886,
+      "language_loss": 0.80969268,
+      "learning_rate": 2.0428401639386144e-06,
+      "loss": 0.83203477,
+      "num_input_tokens_seen": 91167120,
+      "step": 4228,
+      "time_per_iteration": 3.6082475185394287
+    },
+    {
+      "auxiliary_loss_clip": 0.0109676,
+      "auxiliary_loss_mlp": 0.01001998,
+      "balance_loss_clip": 1.01730883,
+      "balance_loss_mlp": 1.00081813,
+      "epoch": 0.5085071845127157,
+      "flos": 71817535589760.0,
+      "grad_norm": 0.8247902242443426,
+      "language_loss": 0.58106309,
+      "learning_rate": 2.042061367785943e-06,
+      "loss": 0.60205072,
+      "num_input_tokens_seen": 91220260,
+      "step": 4229,
+      "time_per_iteration": 3.232391119003296
+    },
+    {
+      "auxiliary_loss_clip": 0.01207406,
+      "auxiliary_loss_mlp": 0.01023935,
+      "balance_loss_clip": 1.04551864,
+      "balance_loss_mlp": 1.01592422,
+      "epoch": 0.5086274274033548,
+      "flos": 35951608252800.0,
+      "grad_norm": 2.2549373937418506,
+      "language_loss": 0.75168002,
+      "learning_rate": 2.041282565252594e-06,
+      "loss": 0.77399343,
+      "num_input_tokens_seen": 91240425,
+      "step": 4230,
+      "time_per_iteration": 2.812490463256836
+    },
+    {
+      "auxiliary_loss_clip": 0.01203123,
+      "auxiliary_loss_mlp": 0.01027024,
+      "balance_loss_clip": 1.04461563,
+      "balance_loss_mlp": 1.01903749,
+      "epoch": 0.5087476702939938,
+      "flos": 23513732881920.0,
+      "grad_norm": 1.5877623582984164,
+      "language_loss": 0.77035087,
+      "learning_rate": 2.040503756456714e-06,
+      "loss": 0.79265237,
+      "num_input_tokens_seen": 91259635,
+      "step": 4231,
+      "time_per_iteration": 2.7537803649902344
+    },
+    {
+      "auxiliary_loss_clip": 0.01184514,
+      "auxiliary_loss_mlp": 0.01023176,
+      "balance_loss_clip": 1.04966831,
+      "balance_loss_mlp": 1.01523066,
+      "epoch": 0.508867913184633,
+      "flos": 15122091841920.0,
+      "grad_norm": 2.126478439146268,
+      "language_loss": 0.79118925,
+      "learning_rate": 2.0397249415164456e-06,
+      "loss": 0.8132661,
+      "num_input_tokens_seen": 91276990,
+      "step": 4232,
+      "time_per_iteration": 2.703097105026245
+    },
+    {
+      "auxiliary_loss_clip": 0.01186842,
+      "auxiliary_loss_mlp": 0.01025332,
+      "balance_loss_clip": 1.04441857,
+      "balance_loss_mlp": 1.01732063,
+      "epoch": 0.508988156075272,
+      "flos": 25885309374720.0,
+      "grad_norm": 1.5756996220930362,
+      "language_loss": 0.80015373,
+      "learning_rate": 2.0389461205499354e-06,
+      "loss": 0.82227546,
+      "num_input_tokens_seen": 91296125,
+      "step": 4233,
+      "time_per_iteration": 2.7373218536376953
+    },
+    {
+      "auxiliary_loss_clip": 0.01207644,
+      "auxiliary_loss_mlp": 0.01025593,
+      "balance_loss_clip": 1.04657102,
+      "balance_loss_mlp": 1.01801181,
+      "epoch": 0.5091083989659111,
+      "flos": 13844857057920.0,
+      "grad_norm": 2.1839219653213826,
+      "language_loss": 0.73481596,
+      "learning_rate": 2.03816729367533e-06,
+      "loss": 0.75714827,
+      "num_input_tokens_seen": 91314280,
+      "step": 4234,
+      "time_per_iteration": 2.7088165283203125
+    },
+    {
+      "auxiliary_loss_clip": 0.01200439,
+      "auxiliary_loss_mlp": 0.01028126,
+      "balance_loss_clip": 1.05000961,
+      "balance_loss_mlp": 1.01981688,
+      "epoch": 0.5092286418565503,
+      "flos": 21104881050240.0,
+      "grad_norm": 1.9534041122886516,
+      "language_loss": 0.71627581,
+      "learning_rate": 2.0373884610107765e-06,
+      "loss": 0.73856151,
+      "num_input_tokens_seen": 91334595,
+      "step": 4235,
+      "time_per_iteration": 2.6765947341918945
+    },
+    {
+      "auxiliary_loss_clip": 0.01192675,
+      "auxiliary_loss_mlp": 0.01025706,
+      "balance_loss_clip": 1.04895163,
+      "balance_loss_mlp": 1.01805878,
+      "epoch": 0.5093488847471893,
+      "flos": 18621298972800.0,
+      "grad_norm": 2.4287168117702134,
+      "language_loss": 0.69661742,
+      "learning_rate": 2.0366096226744225e-06,
+      "loss": 0.71880126,
+      "num_input_tokens_seen": 91349790,
+      "step": 4236,
+      "time_per_iteration": 2.6265926361083984
+    },
+    {
+      "auxiliary_loss_clip": 0.01178847,
+      "auxiliary_loss_mlp": 0.01028869,
+      "balance_loss_clip": 1.0496428,
+      "balance_loss_mlp": 1.02092028,
+      "epoch": 0.5094691276378284,
+      "flos": 23803783205760.0,
+      "grad_norm": 1.678808675196861,
+      "language_loss": 0.76641446,
+      "learning_rate": 2.035830778784418e-06,
+      "loss": 0.78849161,
+      "num_input_tokens_seen": 91370465,
+      "step": 4237,
+      "time_per_iteration": 2.654825210571289
+    },
+    {
+      "auxiliary_loss_clip": 0.01205204,
+      "auxiliary_loss_mlp": 0.01034153,
+      "balance_loss_clip": 1.05470848,
+      "balance_loss_mlp": 1.02576637,
+      "epoch": 0.5095893705284675,
+      "flos": 17420410546560.0,
+      "grad_norm": 1.9402762844121708,
+      "language_loss": 0.79962939,
+      "learning_rate": 2.0350519294589134e-06,
+      "loss": 0.82202291,
+      "num_input_tokens_seen": 91388505,
+      "step": 4238,
+      "time_per_iteration": 2.7223565578460693
+    },
+    {
+      "auxiliary_loss_clip": 0.01213282,
+      "auxiliary_loss_mlp": 0.01033223,
+      "balance_loss_clip": 1.04502606,
+      "balance_loss_mlp": 1.02478611,
+      "epoch": 0.5097096134191066,
+      "flos": 25849362839040.0,
+      "grad_norm": 1.8953426453986115,
+      "language_loss": 0.82776439,
+      "learning_rate": 2.0342730748160588e-06,
+      "loss": 0.85022944,
+      "num_input_tokens_seen": 91408970,
+      "step": 4239,
+      "time_per_iteration": 2.718949794769287
+    },
+    {
+      "auxiliary_loss_clip": 0.0120113,
+      "auxiliary_loss_mlp": 0.01028361,
+      "balance_loss_clip": 1.04993141,
+      "balance_loss_mlp": 1.01980138,
+      "epoch": 0.5098298563097456,
+      "flos": 27745122844800.0,
+      "grad_norm": 2.2908271610364634,
+      "language_loss": 0.70233715,
+      "learning_rate": 2.033494214974006e-06,
+      "loss": 0.72463202,
+      "num_input_tokens_seen": 91430115,
+      "step": 4240,
+      "time_per_iteration": 2.7284200191497803
+    },
+    {
+      "auxiliary_loss_clip": 0.01186792,
+      "auxiliary_loss_mlp": 0.0102853,
+      "balance_loss_clip": 1.04852247,
+      "balance_loss_mlp": 1.020576,
+      "epoch": 0.5099500992003848,
+      "flos": 21358913011200.0,
+      "grad_norm": 1.704327754525701,
+      "language_loss": 0.83870757,
+      "learning_rate": 2.0327153500509067e-06,
+      "loss": 0.86086071,
+      "num_input_tokens_seen": 91449140,
+      "step": 4241,
+      "time_per_iteration": 2.6527035236358643
+    },
+    {
+      "auxiliary_loss_clip": 0.01204792,
+      "auxiliary_loss_mlp": 0.01028407,
+      "balance_loss_clip": 1.05361593,
+      "balance_loss_mlp": 1.02027059,
+      "epoch": 0.5100703420910239,
+      "flos": 19865999013120.0,
+      "grad_norm": 1.9380654205302148,
+      "language_loss": 0.84522396,
+      "learning_rate": 2.031936480164916e-06,
+      "loss": 0.86755598,
+      "num_input_tokens_seen": 91466880,
+      "step": 4242,
+      "time_per_iteration": 2.662372589111328
+    },
+    {
+      "auxiliary_loss_clip": 0.01195129,
+      "auxiliary_loss_mlp": 0.0102578,
+      "balance_loss_clip": 1.05088484,
+      "balance_loss_mlp": 1.01744103,
+      "epoch": 0.5101905849816629,
+      "flos": 24648797635200.0,
+      "grad_norm": 3.4197626685218325,
+      "language_loss": 0.7976017,
+      "learning_rate": 2.0311576054341857e-06,
+      "loss": 0.81981075,
+      "num_input_tokens_seen": 91487495,
+      "step": 4243,
+      "time_per_iteration": 2.7211644649505615
+    },
+    {
+      "auxiliary_loss_clip": 0.01184661,
+      "auxiliary_loss_mlp": 0.01022833,
+      "balance_loss_clip": 1.05541909,
+      "balance_loss_mlp": 1.01429749,
+      "epoch": 0.5103108278723021,
+      "flos": 22930076787840.0,
+      "grad_norm": 1.6657361934664099,
+      "language_loss": 0.62520099,
+      "learning_rate": 2.0303787259768715e-06,
+      "loss": 0.64727592,
+      "num_input_tokens_seen": 91508395,
+      "step": 4244,
+      "time_per_iteration": 2.578350305557251
+    },
+    {
+      "auxiliary_loss_clip": 0.01202351,
+      "auxiliary_loss_mlp": 0.01030038,
+      "balance_loss_clip": 1.0520426,
+      "balance_loss_mlp": 1.02080476,
+      "epoch": 0.5104310707629411,
+      "flos": 21506613736320.0,
+      "grad_norm": 2.4030752443452053,
+      "language_loss": 0.68932045,
+      "learning_rate": 2.0295998419111294e-06,
+      "loss": 0.71164441,
+      "num_input_tokens_seen": 91525685,
+      "step": 4245,
+      "time_per_iteration": 2.696711540222168
+    },
+    {
+      "auxiliary_loss_clip": 0.0122529,
+      "auxiliary_loss_mlp": 0.01030086,
+      "balance_loss_clip": 1.04317594,
+      "balance_loss_mlp": 1.02164555,
+      "epoch": 0.5105513136535802,
+      "flos": 14903180403840.0,
+      "grad_norm": 4.97617845830936,
+      "language_loss": 0.73747247,
+      "learning_rate": 2.028820953355115e-06,
+      "loss": 0.76002622,
+      "num_input_tokens_seen": 91543785,
+      "step": 4246,
+      "time_per_iteration": 2.8281266689300537
+    },
+    {
+      "auxiliary_loss_clip": 0.01203967,
+      "auxiliary_loss_mlp": 0.01025376,
+      "balance_loss_clip": 1.04784894,
+      "balance_loss_mlp": 1.01709151,
+      "epoch": 0.5106715565442194,
+      "flos": 22602212421120.0,
+      "grad_norm": 1.8940298421875448,
+      "language_loss": 0.78261977,
+      "learning_rate": 2.0280420604269834e-06,
+      "loss": 0.80491322,
+      "num_input_tokens_seen": 91563325,
+      "step": 4247,
+      "time_per_iteration": 3.257953643798828
+    },
+    {
+      "auxiliary_loss_clip": 0.01087215,
+      "auxiliary_loss_mlp": 0.01003211,
+      "balance_loss_clip": 1.0164845,
+      "balance_loss_mlp": 1.00200713,
+      "epoch": 0.5107917994348584,
+      "flos": 71027645558400.0,
+      "grad_norm": 0.7182377277571154,
+      "language_loss": 0.58872664,
+      "learning_rate": 2.027263163244895e-06,
+      "loss": 0.60963094,
+      "num_input_tokens_seen": 91632450,
+      "step": 4248,
+      "time_per_iteration": 4.2831714153289795
+    },
+    {
+      "auxiliary_loss_clip": 0.01189916,
+      "auxiliary_loss_mlp": 0.01029632,
+      "balance_loss_clip": 1.05301535,
+      "balance_loss_mlp": 1.02213645,
+      "epoch": 0.5109120423254975,
+      "flos": 24827416992000.0,
+      "grad_norm": 1.6020699383215982,
+      "language_loss": 0.74413538,
+      "learning_rate": 2.026484261927005e-06,
+      "loss": 0.76633084,
+      "num_input_tokens_seen": 91651945,
+      "step": 4249,
+      "time_per_iteration": 3.552326202392578
+    },
+    {
+      "auxiliary_loss_clip": 0.01200022,
+      "auxiliary_loss_mlp": 0.01038025,
+      "balance_loss_clip": 1.05572283,
+      "balance_loss_mlp": 1.02915025,
+      "epoch": 0.5110322852161366,
+      "flos": 21247661612160.0,
+      "grad_norm": 2.2360065597908636,
+      "language_loss": 0.73929453,
+      "learning_rate": 2.025705356591475e-06,
+      "loss": 0.761675,
+      "num_input_tokens_seen": 91669635,
+      "step": 4250,
+      "time_per_iteration": 2.68507981300354
+    },
+    {
+      "auxiliary_loss_clip": 0.01109673,
+      "auxiliary_loss_mlp": 0.0137414,
+      "balance_loss_clip": 1.01658726,
+      "balance_loss_mlp": 0.99972099,
+      "epoch": 0.5111525281067757,
+      "flos": 66457114358400.0,
+      "grad_norm": 0.7625412980226846,
+      "language_loss": 0.57933217,
+      "learning_rate": 2.024926447356462e-06,
+      "loss": 0.60417026,
+      "num_input_tokens_seen": 91731920,
+      "step": 4251,
+      "time_per_iteration": 3.24774432182312
+    },
+    {
+      "auxiliary_loss_clip": 0.01190074,
+      "auxiliary_loss_mlp": 0.01025594,
+      "balance_loss_clip": 1.0506295,
+      "balance_loss_mlp": 1.01734507,
+      "epoch": 0.5112727709974147,
+      "flos": 14866731077760.0,
+      "grad_norm": 2.0339026151702604,
+      "language_loss": 0.79045558,
+      "learning_rate": 2.024147534340127e-06,
+      "loss": 0.81261224,
+      "num_input_tokens_seen": 91749780,
+      "step": 4252,
+      "time_per_iteration": 2.6461668014526367
+    },
+    {
+      "auxiliary_loss_clip": 0.01194599,
+      "auxiliary_loss_mlp": 0.01029466,
+      "balance_loss_clip": 1.04641485,
+      "balance_loss_mlp": 1.02124095,
+      "epoch": 0.5113930138880539,
+      "flos": 21177600134400.0,
+      "grad_norm": 1.5860251053559642,
+      "language_loss": 0.80097044,
+      "learning_rate": 2.02336861766063e-06,
+      "loss": 0.82321107,
+      "num_input_tokens_seen": 91768840,
+      "step": 4253,
+      "time_per_iteration": 2.733358144760132
+    },
+    {
+      "auxiliary_loss_clip": 0.01198233,
+      "auxiliary_loss_mlp": 0.01031529,
+      "balance_loss_clip": 1.0528419,
+      "balance_loss_mlp": 1.02272558,
+      "epoch": 0.511513256778693,
+      "flos": 20409111630720.0,
+      "grad_norm": 1.6175407761654863,
+      "language_loss": 0.78880787,
+      "learning_rate": 2.0225896974361327e-06,
+      "loss": 0.81110555,
+      "num_input_tokens_seen": 91788945,
+      "step": 4254,
+      "time_per_iteration": 3.5460398197174072
+    },
+    {
+      "auxiliary_loss_clip": 0.01112813,
+      "auxiliary_loss_mlp": 0.01002756,
+      "balance_loss_clip": 1.01756692,
+      "balance_loss_mlp": 1.00146818,
+      "epoch": 0.511633499669332,
+      "flos": 69879975131520.0,
+      "grad_norm": 0.8554837048553069,
+      "language_loss": 0.59941441,
+      "learning_rate": 2.0218107737847962e-06,
+      "loss": 0.62057006,
+      "num_input_tokens_seen": 91850990,
+      "step": 4255,
+      "time_per_iteration": 3.298104763031006
+    },
+    {
+      "auxiliary_loss_clip": 0.01181787,
+      "auxiliary_loss_mlp": 0.01024639,
+      "balance_loss_clip": 1.05234408,
+      "balance_loss_mlp": 1.01688445,
+      "epoch": 0.5117537425599712,
+      "flos": 24097855852800.0,
+      "grad_norm": 1.8146125027497997,
+      "language_loss": 0.7469511,
+      "learning_rate": 2.0210318468247826e-06,
+      "loss": 0.76901537,
+      "num_input_tokens_seen": 91869960,
+      "step": 4256,
+      "time_per_iteration": 2.6337594985961914
+    },
+    {
+      "auxiliary_loss_clip": 0.01197445,
+      "auxiliary_loss_mlp": 0.01026802,
+      "balance_loss_clip": 1.04828954,
+      "balance_loss_mlp": 1.01911616,
+      "epoch": 0.5118739854506102,
+      "flos": 20959550622720.0,
+      "grad_norm": 1.8450960353561097,
+      "language_loss": 0.8152591,
+      "learning_rate": 2.020252916674255e-06,
+      "loss": 0.83750165,
+      "num_input_tokens_seen": 91889075,
+      "step": 4257,
+      "time_per_iteration": 2.6639790534973145
+    },
+    {
+      "auxiliary_loss_clip": 0.01191535,
+      "auxiliary_loss_mlp": 0.01029636,
+      "balance_loss_clip": 1.05045307,
+      "balance_loss_mlp": 1.02147055,
+      "epoch": 0.5119942283412493,
+      "flos": 17457326749440.0,
+      "grad_norm": 1.733048039960415,
+      "language_loss": 0.81406891,
+      "learning_rate": 2.019473983451375e-06,
+      "loss": 0.83628058,
+      "num_input_tokens_seen": 91907495,
+      "step": 4258,
+      "time_per_iteration": 2.721486806869507
+    },
+    {
+      "auxiliary_loss_clip": 0.01216801,
+      "auxiliary_loss_mlp": 0.01030941,
+      "balance_loss_clip": 1.04887938,
+      "balance_loss_mlp": 1.02256656,
+      "epoch": 0.5121144712318885,
+      "flos": 21066743784960.0,
+      "grad_norm": 1.7361112358377944,
+      "language_loss": 0.71338832,
+      "learning_rate": 2.0186950472743076e-06,
+      "loss": 0.73586571,
+      "num_input_tokens_seen": 91927400,
+      "step": 4259,
+      "time_per_iteration": 2.7176501750946045
+    },
+    {
+      "auxiliary_loss_clip": 0.0118261,
+      "auxiliary_loss_mlp": 0.01027605,
+      "balance_loss_clip": 1.05274606,
+      "balance_loss_mlp": 1.02010965,
+      "epoch": 0.5122347141225275,
+      "flos": 19860791541120.0,
+      "grad_norm": 1.6679383123609997,
+      "language_loss": 0.73727894,
+      "learning_rate": 2.0179161082612162e-06,
+      "loss": 0.75938106,
+      "num_input_tokens_seen": 91946790,
+      "step": 4260,
+      "time_per_iteration": 2.617565631866455
+    },
+    {
+      "auxiliary_loss_clip": 0.0119169,
+      "auxiliary_loss_mlp": 0.01028585,
+      "balance_loss_clip": 1.04609406,
+      "balance_loss_mlp": 1.02043748,
+      "epoch": 0.5123549570131666,
+      "flos": 22528487756160.0,
+      "grad_norm": 1.8264499097371105,
+      "language_loss": 0.72916496,
+      "learning_rate": 2.017137166530266e-06,
+      "loss": 0.75136769,
+      "num_input_tokens_seen": 91966325,
+      "step": 4261,
+      "time_per_iteration": 2.6825015544891357
+    },
+    {
+      "auxiliary_loss_clip": 0.01204677,
+      "auxiliary_loss_mlp": 0.0103161,
+      "balance_loss_clip": 1.05128837,
+      "balance_loss_mlp": 1.02340531,
+      "epoch": 0.5124751999038056,
+      "flos": 20333375804160.0,
+      "grad_norm": 3.723204724368576,
+      "language_loss": 0.80336761,
+      "learning_rate": 2.0163582221996213e-06,
+      "loss": 0.8257305,
+      "num_input_tokens_seen": 91984700,
+      "step": 4262,
+      "time_per_iteration": 2.7075703144073486
+    },
+    {
+      "auxiliary_loss_clip": 0.01204332,
+      "auxiliary_loss_mlp": 0.01036057,
+      "balance_loss_clip": 1.05271792,
+      "balance_loss_mlp": 1.02768862,
+      "epoch": 0.5125954427944448,
+      "flos": 39785970211200.0,
+      "grad_norm": 1.9828129234612581,
+      "language_loss": 0.6804899,
+      "learning_rate": 2.015579275387446e-06,
+      "loss": 0.70289373,
+      "num_input_tokens_seen": 92010020,
+      "step": 4263,
+      "time_per_iteration": 2.8691349029541016
+    },
+    {
+      "auxiliary_loss_clip": 0.01190939,
+      "auxiliary_loss_mlp": 0.01026932,
+      "balance_loss_clip": 1.05013561,
+      "balance_loss_mlp": 1.01852214,
+      "epoch": 0.5127156856850839,
+      "flos": 29205394358400.0,
+      "grad_norm": 2.189678209596872,
+      "language_loss": 0.68469739,
+      "learning_rate": 2.0148003262119085e-06,
+      "loss": 0.7068761,
+      "num_input_tokens_seen": 92030990,
+      "step": 4264,
+      "time_per_iteration": 2.718309164047241
+    },
+    {
+      "auxiliary_loss_clip": 0.01209544,
+      "auxiliary_loss_mlp": 0.01031127,
+      "balance_loss_clip": 1.05006838,
+      "balance_loss_mlp": 1.02262783,
+      "epoch": 0.5128359285757229,
+      "flos": 13553693412480.0,
+      "grad_norm": 1.9108576427467758,
+      "language_loss": 0.77154493,
+      "learning_rate": 2.0140213747911728e-06,
+      "loss": 0.79395163,
+      "num_input_tokens_seen": 92049525,
+      "step": 4265,
+      "time_per_iteration": 2.685335636138916
+    },
+    {
+      "auxiliary_loss_clip": 0.01210282,
+      "auxiliary_loss_mlp": 0.01027997,
+      "balance_loss_clip": 1.05172849,
+      "balance_loss_mlp": 1.01944959,
+      "epoch": 0.5129561714663621,
+      "flos": 25192089820800.0,
+      "grad_norm": 2.2040964426832015,
+      "language_loss": 0.80843115,
+      "learning_rate": 2.013242421243406e-06,
+      "loss": 0.83081394,
+      "num_input_tokens_seen": 92068430,
+      "step": 4266,
+      "time_per_iteration": 2.86452317237854
+    },
+    {
+      "auxiliary_loss_clip": 0.01221874,
+      "auxiliary_loss_mlp": 0.01031184,
+      "balance_loss_clip": 1.04972124,
+      "balance_loss_mlp": 1.02327466,
+      "epoch": 0.5130764143570011,
+      "flos": 18150223080960.0,
+      "grad_norm": 1.58564693430018,
+      "language_loss": 0.79038215,
+      "learning_rate": 2.012463465686774e-06,
+      "loss": 0.8129127,
+      "num_input_tokens_seen": 92088180,
+      "step": 4267,
+      "time_per_iteration": 2.798032760620117
+    },
+    {
+      "auxiliary_loss_clip": 0.01132416,
+      "auxiliary_loss_mlp": 0.01001652,
+      "balance_loss_clip": 1.0248816,
+      "balance_loss_mlp": 1.00047803,
+      "epoch": 0.5131966572476402,
+      "flos": 59794896418560.0,
+      "grad_norm": 0.8059625880018605,
+      "language_loss": 0.54784667,
+      "learning_rate": 2.0116845082394446e-06,
+      "loss": 0.56918734,
+      "num_input_tokens_seen": 92153015,
+      "step": 4268,
+      "time_per_iteration": 3.2932794094085693
+    },
+    {
+      "auxiliary_loss_clip": 0.01192941,
+      "auxiliary_loss_mlp": 0.01028476,
+      "balance_loss_clip": 1.04897177,
+      "balance_loss_mlp": 1.02024508,
+      "epoch": 0.5133169001382794,
+      "flos": 18515219132160.0,
+      "grad_norm": 1.8321251319235827,
+      "language_loss": 0.78737372,
+      "learning_rate": 2.0109055490195836e-06,
+      "loss": 0.80958784,
+      "num_input_tokens_seen": 92171470,
+      "step": 4269,
+      "time_per_iteration": 2.6755690574645996
+    },
+    {
+      "auxiliary_loss_clip": 0.01229435,
+      "auxiliary_loss_mlp": 0.01026483,
+      "balance_loss_clip": 1.04127312,
+      "balance_loss_mlp": 1.01823938,
+      "epoch": 0.5134371430289184,
+      "flos": 15523537219200.0,
+      "grad_norm": 1.775010778660789,
+      "language_loss": 0.6405834,
+      "learning_rate": 2.0101265881453605e-06,
+      "loss": 0.66314262,
+      "num_input_tokens_seen": 92189945,
+      "step": 4270,
+      "time_per_iteration": 2.7349252700805664
+    },
+    {
+      "auxiliary_loss_clip": 0.01195872,
+      "auxiliary_loss_mlp": 0.01027468,
+      "balance_loss_clip": 1.05225801,
+      "balance_loss_mlp": 1.01978493,
+      "epoch": 0.5135573859195575,
+      "flos": 21433786911360.0,
+      "grad_norm": 1.99090513606824,
+      "language_loss": 0.78335178,
+      "learning_rate": 2.009347625734941e-06,
+      "loss": 0.80558515,
+      "num_input_tokens_seen": 92209855,
+      "step": 4271,
+      "time_per_iteration": 2.7085490226745605
+    },
+    {
+      "auxiliary_loss_clip": 0.01187922,
+      "auxiliary_loss_mlp": 0.01033946,
+      "balance_loss_clip": 1.0561378,
+      "balance_loss_mlp": 1.02554774,
+      "epoch": 0.5136776288101966,
+      "flos": 17712651600000.0,
+      "grad_norm": 2.326424931285016,
+      "language_loss": 0.74965882,
+      "learning_rate": 2.0085686619064954e-06,
+      "loss": 0.77187753,
+      "num_input_tokens_seen": 92226295,
+      "step": 4272,
+      "time_per_iteration": 2.6980419158935547
+    },
+    {
+      "auxiliary_loss_clip": 0.01199109,
+      "auxiliary_loss_mlp": 0.01029095,
+      "balance_loss_clip": 1.05487478,
+      "balance_loss_mlp": 1.0204165,
+      "epoch": 0.5137978717008357,
+      "flos": 16581680997120.0,
+      "grad_norm": 2.5672657226168107,
+      "language_loss": 0.82755423,
+      "learning_rate": 2.00778969677819e-06,
+      "loss": 0.84983629,
+      "num_input_tokens_seen": 92243330,
+      "step": 4273,
+      "time_per_iteration": 2.67531156539917
+    },
+    {
+      "auxiliary_loss_clip": 0.01199752,
+      "auxiliary_loss_mlp": 0.01029393,
+      "balance_loss_clip": 1.05054522,
+      "balance_loss_mlp": 1.02073264,
+      "epoch": 0.5139181145914747,
+      "flos": 20668243322880.0,
+      "grad_norm": 1.941033206805366,
+      "language_loss": 0.64206553,
+      "learning_rate": 2.0070107304681934e-06,
+      "loss": 0.66435701,
+      "num_input_tokens_seen": 92262285,
+      "step": 4274,
+      "time_per_iteration": 4.554033041000366
+    },
+    {
+      "auxiliary_loss_clip": 0.01211847,
+      "auxiliary_loss_mlp": 0.01031798,
+      "balance_loss_clip": 1.05142665,
+      "balance_loss_mlp": 1.02344716,
+      "epoch": 0.5140383574821139,
+      "flos": 32926996546560.0,
+      "grad_norm": 1.772214370494794,
+      "language_loss": 0.78416544,
+      "learning_rate": 2.006231763094675e-06,
+      "loss": 0.80660188,
+      "num_input_tokens_seen": 92283305,
+      "step": 4275,
+      "time_per_iteration": 3.7094359397888184
+    },
+    {
+      "auxiliary_loss_clip": 0.01200795,
+      "auxiliary_loss_mlp": 0.01027318,
+      "balance_loss_clip": 1.05593622,
+      "balance_loss_mlp": 1.01862144,
+      "epoch": 0.514158600372753,
+      "flos": 19537093152000.0,
+      "grad_norm": 1.8665000956380458,
+      "language_loss": 0.87623155,
+      "learning_rate": 2.0054527947758027e-06,
+      "loss": 0.89851272,
+      "num_input_tokens_seen": 92302105,
+      "step": 4276,
+      "time_per_iteration": 2.6500961780548096
+    },
+    {
+      "auxiliary_loss_clip": 0.01084596,
+      "auxiliary_loss_mlp": 0.01002838,
+      "balance_loss_clip": 1.01413345,
+      "balance_loss_mlp": 1.0015744,
+      "epoch": 0.514278843263392,
+      "flos": 62523855279360.0,
+      "grad_norm": 0.7217479365856613,
+      "language_loss": 0.55932343,
+      "learning_rate": 2.004673825629746e-06,
+      "loss": 0.58019775,
+      "num_input_tokens_seen": 92362885,
+      "step": 4277,
+      "time_per_iteration": 3.176731824874878
+    },
+    {
+      "auxiliary_loss_clip": 0.01192732,
+      "auxiliary_loss_mlp": 0.01024528,
+      "balance_loss_clip": 1.04903984,
+      "balance_loss_mlp": 1.01616526,
+      "epoch": 0.5143990861540312,
+      "flos": 25882328545920.0,
+      "grad_norm": 1.7647482408744621,
+      "language_loss": 0.72506988,
+      "learning_rate": 2.0038948557746744e-06,
+      "loss": 0.74724245,
+      "num_input_tokens_seen": 92384740,
+      "step": 4278,
+      "time_per_iteration": 2.6899330615997314
+    },
+    {
+      "auxiliary_loss_clip": 0.011895,
+      "auxiliary_loss_mlp": 0.01030127,
+      "balance_loss_clip": 1.05190778,
+      "balance_loss_mlp": 1.02166891,
+      "epoch": 0.5145193290446702,
+      "flos": 23330660238720.0,
+      "grad_norm": 2.8039472601653332,
+      "language_loss": 0.75061083,
+      "learning_rate": 2.0031158853287558e-06,
+      "loss": 0.77280712,
+      "num_input_tokens_seen": 92405175,
+      "step": 4279,
+      "time_per_iteration": 2.665022134780884
+    },
+    {
+      "auxiliary_loss_clip": 0.01198864,
+      "auxiliary_loss_mlp": 0.01026308,
+      "balance_loss_clip": 1.0507443,
+      "balance_loss_mlp": 1.01809418,
+      "epoch": 0.5146395719353093,
+      "flos": 22856603518080.0,
+      "grad_norm": 2.540624832250022,
+      "language_loss": 0.70609075,
+      "learning_rate": 2.0023369144101593e-06,
+      "loss": 0.72834247,
+      "num_input_tokens_seen": 92423345,
+      "step": 4280,
+      "time_per_iteration": 3.5757317543029785
+    },
+    {
+      "auxiliary_loss_clip": 0.01189383,
+      "auxiliary_loss_mlp": 0.01024984,
+      "balance_loss_clip": 1.04748785,
+      "balance_loss_mlp": 1.01739037,
+      "epoch": 0.5147598148259485,
+      "flos": 26391577616640.0,
+      "grad_norm": 1.7906013693314988,
+      "language_loss": 0.76733994,
+      "learning_rate": 2.0015579431370555e-06,
+      "loss": 0.78948367,
+      "num_input_tokens_seen": 92445025,
+      "step": 4281,
+      "time_per_iteration": 2.7023661136627197
+    },
+    {
+      "auxiliary_loss_clip": 0.01190977,
+      "auxiliary_loss_mlp": 0.01030606,
+      "balance_loss_clip": 1.05337429,
+      "balance_loss_mlp": 1.02294064,
+      "epoch": 0.5148800577165875,
+      "flos": 29965694561280.0,
+      "grad_norm": 2.0897383819107596,
+      "language_loss": 0.6964767,
+      "learning_rate": 2.000778971627612e-06,
+      "loss": 0.71869248,
+      "num_input_tokens_seen": 92464490,
+      "step": 4282,
+      "time_per_iteration": 2.715644121170044
+    },
+    {
+      "auxiliary_loss_clip": 0.01189578,
+      "auxiliary_loss_mlp": 0.01032283,
+      "balance_loss_clip": 1.04792905,
+      "balance_loss_mlp": 1.02389646,
+      "epoch": 0.5150003006072266,
+      "flos": 17931383470080.0,
+      "grad_norm": 2.0201711943116227,
+      "language_loss": 0.89963877,
+      "learning_rate": 2e-06,
+      "loss": 0.92185742,
+      "num_input_tokens_seen": 92482085,
+      "step": 4283,
+      "time_per_iteration": 2.6211423873901367
+    },
+    {
+      "auxiliary_loss_clip": 0.01183137,
+      "auxiliary_loss_mlp": 0.01022847,
+      "balance_loss_clip": 1.05409312,
+      "balance_loss_mlp": 1.0149312,
+      "epoch": 0.5151205434978657,
+      "flos": 18478733892480.0,
+      "grad_norm": 1.8397448714316347,
+      "language_loss": 0.85424304,
+      "learning_rate": 1.9992210283723878e-06,
+      "loss": 0.87630284,
+      "num_input_tokens_seen": 92499325,
+      "step": 4284,
+      "time_per_iteration": 2.644788980484009
+    },
+    {
+      "auxiliary_loss_clip": 0.01179901,
+      "auxiliary_loss_mlp": 0.01033426,
+      "balance_loss_clip": 1.05310166,
+      "balance_loss_mlp": 1.02601695,
+      "epoch": 0.5152407863885048,
+      "flos": 25341263003520.0,
+      "grad_norm": 1.589607054437867,
+      "language_loss": 0.79467469,
+      "learning_rate": 1.9984420568629448e-06,
+      "loss": 0.81680799,
+      "num_input_tokens_seen": 92522090,
+      "step": 4285,
+      "time_per_iteration": 2.6095128059387207
+    },
+    {
+      "auxiliary_loss_clip": 0.01192013,
+      "auxiliary_loss_mlp": 0.01023344,
+      "balance_loss_clip": 1.05044866,
+      "balance_loss_mlp": 1.01455259,
+      "epoch": 0.5153610292791438,
+      "flos": 18329740277760.0,
+      "grad_norm": 2.1534942881994374,
+      "language_loss": 0.78091216,
+      "learning_rate": 1.9976630855898405e-06,
+      "loss": 0.80306572,
+      "num_input_tokens_seen": 92539845,
+      "step": 4286,
+      "time_per_iteration": 2.6656336784362793
+    },
+    {
+      "auxiliary_loss_clip": 0.01193123,
+      "auxiliary_loss_mlp": 0.01032427,
+      "balance_loss_clip": 1.04611588,
+      "balance_loss_mlp": 1.02469063,
+      "epoch": 0.515481272169783,
+      "flos": 30409945971840.0,
+      "grad_norm": 2.0913847864497956,
+      "language_loss": 0.74889541,
+      "learning_rate": 1.9968841146712445e-06,
+      "loss": 0.77115089,
+      "num_input_tokens_seen": 92559460,
+      "step": 4287,
+      "time_per_iteration": 2.7978436946868896
+    },
+    {
+      "auxiliary_loss_clip": 0.01228047,
+      "auxiliary_loss_mlp": 0.01379502,
+      "balance_loss_clip": 1.04883492,
+      "balance_loss_mlp": 1.00020504,
+      "epoch": 0.5156015150604221,
+      "flos": 23037305863680.0,
+      "grad_norm": 1.5817612451838596,
+      "language_loss": 0.71196866,
+      "learning_rate": 1.996105144225326e-06,
+      "loss": 0.73804408,
+      "num_input_tokens_seen": 92579695,
+      "step": 4288,
+      "time_per_iteration": 2.8785789012908936
+    },
+    {
+      "auxiliary_loss_clip": 0.011917,
+      "auxiliary_loss_mlp": 0.01027268,
+      "balance_loss_clip": 1.05354691,
+      "balance_loss_mlp": 1.01961446,
+      "epoch": 0.5157217579510611,
+      "flos": 17858556645120.0,
+      "grad_norm": 1.9952748110772003,
+      "language_loss": 0.78688782,
+      "learning_rate": 1.995326174370254e-06,
+      "loss": 0.8090775,
+      "num_input_tokens_seen": 92598795,
+      "step": 4289,
+      "time_per_iteration": 2.638683557510376
+    },
+    {
+      "auxiliary_loss_clip": 0.01191959,
+      "auxiliary_loss_mlp": 0.01378339,
+      "balance_loss_clip": 1.05351436,
+      "balance_loss_mlp": 1.00010514,
+      "epoch": 0.5158420008417003,
+      "flos": 19171486569600.0,
+      "grad_norm": 1.510247531974646,
+      "language_loss": 0.72869873,
+      "learning_rate": 1.994547205224197e-06,
+      "loss": 0.75440174,
+      "num_input_tokens_seen": 92617700,
+      "step": 4290,
+      "time_per_iteration": 2.678252696990967
+    },
+    {
+      "auxiliary_loss_clip": 0.01198398,
+      "auxiliary_loss_mlp": 0.01021294,
+      "balance_loss_clip": 1.05200493,
+      "balance_loss_mlp": 1.0134027,
+      "epoch": 0.5159622437323393,
+      "flos": 22419534827520.0,
+      "grad_norm": 1.8378209126736835,
+      "language_loss": 0.67418879,
+      "learning_rate": 1.993768236905325e-06,
+      "loss": 0.69638574,
+      "num_input_tokens_seen": 92638370,
+      "step": 4291,
+      "time_per_iteration": 2.664149761199951
+    },
+    {
+      "auxiliary_loss_clip": 0.01195851,
+      "auxiliary_loss_mlp": 0.01029964,
+      "balance_loss_clip": 1.04923058,
+      "balance_loss_mlp": 1.02120209,
+      "epoch": 0.5160824866229784,
+      "flos": 24603010773120.0,
+      "grad_norm": 4.448344070774574,
+      "language_loss": 0.66200769,
+      "learning_rate": 1.992989269531807e-06,
+      "loss": 0.68426585,
+      "num_input_tokens_seen": 92657180,
+      "step": 4292,
+      "time_per_iteration": 2.7871482372283936
+    },
+    {
+      "auxiliary_loss_clip": 0.01197621,
+      "auxiliary_loss_mlp": 0.01029541,
+      "balance_loss_clip": 1.04863787,
+      "balance_loss_mlp": 1.02131534,
+      "epoch": 0.5162027295136175,
+      "flos": 18002737837440.0,
+      "grad_norm": 2.286570247286406,
+      "language_loss": 0.68097115,
+      "learning_rate": 1.99221030322181e-06,
+      "loss": 0.70324278,
+      "num_input_tokens_seen": 92673985,
+      "step": 4293,
+      "time_per_iteration": 2.6694414615631104
+    },
+    {
+      "auxiliary_loss_clip": 0.01204661,
+      "auxiliary_loss_mlp": 0.01032194,
+      "balance_loss_clip": 1.05138862,
+      "balance_loss_mlp": 1.02426648,
+      "epoch": 0.5163229724042566,
+      "flos": 27344611221120.0,
+      "grad_norm": 1.6223809659508437,
+      "language_loss": 0.80794966,
+      "learning_rate": 1.991431338093505e-06,
+      "loss": 0.83031815,
+      "num_input_tokens_seen": 92696340,
+      "step": 4294,
+      "time_per_iteration": 2.730187177658081
+    },
+    {
+      "auxiliary_loss_clip": 0.01202097,
+      "auxiliary_loss_mlp": 0.01027197,
+      "balance_loss_clip": 1.05384588,
+      "balance_loss_mlp": 1.02040517,
+      "epoch": 0.5164432152948957,
+      "flos": 21762764599680.0,
+      "grad_norm": 1.6593012449769,
+      "language_loss": 0.79708982,
+      "learning_rate": 1.9906523742650587e-06,
+      "loss": 0.81938279,
+      "num_input_tokens_seen": 92715200,
+      "step": 4295,
+      "time_per_iteration": 2.810819149017334
+    },
+    {
+      "auxiliary_loss_clip": 0.01181527,
+      "auxiliary_loss_mlp": 0.01030718,
+      "balance_loss_clip": 1.05071855,
+      "balance_loss_mlp": 1.02233744,
+      "epoch": 0.5165634581855347,
+      "flos": 25550334115200.0,
+      "grad_norm": 2.0602955112077854,
+      "language_loss": 0.77388704,
+      "learning_rate": 1.9898734118546397e-06,
+      "loss": 0.79600948,
+      "num_input_tokens_seen": 92735150,
+      "step": 4296,
+      "time_per_iteration": 2.7022006511688232
+    },
+    {
+      "auxiliary_loss_clip": 0.01240902,
+      "auxiliary_loss_mlp": 0.01030937,
+      "balance_loss_clip": 1.0463599,
+      "balance_loss_mlp": 1.02209139,
+      "epoch": 0.5166837010761739,
+      "flos": 19901191363200.0,
+      "grad_norm": 1.4825255754448232,
+      "language_loss": 0.80630744,
+      "learning_rate": 1.989094450980416e-06,
+      "loss": 0.8290258,
+      "num_input_tokens_seen": 92755250,
+      "step": 4297,
+      "time_per_iteration": 2.971190929412842
+    },
+    {
+      "auxiliary_loss_clip": 0.01187699,
+      "auxiliary_loss_mlp": 0.01025553,
+      "balance_loss_clip": 1.05113626,
+      "balance_loss_mlp": 1.01751864,
+      "epoch": 0.516803943966813,
+      "flos": 26646076454400.0,
+      "grad_norm": 1.965432249982437,
+      "language_loss": 0.7652548,
+      "learning_rate": 1.9883154917605556e-06,
+      "loss": 0.78738737,
+      "num_input_tokens_seen": 92774460,
+      "step": 4298,
+      "time_per_iteration": 3.1732699871063232
+    },
+    {
+      "auxiliary_loss_clip": 0.01181534,
+      "auxiliary_loss_mlp": 0.01023109,
+      "balance_loss_clip": 1.05314946,
+      "balance_loss_mlp": 1.01534867,
+      "epoch": 0.516924186857452,
+      "flos": 19682854542720.0,
+      "grad_norm": 1.7168210619883484,
+      "language_loss": 0.83327591,
+      "learning_rate": 1.9875365343132262e-06,
+      "loss": 0.85532236,
+      "num_input_tokens_seen": 92791580,
+      "step": 4299,
+      "time_per_iteration": 2.6553409099578857
+    },
+    {
+      "auxiliary_loss_clip": 0.01189573,
+      "auxiliary_loss_mlp": 0.01378734,
+      "balance_loss_clip": 1.05194855,
+      "balance_loss_mlp": 1.00013995,
+      "epoch": 0.5170444297480912,
+      "flos": 15956583586560.0,
+      "grad_norm": 2.117435765714074,
+      "language_loss": 0.85146099,
+      "learning_rate": 1.9867575787565946e-06,
+      "loss": 0.8771441,
+      "num_input_tokens_seen": 92806240,
+      "step": 4300,
+      "time_per_iteration": 3.562592029571533
+    },
+    {
+      "auxiliary_loss_clip": 0.01193418,
+      "auxiliary_loss_mlp": 0.010252,
+      "balance_loss_clip": 1.05329597,
+      "balance_loss_mlp": 1.01745749,
+      "epoch": 0.5171646726387302,
+      "flos": 14174157968640.0,
+      "grad_norm": 1.872063125186999,
+      "language_loss": 0.85938954,
+      "learning_rate": 1.9859786252088275e-06,
+      "loss": 0.8815757,
+      "num_input_tokens_seen": 92823420,
+      "step": 4301,
+      "time_per_iteration": 3.5056488513946533
+    },
+    {
+      "auxiliary_loss_clip": 0.01210859,
+      "auxiliary_loss_mlp": 0.01029319,
+      "balance_loss_clip": 1.0510385,
+      "balance_loss_mlp": 1.02071166,
+      "epoch": 0.5172849155293693,
+      "flos": 23578550974080.0,
+      "grad_norm": 2.259316388104983,
+      "language_loss": 0.6678226,
+      "learning_rate": 1.9851996737880914e-06,
+      "loss": 0.69022441,
+      "num_input_tokens_seen": 92838605,
+      "step": 4302,
+      "time_per_iteration": 2.772366523742676
+    },
+    {
+      "auxiliary_loss_clip": 0.0119538,
+      "auxiliary_loss_mlp": 0.01031079,
+      "balance_loss_clip": 1.05130339,
+      "balance_loss_mlp": 1.02215624,
+      "epoch": 0.5174051584200084,
+      "flos": 14283541860480.0,
+      "grad_norm": 1.9215279229089768,
+      "language_loss": 0.74501479,
+      "learning_rate": 1.9844207246125537e-06,
+      "loss": 0.76727939,
+      "num_input_tokens_seen": 92855185,
+      "step": 4303,
+      "time_per_iteration": 2.600714683532715
+    },
+    {
+      "auxiliary_loss_clip": 0.01196246,
+      "auxiliary_loss_mlp": 0.01022867,
+      "balance_loss_clip": 1.050246,
+      "balance_loss_mlp": 1.01559234,
+      "epoch": 0.5175254013106475,
+      "flos": 37889384192640.0,
+      "grad_norm": 1.8631522247807444,
+      "language_loss": 0.68745595,
+      "learning_rate": 1.983641777800379e-06,
+      "loss": 0.70964706,
+      "num_input_tokens_seen": 92877830,
+      "step": 4304,
+      "time_per_iteration": 2.8562424182891846
+    },
+    {
+      "auxiliary_loss_clip": 0.01100576,
+      "auxiliary_loss_mlp": 0.01001794,
+      "balance_loss_clip": 1.01606894,
+      "balance_loss_mlp": 1.00057817,
+      "epoch": 0.5176456442012866,
+      "flos": 68549737829760.0,
+      "grad_norm": 0.746284884237278,
+      "language_loss": 0.58769381,
+      "learning_rate": 1.9828628334697343e-06,
+      "loss": 0.60871756,
+      "num_input_tokens_seen": 92945040,
+      "step": 4305,
+      "time_per_iteration": 3.410823345184326
+    },
+    {
+      "auxiliary_loss_clip": 0.01100617,
+      "auxiliary_loss_mlp": 0.01001942,
+      "balance_loss_clip": 1.01457262,
+      "balance_loss_mlp": 1.00066018,
+      "epoch": 0.5177658870919257,
+      "flos": 64084137235200.0,
+      "grad_norm": 0.7683907705434665,
+      "language_loss": 0.54714936,
+      "learning_rate": 1.982083891738784e-06,
+      "loss": 0.56817496,
+      "num_input_tokens_seen": 93005910,
+      "step": 4306,
+      "time_per_iteration": 4.320364952087402
+    },
+    {
+      "auxiliary_loss_clip": 0.01197557,
+      "auxiliary_loss_mlp": 0.01029798,
+      "balance_loss_clip": 1.05461383,
+      "balance_loss_mlp": 1.02237725,
+      "epoch": 0.5178861299825648,
+      "flos": 26651248012800.0,
+      "grad_norm": 1.5548716876261888,
+      "language_loss": 0.82836044,
+      "learning_rate": 1.9813049527256923e-06,
+      "loss": 0.85063398,
+      "num_input_tokens_seen": 93026305,
+      "step": 4307,
+      "time_per_iteration": 2.7884199619293213
+    },
+    {
+      "auxiliary_loss_clip": 0.01203685,
+      "auxiliary_loss_mlp": 0.01028534,
+      "balance_loss_clip": 1.04536211,
+      "balance_loss_mlp": 1.02041566,
+      "epoch": 0.5180063728732038,
+      "flos": 17931886260480.0,
+      "grad_norm": 2.315132889811791,
+      "language_loss": 0.82268018,
+      "learning_rate": 1.9805260165486252e-06,
+      "loss": 0.84500241,
+      "num_input_tokens_seen": 93045675,
+      "step": 4308,
+      "time_per_iteration": 2.737682819366455
+    },
+    {
+      "auxiliary_loss_clip": 0.01189956,
+      "auxiliary_loss_mlp": 0.01024436,
+      "balance_loss_clip": 1.05170369,
+      "balance_loss_mlp": 1.01646113,
+      "epoch": 0.518126615763843,
+      "flos": 19500895221120.0,
+      "grad_norm": 4.737068429183804,
+      "language_loss": 0.86637866,
+      "learning_rate": 1.9797470833257457e-06,
+      "loss": 0.88852251,
+      "num_input_tokens_seen": 93065375,
+      "step": 4309,
+      "time_per_iteration": 2.6348326206207275
+    },
+    {
+      "auxiliary_loss_clip": 0.01193409,
+      "auxiliary_loss_mlp": 0.01028716,
+      "balance_loss_clip": 1.05511689,
+      "balance_loss_mlp": 1.02017498,
+      "epoch": 0.5182468586544821,
+      "flos": 20704082117760.0,
+      "grad_norm": 2.1407413336592693,
+      "language_loss": 0.77430362,
+      "learning_rate": 1.9789681531752177e-06,
+      "loss": 0.79652488,
+      "num_input_tokens_seen": 93085595,
+      "step": 4310,
+      "time_per_iteration": 2.9379937648773193
+    },
+    {
+      "auxiliary_loss_clip": 0.01214698,
+      "auxiliary_loss_mlp": 0.01024852,
+      "balance_loss_clip": 1.0473876,
+      "balance_loss_mlp": 1.01719904,
+      "epoch": 0.5183671015451211,
+      "flos": 23112107936640.0,
+      "grad_norm": 1.4710381415634026,
+      "language_loss": 0.72590196,
+      "learning_rate": 1.978189226215204e-06,
+      "loss": 0.74829751,
+      "num_input_tokens_seen": 93106140,
+      "step": 4311,
+      "time_per_iteration": 2.7119178771972656
+    },
+    {
+      "auxiliary_loss_clip": 0.01182376,
+      "auxiliary_loss_mlp": 0.01025474,
+      "balance_loss_clip": 1.05356371,
+      "balance_loss_mlp": 1.01778495,
+      "epoch": 0.5184873444357603,
+      "flos": 17597090568960.0,
+      "grad_norm": 1.743792689348917,
+      "language_loss": 0.77255034,
+      "learning_rate": 1.9774103025638675e-06,
+      "loss": 0.79462886,
+      "num_input_tokens_seen": 93124265,
+      "step": 4312,
+      "time_per_iteration": 2.6239662170410156
+    },
+    {
+      "auxiliary_loss_clip": 0.01227941,
+      "auxiliary_loss_mlp": 0.01035929,
+      "balance_loss_clip": 1.05711365,
+      "balance_loss_mlp": 1.02752519,
+      "epoch": 0.5186075873263993,
+      "flos": 24936800883840.0,
+      "grad_norm": 1.6906777708642684,
+      "language_loss": 0.7646212,
+      "learning_rate": 1.9766313823393696e-06,
+      "loss": 0.78725994,
+      "num_input_tokens_seen": 93145130,
+      "step": 4313,
+      "time_per_iteration": 2.7542200088500977
+    },
+    {
+      "auxiliary_loss_clip": 0.01205709,
+      "auxiliary_loss_mlp": 0.0103012,
+      "balance_loss_clip": 1.04374528,
+      "balance_loss_mlp": 1.02212715,
+      "epoch": 0.5187278302170384,
+      "flos": 15190106244480.0,
+      "grad_norm": 2.0295375814249366,
+      "language_loss": 0.69450259,
+      "learning_rate": 1.975852465659873e-06,
+      "loss": 0.71686089,
+      "num_input_tokens_seen": 93161110,
+      "step": 4314,
+      "time_per_iteration": 2.8775477409362793
+    },
+    {
+      "auxiliary_loss_clip": 0.01195949,
+      "auxiliary_loss_mlp": 0.01031114,
+      "balance_loss_clip": 1.0554533,
+      "balance_loss_mlp": 1.02234042,
+      "epoch": 0.5188480731076776,
+      "flos": 25009412227200.0,
+      "grad_norm": 2.3173121315382392,
+      "language_loss": 0.69975805,
+      "learning_rate": 1.9750735526435377e-06,
+      "loss": 0.72202873,
+      "num_input_tokens_seen": 93178055,
+      "step": 4315,
+      "time_per_iteration": 2.650116443634033
+    },
+    {
+      "auxiliary_loss_clip": 0.01197186,
+      "auxiliary_loss_mlp": 0.0103235,
+      "balance_loss_clip": 1.04958498,
+      "balance_loss_mlp": 1.02388024,
+      "epoch": 0.5189683159983166,
+      "flos": 24790141653120.0,
+      "grad_norm": 3.056469458789006,
+      "language_loss": 0.79330254,
+      "learning_rate": 1.974294643408525e-06,
+      "loss": 0.81559795,
+      "num_input_tokens_seen": 93195850,
+      "step": 4316,
+      "time_per_iteration": 2.7023253440856934
+    },
+    {
+      "auxiliary_loss_clip": 0.01195505,
+      "auxiliary_loss_mlp": 0.01031842,
+      "balance_loss_clip": 1.05189431,
+      "balance_loss_mlp": 1.02364647,
+      "epoch": 0.5190885588889557,
+      "flos": 24754266944640.0,
+      "grad_norm": 2.2000888338505935,
+      "language_loss": 0.66709113,
+      "learning_rate": 1.9735157380729947e-06,
+      "loss": 0.68936455,
+      "num_input_tokens_seen": 93216260,
+      "step": 4317,
+      "time_per_iteration": 2.674159288406372
+    },
+    {
+      "auxiliary_loss_clip": 0.01201071,
+      "auxiliary_loss_mlp": 0.01026725,
+      "balance_loss_clip": 1.04946709,
+      "balance_loss_mlp": 1.01958466,
+      "epoch": 0.5192088017795948,
+      "flos": 24712646060160.0,
+      "grad_norm": 2.774468723991424,
+      "language_loss": 0.84131974,
+      "learning_rate": 1.9727368367551053e-06,
+      "loss": 0.86359763,
+      "num_input_tokens_seen": 93234810,
+      "step": 4318,
+      "time_per_iteration": 2.7231884002685547
+    },
+    {
+      "auxiliary_loss_clip": 0.0118327,
+      "auxiliary_loss_mlp": 0.01032031,
+      "balance_loss_clip": 1.04639339,
+      "balance_loss_mlp": 1.02391267,
+      "epoch": 0.5193290446702339,
+      "flos": 27229588894080.0,
+      "grad_norm": 1.924536508514286,
+      "language_loss": 0.68554378,
+      "learning_rate": 1.9719579395730164e-06,
+      "loss": 0.7076968,
+      "num_input_tokens_seen": 93254185,
+      "step": 4319,
+      "time_per_iteration": 2.7502522468566895
+    },
+    {
+      "auxiliary_loss_clip": 0.01187484,
+      "auxiliary_loss_mlp": 0.01032616,
+      "balance_loss_clip": 1.05713511,
+      "balance_loss_mlp": 1.02455187,
+      "epoch": 0.5194492875608729,
+      "flos": 11473352392320.0,
+      "grad_norm": 2.383943361687713,
+      "language_loss": 0.93663788,
+      "learning_rate": 1.9711790466448854e-06,
+      "loss": 0.95883888,
+      "num_input_tokens_seen": 93268205,
+      "step": 4320,
+      "time_per_iteration": 2.5842535495758057
+    },
+    {
+      "auxiliary_loss_clip": 0.01219051,
+      "auxiliary_loss_mlp": 0.01031905,
+      "balance_loss_clip": 1.04744613,
+      "balance_loss_mlp": 1.02297592,
+      "epoch": 0.5195695304515121,
+      "flos": 20338906498560.0,
+      "grad_norm": 3.153869998655887,
+      "language_loss": 0.71332318,
+      "learning_rate": 1.9704001580888704e-06,
+      "loss": 0.73583269,
+      "num_input_tokens_seen": 93286945,
+      "step": 4321,
+      "time_per_iteration": 2.7469112873077393
+    },
+    {
+      "auxiliary_loss_clip": 0.0119313,
+      "auxiliary_loss_mlp": 0.01378793,
+      "balance_loss_clip": 1.0480969,
+      "balance_loss_mlp": 1.000067,
+      "epoch": 0.5196897733421512,
+      "flos": 20048317470720.0,
+      "grad_norm": 1.9500215705572246,
+      "language_loss": 0.8685565,
+      "learning_rate": 1.9696212740231283e-06,
+      "loss": 0.89427578,
+      "num_input_tokens_seen": 93305595,
+      "step": 4322,
+      "time_per_iteration": 2.691466808319092
+    },
+    {
+      "auxiliary_loss_clip": 0.01199906,
+      "auxiliary_loss_mlp": 0.01029934,
+      "balance_loss_clip": 1.05325699,
+      "balance_loss_mlp": 1.02159548,
+      "epoch": 0.5198100162327902,
+      "flos": 23805507058560.0,
+      "grad_norm": 2.227544507137627,
+      "language_loss": 0.82053423,
+      "learning_rate": 1.9688423945658146e-06,
+      "loss": 0.84283262,
+      "num_input_tokens_seen": 93326460,
+      "step": 4323,
+      "time_per_iteration": 2.6921041011810303
+    },
+    {
+      "auxiliary_loss_clip": 0.01203032,
+      "auxiliary_loss_mlp": 0.01034351,
+      "balance_loss_clip": 1.04117954,
+      "balance_loss_mlp": 1.02567208,
+      "epoch": 0.5199302591234293,
+      "flos": 24023951619840.0,
+      "grad_norm": 3.821460458683394,
+      "language_loss": 0.71893984,
+      "learning_rate": 1.9680635198350845e-06,
+      "loss": 0.7413137,
+      "num_input_tokens_seen": 93346170,
+      "step": 4324,
+      "time_per_iteration": 2.791393280029297
+    },
+    {
+      "auxiliary_loss_clip": 0.0119059,
+      "auxiliary_loss_mlp": 0.01030611,
+      "balance_loss_clip": 1.05055499,
+      "balance_loss_mlp": 1.02201569,
+      "epoch": 0.5200505020140684,
+      "flos": 26359366095360.0,
+      "grad_norm": 1.8148603423299647,
+      "language_loss": 0.72221565,
+      "learning_rate": 1.967284649949093e-06,
+      "loss": 0.74442768,
+      "num_input_tokens_seen": 93365380,
+      "step": 4325,
+      "time_per_iteration": 2.7256412506103516
+    },
+    {
+      "auxiliary_loss_clip": 0.01205356,
+      "auxiliary_loss_mlp": 0.01030809,
+      "balance_loss_clip": 1.04673529,
+      "balance_loss_mlp": 1.02205324,
+      "epoch": 0.5201707449047075,
+      "flos": 39604262284800.0,
+      "grad_norm": 2.0045561474689744,
+      "language_loss": 0.72593379,
+      "learning_rate": 1.966505785025994e-06,
+      "loss": 0.74829543,
+      "num_input_tokens_seen": 93387285,
+      "step": 4326,
+      "time_per_iteration": 3.8169000148773193
+    },
+    {
+      "auxiliary_loss_clip": 0.01210084,
+      "auxiliary_loss_mlp": 0.01025887,
+      "balance_loss_clip": 1.05062461,
+      "balance_loss_mlp": 1.01789999,
+      "epoch": 0.5202909877953465,
+      "flos": 53682788292480.0,
+      "grad_norm": 1.7332763874681065,
+      "language_loss": 0.76233673,
+      "learning_rate": 1.965726925183941e-06,
+      "loss": 0.7846964,
+      "num_input_tokens_seen": 93410390,
+      "step": 4327,
+      "time_per_iteration": 4.85212254524231
+    },
+    {
+      "auxiliary_loss_clip": 0.01182615,
+      "auxiliary_loss_mlp": 0.01034308,
+      "balance_loss_clip": 1.05377197,
+      "balance_loss_mlp": 1.02600503,
+      "epoch": 0.5204112306859857,
+      "flos": 19537021324800.0,
+      "grad_norm": 2.430385330871557,
+      "language_loss": 0.84819549,
+      "learning_rate": 1.964948070541087e-06,
+      "loss": 0.87036473,
+      "num_input_tokens_seen": 93429050,
+      "step": 4328,
+      "time_per_iteration": 2.6054635047912598
+    },
+    {
+      "auxiliary_loss_clip": 0.0117785,
+      "auxiliary_loss_mlp": 0.01027408,
+      "balance_loss_clip": 1.04796505,
+      "balance_loss_mlp": 1.01895595,
+      "epoch": 0.5205314735766248,
+      "flos": 15304697608320.0,
+      "grad_norm": 2.3595384610244445,
+      "language_loss": 0.69779563,
+      "learning_rate": 1.9641692212155816e-06,
+      "loss": 0.71984822,
+      "num_input_tokens_seen": 93446815,
+      "step": 4329,
+      "time_per_iteration": 2.584810733795166
+    },
+    {
+      "auxiliary_loss_clip": 0.01213371,
+      "auxiliary_loss_mlp": 0.010247,
+      "balance_loss_clip": 1.04963112,
+      "balance_loss_mlp": 1.01677823,
+      "epoch": 0.5206517164672638,
+      "flos": 59263701160320.0,
+      "grad_norm": 2.5923703394384505,
+      "language_loss": 0.72813272,
+      "learning_rate": 1.9633903773255777e-06,
+      "loss": 0.75051343,
+      "num_input_tokens_seen": 93469130,
+      "step": 4330,
+      "time_per_iteration": 2.998823404312134
+    },
+    {
+      "auxiliary_loss_clip": 0.01181941,
+      "auxiliary_loss_mlp": 0.01028713,
+      "balance_loss_clip": 1.05294871,
+      "balance_loss_mlp": 1.02099395,
+      "epoch": 0.520771959357903,
+      "flos": 26871129118080.0,
+      "grad_norm": 1.6572187630057038,
+      "language_loss": 0.74740899,
+      "learning_rate": 1.9626115389892237e-06,
+      "loss": 0.76951551,
+      "num_input_tokens_seen": 93489920,
+      "step": 4331,
+      "time_per_iteration": 2.6800925731658936
+    },
+    {
+      "auxiliary_loss_clip": 0.01216023,
+      "auxiliary_loss_mlp": 0.01030795,
+      "balance_loss_clip": 1.05112314,
+      "balance_loss_mlp": 1.02256989,
+      "epoch": 0.520892202248542,
+      "flos": 26907075653760.0,
+      "grad_norm": 2.1043302497291583,
+      "language_loss": 0.85221457,
+      "learning_rate": 1.96183270632467e-06,
+      "loss": 0.87468266,
+      "num_input_tokens_seen": 93509770,
+      "step": 4332,
+      "time_per_iteration": 3.679096221923828
+    },
+    {
+      "auxiliary_loss_clip": 0.01200496,
+      "auxiliary_loss_mlp": 0.0137965,
+      "balance_loss_clip": 1.04675245,
+      "balance_loss_mlp": 1.00007486,
+      "epoch": 0.5210124451391811,
+      "flos": 25849434666240.0,
+      "grad_norm": 1.5963261335262267,
+      "language_loss": 0.79089797,
+      "learning_rate": 1.9610538794500644e-06,
+      "loss": 0.81669945,
+      "num_input_tokens_seen": 93529320,
+      "step": 4333,
+      "time_per_iteration": 2.7087597846984863
+    },
+    {
+      "auxiliary_loss_clip": 0.01114388,
+      "auxiliary_loss_mlp": 0.01002109,
+      "balance_loss_clip": 1.01733589,
+      "balance_loss_mlp": 1.0008986,
+      "epoch": 0.5211326880298203,
+      "flos": 70553804319360.0,
+      "grad_norm": 0.7721693952852219,
+      "language_loss": 0.59468198,
+      "learning_rate": 1.9602750584835542e-06,
+      "loss": 0.61584699,
+      "num_input_tokens_seen": 93595255,
+      "step": 4334,
+      "time_per_iteration": 3.377195358276367
+    },
+    {
+      "auxiliary_loss_clip": 0.011938,
+      "auxiliary_loss_mlp": 0.01028196,
+      "balance_loss_clip": 1.04755235,
+      "balance_loss_mlp": 1.02038193,
+      "epoch": 0.5212529309204593,
+      "flos": 15628898787840.0,
+      "grad_norm": 2.4788958643889245,
+      "language_loss": 0.82613206,
+      "learning_rate": 1.959496243543286e-06,
+      "loss": 0.84835196,
+      "num_input_tokens_seen": 93613135,
+      "step": 4335,
+      "time_per_iteration": 2.7142210006713867
+    },
+    {
+      "auxiliary_loss_clip": 0.01195087,
+      "auxiliary_loss_mlp": 0.01028444,
+      "balance_loss_clip": 1.05568218,
+      "balance_loss_mlp": 1.02027249,
+      "epoch": 0.5213731738110984,
+      "flos": 26242655829120.0,
+      "grad_norm": 2.0255153054918056,
+      "language_loss": 0.79338461,
+      "learning_rate": 1.9587174347474057e-06,
+      "loss": 0.81561995,
+      "num_input_tokens_seen": 93629645,
+      "step": 4336,
+      "time_per_iteration": 2.686155080795288
+    },
+    {
+      "auxiliary_loss_clip": 0.01197966,
+      "auxiliary_loss_mlp": 0.01026871,
+      "balance_loss_clip": 1.04415941,
+      "balance_loss_mlp": 1.01844311,
+      "epoch": 0.5214934167017375,
+      "flos": 19418407637760.0,
+      "grad_norm": 2.164112858339135,
+      "language_loss": 0.81954944,
+      "learning_rate": 1.9579386322140574e-06,
+      "loss": 0.84179771,
+      "num_input_tokens_seen": 93645325,
+      "step": 4337,
+      "time_per_iteration": 2.685662031173706
+    },
+    {
+      "auxiliary_loss_clip": 0.01185989,
+      "auxiliary_loss_mlp": 0.01379133,
+      "balance_loss_clip": 1.05494416,
+      "balance_loss_mlp": 1.00017357,
+      "epoch": 0.5216136595923766,
+      "flos": 30955788023040.0,
+      "grad_norm": 1.679191041689763,
+      "language_loss": 0.80875671,
+      "learning_rate": 1.9571598360613854e-06,
+      "loss": 0.83440793,
+      "num_input_tokens_seen": 93668200,
+      "step": 4338,
+      "time_per_iteration": 2.6689114570617676
+    },
+    {
+      "auxiliary_loss_clip": 0.01181182,
+      "auxiliary_loss_mlp": 0.01023128,
+      "balance_loss_clip": 1.04596829,
+      "balance_loss_mlp": 1.01454544,
+      "epoch": 0.5217339024830157,
+      "flos": 21945047143680.0,
+      "grad_norm": 3.3768143166115236,
+      "language_loss": 0.69669449,
+      "learning_rate": 1.956381046407532e-06,
+      "loss": 0.7187376,
+      "num_input_tokens_seen": 93688495,
+      "step": 4339,
+      "time_per_iteration": 2.7317206859588623
+    },
+    {
+      "auxiliary_loss_clip": 0.01208308,
+      "auxiliary_loss_mlp": 0.01029082,
+      "balance_loss_clip": 1.0507412,
+      "balance_loss_mlp": 1.02121425,
+      "epoch": 0.5218541453736548,
+      "flos": 20923209037440.0,
+      "grad_norm": 1.745179772236563,
+      "language_loss": 0.86471814,
+      "learning_rate": 1.9556022633706394e-06,
+      "loss": 0.88709199,
+      "num_input_tokens_seen": 93707285,
+      "step": 4340,
+      "time_per_iteration": 2.7079007625579834
+    },
+    {
+      "auxiliary_loss_clip": 0.01191308,
+      "auxiliary_loss_mlp": 0.01029499,
+      "balance_loss_clip": 1.0494175,
+      "balance_loss_mlp": 1.02104068,
+      "epoch": 0.5219743882642939,
+      "flos": 23951663498880.0,
+      "grad_norm": 2.301515176757384,
+      "language_loss": 0.80061567,
+      "learning_rate": 1.954823487068848e-06,
+      "loss": 0.82282364,
+      "num_input_tokens_seen": 93727495,
+      "step": 4341,
+      "time_per_iteration": 2.6967830657958984
+    },
+    {
+      "auxiliary_loss_clip": 0.01193186,
+      "auxiliary_loss_mlp": 0.01024576,
+      "balance_loss_clip": 1.05591536,
+      "balance_loss_mlp": 1.01682186,
+      "epoch": 0.5220946311549329,
+      "flos": 28799280213120.0,
+      "grad_norm": 1.8495154883329026,
+      "language_loss": 0.811122,
+      "learning_rate": 1.9540447176202976e-06,
+      "loss": 0.83329958,
+      "num_input_tokens_seen": 93748740,
+      "step": 4342,
+      "time_per_iteration": 2.6991987228393555
+    },
+    {
+      "auxiliary_loss_clip": 0.01089016,
+      "auxiliary_loss_mlp": 0.01002935,
+      "balance_loss_clip": 1.02042162,
+      "balance_loss_mlp": 1.0017786,
+      "epoch": 0.5222148740455721,
+      "flos": 67189369017600.0,
+      "grad_norm": 0.8690887268818329,
+      "language_loss": 0.60796529,
+      "learning_rate": 1.9532659551431272e-06,
+      "loss": 0.62888485,
+      "num_input_tokens_seen": 93815770,
+      "step": 4343,
+      "time_per_iteration": 3.3723278045654297
+    },
+    {
+      "auxiliary_loss_clip": 0.01194732,
+      "auxiliary_loss_mlp": 0.01026842,
+      "balance_loss_clip": 1.05218291,
+      "balance_loss_mlp": 1.01825929,
+      "epoch": 0.5223351169362112,
+      "flos": 61856164339200.0,
+      "grad_norm": 1.4900672448998578,
+      "language_loss": 0.67440915,
+      "learning_rate": 1.9524871997554744e-06,
+      "loss": 0.69662488,
+      "num_input_tokens_seen": 93843530,
+      "step": 4344,
+      "time_per_iteration": 2.990633964538574
+    },
+    {
+      "auxiliary_loss_clip": 0.01192306,
+      "auxiliary_loss_mlp": 0.01026433,
+      "balance_loss_clip": 1.05274045,
+      "balance_loss_mlp": 1.01821947,
+      "epoch": 0.5224553598268502,
+      "flos": 14647388676480.0,
+      "grad_norm": 2.1776230687102345,
+      "language_loss": 0.80536795,
+      "learning_rate": 1.951708451575475e-06,
+      "loss": 0.8275553,
+      "num_input_tokens_seen": 93860595,
+      "step": 4345,
+      "time_per_iteration": 2.608811855316162
+    },
+    {
+      "auxiliary_loss_clip": 0.0121718,
+      "auxiliary_loss_mlp": 0.01024157,
+      "balance_loss_clip": 1.04911971,
+      "balance_loss_mlp": 1.01629496,
+      "epoch": 0.5225756027174894,
+      "flos": 14826043946880.0,
+      "grad_norm": 1.8451586030693665,
+      "language_loss": 0.82226217,
+      "learning_rate": 1.9509297107212657e-06,
+      "loss": 0.84467554,
+      "num_input_tokens_seen": 93877365,
+      "step": 4346,
+      "time_per_iteration": 2.670227527618408
+    },
+    {
+      "auxiliary_loss_clip": 0.0118353,
+      "auxiliary_loss_mlp": 0.01024246,
+      "balance_loss_clip": 1.05437422,
+      "balance_loss_mlp": 1.01633072,
+      "epoch": 0.5226958456081284,
+      "flos": 23512009029120.0,
+      "grad_norm": 3.5913229873557997,
+      "language_loss": 0.79083049,
+      "learning_rate": 1.95015097731098e-06,
+      "loss": 0.81290817,
+      "num_input_tokens_seen": 93896855,
+      "step": 4347,
+      "time_per_iteration": 2.5990965366363525
+    },
+    {
+      "auxiliary_loss_clip": 0.01185728,
+      "auxiliary_loss_mlp": 0.01029081,
+      "balance_loss_clip": 1.05567396,
+      "balance_loss_mlp": 1.02074206,
+      "epoch": 0.5228160884987675,
+      "flos": 19062928690560.0,
+      "grad_norm": 2.1966536032458124,
+      "language_loss": 0.81939685,
+      "learning_rate": 1.949372251462751e-06,
+      "loss": 0.84154499,
+      "num_input_tokens_seen": 93914270,
+      "step": 4348,
+      "time_per_iteration": 2.578572988510132
+    },
+    {
+      "auxiliary_loss_clip": 0.0120986,
+      "auxiliary_loss_mlp": 0.01378753,
+      "balance_loss_clip": 1.05116379,
+      "balance_loss_mlp": 1.0000906,
+      "epoch": 0.5229363313894067,
+      "flos": 21063224252160.0,
+      "grad_norm": 1.8252719670731112,
+      "language_loss": 0.82952237,
+      "learning_rate": 1.9485935332947124e-06,
+      "loss": 0.85540843,
+      "num_input_tokens_seen": 93932180,
+      "step": 4349,
+      "time_per_iteration": 2.7708382606506348
+    },
+    {
+      "auxiliary_loss_clip": 0.01197373,
+      "auxiliary_loss_mlp": 0.0102341,
+      "balance_loss_clip": 1.05162895,
+      "balance_loss_mlp": 1.01569974,
+      "epoch": 0.5230565742800457,
+      "flos": 14830389492480.0,
+      "grad_norm": 2.253418129442952,
+      "language_loss": 0.83594501,
+      "learning_rate": 1.947814822924993e-06,
+      "loss": 0.85815287,
+      "num_input_tokens_seen": 93949690,
+      "step": 4350,
+      "time_per_iteration": 2.6853995323181152
+    },
+    {
+      "auxiliary_loss_clip": 0.01186145,
+      "auxiliary_loss_mlp": 0.0102688,
+      "balance_loss_clip": 1.05775476,
+      "balance_loss_mlp": 1.01889861,
+      "epoch": 0.5231768171706848,
+      "flos": 25813021253760.0,
+      "grad_norm": 1.84852926898192,
+      "language_loss": 0.83082092,
+      "learning_rate": 1.9470361204717236e-06,
+      "loss": 0.85295111,
+      "num_input_tokens_seen": 93968830,
+      "step": 4351,
+      "time_per_iteration": 2.7150914669036865
+    },
+    {
+      "auxiliary_loss_clip": 0.0120751,
+      "auxiliary_loss_mlp": 0.01379425,
+      "balance_loss_clip": 1.04742885,
+      "balance_loss_mlp": 1.00011194,
+      "epoch": 0.5232970600613239,
+      "flos": 22743807834240.0,
+      "grad_norm": 1.5511126466742966,
+      "language_loss": 0.80878907,
+      "learning_rate": 1.9462574260530326e-06,
+      "loss": 0.83465844,
+      "num_input_tokens_seen": 93989110,
+      "step": 4352,
+      "time_per_iteration": 3.6050148010253906
+    },
+    {
+      "auxiliary_loss_clip": 0.01179109,
+      "auxiliary_loss_mlp": 0.01032871,
+      "balance_loss_clip": 1.04911518,
+      "balance_loss_mlp": 1.0245086,
+      "epoch": 0.523417302951963,
+      "flos": 17310703432320.0,
+      "grad_norm": 1.7197393030333812,
+      "language_loss": 0.81111813,
+      "learning_rate": 1.9454787397870472e-06,
+      "loss": 0.83323801,
+      "num_input_tokens_seen": 94006430,
+      "step": 4353,
+      "time_per_iteration": 4.4409565925598145
+    },
+    {
+      "auxiliary_loss_clip": 0.01214968,
+      "auxiliary_loss_mlp": 0.01026172,
+      "balance_loss_clip": 1.04704225,
+      "balance_loss_mlp": 1.0181073,
+      "epoch": 0.523537545842602,
+      "flos": 18551740285440.0,
+      "grad_norm": 1.8603209493962947,
+      "language_loss": 0.7151435,
+      "learning_rate": 1.944700061791894e-06,
+      "loss": 0.73755491,
+      "num_input_tokens_seen": 94024825,
+      "step": 4354,
+      "time_per_iteration": 2.7213211059570312
+    },
+    {
+      "auxiliary_loss_clip": 0.0119125,
+      "auxiliary_loss_mlp": 0.01027363,
+      "balance_loss_clip": 1.05283797,
+      "balance_loss_mlp": 1.01916146,
+      "epoch": 0.5236577887332411,
+      "flos": 19719267955200.0,
+      "grad_norm": 2.597493778950774,
+      "language_loss": 0.6513375,
+      "learning_rate": 1.943921392185698e-06,
+      "loss": 0.67352366,
+      "num_input_tokens_seen": 94043450,
+      "step": 4355,
+      "time_per_iteration": 2.6397671699523926
+    },
+    {
+      "auxiliary_loss_clip": 0.01203467,
+      "auxiliary_loss_mlp": 0.0102923,
+      "balance_loss_clip": 1.05045831,
+      "balance_loss_mlp": 1.02160096,
+      "epoch": 0.5237780316238803,
+      "flos": 23550218121600.0,
+      "grad_norm": 2.2551916931935967,
+      "language_loss": 0.77574116,
+      "learning_rate": 1.9431427310865814e-06,
+      "loss": 0.79806817,
+      "num_input_tokens_seen": 94063055,
+      "step": 4356,
+      "time_per_iteration": 2.6805107593536377
+    },
+    {
+      "auxiliary_loss_clip": 0.01186758,
+      "auxiliary_loss_mlp": 0.01033806,
+      "balance_loss_clip": 1.04448032,
+      "balance_loss_mlp": 1.02637959,
+      "epoch": 0.5238982745145193,
+      "flos": 22491894775680.0,
+      "grad_norm": 1.584195194587471,
+      "language_loss": 0.78574902,
+      "learning_rate": 1.942364078612667e-06,
+      "loss": 0.80795467,
+      "num_input_tokens_seen": 94081785,
+      "step": 4357,
+      "time_per_iteration": 3.663130044937134
+    },
+    {
+      "auxiliary_loss_clip": 0.01216328,
+      "auxiliary_loss_mlp": 0.01029597,
+      "balance_loss_clip": 1.04973745,
+      "balance_loss_mlp": 1.02096009,
+      "epoch": 0.5240185174051584,
+      "flos": 27088927234560.0,
+      "grad_norm": 1.7873769494546674,
+      "language_loss": 0.75394726,
+      "learning_rate": 1.9415854348820765e-06,
+      "loss": 0.77640653,
+      "num_input_tokens_seen": 94101635,
+      "step": 4358,
+      "time_per_iteration": 2.7331273555755615
+    },
+    {
+      "auxiliary_loss_clip": 0.01200087,
+      "auxiliary_loss_mlp": 0.01025489,
+      "balance_loss_clip": 1.05521715,
+      "balance_loss_mlp": 1.01698911,
+      "epoch": 0.5241387602957975,
+      "flos": 22674680110080.0,
+      "grad_norm": 2.93675545107719,
+      "language_loss": 0.68558669,
+      "learning_rate": 1.940806800012929e-06,
+      "loss": 0.70784241,
+      "num_input_tokens_seen": 94121705,
+      "step": 4359,
+      "time_per_iteration": 2.592783212661743
+    },
+    {
+      "auxiliary_loss_clip": 0.01214197,
+      "auxiliary_loss_mlp": 0.01379291,
+      "balance_loss_clip": 1.04912186,
+      "balance_loss_mlp": 1.00011206,
+      "epoch": 0.5242590031864366,
+      "flos": 40553453134080.0,
+      "grad_norm": 1.4775664399250596,
+      "language_loss": 0.63405746,
+      "learning_rate": 1.9400281741233432e-06,
+      "loss": 0.65999234,
+      "num_input_tokens_seen": 94146595,
+      "step": 4360,
+      "time_per_iteration": 2.8901946544647217
+    },
+    {
+      "auxiliary_loss_clip": 0.01110835,
+      "auxiliary_loss_mlp": 0.00999707,
+      "balance_loss_clip": 1.02237225,
+      "balance_loss_mlp": 0.99834824,
+      "epoch": 0.5243792460770756,
+      "flos": 66676313105280.0,
+      "grad_norm": 0.8218269721257189,
+      "language_loss": 0.52556849,
+      "learning_rate": 1.939249557331435e-06,
+      "loss": 0.54667389,
+      "num_input_tokens_seen": 94212410,
+      "step": 4361,
+      "time_per_iteration": 3.299093723297119
+    },
+    {
+      "auxiliary_loss_clip": 0.012171,
+      "auxiliary_loss_mlp": 0.01037547,
+      "balance_loss_clip": 1.04974377,
+      "balance_loss_mlp": 1.02922642,
+      "epoch": 0.5244994889677148,
+      "flos": 28183663992960.0,
+      "grad_norm": 1.867186365998483,
+      "language_loss": 0.73053551,
+      "learning_rate": 1.938470949755321e-06,
+      "loss": 0.75308198,
+      "num_input_tokens_seen": 94232290,
+      "step": 4362,
+      "time_per_iteration": 2.7708752155303955
+    },
+    {
+      "auxiliary_loss_clip": 0.01111955,
+      "auxiliary_loss_mlp": 0.01001399,
+      "balance_loss_clip": 1.01727498,
+      "balance_loss_mlp": 1.00008774,
+      "epoch": 0.5246197318583539,
+      "flos": 65950379239680.0,
+      "grad_norm": 0.809182170752748,
+      "language_loss": 0.55660462,
+      "learning_rate": 1.937692351513115e-06,
+      "loss": 0.57773817,
+      "num_input_tokens_seen": 94291285,
+      "step": 4363,
+      "time_per_iteration": 3.2425150871276855
+    },
+    {
+      "auxiliary_loss_clip": 0.01195635,
+      "auxiliary_loss_mlp": 0.0103231,
+      "balance_loss_clip": 1.05135989,
+      "balance_loss_mlp": 1.0232923,
+      "epoch": 0.5247399747489929,
+      "flos": 21033490769280.0,
+      "grad_norm": 3.9884140872251606,
+      "language_loss": 0.80091751,
+      "learning_rate": 1.9369137627229297e-06,
+      "loss": 0.82319689,
+      "num_input_tokens_seen": 94309685,
+      "step": 4364,
+      "time_per_iteration": 2.6404106616973877
+    },
+    {
+      "auxiliary_loss_clip": 0.01192448,
+      "auxiliary_loss_mlp": 0.0102635,
+      "balance_loss_clip": 1.05453432,
+      "balance_loss_mlp": 1.01810694,
+      "epoch": 0.5248602176396321,
+      "flos": 19025940660480.0,
+      "grad_norm": 1.8835507305933723,
+      "language_loss": 0.88091964,
+      "learning_rate": 1.936135183502877e-06,
+      "loss": 0.90310758,
+      "num_input_tokens_seen": 94326985,
+      "step": 4365,
+      "time_per_iteration": 2.626495599746704
+    },
+    {
+      "auxiliary_loss_clip": 0.01212883,
+      "auxiliary_loss_mlp": 0.01032436,
+      "balance_loss_clip": 1.04939938,
+      "balance_loss_mlp": 1.02402925,
+      "epoch": 0.5249804605302711,
+      "flos": 22200084685440.0,
+      "grad_norm": 2.055479654960087,
+      "language_loss": 0.80353677,
+      "learning_rate": 1.935356613971066e-06,
+      "loss": 0.82598996,
+      "num_input_tokens_seen": 94347645,
+      "step": 4366,
+      "time_per_iteration": 2.6732654571533203
+    },
+    {
+      "auxiliary_loss_clip": 0.01199724,
+      "auxiliary_loss_mlp": 0.01379147,
+      "balance_loss_clip": 1.05138791,
+      "balance_loss_mlp": 1.00002694,
+      "epoch": 0.5251007034209102,
+      "flos": 23805686626560.0,
+      "grad_norm": 1.8172662367086396,
+      "language_loss": 0.76522851,
+      "learning_rate": 1.9345780542456047e-06,
+      "loss": 0.79101717,
+      "num_input_tokens_seen": 94367020,
+      "step": 4367,
+      "time_per_iteration": 2.7669146060943604
+    },
+    {
+      "auxiliary_loss_clip": 0.01179492,
+      "auxiliary_loss_mlp": 0.01029263,
+      "balance_loss_clip": 1.05043674,
+      "balance_loss_mlp": 1.02191365,
+      "epoch": 0.5252209463115494,
+      "flos": 23294605962240.0,
+      "grad_norm": 1.856760432877937,
+      "language_loss": 0.71569324,
+      "learning_rate": 1.9337995044446007e-06,
+      "loss": 0.73778081,
+      "num_input_tokens_seen": 94385860,
+      "step": 4368,
+      "time_per_iteration": 2.6309237480163574
+    },
+    {
+      "auxiliary_loss_clip": 0.01195455,
+      "auxiliary_loss_mlp": 0.01029483,
+      "balance_loss_clip": 1.05211949,
+      "balance_loss_mlp": 1.02120411,
+      "epoch": 0.5253411892021884,
+      "flos": 19828687760640.0,
+      "grad_norm": 1.9796747264535326,
+      "language_loss": 0.80011147,
+      "learning_rate": 1.9330209646861596e-06,
+      "loss": 0.82236087,
+      "num_input_tokens_seen": 94405010,
+      "step": 4369,
+      "time_per_iteration": 2.587864875793457
+    },
+    {
+      "auxiliary_loss_clip": 0.01200893,
+      "auxiliary_loss_mlp": 0.01028808,
+      "balance_loss_clip": 1.05193901,
+      "balance_loss_mlp": 1.02101147,
+      "epoch": 0.5254614320928275,
+      "flos": 24133730561280.0,
+      "grad_norm": 1.887565011534886,
+      "language_loss": 0.7759378,
+      "learning_rate": 1.9322424350883843e-06,
+      "loss": 0.79823476,
+      "num_input_tokens_seen": 94426845,
+      "step": 4370,
+      "time_per_iteration": 2.6553351879119873
+    },
+    {
+      "auxiliary_loss_clip": 0.0120058,
+      "auxiliary_loss_mlp": 0.01027562,
+      "balance_loss_clip": 1.04907489,
+      "balance_loss_mlp": 1.01946211,
+      "epoch": 0.5255816749834666,
+      "flos": 24644954880000.0,
+      "grad_norm": 1.5925678053936454,
+      "language_loss": 0.78540212,
+      "learning_rate": 1.931463915769379e-06,
+      "loss": 0.80768359,
+      "num_input_tokens_seen": 94446960,
+      "step": 4371,
+      "time_per_iteration": 2.7145349979400635
+    },
+    {
+      "auxiliary_loss_clip": 0.01213711,
+      "auxiliary_loss_mlp": 0.01031219,
+      "balance_loss_clip": 1.04692054,
+      "balance_loss_mlp": 1.02173042,
+      "epoch": 0.5257019178741057,
+      "flos": 14136595320960.0,
+      "grad_norm": 2.331644203319181,
+      "language_loss": 0.7374295,
+      "learning_rate": 1.930685406847242e-06,
+      "loss": 0.75987881,
+      "num_input_tokens_seen": 94461535,
+      "step": 4372,
+      "time_per_iteration": 2.7316737174987793
+    },
+    {
+      "auxiliary_loss_clip": 0.01200503,
+      "auxiliary_loss_mlp": 0.01025159,
+      "balance_loss_clip": 1.05140066,
+      "balance_loss_mlp": 1.01732659,
+      "epoch": 0.5258221607647448,
+      "flos": 23548961145600.0,
+      "grad_norm": 1.42736594639593,
+      "language_loss": 0.81725097,
+      "learning_rate": 1.9299069084400734e-06,
+      "loss": 0.83950758,
+      "num_input_tokens_seen": 94482395,
+      "step": 4373,
+      "time_per_iteration": 2.700714111328125
+    },
+    {
+      "auxiliary_loss_clip": 0.01202867,
+      "auxiliary_loss_mlp": 0.01026745,
+      "balance_loss_clip": 1.04900587,
+      "balance_loss_mlp": 1.01746416,
+      "epoch": 0.5259424036553839,
+      "flos": 24966103403520.0,
+      "grad_norm": 1.858021540305601,
+      "language_loss": 0.69353062,
+      "learning_rate": 1.9291284206659717e-06,
+      "loss": 0.71582675,
+      "num_input_tokens_seen": 94500580,
+      "step": 4374,
+      "time_per_iteration": 2.714278221130371
+    },
+    {
+      "auxiliary_loss_clip": 0.01188472,
+      "auxiliary_loss_mlp": 0.01030199,
+      "balance_loss_clip": 1.05661321,
+      "balance_loss_mlp": 1.02172315,
+      "epoch": 0.526062646546023,
+      "flos": 28763908295040.0,
+      "grad_norm": 1.6960876306266093,
+      "language_loss": 0.71619594,
+      "learning_rate": 1.928349943643032e-06,
+      "loss": 0.73838258,
+      "num_input_tokens_seen": 94519680,
+      "step": 4375,
+      "time_per_iteration": 2.624508857727051
+    },
+    {
+      "auxiliary_loss_clip": 0.01191325,
+      "auxiliary_loss_mlp": 0.0102549,
+      "balance_loss_clip": 1.05554318,
+      "balance_loss_mlp": 1.01722884,
+      "epoch": 0.526182889436662,
+      "flos": 22821375254400.0,
+      "grad_norm": 1.6635332066086774,
+      "language_loss": 0.81853306,
+      "learning_rate": 1.9275714774893493e-06,
+      "loss": 0.84070122,
+      "num_input_tokens_seen": 94539135,
+      "step": 4376,
+      "time_per_iteration": 2.6119441986083984
+    },
+    {
+      "auxiliary_loss_clip": 0.01195167,
+      "auxiliary_loss_mlp": 0.01027009,
+      "balance_loss_clip": 1.04716825,
+      "balance_loss_mlp": 1.01827669,
+      "epoch": 0.5263031323273012,
+      "flos": 22929466256640.0,
+      "grad_norm": 2.2702724670473287,
+      "language_loss": 0.73082107,
+      "learning_rate": 1.9267930223230154e-06,
+      "loss": 0.75304282,
+      "num_input_tokens_seen": 94557610,
+      "step": 4377,
+      "time_per_iteration": 2.8027265071868896
+    },
+    {
+      "auxiliary_loss_clip": 0.01201482,
+      "auxiliary_loss_mlp": 0.01026554,
+      "balance_loss_clip": 1.05054069,
+      "balance_loss_mlp": 1.01897228,
+      "epoch": 0.5264233752179402,
+      "flos": 17748634049280.0,
+      "grad_norm": 2.00275743249663,
+      "language_loss": 0.78311419,
+      "learning_rate": 1.9260145782621224e-06,
+      "loss": 0.80539453,
+      "num_input_tokens_seen": 94575390,
+      "step": 4378,
+      "time_per_iteration": 3.598954916000366
+    },
+    {
+      "auxiliary_loss_clip": 0.01200148,
+      "auxiliary_loss_mlp": 0.01031411,
+      "balance_loss_clip": 1.05436802,
+      "balance_loss_mlp": 1.02346623,
+      "epoch": 0.5265436181085793,
+      "flos": 24421626069120.0,
+      "grad_norm": 1.8272815628040076,
+      "language_loss": 0.88028097,
+      "learning_rate": 1.925236145424758e-06,
+      "loss": 0.90259659,
+      "num_input_tokens_seen": 94594210,
+      "step": 4379,
+      "time_per_iteration": 3.620918035507202
+    },
+    {
+      "auxiliary_loss_clip": 0.01090673,
+      "auxiliary_loss_mlp": 0.01001614,
+      "balance_loss_clip": 1.01895928,
+      "balance_loss_mlp": 1.0003798,
+      "epoch": 0.5266638609992185,
+      "flos": 69207298156800.0,
+      "grad_norm": 0.6919615333354734,
+      "language_loss": 0.576087,
+      "learning_rate": 1.924457723929012e-06,
+      "loss": 0.5970099,
+      "num_input_tokens_seen": 94665020,
+      "step": 4380,
+      "time_per_iteration": 4.21877646446228
+    },
+    {
+      "auxiliary_loss_clip": 0.01195536,
+      "auxiliary_loss_mlp": 0.01029642,
+      "balance_loss_clip": 1.0544343,
+      "balance_loss_mlp": 1.02123785,
+      "epoch": 0.5267841038898575,
+      "flos": 20738699850240.0,
+      "grad_norm": 1.6027498445122854,
+      "language_loss": 0.82932711,
+      "learning_rate": 1.9236793138929685e-06,
+      "loss": 0.85157883,
+      "num_input_tokens_seen": 94684290,
+      "step": 4381,
+      "time_per_iteration": 2.878899574279785
+    },
+    {
+      "auxiliary_loss_clip": 0.01195669,
+      "auxiliary_loss_mlp": 0.01027242,
+      "balance_loss_clip": 1.05224812,
+      "balance_loss_mlp": 1.01938629,
+      "epoch": 0.5269043467804966,
+      "flos": 17234392988160.0,
+      "grad_norm": 2.015808840819632,
+      "language_loss": 0.81118053,
+      "learning_rate": 1.9229009154347133e-06,
+      "loss": 0.83340967,
+      "num_input_tokens_seen": 94701880,
+      "step": 4382,
+      "time_per_iteration": 2.7050621509552
+    },
+    {
+      "auxiliary_loss_clip": 0.01198019,
+      "auxiliary_loss_mlp": 0.01378855,
+      "balance_loss_clip": 1.0444181,
+      "balance_loss_mlp": 1.00004196,
+      "epoch": 0.5270245896711357,
+      "flos": 18223157646720.0,
+      "grad_norm": 2.3284726796529394,
+      "language_loss": 0.80483234,
+      "learning_rate": 1.922122528672327e-06,
+      "loss": 0.83060104,
+      "num_input_tokens_seen": 94720545,
+      "step": 4383,
+      "time_per_iteration": 3.6462953090667725
+    },
+    {
+      "auxiliary_loss_clip": 0.01180908,
+      "auxiliary_loss_mlp": 0.01022657,
+      "balance_loss_clip": 1.05278683,
+      "balance_loss_mlp": 1.01533127,
+      "epoch": 0.5271448325617748,
+      "flos": 21287558643840.0,
+      "grad_norm": 2.3732941302508714,
+      "language_loss": 0.78411484,
+      "learning_rate": 1.9213441537238914e-06,
+      "loss": 0.8061505,
+      "num_input_tokens_seen": 94737420,
+      "step": 4384,
+      "time_per_iteration": 2.5904481410980225
+    },
+    {
+      "auxiliary_loss_clip": 0.01129251,
+      "auxiliary_loss_mlp": 0.01002112,
+      "balance_loss_clip": 1.02784944,
+      "balance_loss_mlp": 1.0004667,
+      "epoch": 0.5272650754524139,
+      "flos": 65495497403520.0,
+      "grad_norm": 0.8408811534584526,
+      "language_loss": 0.5736984,
+      "learning_rate": 1.920565790707485e-06,
+      "loss": 0.59501207,
+      "num_input_tokens_seen": 94802810,
+      "step": 4385,
+      "time_per_iteration": 3.4679954051971436
+    },
+    {
+      "auxiliary_loss_clip": 0.01225276,
+      "auxiliary_loss_mlp": 0.01029038,
+      "balance_loss_clip": 1.04898357,
+      "balance_loss_mlp": 1.02012098,
+      "epoch": 0.527385318343053,
+      "flos": 19676426008320.0,
+      "grad_norm": 1.9782234606688347,
+      "language_loss": 0.65893567,
+      "learning_rate": 1.9197874397411853e-06,
+      "loss": 0.68147886,
+      "num_input_tokens_seen": 94819440,
+      "step": 4386,
+      "time_per_iteration": 2.8566672801971436
+    },
+    {
+      "auxiliary_loss_clip": 0.01206062,
+      "auxiliary_loss_mlp": 0.01028578,
+      "balance_loss_clip": 1.04450512,
+      "balance_loss_mlp": 1.02047133,
+      "epoch": 0.5275055612336921,
+      "flos": 12712018947840.0,
+      "grad_norm": 3.310358605440645,
+      "language_loss": 0.6678347,
+      "learning_rate": 1.919009100943067e-06,
+      "loss": 0.69018108,
+      "num_input_tokens_seen": 94835130,
+      "step": 4387,
+      "time_per_iteration": 2.6320366859436035
+    },
+    {
+      "auxiliary_loss_clip": 0.01229385,
+      "auxiliary_loss_mlp": 0.01027966,
+      "balance_loss_clip": 1.05039275,
+      "balance_loss_mlp": 1.01946044,
+      "epoch": 0.5276258041243311,
+      "flos": 17749029098880.0,
+      "grad_norm": 2.1756052974772944,
+      "language_loss": 0.66051036,
+      "learning_rate": 1.9182307744312043e-06,
+      "loss": 0.68308383,
+      "num_input_tokens_seen": 94852235,
+      "step": 4388,
+      "time_per_iteration": 2.7508299350738525
+    },
+    {
+      "auxiliary_loss_clip": 0.01204506,
+      "auxiliary_loss_mlp": 0.01027998,
+      "balance_loss_clip": 1.0509311,
+      "balance_loss_mlp": 1.01992178,
+      "epoch": 0.5277460470149702,
+      "flos": 22710447077760.0,
+      "grad_norm": 2.7917571953813667,
+      "language_loss": 0.7637285,
+      "learning_rate": 1.9174524603236676e-06,
+      "loss": 0.7860536,
+      "num_input_tokens_seen": 94871185,
+      "step": 4389,
+      "time_per_iteration": 2.70493221282959
+    },
+    {
+      "auxiliary_loss_clip": 0.01200897,
+      "auxiliary_loss_mlp": 0.01026326,
+      "balance_loss_clip": 1.05086827,
+      "balance_loss_mlp": 1.01769495,
+      "epoch": 0.5278662899056094,
+      "flos": 19902699734400.0,
+      "grad_norm": 1.7184105873710935,
+      "language_loss": 0.76377201,
+      "learning_rate": 1.916674158738527e-06,
+      "loss": 0.78604424,
+      "num_input_tokens_seen": 94890090,
+      "step": 4390,
+      "time_per_iteration": 2.686227321624756
+    },
+    {
+      "auxiliary_loss_clip": 0.01206567,
+      "auxiliary_loss_mlp": 0.01379252,
+      "balance_loss_clip": 1.05227637,
+      "balance_loss_mlp": 1.00012112,
+      "epoch": 0.5279865327962484,
+      "flos": 18005215875840.0,
+      "grad_norm": 2.215455190517794,
+      "language_loss": 0.60268044,
+      "learning_rate": 1.9158958697938506e-06,
+      "loss": 0.62853867,
+      "num_input_tokens_seen": 94908470,
+      "step": 4391,
+      "time_per_iteration": 2.7348413467407227
+    },
+    {
+      "auxiliary_loss_clip": 0.01194981,
+      "auxiliary_loss_mlp": 0.01029378,
+      "balance_loss_clip": 1.05041063,
+      "balance_loss_mlp": 1.02109325,
+      "epoch": 0.5281067756868875,
+      "flos": 15924443892480.0,
+      "grad_norm": 2.467329768799419,
+      "language_loss": 0.85792667,
+      "learning_rate": 1.9151175936077032e-06,
+      "loss": 0.88017023,
+      "num_input_tokens_seen": 94923440,
+      "step": 4392,
+      "time_per_iteration": 2.613577365875244
+    },
+    {
+      "auxiliary_loss_clip": 0.01191628,
+      "auxiliary_loss_mlp": 0.01029608,
+      "balance_loss_clip": 1.05560815,
+      "balance_loss_mlp": 1.02134037,
+      "epoch": 0.5282270185775266,
+      "flos": 19426488197760.0,
+      "grad_norm": 1.534587237742481,
+      "language_loss": 0.79399037,
+      "learning_rate": 1.9143393302981507e-06,
+      "loss": 0.81620276,
+      "num_input_tokens_seen": 94941125,
+      "step": 4393,
+      "time_per_iteration": 2.597357749938965
+    },
+    {
+      "auxiliary_loss_clip": 0.01202868,
+      "auxiliary_loss_mlp": 0.01028082,
+      "balance_loss_clip": 1.05015123,
+      "balance_loss_mlp": 1.02000523,
+      "epoch": 0.5283472614681657,
+      "flos": 16399613934720.0,
+      "grad_norm": 1.856666958945822,
+      "language_loss": 0.83398414,
+      "learning_rate": 1.913561079983252e-06,
+      "loss": 0.85629362,
+      "num_input_tokens_seen": 94959950,
+      "step": 4394,
+      "time_per_iteration": 2.6588239669799805
+    },
+    {
+      "auxiliary_loss_clip": 0.01205496,
+      "auxiliary_loss_mlp": 0.01028907,
+      "balance_loss_clip": 1.05119848,
+      "balance_loss_mlp": 1.02049112,
+      "epoch": 0.5284675043588047,
+      "flos": 26760524163840.0,
+      "grad_norm": 2.0551637310120827,
+      "language_loss": 0.74448186,
+      "learning_rate": 1.9127828427810693e-06,
+      "loss": 0.76682591,
+      "num_input_tokens_seen": 94980515,
+      "step": 4395,
+      "time_per_iteration": 2.619074583053589
+    },
+    {
+      "auxiliary_loss_clip": 0.0121835,
+      "auxiliary_loss_mlp": 0.01031154,
+      "balance_loss_clip": 1.05017352,
+      "balance_loss_mlp": 1.02226067,
+      "epoch": 0.5285877472494439,
+      "flos": 19899898473600.0,
+      "grad_norm": 2.458168490070746,
+      "language_loss": 0.80875599,
+      "learning_rate": 1.9120046188096607e-06,
+      "loss": 0.83125103,
+      "num_input_tokens_seen": 94998560,
+      "step": 4396,
+      "time_per_iteration": 2.7237279415130615
+    },
+    {
+      "auxiliary_loss_clip": 0.01198908,
+      "auxiliary_loss_mlp": 0.01030285,
+      "balance_loss_clip": 1.05102336,
+      "balance_loss_mlp": 1.0226078,
+      "epoch": 0.528707990140083,
+      "flos": 20011257613440.0,
+      "grad_norm": 1.933529691280535,
+      "language_loss": 0.7406311,
+      "learning_rate": 1.9112264081870804e-06,
+      "loss": 0.762923,
+      "num_input_tokens_seen": 95016950,
+      "step": 4397,
+      "time_per_iteration": 2.6825621128082275
+    },
+    {
+      "auxiliary_loss_clip": 0.01205963,
+      "auxiliary_loss_mlp": 0.01031124,
+      "balance_loss_clip": 1.04964554,
+      "balance_loss_mlp": 1.02229667,
+      "epoch": 0.528828233030722,
+      "flos": 20667956014080.0,
+      "grad_norm": 2.201066336803474,
+      "language_loss": 0.75904924,
+      "learning_rate": 1.9104482110313843e-06,
+      "loss": 0.78142011,
+      "num_input_tokens_seen": 95036540,
+      "step": 4398,
+      "time_per_iteration": 2.701559066772461
+    },
+    {
+      "auxiliary_loss_clip": 0.01191547,
+      "auxiliary_loss_mlp": 0.01036376,
+      "balance_loss_clip": 1.05306542,
+      "balance_loss_mlp": 1.02844894,
+      "epoch": 0.5289484759213612,
+      "flos": 25192448956800.0,
+      "grad_norm": 1.94548113808084,
+      "language_loss": 0.74794817,
+      "learning_rate": 1.909670027460623e-06,
+      "loss": 0.77022731,
+      "num_input_tokens_seen": 95053840,
+      "step": 4399,
+      "time_per_iteration": 2.690164804458618
+    },
+    {
+      "auxiliary_loss_clip": 0.01193023,
+      "auxiliary_loss_mlp": 0.01027215,
+      "balance_loss_clip": 1.05381322,
+      "balance_loss_mlp": 1.01908541,
+      "epoch": 0.5290687188120002,
+      "flos": 31139255715840.0,
+      "grad_norm": 1.921128338848143,
+      "language_loss": 0.71799344,
+      "learning_rate": 1.908891857592847e-06,
+      "loss": 0.74019581,
+      "num_input_tokens_seen": 95074910,
+      "step": 4400,
+      "time_per_iteration": 2.728548765182495
+    },
+    {
+      "auxiliary_loss_clip": 0.01202203,
+      "auxiliary_loss_mlp": 0.01029628,
+      "balance_loss_clip": 1.05035567,
+      "balance_loss_mlp": 1.02100372,
+      "epoch": 0.5291889617026393,
+      "flos": 20119851406080.0,
+      "grad_norm": 2.465616641296621,
+      "language_loss": 0.90511978,
+      "learning_rate": 1.9081137015461034e-06,
+      "loss": 0.92743802,
+      "num_input_tokens_seen": 95090985,
+      "step": 4401,
+      "time_per_iteration": 2.7096352577209473
+    },
+    {
+      "auxiliary_loss_clip": 0.0121247,
+      "auxiliary_loss_mlp": 0.01031748,
+      "balance_loss_clip": 1.05165756,
+      "balance_loss_mlp": 1.02351713,
+      "epoch": 0.5293092045932785,
+      "flos": 19643747610240.0,
+      "grad_norm": 2.0644307033647347,
+      "language_loss": 0.90320575,
+      "learning_rate": 1.9073355594384383e-06,
+      "loss": 0.92564785,
+      "num_input_tokens_seen": 95109225,
+      "step": 4402,
+      "time_per_iteration": 2.6596322059631348
+    },
+    {
+      "auxiliary_loss_clip": 0.01198496,
+      "auxiliary_loss_mlp": 0.01023643,
+      "balance_loss_clip": 1.04819238,
+      "balance_loss_mlp": 1.01534021,
+      "epoch": 0.5294294474839175,
+      "flos": 24317736958080.0,
+      "grad_norm": 1.9606370662847072,
+      "language_loss": 0.80492413,
+      "learning_rate": 1.906557431387895e-06,
+      "loss": 0.82714558,
+      "num_input_tokens_seen": 95128215,
+      "step": 4403,
+      "time_per_iteration": 2.6144745349884033
+    },
+    {
+      "auxiliary_loss_clip": 0.01209402,
+      "auxiliary_loss_mlp": 0.01036269,
+      "balance_loss_clip": 1.05465746,
+      "balance_loss_mlp": 1.02748322,
+      "epoch": 0.5295496903745566,
+      "flos": 18875941464960.0,
+      "grad_norm": 1.9875460522715003,
+      "language_loss": 0.78908205,
+      "learning_rate": 1.905779317512516e-06,
+      "loss": 0.8115387,
+      "num_input_tokens_seen": 95145760,
+      "step": 4404,
+      "time_per_iteration": 3.3761978149414062
+    },
+    {
+      "auxiliary_loss_clip": 0.01189389,
+      "auxiliary_loss_mlp": 0.0102227,
+      "balance_loss_clip": 1.05140114,
+      "balance_loss_mlp": 1.01471853,
+      "epoch": 0.5296699332651957,
+      "flos": 20923101296640.0,
+      "grad_norm": 2.167380249829395,
+      "language_loss": 0.80527622,
+      "learning_rate": 1.9050012179303385e-06,
+      "loss": 0.82739282,
+      "num_input_tokens_seen": 95164270,
+      "step": 4405,
+      "time_per_iteration": 4.645838499069214
+    },
+    {
+      "auxiliary_loss_clip": 0.01191327,
+      "auxiliary_loss_mlp": 0.01025318,
+      "balance_loss_clip": 1.04964638,
+      "balance_loss_mlp": 1.01696754,
+      "epoch": 0.5297901761558348,
+      "flos": 22046745525120.0,
+      "grad_norm": 2.391626229364063,
+      "language_loss": 0.69372869,
+      "learning_rate": 1.904223132759401e-06,
+      "loss": 0.71589518,
+      "num_input_tokens_seen": 95182870,
+      "step": 4406,
+      "time_per_iteration": 2.6265335083007812
+    },
+    {
+      "auxiliary_loss_clip": 0.01191689,
+      "auxiliary_loss_mlp": 0.01029245,
+      "balance_loss_clip": 1.05132699,
+      "balance_loss_mlp": 1.02175832,
+      "epoch": 0.5299104190464738,
+      "flos": 21798495653760.0,
+      "grad_norm": 2.8400378162548816,
+      "language_loss": 0.68783993,
+      "learning_rate": 1.9034450621177383e-06,
+      "loss": 0.71004927,
+      "num_input_tokens_seen": 95201190,
+      "step": 4407,
+      "time_per_iteration": 2.6311044692993164
+    },
+    {
+      "auxiliary_loss_clip": 0.01192318,
+      "auxiliary_loss_mlp": 0.01029232,
+      "balance_loss_clip": 1.05470216,
+      "balance_loss_mlp": 1.02073801,
+      "epoch": 0.530030661937113,
+      "flos": 14720790119040.0,
+      "grad_norm": 2.071788318620992,
+      "language_loss": 0.70821857,
+      "learning_rate": 1.9026670061233824e-06,
+      "loss": 0.73043406,
+      "num_input_tokens_seen": 95218625,
+      "step": 4408,
+      "time_per_iteration": 2.590153694152832
+    },
+    {
+      "auxiliary_loss_clip": 0.01197492,
+      "auxiliary_loss_mlp": 0.01034214,
+      "balance_loss_clip": 1.05264974,
+      "balance_loss_mlp": 1.02620363,
+      "epoch": 0.5301509048277521,
+      "flos": 21251504367360.0,
+      "grad_norm": 2.2218599541008954,
+      "language_loss": 0.80512369,
+      "learning_rate": 1.901888964894365e-06,
+      "loss": 0.8274408,
+      "num_input_tokens_seen": 95237665,
+      "step": 4409,
+      "time_per_iteration": 3.514362096786499
+    },
+    {
+      "auxiliary_loss_clip": 0.01185406,
+      "auxiliary_loss_mlp": 0.01026676,
+      "balance_loss_clip": 1.05386209,
+      "balance_loss_mlp": 1.01864088,
+      "epoch": 0.5302711477183911,
+      "flos": 25957058791680.0,
+      "grad_norm": 2.5244959596873584,
+      "language_loss": 0.67881179,
+      "learning_rate": 1.9011109385487134e-06,
+      "loss": 0.70093262,
+      "num_input_tokens_seen": 95258915,
+      "step": 4410,
+      "time_per_iteration": 2.599339485168457
+    },
+    {
+      "auxiliary_loss_clip": 0.01184992,
+      "auxiliary_loss_mlp": 0.01026467,
+      "balance_loss_clip": 1.05399919,
+      "balance_loss_mlp": 1.01778865,
+      "epoch": 0.5303913906090303,
+      "flos": 22273126992000.0,
+      "grad_norm": 2.6578613796207167,
+      "language_loss": 0.66535103,
+      "learning_rate": 1.900332927204454e-06,
+      "loss": 0.68746567,
+      "num_input_tokens_seen": 95277365,
+      "step": 4411,
+      "time_per_iteration": 2.5770716667175293
+    },
+    {
+      "auxiliary_loss_clip": 0.01205994,
+      "auxiliary_loss_mlp": 0.01031431,
+      "balance_loss_clip": 1.05025673,
+      "balance_loss_mlp": 1.02243984,
+      "epoch": 0.5305116334996693,
+      "flos": 24936010784640.0,
+      "grad_norm": 1.8752167047401473,
+      "language_loss": 0.76900959,
+      "learning_rate": 1.8995549309796097e-06,
+      "loss": 0.79138386,
+      "num_input_tokens_seen": 95296670,
+      "step": 4412,
+      "time_per_iteration": 2.648299217224121
+    },
+    {
+      "auxiliary_loss_clip": 0.01198564,
+      "auxiliary_loss_mlp": 0.0102805,
+      "balance_loss_clip": 1.05457973,
+      "balance_loss_mlp": 1.01988375,
+      "epoch": 0.5306318763903084,
+      "flos": 20189338266240.0,
+      "grad_norm": 1.6778583208150244,
+      "language_loss": 0.76810312,
+      "learning_rate": 1.8987769499922028e-06,
+      "loss": 0.79036927,
+      "num_input_tokens_seen": 95315640,
+      "step": 4413,
+      "time_per_iteration": 2.5617945194244385
+    },
+    {
+      "auxiliary_loss_clip": 0.01192087,
+      "auxiliary_loss_mlp": 0.01378936,
+      "balance_loss_clip": 1.05291748,
+      "balance_loss_mlp": 1.0000658,
+      "epoch": 0.5307521192809476,
+      "flos": 20266366982400.0,
+      "grad_norm": 2.16814166511355,
+      "language_loss": 0.7060855,
+      "learning_rate": 1.897998984360252e-06,
+      "loss": 0.73179579,
+      "num_input_tokens_seen": 95334610,
+      "step": 4414,
+      "time_per_iteration": 2.6006181240081787
+    },
+    {
+      "auxiliary_loss_clip": 0.01195834,
+      "auxiliary_loss_mlp": 0.01031313,
+      "balance_loss_clip": 1.04964149,
+      "balance_loss_mlp": 1.02366018,
+      "epoch": 0.5308723621715866,
+      "flos": 28844276976000.0,
+      "grad_norm": 1.3949343471850149,
+      "language_loss": 0.78439492,
+      "learning_rate": 1.897221034201775e-06,
+      "loss": 0.80666637,
+      "num_input_tokens_seen": 95358350,
+      "step": 4415,
+      "time_per_iteration": 2.725276231765747
+    },
+    {
+      "auxiliary_loss_clip": 0.01208049,
+      "auxiliary_loss_mlp": 0.01035587,
+      "balance_loss_clip": 1.04812932,
+      "balance_loss_mlp": 1.02802932,
+      "epoch": 0.5309926050622257,
+      "flos": 27457766040960.0,
+      "grad_norm": 1.538514435514034,
+      "language_loss": 0.66997182,
+      "learning_rate": 1.8964430996347842e-06,
+      "loss": 0.6924082,
+      "num_input_tokens_seen": 95379900,
+      "step": 4416,
+      "time_per_iteration": 2.7826080322265625
+    },
+    {
+      "auxiliary_loss_clip": 0.01198394,
+      "auxiliary_loss_mlp": 0.01025429,
+      "balance_loss_clip": 1.05044162,
+      "balance_loss_mlp": 1.01716781,
+      "epoch": 0.5311128479528648,
+      "flos": 20514545026560.0,
+      "grad_norm": 1.8847139029883664,
+      "language_loss": 0.82385343,
+      "learning_rate": 1.8956651807772931e-06,
+      "loss": 0.84609163,
+      "num_input_tokens_seen": 95397935,
+      "step": 4417,
+      "time_per_iteration": 2.695247173309326
+    },
+    {
+      "auxiliary_loss_clip": 0.01191769,
+      "auxiliary_loss_mlp": 0.01025506,
+      "balance_loss_clip": 1.05420804,
+      "balance_loss_mlp": 1.01839519,
+      "epoch": 0.5312330908435039,
+      "flos": 21397660807680.0,
+      "grad_norm": 1.5437853725375306,
+      "language_loss": 0.83859837,
+      "learning_rate": 1.8948872777473115e-06,
+      "loss": 0.86077112,
+      "num_input_tokens_seen": 95415890,
+      "step": 4418,
+      "time_per_iteration": 2.6388001441955566
+    },
+    {
+      "auxiliary_loss_clip": 0.01203209,
+      "auxiliary_loss_mlp": 0.01030206,
+      "balance_loss_clip": 1.05298924,
+      "balance_loss_mlp": 1.02217722,
+      "epoch": 0.531353333734143,
+      "flos": 24717350741760.0,
+      "grad_norm": 1.743213628981718,
+      "language_loss": 0.63174254,
+      "learning_rate": 1.8941093906628458e-06,
+      "loss": 0.6540767,
+      "num_input_tokens_seen": 95433675,
+      "step": 4419,
+      "time_per_iteration": 2.6467363834381104
+    },
+    {
+      "auxiliary_loss_clip": 0.01192334,
+      "auxiliary_loss_mlp": 0.01031386,
+      "balance_loss_clip": 1.04876542,
+      "balance_loss_mlp": 1.02335167,
+      "epoch": 0.531473576624782,
+      "flos": 30480689808000.0,
+      "grad_norm": 1.6420191238506492,
+      "language_loss": 0.70661873,
+      "learning_rate": 1.893331519641902e-06,
+      "loss": 0.72885597,
+      "num_input_tokens_seen": 95455820,
+      "step": 4420,
+      "time_per_iteration": 2.7399017810821533
+    },
+    {
+      "auxiliary_loss_clip": 0.01198611,
+      "auxiliary_loss_mlp": 0.01030872,
+      "balance_loss_clip": 1.04804754,
+      "balance_loss_mlp": 1.02253938,
+      "epoch": 0.5315938195154212,
+      "flos": 23002975440000.0,
+      "grad_norm": 2.8318713432276863,
+      "language_loss": 0.73825723,
+      "learning_rate": 1.8925536648024815e-06,
+      "loss": 0.76055205,
+      "num_input_tokens_seen": 95473240,
+      "step": 4421,
+      "time_per_iteration": 2.7173328399658203
+    },
+    {
+      "auxiliary_loss_clip": 0.01185034,
+      "auxiliary_loss_mlp": 0.01023659,
+      "balance_loss_clip": 1.05440426,
+      "balance_loss_mlp": 1.01532364,
+      "epoch": 0.5317140624060602,
+      "flos": 22748584343040.0,
+      "grad_norm": 2.758784820442333,
+      "language_loss": 0.75520402,
+      "learning_rate": 1.8917758262625849e-06,
+      "loss": 0.77729094,
+      "num_input_tokens_seen": 95493480,
+      "step": 4422,
+      "time_per_iteration": 2.614621639251709
+    },
+    {
+      "auxiliary_loss_clip": 0.01191567,
+      "auxiliary_loss_mlp": 0.0102417,
+      "balance_loss_clip": 1.05007839,
+      "balance_loss_mlp": 1.01667786,
+      "epoch": 0.5318343052966993,
+      "flos": 22821087945600.0,
+      "grad_norm": 1.8396325424561473,
+      "language_loss": 0.80974412,
+      "learning_rate": 1.8909980041402089e-06,
+      "loss": 0.83190155,
+      "num_input_tokens_seen": 95512075,
+      "step": 4423,
+      "time_per_iteration": 2.6202468872070312
+    },
+    {
+      "auxiliary_loss_clip": 0.01182328,
+      "auxiliary_loss_mlp": 0.01031009,
+      "balance_loss_clip": 1.04932308,
+      "balance_loss_mlp": 1.02244401,
+      "epoch": 0.5319545481873384,
+      "flos": 13626089274240.0,
+      "grad_norm": 2.3096780641583483,
+      "language_loss": 0.65670931,
+      "learning_rate": 1.8902201985533494e-06,
+      "loss": 0.67884266,
+      "num_input_tokens_seen": 95529340,
+      "step": 4424,
+      "time_per_iteration": 2.636601686477661
+    },
+    {
+      "auxiliary_loss_clip": 0.0120071,
+      "auxiliary_loss_mlp": 0.0102726,
+      "balance_loss_clip": 1.05242968,
+      "balance_loss_mlp": 1.01994681,
+      "epoch": 0.5320747910779775,
+      "flos": 22162522037760.0,
+      "grad_norm": 2.010391031116549,
+      "language_loss": 0.74983919,
+      "learning_rate": 1.8894424096199983e-06,
+      "loss": 0.77211893,
+      "num_input_tokens_seen": 95548545,
+      "step": 4425,
+      "time_per_iteration": 2.6015467643737793
+    },
+    {
+      "auxiliary_loss_clip": 0.01191849,
+      "auxiliary_loss_mlp": 0.01031564,
+      "balance_loss_clip": 1.05280995,
+      "balance_loss_mlp": 1.02325463,
+      "epoch": 0.5321950339686166,
+      "flos": 18588081870720.0,
+      "grad_norm": 1.836505246331873,
+      "language_loss": 0.85785115,
+      "learning_rate": 1.8886646374581463e-06,
+      "loss": 0.88008523,
+      "num_input_tokens_seen": 95567770,
+      "step": 4426,
+      "time_per_iteration": 2.6076552867889404
+    },
+    {
+      "auxiliary_loss_clip": 0.01187712,
+      "auxiliary_loss_mlp": 0.01030674,
+      "balance_loss_clip": 1.05084777,
+      "balance_loss_mlp": 1.0222398,
+      "epoch": 0.5323152768592557,
+      "flos": 22856818999680.0,
+      "grad_norm": 1.6965804300735605,
+      "language_loss": 0.71151119,
+      "learning_rate": 1.8878868821857795e-06,
+      "loss": 0.73369503,
+      "num_input_tokens_seen": 95587420,
+      "step": 4427,
+      "time_per_iteration": 2.599118232727051
+    },
+    {
+      "auxiliary_loss_clip": 0.01212247,
+      "auxiliary_loss_mlp": 0.0102949,
+      "balance_loss_clip": 1.04502249,
+      "balance_loss_mlp": 1.020859,
+      "epoch": 0.5324355197498948,
+      "flos": 33948690998400.0,
+      "grad_norm": 3.889349365429772,
+      "language_loss": 0.74765778,
+      "learning_rate": 1.8871091439208838e-06,
+      "loss": 0.77007514,
+      "num_input_tokens_seen": 95609030,
+      "step": 4428,
+      "time_per_iteration": 2.8410964012145996
+    },
+    {
+      "auxiliary_loss_clip": 0.01215206,
+      "auxiliary_loss_mlp": 0.01032371,
+      "balance_loss_clip": 1.05001009,
+      "balance_loss_mlp": 1.02398491,
+      "epoch": 0.5325557626405338,
+      "flos": 23256720092160.0,
+      "grad_norm": 2.581375526403214,
+      "language_loss": 0.77173924,
+      "learning_rate": 1.8863314227814414e-06,
+      "loss": 0.79421496,
+      "num_input_tokens_seen": 95627340,
+      "step": 4429,
+      "time_per_iteration": 2.7593085765838623
+    },
+    {
+      "auxiliary_loss_clip": 0.01198246,
+      "auxiliary_loss_mlp": 0.01030696,
+      "balance_loss_clip": 1.05420387,
+      "balance_loss_mlp": 1.0219996,
+      "epoch": 0.532676005531173,
+      "flos": 26718687797760.0,
+      "grad_norm": 2.2732966022324166,
+      "language_loss": 0.48810977,
+      "learning_rate": 1.8855537188854313e-06,
+      "loss": 0.51039922,
+      "num_input_tokens_seen": 95646315,
+      "step": 4430,
+      "time_per_iteration": 3.526488780975342
+    },
+    {
+      "auxiliary_loss_clip": 0.01191876,
+      "auxiliary_loss_mlp": 0.01027189,
+      "balance_loss_clip": 1.04901671,
+      "balance_loss_mlp": 1.01885653,
+      "epoch": 0.5327962484218121,
+      "flos": 17894610921600.0,
+      "grad_norm": 2.0418275353006967,
+      "language_loss": 0.78505015,
+      "learning_rate": 1.8847760323508315e-06,
+      "loss": 0.80724084,
+      "num_input_tokens_seen": 95665220,
+      "step": 4431,
+      "time_per_iteration": 4.3738625049591064
+    },
+    {
+      "auxiliary_loss_clip": 0.01194651,
+      "auxiliary_loss_mlp": 0.01026521,
+      "balance_loss_clip": 1.05282164,
+      "balance_loss_mlp": 1.01893365,
+      "epoch": 0.5329164913124511,
+      "flos": 17925385898880.0,
+      "grad_norm": 1.6483998419648889,
+      "language_loss": 0.7558828,
+      "learning_rate": 1.883998363295616e-06,
+      "loss": 0.77809453,
+      "num_input_tokens_seen": 95682700,
+      "step": 4432,
+      "time_per_iteration": 2.7532880306243896
+    },
+    {
+      "auxiliary_loss_clip": 0.01098324,
+      "auxiliary_loss_mlp": 0.01003317,
+      "balance_loss_clip": 1.01805902,
+      "balance_loss_mlp": 1.00202334,
+      "epoch": 0.5330367342030903,
+      "flos": 57254178781440.0,
+      "grad_norm": 0.8709625944699277,
+      "language_loss": 0.62634236,
+      "learning_rate": 1.8832207118377565e-06,
+      "loss": 0.64735878,
+      "num_input_tokens_seen": 95738070,
+      "step": 4433,
+      "time_per_iteration": 3.123332977294922
+    },
+    {
+      "auxiliary_loss_clip": 0.01181355,
+      "auxiliary_loss_mlp": 0.01027078,
+      "balance_loss_clip": 1.05286241,
+      "balance_loss_mlp": 1.01931119,
+      "epoch": 0.5331569770937293,
+      "flos": 17420518287360.0,
+      "grad_norm": 1.7615539381682381,
+      "language_loss": 0.69232249,
+      "learning_rate": 1.882443078095222e-06,
+      "loss": 0.71440673,
+      "num_input_tokens_seen": 95756950,
+      "step": 4434,
+      "time_per_iteration": 2.6179652214050293
+    },
+    {
+      "auxiliary_loss_clip": 0.01130498,
+      "auxiliary_loss_mlp": 0.01002905,
+      "balance_loss_clip": 1.01969814,
+      "balance_loss_mlp": 1.00170696,
+      "epoch": 0.5332772199843684,
+      "flos": 56750783627520.0,
+      "grad_norm": 0.8791326927062705,
+      "language_loss": 0.66725624,
+      "learning_rate": 1.8816654621859794e-06,
+      "loss": 0.68859029,
+      "num_input_tokens_seen": 95816615,
+      "step": 4435,
+      "time_per_iteration": 4.150341749191284
+    },
+    {
+      "auxiliary_loss_clip": 0.01180449,
+      "auxiliary_loss_mlp": 0.0102655,
+      "balance_loss_clip": 1.0540626,
+      "balance_loss_mlp": 1.01855731,
+      "epoch": 0.5333974628750076,
+      "flos": 18697753071360.0,
+      "grad_norm": 2.579735040852026,
+      "language_loss": 0.72112095,
+      "learning_rate": 1.8808878642279915e-06,
+      "loss": 0.743191,
+      "num_input_tokens_seen": 95832020,
+      "step": 4436,
+      "time_per_iteration": 2.7506442070007324
+    },
+    {
+      "auxiliary_loss_clip": 0.01206329,
+      "auxiliary_loss_mlp": 0.01039516,
+      "balance_loss_clip": 1.04465938,
+      "balance_loss_mlp": 1.03115988,
+      "epoch": 0.5335177057656466,
+      "flos": 23805507058560.0,
+      "grad_norm": 3.071412670265171,
+      "language_loss": 0.65156466,
+      "learning_rate": 1.8801102843392209e-06,
+      "loss": 0.67402309,
+      "num_input_tokens_seen": 95851425,
+      "step": 4437,
+      "time_per_iteration": 2.77162504196167
+    },
+    {
+      "auxiliary_loss_clip": 0.01207347,
+      "auxiliary_loss_mlp": 0.01027671,
+      "balance_loss_clip": 1.04917216,
+      "balance_loss_mlp": 1.01970828,
+      "epoch": 0.5336379486562857,
+      "flos": 25078683605760.0,
+      "grad_norm": 1.5251389157656918,
+      "language_loss": 0.85088491,
+      "learning_rate": 1.8793327226376238e-06,
+      "loss": 0.87323511,
+      "num_input_tokens_seen": 95870745,
+      "step": 4438,
+      "time_per_iteration": 2.7711679935455322
+    },
+    {
+      "auxiliary_loss_clip": 0.01205372,
+      "auxiliary_loss_mlp": 0.01022123,
+      "balance_loss_clip": 1.05017245,
+      "balance_loss_mlp": 1.01426148,
+      "epoch": 0.5337581915469248,
+      "flos": 21396691140480.0,
+      "grad_norm": 1.6895889619884128,
+      "language_loss": 0.80352616,
+      "learning_rate": 1.8785551792411569e-06,
+      "loss": 0.82580107,
+      "num_input_tokens_seen": 95889755,
+      "step": 4439,
+      "time_per_iteration": 2.6611568927764893
+    },
+    {
+      "auxiliary_loss_clip": 0.01199728,
+      "auxiliary_loss_mlp": 0.01027578,
+      "balance_loss_clip": 1.05058753,
+      "balance_loss_mlp": 1.01989532,
+      "epoch": 0.5338784344375639,
+      "flos": 14865905064960.0,
+      "grad_norm": 3.555519948934727,
+      "language_loss": 0.82497042,
+      "learning_rate": 1.8777776542677733e-06,
+      "loss": 0.84724349,
+      "num_input_tokens_seen": 95907805,
+      "step": 4440,
+      "time_per_iteration": 2.706894874572754
+    },
+    {
+      "auxiliary_loss_clip": 0.01203191,
+      "auxiliary_loss_mlp": 0.01029278,
+      "balance_loss_clip": 1.04499698,
+      "balance_loss_mlp": 1.02100527,
+      "epoch": 0.5339986773282029,
+      "flos": 20813501923200.0,
+      "grad_norm": 2.0290714147369338,
+      "language_loss": 0.73185694,
+      "learning_rate": 1.8770001478354216e-06,
+      "loss": 0.75418162,
+      "num_input_tokens_seen": 95927480,
+      "step": 4441,
+      "time_per_iteration": 2.672315835952759
+    },
+    {
+      "auxiliary_loss_clip": 0.01185212,
+      "auxiliary_loss_mlp": 0.01031762,
+      "balance_loss_clip": 1.05060613,
+      "balance_loss_mlp": 1.02317905,
+      "epoch": 0.5341189202188421,
+      "flos": 17969089772160.0,
+      "grad_norm": 2.102956161841419,
+      "language_loss": 0.83723629,
+      "learning_rate": 1.8762226600620504e-06,
+      "loss": 0.85940599,
+      "num_input_tokens_seen": 95946095,
+      "step": 4442,
+      "time_per_iteration": 2.6290087699890137
+    },
+    {
+      "auxiliary_loss_clip": 0.01204242,
+      "auxiliary_loss_mlp": 0.01034381,
+      "balance_loss_clip": 1.04907203,
+      "balance_loss_mlp": 1.02585161,
+      "epoch": 0.5342391631094812,
+      "flos": 11031866328960.0,
+      "grad_norm": 2.7467480144215477,
+      "language_loss": 0.58538848,
+      "learning_rate": 1.8754451910656031e-06,
+      "loss": 0.60777467,
+      "num_input_tokens_seen": 95959995,
+      "step": 4443,
+      "time_per_iteration": 2.7000114917755127
+    },
+    {
+      "auxiliary_loss_clip": 0.01220556,
+      "auxiliary_loss_mlp": 0.01029844,
+      "balance_loss_clip": 1.04786503,
+      "balance_loss_mlp": 1.02192271,
+      "epoch": 0.5343594060001202,
+      "flos": 15339135772800.0,
+      "grad_norm": 1.7678530658979004,
+      "language_loss": 0.82843798,
+      "learning_rate": 1.8746677409640212e-06,
+      "loss": 0.85094202,
+      "num_input_tokens_seen": 95977095,
+      "step": 4444,
+      "time_per_iteration": 2.7383556365966797
+    },
+    {
+      "auxiliary_loss_clip": 0.01195664,
+      "auxiliary_loss_mlp": 0.01027443,
+      "balance_loss_clip": 1.0535686,
+      "balance_loss_mlp": 1.01924706,
+      "epoch": 0.5344796488907594,
+      "flos": 26900898514560.0,
+      "grad_norm": 1.6698827128701361,
+      "language_loss": 0.84322643,
+      "learning_rate": 1.8738903098752432e-06,
+      "loss": 0.86545753,
+      "num_input_tokens_seen": 95996225,
+      "step": 4445,
+      "time_per_iteration": 2.7147631645202637
+    },
+    {
+      "auxiliary_loss_clip": 0.01200142,
+      "auxiliary_loss_mlp": 0.01028292,
+      "balance_loss_clip": 1.05073929,
+      "balance_loss_mlp": 1.02056158,
+      "epoch": 0.5345998917813984,
+      "flos": 25411216740480.0,
+      "grad_norm": 2.0992925317664484,
+      "language_loss": 0.73414743,
+      "learning_rate": 1.8731128979172052e-06,
+      "loss": 0.75643182,
+      "num_input_tokens_seen": 96015425,
+      "step": 4446,
+      "time_per_iteration": 2.7176051139831543
+    },
+    {
+      "auxiliary_loss_clip": 0.01198457,
+      "auxiliary_loss_mlp": 0.01026812,
+      "balance_loss_clip": 1.05074394,
+      "balance_loss_mlp": 1.01924849,
+      "epoch": 0.5347201346720375,
+      "flos": 32853379622400.0,
+      "grad_norm": 2.0047458656996406,
+      "language_loss": 0.67027444,
+      "learning_rate": 1.8723355052078394e-06,
+      "loss": 0.69252717,
+      "num_input_tokens_seen": 96035460,
+      "step": 4447,
+      "time_per_iteration": 2.785987615585327
+    },
+    {
+      "auxiliary_loss_clip": 0.01184221,
+      "auxiliary_loss_mlp": 0.010293,
+      "balance_loss_clip": 1.04807794,
+      "balance_loss_mlp": 1.02099133,
+      "epoch": 0.5348403775626767,
+      "flos": 17967940536960.0,
+      "grad_norm": 2.371813798870318,
+      "language_loss": 0.77363062,
+      "learning_rate": 1.8715581318650765e-06,
+      "loss": 0.79576582,
+      "num_input_tokens_seen": 96054515,
+      "step": 4448,
+      "time_per_iteration": 2.652480125427246
+    },
+    {
+      "auxiliary_loss_clip": 0.01219177,
+      "auxiliary_loss_mlp": 0.01029072,
+      "balance_loss_clip": 1.05179191,
+      "balance_loss_mlp": 1.02051306,
+      "epoch": 0.5349606204533157,
+      "flos": 17603339535360.0,
+      "grad_norm": 2.059933276237733,
+      "language_loss": 0.8131786,
+      "learning_rate": 1.8707807780068422e-06,
+      "loss": 0.83566111,
+      "num_input_tokens_seen": 96072330,
+      "step": 4449,
+      "time_per_iteration": 2.6686317920684814
+    },
+    {
+      "auxiliary_loss_clip": 0.01197577,
+      "auxiliary_loss_mlp": 0.01027429,
+      "balance_loss_clip": 1.0497458,
+      "balance_loss_mlp": 1.01963246,
+      "epoch": 0.5350808633439548,
+      "flos": 29167831710720.0,
+      "grad_norm": 1.9672133133147347,
+      "language_loss": 0.66485488,
+      "learning_rate": 1.8700034437510611e-06,
+      "loss": 0.68710494,
+      "num_input_tokens_seen": 96092425,
+      "step": 4450,
+      "time_per_iteration": 2.810141086578369
+    },
+    {
+      "auxiliary_loss_clip": 0.01197314,
+      "auxiliary_loss_mlp": 0.01030776,
+      "balance_loss_clip": 1.04968786,
+      "balance_loss_mlp": 1.02263391,
+      "epoch": 0.5352011062345938,
+      "flos": 19499997381120.0,
+      "grad_norm": 2.1695076262669133,
+      "language_loss": 0.81658459,
+      "learning_rate": 1.8692261292156549e-06,
+      "loss": 0.83886552,
+      "num_input_tokens_seen": 96111660,
+      "step": 4451,
+      "time_per_iteration": 2.740436315536499
+    },
+    {
+      "auxiliary_loss_clip": 0.01183086,
+      "auxiliary_loss_mlp": 0.01028825,
+      "balance_loss_clip": 1.05635655,
+      "balance_loss_mlp": 1.02107012,
+      "epoch": 0.535321349125233,
+      "flos": 23477642691840.0,
+      "grad_norm": 1.9404898776123074,
+      "language_loss": 0.80951118,
+      "learning_rate": 1.8684488345185401e-06,
+      "loss": 0.83163029,
+      "num_input_tokens_seen": 96131835,
+      "step": 4452,
+      "time_per_iteration": 2.640002965927124
+    },
+    {
+      "auxiliary_loss_clip": 0.01186735,
+      "auxiliary_loss_mlp": 0.0102632,
+      "balance_loss_clip": 1.05702734,
+      "balance_loss_mlp": 1.01849985,
+      "epoch": 0.535441592015872,
+      "flos": 20478059786880.0,
+      "grad_norm": 2.2706654571768676,
+      "language_loss": 0.78850114,
+      "learning_rate": 1.8676715597776332e-06,
+      "loss": 0.81063175,
+      "num_input_tokens_seen": 96150180,
+      "step": 4453,
+      "time_per_iteration": 2.591890573501587
+    },
+    {
+      "auxiliary_loss_clip": 0.01203474,
+      "auxiliary_loss_mlp": 0.01023674,
+      "balance_loss_clip": 1.04530871,
+      "balance_loss_mlp": 1.01631868,
+      "epoch": 0.5355618349065111,
+      "flos": 19573147428480.0,
+      "grad_norm": 1.6728126595061674,
+      "language_loss": 0.76205981,
+      "learning_rate": 1.8668943051108455e-06,
+      "loss": 0.78433126,
+      "num_input_tokens_seen": 96167485,
+      "step": 4454,
+      "time_per_iteration": 2.7209699153900146
+    },
+    {
+      "auxiliary_loss_clip": 0.01195705,
+      "auxiliary_loss_mlp": 0.01029981,
+      "balance_loss_clip": 1.04911923,
+      "balance_loss_mlp": 1.022071,
+      "epoch": 0.5356820777971503,
+      "flos": 24024633978240.0,
+      "grad_norm": 1.768044163487415,
+      "language_loss": 0.75797838,
+      "learning_rate": 1.8661170706360856e-06,
+      "loss": 0.78023523,
+      "num_input_tokens_seen": 96186650,
+      "step": 4455,
+      "time_per_iteration": 2.659365177154541
+    },
+    {
+      "auxiliary_loss_clip": 0.0118863,
+      "auxiliary_loss_mlp": 0.01024777,
+      "balance_loss_clip": 1.05312836,
+      "balance_loss_mlp": 1.01738644,
+      "epoch": 0.5358023206877893,
+      "flos": 20884676722560.0,
+      "grad_norm": 1.5859713233239008,
+      "language_loss": 0.81406689,
+      "learning_rate": 1.8653398564712594e-06,
+      "loss": 0.83620095,
+      "num_input_tokens_seen": 96205595,
+      "step": 4456,
+      "time_per_iteration": 2.634153366088867
+    },
+    {
+      "auxiliary_loss_clip": 0.01187253,
+      "auxiliary_loss_mlp": 0.01024562,
+      "balance_loss_clip": 1.05225015,
+      "balance_loss_mlp": 1.01700377,
+      "epoch": 0.5359225635784284,
+      "flos": 22418996123520.0,
+      "grad_norm": 1.5491945539831766,
+      "language_loss": 0.82143098,
+      "learning_rate": 1.8645626627342704e-06,
+      "loss": 0.84354913,
+      "num_input_tokens_seen": 96226360,
+      "step": 4457,
+      "time_per_iteration": 5.360980987548828
+    },
+    {
+      "auxiliary_loss_clip": 0.0119209,
+      "auxiliary_loss_mlp": 0.01025888,
+      "balance_loss_clip": 1.05180347,
+      "balance_loss_mlp": 1.01774561,
+      "epoch": 0.5360428064690675,
+      "flos": 24097784025600.0,
+      "grad_norm": 2.4660380089492753,
+      "language_loss": 0.8098411,
+      "learning_rate": 1.8637854895430172e-06,
+      "loss": 0.83202088,
+      "num_input_tokens_seen": 96245625,
+      "step": 4458,
+      "time_per_iteration": 2.6906330585479736
+    },
+    {
+      "auxiliary_loss_clip": 0.01195451,
+      "auxiliary_loss_mlp": 0.01030112,
+      "balance_loss_clip": 1.04636085,
+      "balance_loss_mlp": 1.02164197,
+      "epoch": 0.5361630493597066,
+      "flos": 21434505183360.0,
+      "grad_norm": 2.811228319265384,
+      "language_loss": 0.69365239,
+      "learning_rate": 1.8630083370153978e-06,
+      "loss": 0.71590799,
+      "num_input_tokens_seen": 96265265,
+      "step": 4459,
+      "time_per_iteration": 2.6899805068969727
+    },
+    {
+      "auxiliary_loss_clip": 0.01140372,
+      "auxiliary_loss_mlp": 0.01000934,
+      "balance_loss_clip": 1.01954246,
+      "balance_loss_mlp": 0.99972385,
+      "epoch": 0.5362832922503457,
+      "flos": 68888696520960.0,
+      "grad_norm": 0.7443759084540121,
+      "language_loss": 0.55372238,
+      "learning_rate": 1.8622312052693041e-06,
+      "loss": 0.57513547,
+      "num_input_tokens_seen": 96326445,
+      "step": 4460,
+      "time_per_iteration": 4.592390775680542
+    },
+    {
+      "auxiliary_loss_clip": 0.0117843,
+      "auxiliary_loss_mlp": 0.01026043,
+      "balance_loss_clip": 1.04650819,
+      "balance_loss_mlp": 1.01812792,
+      "epoch": 0.5364035351409848,
+      "flos": 9793702563840.0,
+      "grad_norm": 2.9456058423394613,
+      "language_loss": 0.72131902,
+      "learning_rate": 1.8614540944226267e-06,
+      "loss": 0.74336374,
+      "num_input_tokens_seen": 96343115,
+      "step": 4461,
+      "time_per_iteration": 3.2439382076263428
+    },
+    {
+      "auxiliary_loss_clip": 0.01195377,
+      "auxiliary_loss_mlp": 0.01025626,
+      "balance_loss_clip": 1.05145097,
+      "balance_loss_mlp": 1.01811039,
+      "epoch": 0.5365237780316239,
+      "flos": 23290080848640.0,
+      "grad_norm": 3.9719001134075866,
+      "language_loss": 0.68082958,
+      "learning_rate": 1.8606770045932537e-06,
+      "loss": 0.70303965,
+      "num_input_tokens_seen": 96362230,
+      "step": 4462,
+      "time_per_iteration": 2.6650516986846924
+    },
+    {
+      "auxiliary_loss_clip": 0.01193629,
+      "auxiliary_loss_mlp": 0.01029672,
+      "balance_loss_clip": 1.04290986,
+      "balance_loss_mlp": 1.02166426,
+      "epoch": 0.5366440209222629,
+      "flos": 26578133879040.0,
+      "grad_norm": 1.7474144715484192,
+      "language_loss": 0.81853247,
+      "learning_rate": 1.859899935899068e-06,
+      "loss": 0.84076548,
+      "num_input_tokens_seen": 96382085,
+      "step": 4463,
+      "time_per_iteration": 2.843906879425049
+    },
+    {
+      "auxiliary_loss_clip": 0.01193075,
+      "auxiliary_loss_mlp": 0.01029544,
+      "balance_loss_clip": 1.04984426,
+      "balance_loss_mlp": 1.02158689,
+      "epoch": 0.5367642638129021,
+      "flos": 19608052469760.0,
+      "grad_norm": 1.7736497145420869,
+      "language_loss": 0.79073244,
+      "learning_rate": 1.8591228884579506e-06,
+      "loss": 0.81295866,
+      "num_input_tokens_seen": 96400580,
+      "step": 4464,
+      "time_per_iteration": 2.6866774559020996
+    },
+    {
+      "auxiliary_loss_clip": 0.01212764,
+      "auxiliary_loss_mlp": 0.01028528,
+      "balance_loss_clip": 1.05000782,
+      "balance_loss_mlp": 1.02051067,
+      "epoch": 0.5368845067035412,
+      "flos": 23915214172800.0,
+      "grad_norm": 2.196774251612077,
+      "language_loss": 0.82265079,
+      "learning_rate": 1.8583458623877795e-06,
+      "loss": 0.84506369,
+      "num_input_tokens_seen": 96419680,
+      "step": 4465,
+      "time_per_iteration": 2.7171764373779297
+    },
+    {
+      "auxiliary_loss_clip": 0.01193212,
+      "auxiliary_loss_mlp": 0.0102486,
+      "balance_loss_clip": 1.05349278,
+      "balance_loss_mlp": 1.01696539,
+      "epoch": 0.5370047495941802,
+      "flos": 16873131951360.0,
+      "grad_norm": 1.6490450982306974,
+      "language_loss": 0.73879373,
+      "learning_rate": 1.8575688578064281e-06,
+      "loss": 0.76097447,
+      "num_input_tokens_seen": 96437805,
+      "step": 4466,
+      "time_per_iteration": 2.6374218463897705
+    },
+    {
+      "auxiliary_loss_clip": 0.01195399,
+      "auxiliary_loss_mlp": 0.01027099,
+      "balance_loss_clip": 1.05445492,
+      "balance_loss_mlp": 1.01923752,
+      "epoch": 0.5371249924848194,
+      "flos": 20740926493440.0,
+      "grad_norm": 1.7915464924768758,
+      "language_loss": 0.76767409,
+      "learning_rate": 1.8567918748317674e-06,
+      "loss": 0.78989905,
+      "num_input_tokens_seen": 96457155,
+      "step": 4467,
+      "time_per_iteration": 2.656249523162842
+    },
+    {
+      "auxiliary_loss_clip": 0.01205058,
+      "auxiliary_loss_mlp": 0.01028106,
+      "balance_loss_clip": 1.04580081,
+      "balance_loss_mlp": 1.01960635,
+      "epoch": 0.5372452353754584,
+      "flos": 17968120104960.0,
+      "grad_norm": 2.436920980981829,
+      "language_loss": 0.82683367,
+      "learning_rate": 1.8560149135816659e-06,
+      "loss": 0.84916532,
+      "num_input_tokens_seen": 96473990,
+      "step": 4468,
+      "time_per_iteration": 2.6827192306518555
+    },
+    {
+      "auxiliary_loss_clip": 0.01184149,
+      "auxiliary_loss_mlp": 0.01025118,
+      "balance_loss_clip": 1.04938722,
+      "balance_loss_mlp": 1.0177331,
+      "epoch": 0.5373654782660975,
+      "flos": 15377021642880.0,
+      "grad_norm": 2.267979824108285,
+      "language_loss": 0.84334803,
+      "learning_rate": 1.8552379741739873e-06,
+      "loss": 0.86544073,
+      "num_input_tokens_seen": 96491335,
+      "step": 4469,
+      "time_per_iteration": 2.639059066772461
+    },
+    {
+      "auxiliary_loss_clip": 0.01114027,
+      "auxiliary_loss_mlp": 0.01373851,
+      "balance_loss_clip": 1.0207963,
+      "balance_loss_mlp": 0.99975461,
+      "epoch": 0.5374857211567367,
+      "flos": 69000091574400.0,
+      "grad_norm": 0.8909455350130557,
+      "language_loss": 0.55648124,
+      "learning_rate": 1.8544610567265935e-06,
+      "loss": 0.58136004,
+      "num_input_tokens_seen": 96545275,
+      "step": 4470,
+      "time_per_iteration": 3.2308948040008545
+    },
+    {
+      "auxiliary_loss_clip": 0.0120105,
+      "auxiliary_loss_mlp": 0.01379096,
+      "balance_loss_clip": 1.05465031,
+      "balance_loss_mlp": 1.00024474,
+      "epoch": 0.5376059640473757,
+      "flos": 15085355207040.0,
+      "grad_norm": 2.0640735605977785,
+      "language_loss": 0.83476657,
+      "learning_rate": 1.853684161357341e-06,
+      "loss": 0.86056805,
+      "num_input_tokens_seen": 96562935,
+      "step": 4471,
+      "time_per_iteration": 2.8225481510162354
+    },
+    {
+      "auxiliary_loss_clip": 0.01187664,
+      "auxiliary_loss_mlp": 0.01378973,
+      "balance_loss_clip": 1.05234373,
+      "balance_loss_mlp": 1.00015581,
+      "epoch": 0.5377262069380148,
+      "flos": 19792597570560.0,
+      "grad_norm": 1.7036681358970853,
+      "language_loss": 0.76883721,
+      "learning_rate": 1.852907288184085e-06,
+      "loss": 0.79450357,
+      "num_input_tokens_seen": 96581820,
+      "step": 4472,
+      "time_per_iteration": 2.674110174179077
+    },
+    {
+      "auxiliary_loss_clip": 0.01216198,
+      "auxiliary_loss_mlp": 0.0102558,
+      "balance_loss_clip": 1.04552531,
+      "balance_loss_mlp": 1.01686037,
+      "epoch": 0.5378464498286539,
+      "flos": 30003077640960.0,
+      "grad_norm": 1.7982178056527742,
+      "language_loss": 0.70360798,
+      "learning_rate": 1.8521304373246762e-06,
+      "loss": 0.72602576,
+      "num_input_tokens_seen": 96602865,
+      "step": 4473,
+      "time_per_iteration": 2.7709763050079346
+    },
+    {
+      "auxiliary_loss_clip": 0.0119187,
+      "auxiliary_loss_mlp": 0.01028419,
+      "balance_loss_clip": 1.05215192,
+      "balance_loss_mlp": 1.01938939,
+      "epoch": 0.537966692719293,
+      "flos": 21251217058560.0,
+      "grad_norm": 2.8636858685301636,
+      "language_loss": 0.88499629,
+      "learning_rate": 1.8513536088969626e-06,
+      "loss": 0.90719926,
+      "num_input_tokens_seen": 96620530,
+      "step": 4474,
+      "time_per_iteration": 2.712024211883545
+    },
+    {
+      "auxiliary_loss_clip": 0.01192314,
+      "auxiliary_loss_mlp": 0.01026352,
+      "balance_loss_clip": 1.0535965,
+      "balance_loss_mlp": 1.01769793,
+      "epoch": 0.538086935609932,
+      "flos": 21543170803200.0,
+      "grad_norm": 1.7630236196773126,
+      "language_loss": 0.80446744,
+      "learning_rate": 1.8505768030187884e-06,
+      "loss": 0.82665408,
+      "num_input_tokens_seen": 96640660,
+      "step": 4475,
+      "time_per_iteration": 2.614927291870117
+    },
+    {
+      "auxiliary_loss_clip": 0.01195803,
+      "auxiliary_loss_mlp": 0.01028142,
+      "balance_loss_clip": 1.05221987,
+      "balance_loss_mlp": 1.02050114,
+      "epoch": 0.5382071785005712,
+      "flos": 22747219626240.0,
+      "grad_norm": 1.785119726017834,
+      "language_loss": 0.80182898,
+      "learning_rate": 1.849800019807995e-06,
+      "loss": 0.82406843,
+      "num_input_tokens_seen": 96661885,
+      "step": 4476,
+      "time_per_iteration": 2.674565553665161
+    },
+    {
+      "auxiliary_loss_clip": 0.01207357,
+      "auxiliary_loss_mlp": 0.01026247,
+      "balance_loss_clip": 1.04999375,
+      "balance_loss_mlp": 1.01827538,
+      "epoch": 0.5383274213912103,
+      "flos": 24934574240640.0,
+      "grad_norm": 6.879167886213409,
+      "language_loss": 0.70914364,
+      "learning_rate": 1.8490232593824186e-06,
+      "loss": 0.7314797,
+      "num_input_tokens_seen": 96678340,
+      "step": 4477,
+      "time_per_iteration": 2.6907031536102295
+    },
+    {
+      "auxiliary_loss_clip": 0.01195137,
+      "auxiliary_loss_mlp": 0.01027362,
+      "balance_loss_clip": 1.05044258,
+      "balance_loss_mlp": 1.01937461,
+      "epoch": 0.5384476642818493,
+      "flos": 22310186849280.0,
+      "grad_norm": 1.6148632559301173,
+      "language_loss": 0.8495757,
+      "learning_rate": 1.8482465218598935e-06,
+      "loss": 0.87180066,
+      "num_input_tokens_seen": 96698285,
+      "step": 4478,
+      "time_per_iteration": 2.674379587173462
+    },
+    {
+      "auxiliary_loss_clip": 0.01208442,
+      "auxiliary_loss_mlp": 0.01031689,
+      "balance_loss_clip": 1.05035615,
+      "balance_loss_mlp": 1.02322507,
+      "epoch": 0.5385679071724885,
+      "flos": 22711021695360.0,
+      "grad_norm": 1.7921494578811918,
+      "language_loss": 0.83084255,
+      "learning_rate": 1.8474698073582508e-06,
+      "loss": 0.85324389,
+      "num_input_tokens_seen": 96719655,
+      "step": 4479,
+      "time_per_iteration": 2.8307414054870605
+    },
+    {
+      "auxiliary_loss_clip": 0.01209411,
+      "auxiliary_loss_mlp": 0.01024358,
+      "balance_loss_clip": 1.04880977,
+      "balance_loss_mlp": 1.01562011,
+      "epoch": 0.5386881500631275,
+      "flos": 15953746412160.0,
+      "grad_norm": 2.3346040290855257,
+      "language_loss": 0.87279058,
+      "learning_rate": 1.8466931159953166e-06,
+      "loss": 0.89512825,
+      "num_input_tokens_seen": 96736290,
+      "step": 4480,
+      "time_per_iteration": 2.727872610092163
+    },
+    {
+      "auxiliary_loss_clip": 0.01204199,
+      "auxiliary_loss_mlp": 0.01027102,
+      "balance_loss_clip": 1.05461109,
+      "balance_loss_mlp": 1.01925182,
+      "epoch": 0.5388083929537666,
+      "flos": 24060041809920.0,
+      "grad_norm": 4.1452727623291805,
+      "language_loss": 0.84518826,
+      "learning_rate": 1.8459164478889158e-06,
+      "loss": 0.86750126,
+      "num_input_tokens_seen": 96757685,
+      "step": 4481,
+      "time_per_iteration": 2.712209939956665
+    },
+    {
+      "auxiliary_loss_clip": 0.01199525,
+      "auxiliary_loss_mlp": 0.01024748,
+      "balance_loss_clip": 1.04722309,
+      "balance_loss_mlp": 1.01710093,
+      "epoch": 0.5389286358444056,
+      "flos": 22236893147520.0,
+      "grad_norm": 1.7239666299129708,
+      "language_loss": 0.75983572,
+      "learning_rate": 1.8451398031568663e-06,
+      "loss": 0.7820785,
+      "num_input_tokens_seen": 96777310,
+      "step": 4482,
+      "time_per_iteration": 3.77093768119812
+    },
+    {
+      "auxiliary_loss_clip": 0.0120675,
+      "auxiliary_loss_mlp": 0.0103258,
+      "balance_loss_clip": 1.04901791,
+      "balance_loss_mlp": 1.02443767,
+      "epoch": 0.5390488787350448,
+      "flos": 24281718595200.0,
+      "grad_norm": 1.9290852315764617,
+      "language_loss": 0.74517417,
+      "learning_rate": 1.844363181916986e-06,
+      "loss": 0.76756752,
+      "num_input_tokens_seen": 96798035,
+      "step": 4483,
+      "time_per_iteration": 3.686713933944702
+    },
+    {
+      "auxiliary_loss_clip": 0.01186007,
+      "auxiliary_loss_mlp": 0.01030471,
+      "balance_loss_clip": 1.05084825,
+      "balance_loss_mlp": 1.02274013,
+      "epoch": 0.5391691216256839,
+      "flos": 16581393688320.0,
+      "grad_norm": 1.9162155125068199,
+      "language_loss": 0.83108836,
+      "learning_rate": 1.8435865842870868e-06,
+      "loss": 0.85325313,
+      "num_input_tokens_seen": 96815975,
+      "step": 4484,
+      "time_per_iteration": 2.6351144313812256
+    },
+    {
+      "auxiliary_loss_clip": 0.01185472,
+      "auxiliary_loss_mlp": 0.01379184,
+      "balance_loss_clip": 1.04514599,
+      "balance_loss_mlp": 1.00027442,
+      "epoch": 0.5392893645163229,
+      "flos": 23330049707520.0,
+      "grad_norm": 1.8040404750123884,
+      "language_loss": 0.71998572,
+      "learning_rate": 1.8428100103849787e-06,
+      "loss": 0.74563235,
+      "num_input_tokens_seen": 96835770,
+      "step": 4485,
+      "time_per_iteration": 2.6418049335479736
+    },
+    {
+      "auxiliary_loss_clip": 0.01197249,
+      "auxiliary_loss_mlp": 0.0102248,
+      "balance_loss_clip": 1.05270207,
+      "balance_loss_mlp": 1.01487494,
+      "epoch": 0.5394096074069621,
+      "flos": 15669801400320.0,
+      "grad_norm": 3.3925827094444205,
+      "language_loss": 0.73085463,
+      "learning_rate": 1.842033460328467e-06,
+      "loss": 0.75305194,
+      "num_input_tokens_seen": 96854490,
+      "step": 4486,
+      "time_per_iteration": 3.534125328063965
+    },
+    {
+      "auxiliary_loss_clip": 0.01201047,
+      "auxiliary_loss_mlp": 0.01379144,
+      "balance_loss_clip": 1.04883432,
+      "balance_loss_mlp": 1.0002321,
+      "epoch": 0.5395298502976011,
+      "flos": 22893447893760.0,
+      "grad_norm": 1.6088286467404185,
+      "language_loss": 0.74459767,
+      "learning_rate": 1.8412569342353541e-06,
+      "loss": 0.77039957,
+      "num_input_tokens_seen": 96874645,
+      "step": 4487,
+      "time_per_iteration": 2.687612295150757
+    },
+    {
+      "auxiliary_loss_clip": 0.01208408,
+      "auxiliary_loss_mlp": 0.01030518,
+      "balance_loss_clip": 1.0554992,
+      "balance_loss_mlp": 1.0222683,
+      "epoch": 0.5396500931882402,
+      "flos": 23842135952640.0,
+      "grad_norm": 1.8031787482661448,
+      "language_loss": 0.8479532,
+      "learning_rate": 1.840480432223438e-06,
+      "loss": 0.87034243,
+      "num_input_tokens_seen": 96893650,
+      "step": 4488,
+      "time_per_iteration": 2.6796159744262695
+    },
+    {
+      "auxiliary_loss_clip": 0.01199135,
+      "auxiliary_loss_mlp": 0.0103066,
+      "balance_loss_clip": 1.04877281,
+      "balance_loss_mlp": 1.02293253,
+      "epoch": 0.5397703360788794,
+      "flos": 26322988596480.0,
+      "grad_norm": 1.8920549719237147,
+      "language_loss": 0.78034568,
+      "learning_rate": 1.8397039544105131e-06,
+      "loss": 0.80264366,
+      "num_input_tokens_seen": 96912735,
+      "step": 4489,
+      "time_per_iteration": 2.722752571105957
+    },
+    {
+      "auxiliary_loss_clip": 0.01187794,
+      "auxiliary_loss_mlp": 0.01032548,
+      "balance_loss_clip": 1.04645848,
+      "balance_loss_mlp": 1.02423882,
+      "epoch": 0.5398905789695184,
+      "flos": 21214588164480.0,
+      "grad_norm": 1.7929639182017771,
+      "language_loss": 0.7007401,
+      "learning_rate": 1.8389275009143711e-06,
+      "loss": 0.72294354,
+      "num_input_tokens_seen": 96932475,
+      "step": 4490,
+      "time_per_iteration": 2.6507949829101562
+    },
+    {
+      "auxiliary_loss_clip": 0.01177872,
+      "auxiliary_loss_mlp": 0.01027411,
+      "balance_loss_clip": 1.051319,
+      "balance_loss_mlp": 1.02025282,
+      "epoch": 0.5400108218601575,
+      "flos": 25080335631360.0,
+      "grad_norm": 2.1728741872812076,
+      "language_loss": 0.73159224,
+      "learning_rate": 1.8381510718527988e-06,
+      "loss": 0.75364506,
+      "num_input_tokens_seen": 96952085,
+      "step": 4491,
+      "time_per_iteration": 2.6624999046325684
+    },
+    {
+      "auxiliary_loss_clip": 0.01199127,
+      "auxiliary_loss_mlp": 0.01030854,
+      "balance_loss_clip": 1.04727459,
+      "balance_loss_mlp": 1.02270007,
+      "epoch": 0.5401310647507966,
+      "flos": 26357498588160.0,
+      "grad_norm": 2.085410617181964,
+      "language_loss": 0.63337183,
+      "learning_rate": 1.8373746673435812e-06,
+      "loss": 0.65567172,
+      "num_input_tokens_seen": 96973110,
+      "step": 4492,
+      "time_per_iteration": 2.7649011611938477
+    },
+    {
+      "auxiliary_loss_clip": 0.0118345,
+      "auxiliary_loss_mlp": 0.01025196,
+      "balance_loss_clip": 1.05457497,
+      "balance_loss_mlp": 1.01719141,
+      "epoch": 0.5402513076414357,
+      "flos": 27855332749440.0,
+      "grad_norm": 1.6887304760861583,
+      "language_loss": 0.79012918,
+      "learning_rate": 1.8365982875044964e-06,
+      "loss": 0.81221563,
+      "num_input_tokens_seen": 96993420,
+      "step": 4493,
+      "time_per_iteration": 2.7467873096466064
+    },
+    {
+      "auxiliary_loss_clip": 0.01196895,
+      "auxiliary_loss_mlp": 0.01379474,
+      "balance_loss_clip": 1.05384922,
+      "balance_loss_mlp": 1.00022793,
+      "epoch": 0.5403715505320748,
+      "flos": 22893771116160.0,
+      "grad_norm": 1.9779233703594734,
+      "language_loss": 0.75995588,
+      "learning_rate": 1.8358219324533217e-06,
+      "loss": 0.78571963,
+      "num_input_tokens_seen": 97013685,
+      "step": 4494,
+      "time_per_iteration": 2.6670522689819336
+    },
+    {
+      "auxiliary_loss_clip": 0.01192586,
+      "auxiliary_loss_mlp": 0.01025329,
+      "balance_loss_clip": 1.04822636,
+      "balance_loss_mlp": 1.01843846,
+      "epoch": 0.5404917934227139,
+      "flos": 30224143895040.0,
+      "grad_norm": 1.9599637154280873,
+      "language_loss": 0.70596778,
+      "learning_rate": 1.8350456023078292e-06,
+      "loss": 0.72814691,
+      "num_input_tokens_seen": 97036060,
+      "step": 4495,
+      "time_per_iteration": 2.7409331798553467
+    },
+    {
+      "auxiliary_loss_clip": 0.01186659,
+      "auxiliary_loss_mlp": 0.01027705,
+      "balance_loss_clip": 1.05517483,
+      "balance_loss_mlp": 1.01915729,
+      "epoch": 0.540612036313353,
+      "flos": 19938502615680.0,
+      "grad_norm": 2.133972993650113,
+      "language_loss": 0.78138649,
+      "learning_rate": 1.8342692971857874e-06,
+      "loss": 0.80353016,
+      "num_input_tokens_seen": 97055260,
+      "step": 4496,
+      "time_per_iteration": 2.564743757247925
+    },
+    {
+      "auxiliary_loss_clip": 0.01196195,
+      "auxiliary_loss_mlp": 0.01027238,
+      "balance_loss_clip": 1.05066097,
+      "balance_loss_mlp": 1.019328,
+      "epoch": 0.540732279203992,
+      "flos": 24279599692800.0,
+      "grad_norm": 8.046086626089581,
+      "language_loss": 0.7168498,
+      "learning_rate": 1.833493017204962e-06,
+      "loss": 0.73908412,
+      "num_input_tokens_seen": 97075365,
+      "step": 4497,
+      "time_per_iteration": 2.7423927783966064
+    },
+    {
+      "auxiliary_loss_clip": 0.0118,
+      "auxiliary_loss_mlp": 0.01030159,
+      "balance_loss_clip": 1.05193853,
+      "balance_loss_mlp": 1.02242804,
+      "epoch": 0.5408525220946312,
+      "flos": 20193216935040.0,
+      "grad_norm": 2.1259461669481925,
+      "language_loss": 0.78016514,
+      "learning_rate": 1.8327167624831134e-06,
+      "loss": 0.80226678,
+      "num_input_tokens_seen": 97093095,
+      "step": 4498,
+      "time_per_iteration": 2.569519281387329
+    },
+    {
+      "auxiliary_loss_clip": 0.01180078,
+      "auxiliary_loss_mlp": 0.01029379,
+      "balance_loss_clip": 1.05314112,
+      "balance_loss_mlp": 1.02163696,
+      "epoch": 0.5409727649852702,
+      "flos": 24134448833280.0,
+      "grad_norm": 1.6041076342274732,
+      "language_loss": 0.70853388,
+      "learning_rate": 1.831940533137999e-06,
+      "loss": 0.73062849,
+      "num_input_tokens_seen": 97112000,
+      "step": 4499,
+      "time_per_iteration": 2.646745204925537
+    },
+    {
+      "auxiliary_loss_clip": 0.01187529,
+      "auxiliary_loss_mlp": 0.01029719,
+      "balance_loss_clip": 1.05308616,
+      "balance_loss_mlp": 1.0219171,
+      "epoch": 0.5410930078759093,
+      "flos": 23912700220800.0,
+      "grad_norm": 1.7810804136259233,
+      "language_loss": 0.72129554,
+      "learning_rate": 1.8311643292873718e-06,
+      "loss": 0.74346805,
+      "num_input_tokens_seen": 97130820,
+      "step": 4500,
+      "time_per_iteration": 2.629751443862915
+    },
+    {
+      "auxiliary_loss_clip": 0.0118599,
+      "auxiliary_loss_mlp": 0.01033684,
+      "balance_loss_clip": 1.05255103,
+      "balance_loss_mlp": 1.0257926,
+      "epoch": 0.5412132507665485,
+      "flos": 21105132445440.0,
+      "grad_norm": 1.8308242939181418,
+      "language_loss": 0.87871444,
+      "learning_rate": 1.8303881510489818e-06,
+      "loss": 0.90091121,
+      "num_input_tokens_seen": 97149210,
+      "step": 4501,
+      "time_per_iteration": 2.608839750289917
+    },
+    {
+      "auxiliary_loss_clip": 0.01201849,
+      "auxiliary_loss_mlp": 0.01034095,
+      "balance_loss_clip": 1.05222344,
+      "balance_loss_mlp": 1.02586973,
+      "epoch": 0.5413334936571875,
+      "flos": 30227340205440.0,
+      "grad_norm": 2.1772779381514153,
+      "language_loss": 0.69519985,
+      "learning_rate": 1.829611998540574e-06,
+      "loss": 0.71755928,
+      "num_input_tokens_seen": 97170415,
+      "step": 4502,
+      "time_per_iteration": 2.6900551319122314
+    },
+    {
+      "auxiliary_loss_clip": 0.01190301,
+      "auxiliary_loss_mlp": 0.01379156,
+      "balance_loss_clip": 1.05120504,
+      "balance_loss_mlp": 1.00024343,
+      "epoch": 0.5414537365478266,
+      "flos": 24279635606400.0,
+      "grad_norm": 1.7104264907943414,
+      "language_loss": 0.80003798,
+      "learning_rate": 1.8288358718798914e-06,
+      "loss": 0.82573247,
+      "num_input_tokens_seen": 97189605,
+      "step": 4503,
+      "time_per_iteration": 2.667942762374878
+    },
+    {
+      "auxiliary_loss_clip": 0.01185066,
+      "auxiliary_loss_mlp": 0.01378757,
+      "balance_loss_clip": 1.05242991,
+      "balance_loss_mlp": 1.00028658,
+      "epoch": 0.5415739794384657,
+      "flos": 16654543735680.0,
+      "grad_norm": 1.7213583586723564,
+      "language_loss": 0.72298396,
+      "learning_rate": 1.8280597711846703e-06,
+      "loss": 0.74862218,
+      "num_input_tokens_seen": 97207845,
+      "step": 4504,
+      "time_per_iteration": 2.5810675621032715
+    },
+    {
+      "auxiliary_loss_clip": 0.01185869,
+      "auxiliary_loss_mlp": 0.01031479,
+      "balance_loss_clip": 1.05243731,
+      "balance_loss_mlp": 1.02407587,
+      "epoch": 0.5416942223291048,
+      "flos": 23185724860800.0,
+      "grad_norm": 2.142426997803452,
+      "language_loss": 0.82998937,
+      "learning_rate": 1.8272836965726455e-06,
+      "loss": 0.85216284,
+      "num_input_tokens_seen": 97226780,
+      "step": 4505,
+      "time_per_iteration": 2.6795215606689453
+    },
+    {
+      "auxiliary_loss_clip": 0.01220407,
+      "auxiliary_loss_mlp": 0.01031677,
+      "balance_loss_clip": 1.04321718,
+      "balance_loss_mlp": 1.02324867,
+      "epoch": 0.5418144652197439,
+      "flos": 20303247271680.0,
+      "grad_norm": 1.699148890414731,
+      "language_loss": 0.77901483,
+      "learning_rate": 1.8265076481615461e-06,
+      "loss": 0.80153567,
+      "num_input_tokens_seen": 97246695,
+      "step": 4506,
+      "time_per_iteration": 2.930312156677246
+    },
+    {
+      "auxiliary_loss_clip": 0.01198819,
+      "auxiliary_loss_mlp": 0.01027222,
+      "balance_loss_clip": 1.05408955,
+      "balance_loss_mlp": 1.01919365,
+      "epoch": 0.541934708110383,
+      "flos": 12458633431680.0,
+      "grad_norm": 2.0761198289015486,
+      "language_loss": 0.86933541,
+      "learning_rate": 1.8257316260690987e-06,
+      "loss": 0.89159596,
+      "num_input_tokens_seen": 97264480,
+      "step": 4507,
+      "time_per_iteration": 2.8250668048858643
+    },
+    {
+      "auxiliary_loss_clip": 0.01188775,
+      "auxiliary_loss_mlp": 0.01025343,
+      "balance_loss_clip": 1.0512383,
+      "balance_loss_mlp": 1.01768684,
+      "epoch": 0.5420549510010221,
+      "flos": 21253802837760.0,
+      "grad_norm": 1.58345711971062,
+      "language_loss": 0.76097012,
+      "learning_rate": 1.8249556304130254e-06,
+      "loss": 0.78311133,
+      "num_input_tokens_seen": 97285760,
+      "step": 4508,
+      "time_per_iteration": 3.5370564460754395
+    },
+    {
+      "auxiliary_loss_clip": 0.01182811,
+      "auxiliary_loss_mlp": 0.01028642,
+      "balance_loss_clip": 1.04610372,
+      "balance_loss_mlp": 1.02086377,
+      "epoch": 0.5421751938916611,
+      "flos": 29490524519040.0,
+      "grad_norm": 2.2568068744631176,
+      "language_loss": 0.68818432,
+      "learning_rate": 1.824179661311044e-06,
+      "loss": 0.7102989,
+      "num_input_tokens_seen": 97304510,
+      "step": 4509,
+      "time_per_iteration": 3.8200478553771973
+    },
+    {
+      "auxiliary_loss_clip": 0.01212862,
+      "auxiliary_loss_mlp": 0.01024278,
+      "balance_loss_clip": 1.04295516,
+      "balance_loss_mlp": 1.01677346,
+      "epoch": 0.5422954367823003,
+      "flos": 18734238311040.0,
+      "grad_norm": 2.031278617464603,
+      "language_loss": 0.7990253,
+      "learning_rate": 1.823403718880868e-06,
+      "loss": 0.82139671,
+      "num_input_tokens_seen": 97323270,
+      "step": 4510,
+      "time_per_iteration": 3.61002254486084
+    },
+    {
+      "auxiliary_loss_clip": 0.01194225,
+      "auxiliary_loss_mlp": 0.01029629,
+      "balance_loss_clip": 1.04717731,
+      "balance_loss_mlp": 1.0221014,
+      "epoch": 0.5424156796729394,
+      "flos": 39969006940800.0,
+      "grad_norm": 1.7315666326230814,
+      "language_loss": 0.66478229,
+      "learning_rate": 1.822627803240207e-06,
+      "loss": 0.68702078,
+      "num_input_tokens_seen": 97345600,
+      "step": 4511,
+      "time_per_iteration": 2.7774767875671387
+    },
+    {
+      "auxiliary_loss_clip": 0.01208019,
+      "auxiliary_loss_mlp": 0.0102861,
+      "balance_loss_clip": 1.04746735,
+      "balance_loss_mlp": 1.02073002,
+      "epoch": 0.5425359225635784,
+      "flos": 11546538353280.0,
+      "grad_norm": 2.9420543587678,
+      "language_loss": 0.85166681,
+      "learning_rate": 1.8218519145067675e-06,
+      "loss": 0.87403309,
+      "num_input_tokens_seen": 97361220,
+      "step": 4512,
+      "time_per_iteration": 3.578504800796509
+    },
+    {
+      "auxiliary_loss_clip": 0.01198018,
+      "auxiliary_loss_mlp": 0.01026475,
+      "balance_loss_clip": 1.04576409,
+      "balance_loss_mlp": 1.01848221,
+      "epoch": 0.5426561654542175,
+      "flos": 20229702174720.0,
+      "grad_norm": 1.9995770542570077,
+      "language_loss": 0.89453518,
+      "learning_rate": 1.8210760527982508e-06,
+      "loss": 0.91678011,
+      "num_input_tokens_seen": 97381505,
+      "step": 4513,
+      "time_per_iteration": 2.723421573638916
+    },
+    {
+      "auxiliary_loss_clip": 0.0119919,
+      "auxiliary_loss_mlp": 0.01378674,
+      "balance_loss_clip": 1.05203652,
+      "balance_loss_mlp": 1.00028801,
+      "epoch": 0.5427764083448566,
+      "flos": 21871681614720.0,
+      "grad_norm": 2.315246754624182,
+      "language_loss": 0.75030792,
+      "learning_rate": 1.8203002182323552e-06,
+      "loss": 0.77608651,
+      "num_input_tokens_seen": 97399060,
+      "step": 4514,
+      "time_per_iteration": 2.746253252029419
+    },
+    {
+      "auxiliary_loss_clip": 0.01195656,
+      "auxiliary_loss_mlp": 0.01030178,
+      "balance_loss_clip": 1.0483129,
+      "balance_loss_mlp": 1.02223873,
+      "epoch": 0.5428966512354957,
+      "flos": 19640946349440.0,
+      "grad_norm": 2.1299234457695952,
+      "language_loss": 0.75606805,
+      "learning_rate": 1.819524410926773e-06,
+      "loss": 0.77832639,
+      "num_input_tokens_seen": 97416740,
+      "step": 4515,
+      "time_per_iteration": 2.6255905628204346
+    },
+    {
+      "auxiliary_loss_clip": 0.01218645,
+      "auxiliary_loss_mlp": 0.01029346,
+      "balance_loss_clip": 1.04538941,
+      "balance_loss_mlp": 1.0220449,
+      "epoch": 0.5430168941261347,
+      "flos": 22382187661440.0,
+      "grad_norm": 1.4554793660206404,
+      "language_loss": 0.76802188,
+      "learning_rate": 1.8187486309991944e-06,
+      "loss": 0.79050183,
+      "num_input_tokens_seen": 97437620,
+      "step": 4516,
+      "time_per_iteration": 2.844266176223755
+    },
+    {
+      "auxiliary_loss_clip": 0.0119315,
+      "auxiliary_loss_mlp": 0.01025413,
+      "balance_loss_clip": 1.05148125,
+      "balance_loss_mlp": 1.01811409,
+      "epoch": 0.5431371370167739,
+      "flos": 18764187275520.0,
+      "grad_norm": 2.0371392189090027,
+      "language_loss": 0.77870381,
+      "learning_rate": 1.817972878567304e-06,
+      "loss": 0.80088943,
+      "num_input_tokens_seen": 97456275,
+      "step": 4517,
+      "time_per_iteration": 2.6064960956573486
+    },
+    {
+      "auxiliary_loss_clip": 0.01201395,
+      "auxiliary_loss_mlp": 0.01029659,
+      "balance_loss_clip": 1.04820991,
+      "balance_loss_mlp": 1.02223253,
+      "epoch": 0.543257379907413,
+      "flos": 18806023641600.0,
+      "grad_norm": 1.7858948068906595,
+      "language_loss": 0.76525772,
+      "learning_rate": 1.8171971537487834e-06,
+      "loss": 0.78756821,
+      "num_input_tokens_seen": 97474925,
+      "step": 4518,
+      "time_per_iteration": 2.662393569946289
+    },
+    {
+      "auxiliary_loss_clip": 0.01180355,
+      "auxiliary_loss_mlp": 0.01022752,
+      "balance_loss_clip": 1.0513519,
+      "balance_loss_mlp": 1.01499772,
+      "epoch": 0.543377622798052,
+      "flos": 17493381025920.0,
+      "grad_norm": 1.8722663769261316,
+      "language_loss": 0.80710363,
+      "learning_rate": 1.8164214566613093e-06,
+      "loss": 0.82913464,
+      "num_input_tokens_seen": 97493550,
+      "step": 4519,
+      "time_per_iteration": 2.5291481018066406
+    },
+    {
+      "auxiliary_loss_clip": 0.01179243,
+      "auxiliary_loss_mlp": 0.0102866,
+      "balance_loss_clip": 1.05382681,
+      "balance_loss_mlp": 1.02101278,
+      "epoch": 0.5434978656886912,
+      "flos": 18989311766400.0,
+      "grad_norm": 3.232436653647562,
+      "language_loss": 0.65222585,
+      "learning_rate": 1.8156457874225547e-06,
+      "loss": 0.6743049,
+      "num_input_tokens_seen": 97512010,
+      "step": 4520,
+      "time_per_iteration": 2.7477147579193115
+    },
+    {
+      "auxiliary_loss_clip": 0.01195555,
+      "auxiliary_loss_mlp": 0.01031452,
+      "balance_loss_clip": 1.05500507,
+      "balance_loss_mlp": 1.02378654,
+      "epoch": 0.5436181085793302,
+      "flos": 17274936464640.0,
+      "grad_norm": 1.7869823515911063,
+      "language_loss": 0.803792,
+      "learning_rate": 1.814870146150187e-06,
+      "loss": 0.82606202,
+      "num_input_tokens_seen": 97530120,
+      "step": 4521,
+      "time_per_iteration": 2.6302473545074463
+    },
+    {
+      "auxiliary_loss_clip": 0.01201819,
+      "auxiliary_loss_mlp": 0.0102739,
+      "balance_loss_clip": 1.04797983,
+      "balance_loss_mlp": 1.01888442,
+      "epoch": 0.5437383514699693,
+      "flos": 19098587917440.0,
+      "grad_norm": 2.044911244429885,
+      "language_loss": 0.7874254,
+      "learning_rate": 1.814094532961871e-06,
+      "loss": 0.80971742,
+      "num_input_tokens_seen": 97548695,
+      "step": 4522,
+      "time_per_iteration": 2.669416666030884
+    },
+    {
+      "auxiliary_loss_clip": 0.01214765,
+      "auxiliary_loss_mlp": 0.01029762,
+      "balance_loss_clip": 1.04502487,
+      "balance_loss_mlp": 1.02202499,
+      "epoch": 0.5438585943606085,
+      "flos": 22602715211520.0,
+      "grad_norm": 1.88363292466038,
+      "language_loss": 0.83585113,
+      "learning_rate": 1.8133189479752666e-06,
+      "loss": 0.85829639,
+      "num_input_tokens_seen": 97567625,
+      "step": 4523,
+      "time_per_iteration": 2.8080520629882812
+    },
+    {
+      "auxiliary_loss_clip": 0.01180833,
+      "auxiliary_loss_mlp": 0.01022056,
+      "balance_loss_clip": 1.05373824,
+      "balance_loss_mlp": 1.01464415,
+      "epoch": 0.5439788372512475,
+      "flos": 21798495653760.0,
+      "grad_norm": 2.019775031965942,
+      "language_loss": 0.81926161,
+      "learning_rate": 1.8125433913080292e-06,
+      "loss": 0.84129047,
+      "num_input_tokens_seen": 97585325,
+      "step": 4524,
+      "time_per_iteration": 2.6090519428253174
+    },
+    {
+      "auxiliary_loss_clip": 0.01234277,
+      "auxiliary_loss_mlp": 0.01026435,
+      "balance_loss_clip": 1.0359081,
+      "balance_loss_mlp": 1.01930976,
+      "epoch": 0.5440990801418866,
+      "flos": 16399362539520.0,
+      "grad_norm": 2.0619197972584775,
+      "language_loss": 0.82649833,
+      "learning_rate": 1.811767863077811e-06,
+      "loss": 0.84910542,
+      "num_input_tokens_seen": 97604275,
+      "step": 4525,
+      "time_per_iteration": 3.1570982933044434
+    },
+    {
+      "auxiliary_loss_clip": 0.01217928,
+      "auxiliary_loss_mlp": 0.01025041,
+      "balance_loss_clip": 1.04904389,
+      "balance_loss_mlp": 1.01806092,
+      "epoch": 0.5442193230325257,
+      "flos": 21615638492160.0,
+      "grad_norm": 1.624420742339382,
+      "language_loss": 0.78131032,
+      "learning_rate": 1.8109923634022577e-06,
+      "loss": 0.80374002,
+      "num_input_tokens_seen": 97624300,
+      "step": 4526,
+      "time_per_iteration": 2.987658739089966
+    },
+    {
+      "auxiliary_loss_clip": 0.01180751,
+      "auxiliary_loss_mlp": 0.01026968,
+      "balance_loss_clip": 1.05189943,
+      "balance_loss_mlp": 1.01911259,
+      "epoch": 0.5443395659231648,
+      "flos": 15481198062720.0,
+      "grad_norm": 3.6393802699402653,
+      "language_loss": 0.86333418,
+      "learning_rate": 1.8102168923990128e-06,
+      "loss": 0.88541138,
+      "num_input_tokens_seen": 97637845,
+      "step": 4527,
+      "time_per_iteration": 2.6134891510009766
+    },
+    {
+      "auxiliary_loss_clip": 0.01193532,
+      "auxiliary_loss_mlp": 0.01378782,
+      "balance_loss_clip": 1.05389524,
+      "balance_loss_mlp": 1.00026596,
+      "epoch": 0.5444598088138038,
+      "flos": 18770436241920.0,
+      "grad_norm": 1.8550138535475795,
+      "language_loss": 0.79836476,
+      "learning_rate": 1.809441450185714e-06,
+      "loss": 0.82408786,
+      "num_input_tokens_seen": 97656330,
+      "step": 4528,
+      "time_per_iteration": 2.6673035621643066
+    },
+    {
+      "auxiliary_loss_clip": 0.0120094,
+      "auxiliary_loss_mlp": 0.01025568,
+      "balance_loss_clip": 1.04758716,
+      "balance_loss_mlp": 1.01821899,
+      "epoch": 0.544580051704443,
+      "flos": 21142335957120.0,
+      "grad_norm": 2.141545628462025,
+      "language_loss": 0.73298228,
+      "learning_rate": 1.8086660368799958e-06,
+      "loss": 0.75524735,
+      "num_input_tokens_seen": 97674380,
+      "step": 4529,
+      "time_per_iteration": 2.7002289295196533
+    },
+    {
+      "auxiliary_loss_clip": 0.01200983,
+      "auxiliary_loss_mlp": 0.01030346,
+      "balance_loss_clip": 1.05057621,
+      "balance_loss_mlp": 1.02189958,
+      "epoch": 0.5447002945950821,
+      "flos": 32491508054400.0,
+      "grad_norm": 1.6158988720930247,
+      "language_loss": 0.7753948,
+      "learning_rate": 1.807890652599488e-06,
+      "loss": 0.79770815,
+      "num_input_tokens_seen": 97698765,
+      "step": 4530,
+      "time_per_iteration": 2.741255044937134
+    },
+    {
+      "auxiliary_loss_clip": 0.01178602,
+      "auxiliary_loss_mlp": 0.0102373,
+      "balance_loss_clip": 1.05353665,
+      "balance_loss_mlp": 1.01664305,
+      "epoch": 0.5448205374857211,
+      "flos": 11798307757440.0,
+      "grad_norm": 2.3880064328282478,
+      "language_loss": 0.82816947,
+      "learning_rate": 1.8071152974618156e-06,
+      "loss": 0.85019279,
+      "num_input_tokens_seen": 97716565,
+      "step": 4531,
+      "time_per_iteration": 2.6076862812042236
+    },
+    {
+      "auxiliary_loss_clip": 0.01205018,
+      "auxiliary_loss_mlp": 0.01378679,
+      "balance_loss_clip": 1.04545975,
+      "balance_loss_mlp": 1.00022936,
+      "epoch": 0.5449407803763603,
+      "flos": 24133766474880.0,
+      "grad_norm": 2.078697863248137,
+      "language_loss": 0.78350812,
+      "learning_rate": 1.806339971584599e-06,
+      "loss": 0.80934513,
+      "num_input_tokens_seen": 97733225,
+      "step": 4532,
+      "time_per_iteration": 2.733767509460449
+    },
+    {
+      "auxiliary_loss_clip": 0.01180107,
+      "auxiliary_loss_mlp": 0.01027613,
+      "balance_loss_clip": 1.05298913,
+      "balance_loss_mlp": 1.01973367,
+      "epoch": 0.5450610232669993,
+      "flos": 23258551685760.0,
+      "grad_norm": 1.8486510107104843,
+      "language_loss": 0.85081249,
+      "learning_rate": 1.8055646750854546e-06,
+      "loss": 0.87288976,
+      "num_input_tokens_seen": 97752735,
+      "step": 4533,
+      "time_per_iteration": 2.63002610206604
+    },
+    {
+      "auxiliary_loss_clip": 0.01202456,
+      "auxiliary_loss_mlp": 0.01026468,
+      "balance_loss_clip": 1.05048156,
+      "balance_loss_mlp": 1.01860583,
+      "epoch": 0.5451812661576384,
+      "flos": 17785083375360.0,
+      "grad_norm": 2.449874366077887,
+      "language_loss": 0.81613624,
+      "learning_rate": 1.8047894080819945e-06,
+      "loss": 0.83842546,
+      "num_input_tokens_seen": 97769985,
+      "step": 4534,
+      "time_per_iteration": 3.923198938369751
+    },
+    {
+      "auxiliary_loss_clip": 0.01082952,
+      "auxiliary_loss_mlp": 0.01004415,
+      "balance_loss_clip": 1.02444148,
+      "balance_loss_mlp": 1.00325859,
+      "epoch": 0.5453015090482776,
+      "flos": 71062586513280.0,
+      "grad_norm": 0.7199414962900558,
+      "language_loss": 0.63167894,
+      "learning_rate": 1.8040141706918258e-06,
+      "loss": 0.6525526,
+      "num_input_tokens_seen": 97831225,
+      "step": 4535,
+      "time_per_iteration": 4.740273952484131
+    },
+    {
+      "auxiliary_loss_clip": 0.01202342,
+      "auxiliary_loss_mlp": 0.01024103,
+      "balance_loss_clip": 1.05404735,
+      "balance_loss_mlp": 1.01644409,
+      "epoch": 0.5454217519389166,
+      "flos": 25552201622400.0,
+      "grad_norm": 1.789998692068052,
+      "language_loss": 0.77099824,
+      "learning_rate": 1.8032389630325525e-06,
+      "loss": 0.79326272,
+      "num_input_tokens_seen": 97849975,
+      "step": 4536,
+      "time_per_iteration": 3.649118185043335
+    },
+    {
+      "auxiliary_loss_clip": 0.01193704,
+      "auxiliary_loss_mlp": 0.01034575,
+      "balance_loss_clip": 1.04663539,
+      "balance_loss_mlp": 1.02648675,
+      "epoch": 0.5455419948295557,
+      "flos": 23658345037440.0,
+      "grad_norm": 1.659110554025987,
+      "language_loss": 0.75601065,
+      "learning_rate": 1.8024637852217707e-06,
+      "loss": 0.77829349,
+      "num_input_tokens_seen": 97869700,
+      "step": 4537,
+      "time_per_iteration": 3.678656578063965
+    },
+    {
+      "auxiliary_loss_clip": 0.0119834,
+      "auxiliary_loss_mlp": 0.01033684,
+      "balance_loss_clip": 1.05145371,
+      "balance_loss_mlp": 1.02696359,
+      "epoch": 0.5456622377201948,
+      "flos": 23403989854080.0,
+      "grad_norm": 1.7339379674865059,
+      "language_loss": 0.8455708,
+      "learning_rate": 1.8016886373770766e-06,
+      "loss": 0.86789107,
+      "num_input_tokens_seen": 97888215,
+      "step": 4538,
+      "time_per_iteration": 2.7206292152404785
+    },
+    {
+      "auxiliary_loss_clip": 0.01194613,
+      "auxiliary_loss_mlp": 0.01026573,
+      "balance_loss_clip": 1.04845107,
+      "balance_loss_mlp": 1.01900923,
+      "epoch": 0.5457824806108339,
+      "flos": 23988040997760.0,
+      "grad_norm": 1.5246975725877916,
+      "language_loss": 0.7908591,
+      "learning_rate": 1.8009135196160579e-06,
+      "loss": 0.81307089,
+      "num_input_tokens_seen": 97907090,
+      "step": 4539,
+      "time_per_iteration": 2.643852710723877
+    },
+    {
+      "auxiliary_loss_clip": 0.0120269,
+      "auxiliary_loss_mlp": 0.01026524,
+      "balance_loss_clip": 1.04736423,
+      "balance_loss_mlp": 1.0189898,
+      "epoch": 0.545902723501473,
+      "flos": 22565870835840.0,
+      "grad_norm": 1.7043525362954905,
+      "language_loss": 0.84253871,
+      "learning_rate": 1.8001384320563e-06,
+      "loss": 0.86483085,
+      "num_input_tokens_seen": 97927345,
+      "step": 4540,
+      "time_per_iteration": 2.7179720401763916
+    },
+    {
+      "auxiliary_loss_clip": 0.01083393,
+      "auxiliary_loss_mlp": 0.01001045,
+      "balance_loss_clip": 1.02458286,
+      "balance_loss_mlp": 0.99988884,
+      "epoch": 0.5460229663921121,
+      "flos": 55198399685760.0,
+      "grad_norm": 0.7672403817521066,
+      "language_loss": 0.57725966,
+      "learning_rate": 1.7993633748153833e-06,
+      "loss": 0.598104,
+      "num_input_tokens_seen": 97981950,
+      "step": 4541,
+      "time_per_iteration": 3.0458149909973145
+    },
+    {
+      "auxiliary_loss_clip": 0.01190207,
+      "auxiliary_loss_mlp": 0.0102963,
+      "balance_loss_clip": 1.05034196,
+      "balance_loss_mlp": 1.02186334,
+      "epoch": 0.5461432092827512,
+      "flos": 15413866018560.0,
+      "grad_norm": 1.79993609330031,
+      "language_loss": 0.72994292,
+      "learning_rate": 1.7985883480108834e-06,
+      "loss": 0.7521413,
+      "num_input_tokens_seen": 97999585,
+      "step": 4542,
+      "time_per_iteration": 2.578174114227295
+    },
+    {
+      "auxiliary_loss_clip": 0.01181935,
+      "auxiliary_loss_mlp": 0.01029276,
+      "balance_loss_clip": 1.04921007,
+      "balance_loss_mlp": 1.02183771,
+      "epoch": 0.5462634521733902,
+      "flos": 24024921287040.0,
+      "grad_norm": 1.7775861017628432,
+      "language_loss": 0.72166294,
+      "learning_rate": 1.797813351760371e-06,
+      "loss": 0.74377501,
+      "num_input_tokens_seen": 98021290,
+      "step": 4543,
+      "time_per_iteration": 2.6522676944732666
+    },
+    {
+      "auxiliary_loss_clip": 0.0118017,
+      "auxiliary_loss_mlp": 0.01027474,
+      "balance_loss_clip": 1.05245376,
+      "balance_loss_mlp": 1.01989794,
+      "epoch": 0.5463836950640293,
+      "flos": 22820944291200.0,
+      "grad_norm": 2.8616457863013713,
+      "language_loss": 0.78027868,
+      "learning_rate": 1.7970383861814116e-06,
+      "loss": 0.80235505,
+      "num_input_tokens_seen": 98041060,
+      "step": 4544,
+      "time_per_iteration": 2.6209588050842285
+    },
+    {
+      "auxiliary_loss_clip": 0.01190187,
+      "auxiliary_loss_mlp": 0.01025141,
+      "balance_loss_clip": 1.05333114,
+      "balance_loss_mlp": 1.01699889,
+      "epoch": 0.5465039379546685,
+      "flos": 20448290390400.0,
+      "grad_norm": 1.8200997087721449,
+      "language_loss": 0.74013948,
+      "learning_rate": 1.7962634513915684e-06,
+      "loss": 0.7622928,
+      "num_input_tokens_seen": 98058410,
+      "step": 4545,
+      "time_per_iteration": 2.643921375274658
+    },
+    {
+      "auxiliary_loss_clip": 0.0117843,
+      "auxiliary_loss_mlp": 0.01025141,
+      "balance_loss_clip": 1.0520947,
+      "balance_loss_mlp": 1.01788688,
+      "epoch": 0.5466241808453075,
+      "flos": 17343310003200.0,
+      "grad_norm": 1.597210438124108,
+      "language_loss": 0.7942425,
+      "learning_rate": 1.7954885475083969e-06,
+      "loss": 0.81627822,
+      "num_input_tokens_seen": 98076080,
+      "step": 4546,
+      "time_per_iteration": 2.557011842727661
+    },
+    {
+      "auxiliary_loss_clip": 0.01179963,
+      "auxiliary_loss_mlp": 0.01023743,
+      "balance_loss_clip": 1.05186319,
+      "balance_loss_mlp": 1.01606596,
+      "epoch": 0.5467444237359466,
+      "flos": 21617039122560.0,
+      "grad_norm": 2.1050315408153915,
+      "language_loss": 0.72822642,
+      "learning_rate": 1.7947136746494513e-06,
+      "loss": 0.75026351,
+      "num_input_tokens_seen": 98096995,
+      "step": 4547,
+      "time_per_iteration": 2.6350936889648438
+    },
+    {
+      "auxiliary_loss_clip": 0.01187176,
+      "auxiliary_loss_mlp": 0.01028576,
+      "balance_loss_clip": 1.0512321,
+      "balance_loss_mlp": 1.02069032,
+      "epoch": 0.5468646666265857,
+      "flos": 24170467196160.0,
+      "grad_norm": 2.5752177018015376,
+      "language_loss": 0.877756,
+      "learning_rate": 1.793938832932277e-06,
+      "loss": 0.89991355,
+      "num_input_tokens_seen": 98115105,
+      "step": 4548,
+      "time_per_iteration": 2.6471197605133057
+    },
+    {
+      "auxiliary_loss_clip": 0.01178598,
+      "auxiliary_loss_mlp": 0.01024531,
+      "balance_loss_clip": 1.05202401,
+      "balance_loss_mlp": 1.01726496,
+      "epoch": 0.5469849095172248,
+      "flos": 27527001505920.0,
+      "grad_norm": 2.18845736799173,
+      "language_loss": 0.7026968,
+      "learning_rate": 1.7931640224744185e-06,
+      "loss": 0.72472811,
+      "num_input_tokens_seen": 98135655,
+      "step": 4549,
+      "time_per_iteration": 2.7034988403320312
+    },
+    {
+      "auxiliary_loss_clip": 0.01188734,
+      "auxiliary_loss_mlp": 0.01023567,
+      "balance_loss_clip": 1.04191375,
+      "balance_loss_mlp": 1.01593518,
+      "epoch": 0.5471051524078638,
+      "flos": 27964680727680.0,
+      "grad_norm": 1.5466531902508582,
+      "language_loss": 0.73993886,
+      "learning_rate": 1.7923892433934127e-06,
+      "loss": 0.76206189,
+      "num_input_tokens_seen": 98156730,
+      "step": 4550,
+      "time_per_iteration": 2.735454797744751
+    },
+    {
+      "auxiliary_loss_clip": 0.01199432,
+      "auxiliary_loss_mlp": 0.01378919,
+      "balance_loss_clip": 1.05144846,
+      "balance_loss_mlp": 1.00032139,
+      "epoch": 0.547225395298503,
+      "flos": 18150510389760.0,
+      "grad_norm": 1.9252023815850867,
+      "language_loss": 0.7890169,
+      "learning_rate": 1.7916144958067939e-06,
+      "loss": 0.81480038,
+      "num_input_tokens_seen": 98174590,
+      "step": 4551,
+      "time_per_iteration": 2.7259767055511475
+    },
+    {
+      "auxiliary_loss_clip": 0.01191026,
+      "auxiliary_loss_mlp": 0.01026391,
+      "balance_loss_clip": 1.05123138,
+      "balance_loss_mlp": 1.01883316,
+      "epoch": 0.5473456381891421,
+      "flos": 21361498790400.0,
+      "grad_norm": 1.7622275276468582,
+      "language_loss": 0.78989148,
+      "learning_rate": 1.7908397798320905e-06,
+      "loss": 0.8120656,
+      "num_input_tokens_seen": 98194325,
+      "step": 4552,
+      "time_per_iteration": 2.831275701522827
+    },
+    {
+      "auxiliary_loss_clip": 0.01187578,
+      "auxiliary_loss_mlp": 0.01379236,
+      "balance_loss_clip": 1.0514245,
+      "balance_loss_mlp": 1.00021052,
+      "epoch": 0.5474658810797811,
+      "flos": 19932145908480.0,
+      "grad_norm": 1.7180193845158562,
+      "language_loss": 0.74836737,
+      "learning_rate": 1.7900650955868265e-06,
+      "loss": 0.77403551,
+      "num_input_tokens_seen": 98213970,
+      "step": 4553,
+      "time_per_iteration": 2.6400866508483887
+    },
+    {
+      "auxiliary_loss_clip": 0.01192961,
+      "auxiliary_loss_mlp": 0.01378816,
+      "balance_loss_clip": 1.05510497,
+      "balance_loss_mlp": 1.00031853,
+      "epoch": 0.5475861239704203,
+      "flos": 50476217264640.0,
+      "grad_norm": 1.3168930129751562,
+      "language_loss": 0.76242566,
+      "learning_rate": 1.7892904431885202e-06,
+      "loss": 0.7881434,
+      "num_input_tokens_seen": 98241145,
+      "step": 4554,
+      "time_per_iteration": 2.8920328617095947
+    },
+    {
+      "auxiliary_loss_clip": 0.01212692,
+      "auxiliary_loss_mlp": 0.01023032,
+      "balance_loss_clip": 1.04474616,
+      "balance_loss_mlp": 1.0155158,
+      "epoch": 0.5477063668610593,
+      "flos": 20705123612160.0,
+      "grad_norm": 1.871287779434614,
+      "language_loss": 0.75336015,
+      "learning_rate": 1.788515822754686e-06,
+      "loss": 0.77571738,
+      "num_input_tokens_seen": 98261565,
+      "step": 4555,
+      "time_per_iteration": 2.7682554721832275
+    },
+    {
+      "auxiliary_loss_clip": 0.0120243,
+      "auxiliary_loss_mlp": 0.01025461,
+      "balance_loss_clip": 1.04419565,
+      "balance_loss_mlp": 1.01729572,
+      "epoch": 0.5478266097516984,
+      "flos": 19609740408960.0,
+      "grad_norm": 2.8099794813181322,
+      "language_loss": 0.78501016,
+      "learning_rate": 1.7877412344028335e-06,
+      "loss": 0.80728912,
+      "num_input_tokens_seen": 98281370,
+      "step": 4556,
+      "time_per_iteration": 2.7542026042938232
+    },
+    {
+      "auxiliary_loss_clip": 0.01189813,
+      "auxiliary_loss_mlp": 0.01030575,
+      "balance_loss_clip": 1.05002904,
+      "balance_loss_mlp": 1.02325559,
+      "epoch": 0.5479468526423376,
+      "flos": 12896599962240.0,
+      "grad_norm": 2.261088977273096,
+      "language_loss": 0.77357876,
+      "learning_rate": 1.7869666782504668e-06,
+      "loss": 0.79578263,
+      "num_input_tokens_seen": 98297950,
+      "step": 4557,
+      "time_per_iteration": 2.6069629192352295
+    },
+    {
+      "auxiliary_loss_clip": 0.01183288,
+      "auxiliary_loss_mlp": 0.01027021,
+      "balance_loss_clip": 1.04628479,
+      "balance_loss_mlp": 1.01935029,
+      "epoch": 0.5480670955329766,
+      "flos": 18588800142720.0,
+      "grad_norm": 1.8032340274179885,
+      "language_loss": 0.69002843,
+      "learning_rate": 1.7861921544150867e-06,
+      "loss": 0.71213156,
+      "num_input_tokens_seen": 98316800,
+      "step": 4558,
+      "time_per_iteration": 2.656235694885254
+    },
+    {
+      "auxiliary_loss_clip": 0.01208174,
+      "auxiliary_loss_mlp": 0.01378904,
+      "balance_loss_clip": 1.04391694,
+      "balance_loss_mlp": 1.0002991,
+      "epoch": 0.5481873384236157,
+      "flos": 15954608338560.0,
+      "grad_norm": 1.8114171968912949,
+      "language_loss": 0.76342201,
+      "learning_rate": 1.7854176630141856e-06,
+      "loss": 0.78929281,
+      "num_input_tokens_seen": 98333935,
+      "step": 4559,
+      "time_per_iteration": 2.7245821952819824
+    },
+    {
+      "auxiliary_loss_clip": 0.01183023,
+      "auxiliary_loss_mlp": 0.01037878,
+      "balance_loss_clip": 1.0537343,
+      "balance_loss_mlp": 1.02989125,
+      "epoch": 0.5483075813142548,
+      "flos": 22783812606720.0,
+      "grad_norm": 2.0962421098789994,
+      "language_loss": 0.84584945,
+      "learning_rate": 1.784643204165255e-06,
+      "loss": 0.86805844,
+      "num_input_tokens_seen": 98353255,
+      "step": 4560,
+      "time_per_iteration": 3.58347225189209
+    },
+    {
+      "auxiliary_loss_clip": 0.01183709,
+      "auxiliary_loss_mlp": 0.01028089,
+      "balance_loss_clip": 1.05196857,
+      "balance_loss_mlp": 1.02065599,
+      "epoch": 0.5484278242048939,
+      "flos": 19317212046720.0,
+      "grad_norm": 1.9967687278467803,
+      "language_loss": 0.77341276,
+      "learning_rate": 1.7838687779857783e-06,
+      "loss": 0.79553074,
+      "num_input_tokens_seen": 98371130,
+      "step": 4561,
+      "time_per_iteration": 3.7134902477264404
+    },
+    {
+      "auxiliary_loss_clip": 0.01189946,
+      "auxiliary_loss_mlp": 0.01026066,
+      "balance_loss_clip": 1.04798698,
+      "balance_loss_mlp": 1.01892519,
+      "epoch": 0.5485480670955329,
+      "flos": 22816024128000.0,
+      "grad_norm": 2.2807723628268293,
+      "language_loss": 0.63883823,
+      "learning_rate": 1.7830943845932366e-06,
+      "loss": 0.66099834,
+      "num_input_tokens_seen": 98390455,
+      "step": 4562,
+      "time_per_iteration": 3.579211950302124
+    },
+    {
+      "auxiliary_loss_clip": 0.01203333,
+      "auxiliary_loss_mlp": 0.01029125,
+      "balance_loss_clip": 1.05146861,
+      "balance_loss_mlp": 1.0212456,
+      "epoch": 0.5486683099861721,
+      "flos": 22671304231680.0,
+      "grad_norm": 1.5940838867430112,
+      "language_loss": 0.74909198,
+      "learning_rate": 1.7823200241051044e-06,
+      "loss": 0.77141654,
+      "num_input_tokens_seen": 98409370,
+      "step": 4563,
+      "time_per_iteration": 2.7095894813537598
+    },
+    {
+      "auxiliary_loss_clip": 0.01182703,
+      "auxiliary_loss_mlp": 0.01029345,
+      "balance_loss_clip": 1.05492151,
+      "balance_loss_mlp": 1.02206135,
+      "epoch": 0.5487885528768112,
+      "flos": 23149383275520.0,
+      "grad_norm": 2.2424069346939013,
+      "language_loss": 0.80682695,
+      "learning_rate": 1.7815456966388513e-06,
+      "loss": 0.82894742,
+      "num_input_tokens_seen": 98428465,
+      "step": 4564,
+      "time_per_iteration": 3.5513107776641846
+    },
+    {
+      "auxiliary_loss_clip": 0.01205643,
+      "auxiliary_loss_mlp": 0.01027742,
+      "balance_loss_clip": 1.04741609,
+      "balance_loss_mlp": 1.01983261,
+      "epoch": 0.5489087957674502,
+      "flos": 22053928245120.0,
+      "grad_norm": 2.8131580339460616,
+      "language_loss": 0.80770755,
+      "learning_rate": 1.780771402311943e-06,
+      "loss": 0.83004141,
+      "num_input_tokens_seen": 98447300,
+      "step": 4565,
+      "time_per_iteration": 2.7732269763946533
+    },
+    {
+      "auxiliary_loss_clip": 0.01198435,
+      "auxiliary_loss_mlp": 0.01030568,
+      "balance_loss_clip": 1.05173612,
+      "balance_loss_mlp": 1.02289152,
+      "epoch": 0.5490290386580894,
+      "flos": 24315977191680.0,
+      "grad_norm": 1.9336786902189187,
+      "language_loss": 0.78717685,
+      "learning_rate": 1.7799971412418374e-06,
+      "loss": 0.8094669,
+      "num_input_tokens_seen": 98468695,
+      "step": 4566,
+      "time_per_iteration": 2.7881054878234863
+    },
+    {
+      "auxiliary_loss_clip": 0.01202426,
+      "auxiliary_loss_mlp": 0.01028563,
+      "balance_loss_clip": 1.04598141,
+      "balance_loss_mlp": 1.02003407,
+      "epoch": 0.5491492815487284,
+      "flos": 18294942977280.0,
+      "grad_norm": 1.9522857167786267,
+      "language_loss": 0.74205053,
+      "learning_rate": 1.7792229135459918e-06,
+      "loss": 0.76436043,
+      "num_input_tokens_seen": 98485345,
+      "step": 4567,
+      "time_per_iteration": 2.755030632019043
+    },
+    {
+      "auxiliary_loss_clip": 0.01126779,
+      "auxiliary_loss_mlp": 0.01003379,
+      "balance_loss_clip": 1.02649796,
+      "balance_loss_mlp": 1.00224042,
+      "epoch": 0.5492695244393675,
+      "flos": 64550257050240.0,
+      "grad_norm": 0.7373572539241214,
+      "language_loss": 0.61634552,
+      "learning_rate": 1.7784487193418538e-06,
+      "loss": 0.63764709,
+      "num_input_tokens_seen": 98543195,
+      "step": 4568,
+      "time_per_iteration": 3.1960840225219727
+    },
+    {
+      "auxiliary_loss_clip": 0.01186583,
+      "auxiliary_loss_mlp": 0.01028023,
+      "balance_loss_clip": 1.04204655,
+      "balance_loss_mlp": 1.01976156,
+      "epoch": 0.5493897673300067,
+      "flos": 17379579761280.0,
+      "grad_norm": 2.012002219072116,
+      "language_loss": 0.61230743,
+      "learning_rate": 1.7776745587468698e-06,
+      "loss": 0.63445354,
+      "num_input_tokens_seen": 98560620,
+      "step": 4569,
+      "time_per_iteration": 2.7647180557250977
+    },
+    {
+      "auxiliary_loss_clip": 0.01178573,
+      "auxiliary_loss_mlp": 0.01027875,
+      "balance_loss_clip": 1.05043364,
+      "balance_loss_mlp": 1.01969433,
+      "epoch": 0.5495100102206457,
+      "flos": 19901765980800.0,
+      "grad_norm": 2.3063939208049926,
+      "language_loss": 0.81398821,
+      "learning_rate": 1.7769004318784776e-06,
+      "loss": 0.83605266,
+      "num_input_tokens_seen": 98578265,
+      "step": 4570,
+      "time_per_iteration": 2.6697194576263428
+    },
+    {
+      "auxiliary_loss_clip": 0.01189698,
+      "auxiliary_loss_mlp": 0.01029523,
+      "balance_loss_clip": 1.05129504,
+      "balance_loss_mlp": 1.02186394,
+      "epoch": 0.5496302531112848,
+      "flos": 16727190992640.0,
+      "grad_norm": 1.7731303406578127,
+      "language_loss": 0.80845845,
+      "learning_rate": 1.776126338854113e-06,
+      "loss": 0.83065063,
+      "num_input_tokens_seen": 98596055,
+      "step": 4571,
+      "time_per_iteration": 2.5982706546783447
+    },
+    {
+      "auxiliary_loss_clip": 0.01183935,
+      "auxiliary_loss_mlp": 0.01031397,
+      "balance_loss_clip": 1.05105329,
+      "balance_loss_mlp": 1.02358603,
+      "epoch": 0.5497504960019239,
+      "flos": 24572343536640.0,
+      "grad_norm": 1.896686630517489,
+      "language_loss": 0.8459574,
+      "learning_rate": 1.7753522797912044e-06,
+      "loss": 0.86811066,
+      "num_input_tokens_seen": 98616140,
+      "step": 4572,
+      "time_per_iteration": 2.6581180095672607
+    },
+    {
+      "auxiliary_loss_clip": 0.01202993,
+      "auxiliary_loss_mlp": 0.01030829,
+      "balance_loss_clip": 1.0493753,
+      "balance_loss_mlp": 1.02256227,
+      "epoch": 0.549870738892563,
+      "flos": 15450494912640.0,
+      "grad_norm": 3.2830749865021227,
+      "language_loss": 0.69925618,
+      "learning_rate": 1.7745782548071765e-06,
+      "loss": 0.72159445,
+      "num_input_tokens_seen": 98633035,
+      "step": 4573,
+      "time_per_iteration": 2.6831328868865967
+    },
+    {
+      "auxiliary_loss_clip": 0.01203704,
+      "auxiliary_loss_mlp": 0.01030188,
+      "balance_loss_clip": 1.05081046,
+      "balance_loss_mlp": 1.02277946,
+      "epoch": 0.549990981783202,
+      "flos": 21069114082560.0,
+      "grad_norm": 1.6448639434432208,
+      "language_loss": 0.74433362,
+      "learning_rate": 1.7738042640194482e-06,
+      "loss": 0.76667255,
+      "num_input_tokens_seen": 98652700,
+      "step": 4574,
+      "time_per_iteration": 2.7068169116973877
+    },
+    {
+      "auxiliary_loss_clip": 0.01179659,
+      "auxiliary_loss_mlp": 0.01029292,
+      "balance_loss_clip": 1.05268764,
+      "balance_loss_mlp": 1.02144253,
+      "epoch": 0.5501112246738411,
+      "flos": 21395901041280.0,
+      "grad_norm": 3.7947103937758198,
+      "language_loss": 0.7032876,
+      "learning_rate": 1.7730303075454335e-06,
+      "loss": 0.72537708,
+      "num_input_tokens_seen": 98671590,
+      "step": 4575,
+      "time_per_iteration": 2.616074800491333
+    },
+    {
+      "auxiliary_loss_clip": 0.01211331,
+      "auxiliary_loss_mlp": 0.01030932,
+      "balance_loss_clip": 1.04875743,
+      "balance_loss_mlp": 1.02280164,
+      "epoch": 0.5502314675644803,
+      "flos": 17456931699840.0,
+      "grad_norm": 1.9673985885065073,
+      "language_loss": 0.85078919,
+      "learning_rate": 1.7722563855025402e-06,
+      "loss": 0.87321186,
+      "num_input_tokens_seen": 98689620,
+      "step": 4576,
+      "time_per_iteration": 2.682798385620117
+    },
+    {
+      "auxiliary_loss_clip": 0.01195274,
+      "auxiliary_loss_mlp": 0.01024439,
+      "balance_loss_clip": 1.04645371,
+      "balance_loss_mlp": 1.01643109,
+      "epoch": 0.5503517104551193,
+      "flos": 24310410583680.0,
+      "grad_norm": 2.054111621476412,
+      "language_loss": 0.70769405,
+      "learning_rate": 1.7714824980081721e-06,
+      "loss": 0.72989112,
+      "num_input_tokens_seen": 98708915,
+      "step": 4577,
+      "time_per_iteration": 2.747821092605591
+    },
+    {
+      "auxiliary_loss_clip": 0.01186108,
+      "auxiliary_loss_mlp": 0.01026914,
+      "balance_loss_clip": 1.05253029,
+      "balance_loss_mlp": 1.01915383,
+      "epoch": 0.5504719533457584,
+      "flos": 22419427086720.0,
+      "grad_norm": 2.6819585382513096,
+      "language_loss": 0.73686922,
+      "learning_rate": 1.7707086451797276e-06,
+      "loss": 0.75899947,
+      "num_input_tokens_seen": 98729790,
+      "step": 4578,
+      "time_per_iteration": 2.708474636077881
+    },
+    {
+      "auxiliary_loss_clip": 0.01115661,
+      "auxiliary_loss_mlp": 0.01001093,
+      "balance_loss_clip": 1.02221966,
+      "balance_loss_mlp": 0.99983543,
+      "epoch": 0.5505921962363975,
+      "flos": 67294155968640.0,
+      "grad_norm": 0.7028897684089057,
+      "language_loss": 0.52370536,
+      "learning_rate": 1.7699348271345993e-06,
+      "loss": 0.54487288,
+      "num_input_tokens_seen": 98792415,
+      "step": 4579,
+      "time_per_iteration": 3.2432422637939453
+    },
+    {
+      "auxiliary_loss_clip": 0.01130942,
+      "auxiliary_loss_mlp": 0.01001992,
+      "balance_loss_clip": 1.01955938,
+      "balance_loss_mlp": 1.000705,
+      "epoch": 0.5507124391270366,
+      "flos": 45685125578880.0,
+      "grad_norm": 0.7176306433121864,
+      "language_loss": 0.54466224,
+      "learning_rate": 1.7691610439901753e-06,
+      "loss": 0.56599164,
+      "num_input_tokens_seen": 98855350,
+      "step": 4580,
+      "time_per_iteration": 3.361020565032959
+    },
+    {
+      "auxiliary_loss_clip": 0.01190808,
+      "auxiliary_loss_mlp": 0.01026393,
+      "balance_loss_clip": 1.05226326,
+      "balance_loss_mlp": 1.01881385,
+      "epoch": 0.5508326820176757,
+      "flos": 22273845264000.0,
+      "grad_norm": 1.7952085853129485,
+      "language_loss": 0.75314367,
+      "learning_rate": 1.7683872958638367e-06,
+      "loss": 0.77531564,
+      "num_input_tokens_seen": 98874230,
+      "step": 4581,
+      "time_per_iteration": 2.674431324005127
+    },
+    {
+      "auxiliary_loss_clip": 0.01194598,
+      "auxiliary_loss_mlp": 0.01028031,
+      "balance_loss_clip": 1.04786193,
+      "balance_loss_mlp": 1.02015746,
+      "epoch": 0.5509529249083148,
+      "flos": 20012442762240.0,
+      "grad_norm": 1.9451745224225647,
+      "language_loss": 0.84236938,
+      "learning_rate": 1.7676135828729614e-06,
+      "loss": 0.86459565,
+      "num_input_tokens_seen": 98893940,
+      "step": 4582,
+      "time_per_iteration": 2.7216460704803467
+    },
+    {
+      "auxiliary_loss_clip": 0.01188352,
+      "auxiliary_loss_mlp": 0.01025679,
+      "balance_loss_clip": 1.05154443,
+      "balance_loss_mlp": 1.0179069,
+      "epoch": 0.5510731677989539,
+      "flos": 21834801325440.0,
+      "grad_norm": 1.8286091385865915,
+      "language_loss": 0.83009779,
+      "learning_rate": 1.7668399051349205e-06,
+      "loss": 0.85223818,
+      "num_input_tokens_seen": 98913620,
+      "step": 4583,
+      "time_per_iteration": 2.6449828147888184
+    },
+    {
+      "auxiliary_loss_clip": 0.01202478,
+      "auxiliary_loss_mlp": 0.01026912,
+      "balance_loss_clip": 1.04821384,
+      "balance_loss_mlp": 1.01909196,
+      "epoch": 0.5511934106895929,
+      "flos": 21467901853440.0,
+      "grad_norm": 2.222772040681578,
+      "language_loss": 0.83006471,
+      "learning_rate": 1.766066262767081e-06,
+      "loss": 0.8523587,
+      "num_input_tokens_seen": 98931460,
+      "step": 4584,
+      "time_per_iteration": 2.7367448806762695
+    },
+    {
+      "auxiliary_loss_clip": 0.01191189,
+      "auxiliary_loss_mlp": 0.01026262,
+      "balance_loss_clip": 1.05007946,
+      "balance_loss_mlp": 1.01860607,
+      "epoch": 0.5513136535802321,
+      "flos": 21068934514560.0,
+      "grad_norm": 2.35150586329892,
+      "language_loss": 0.77269226,
+      "learning_rate": 1.765292655886803e-06,
+      "loss": 0.7948668,
+      "num_input_tokens_seen": 98950105,
+      "step": 4585,
+      "time_per_iteration": 2.6445446014404297
+    },
+    {
+      "auxiliary_loss_clip": 0.01215872,
+      "auxiliary_loss_mlp": 0.01026301,
+      "balance_loss_clip": 1.05036736,
+      "balance_loss_mlp": 1.01838589,
+      "epoch": 0.5514338964708712,
+      "flos": 27815004754560.0,
+      "grad_norm": 1.7290653147608843,
+      "language_loss": 0.70553553,
+      "learning_rate": 1.764519084611443e-06,
+      "loss": 0.72795725,
+      "num_input_tokens_seen": 98970560,
+      "step": 4586,
+      "time_per_iteration": 2.786937713623047
+    },
+    {
+      "auxiliary_loss_clip": 0.01199298,
+      "auxiliary_loss_mlp": 0.01033552,
+      "balance_loss_clip": 1.05150759,
+      "balance_loss_mlp": 1.02527928,
+      "epoch": 0.5515541393615102,
+      "flos": 21908525990400.0,
+      "grad_norm": 2.348702415350108,
+      "language_loss": 0.77758604,
+      "learning_rate": 1.7637455490583505e-06,
+      "loss": 0.79991454,
+      "num_input_tokens_seen": 98989885,
+      "step": 4587,
+      "time_per_iteration": 3.730424404144287
+    },
+    {
+      "auxiliary_loss_clip": 0.01192657,
+      "auxiliary_loss_mlp": 0.01028034,
+      "balance_loss_clip": 1.05507624,
+      "balance_loss_mlp": 1.02056587,
+      "epoch": 0.5516743822521494,
+      "flos": 20485422074880.0,
+      "grad_norm": 2.1858492886582397,
+      "language_loss": 0.77664441,
+      "learning_rate": 1.7629720493448701e-06,
+      "loss": 0.79885131,
+      "num_input_tokens_seen": 99007180,
+      "step": 4588,
+      "time_per_iteration": 4.4246532917022705
+    },
+    {
+      "auxiliary_loss_clip": 0.01203746,
+      "auxiliary_loss_mlp": 0.01036689,
+      "balance_loss_clip": 1.05019045,
+      "balance_loss_mlp": 1.0289166,
+      "epoch": 0.5517946251427884,
+      "flos": 14940383915520.0,
+      "grad_norm": 1.8064837306281298,
+      "language_loss": 0.84902024,
+      "learning_rate": 1.7621985855883418e-06,
+      "loss": 0.87142456,
+      "num_input_tokens_seen": 99023880,
+      "step": 4589,
+      "time_per_iteration": 2.6757631301879883
+    },
+    {
+      "auxiliary_loss_clip": 0.0119791,
+      "auxiliary_loss_mlp": 0.01027238,
+      "balance_loss_clip": 1.053864,
+      "balance_loss_mlp": 1.01963878,
+      "epoch": 0.5519148680334275,
+      "flos": 18404865573120.0,
+      "grad_norm": 1.8931313516659523,
+      "language_loss": 0.7245189,
+      "learning_rate": 1.7614251579060983e-06,
+      "loss": 0.74677038,
+      "num_input_tokens_seen": 99042475,
+      "step": 4590,
+      "time_per_iteration": 3.589261770248413
+    },
+    {
+      "auxiliary_loss_clip": 0.01206648,
+      "auxiliary_loss_mlp": 0.01027755,
+      "balance_loss_clip": 1.0486145,
+      "balance_loss_mlp": 1.02003574,
+      "epoch": 0.5520351109240667,
+      "flos": 25113337251840.0,
+      "grad_norm": 2.0770468088088783,
+      "language_loss": 0.84519124,
+      "learning_rate": 1.76065176641547e-06,
+      "loss": 0.86753523,
+      "num_input_tokens_seen": 99065185,
+      "step": 4591,
+      "time_per_iteration": 2.7746052742004395
+    },
+    {
+      "auxiliary_loss_clip": 0.01187811,
+      "auxiliary_loss_mlp": 0.0102487,
+      "balance_loss_clip": 1.04821301,
+      "balance_loss_mlp": 1.01723492,
+      "epoch": 0.5521553538147057,
+      "flos": 21069545045760.0,
+      "grad_norm": 1.7856041688063784,
+      "language_loss": 0.77913445,
+      "learning_rate": 1.759878411233777e-06,
+      "loss": 0.80126131,
+      "num_input_tokens_seen": 99083645,
+      "step": 4592,
+      "time_per_iteration": 2.7313647270202637
+    },
+    {
+      "auxiliary_loss_clip": 0.011879,
+      "auxiliary_loss_mlp": 0.01025094,
+      "balance_loss_clip": 1.0513587,
+      "balance_loss_mlp": 1.01709509,
+      "epoch": 0.5522755967053448,
+      "flos": 18879999701760.0,
+      "grad_norm": 2.584417960905068,
+      "language_loss": 0.75595659,
+      "learning_rate": 1.7591050924783388e-06,
+      "loss": 0.77808654,
+      "num_input_tokens_seen": 99100835,
+      "step": 4593,
+      "time_per_iteration": 2.6499521732330322
+    },
+    {
+      "auxiliary_loss_clip": 0.01126999,
+      "auxiliary_loss_mlp": 0.01000042,
+      "balance_loss_clip": 1.01968527,
+      "balance_loss_mlp": 0.99871331,
+      "epoch": 0.5523958395959839,
+      "flos": 64675622494080.0,
+      "grad_norm": 0.8353411144047057,
+      "language_loss": 0.57879913,
+      "learning_rate": 1.7583318102664661e-06,
+      "loss": 0.60006952,
+      "num_input_tokens_seen": 99168400,
+      "step": 4594,
+      "time_per_iteration": 3.4595134258270264
+    },
+    {
+      "auxiliary_loss_clip": 0.01188012,
+      "auxiliary_loss_mlp": 0.01022925,
+      "balance_loss_clip": 1.04735887,
+      "balance_loss_mlp": 1.01534879,
+      "epoch": 0.552516082486623,
+      "flos": 10889732211840.0,
+      "grad_norm": 1.8284796530857894,
+      "language_loss": 0.79168928,
+      "learning_rate": 1.757558564715466e-06,
+      "loss": 0.81379867,
+      "num_input_tokens_seen": 99186475,
+      "step": 4595,
+      "time_per_iteration": 2.809256076812744
+    },
+    {
+      "auxiliary_loss_clip": 0.01190969,
+      "auxiliary_loss_mlp": 0.01023613,
+      "balance_loss_clip": 1.05092192,
+      "balance_loss_mlp": 1.01560783,
+      "epoch": 0.552636325377262,
+      "flos": 22199797376640.0,
+      "grad_norm": 2.954275610987667,
+      "language_loss": 0.7385993,
+      "learning_rate": 1.7567853559426386e-06,
+      "loss": 0.76074517,
+      "num_input_tokens_seen": 99203525,
+      "step": 4596,
+      "time_per_iteration": 2.598959445953369
+    },
+    {
+      "auxiliary_loss_clip": 0.01191269,
+      "auxiliary_loss_mlp": 0.01024933,
+      "balance_loss_clip": 1.05143094,
+      "balance_loss_mlp": 1.01690125,
+      "epoch": 0.5527565682679012,
+      "flos": 23988184652160.0,
+      "grad_norm": 2.0902975375743185,
+      "language_loss": 0.75028604,
+      "learning_rate": 1.7560121840652797e-06,
+      "loss": 0.772448,
+      "num_input_tokens_seen": 99222910,
+      "step": 4597,
+      "time_per_iteration": 2.664628744125366
+    },
+    {
+      "auxiliary_loss_clip": 0.01192021,
+      "auxiliary_loss_mlp": 0.01023406,
+      "balance_loss_clip": 1.04513478,
+      "balance_loss_mlp": 1.01545477,
+      "epoch": 0.5528768111585403,
+      "flos": 19719267955200.0,
+      "grad_norm": 1.7589703457141945,
+      "language_loss": 0.6871413,
+      "learning_rate": 1.7552390492006782e-06,
+      "loss": 0.70929551,
+      "num_input_tokens_seen": 99241230,
+      "step": 4598,
+      "time_per_iteration": 2.673248291015625
+    },
+    {
+      "auxiliary_loss_clip": 0.01220453,
+      "auxiliary_loss_mlp": 0.01379152,
+      "balance_loss_clip": 1.0455873,
+      "balance_loss_mlp": 1.00034571,
+      "epoch": 0.5529970540491793,
+      "flos": 26215975002240.0,
+      "grad_norm": 1.9129585354638663,
+      "language_loss": 0.6498431,
+      "learning_rate": 1.7544659514661184e-06,
+      "loss": 0.67583919,
+      "num_input_tokens_seen": 99264320,
+      "step": 4599,
+      "time_per_iteration": 2.831949234008789
+    },
+    {
+      "auxiliary_loss_clip": 0.01190518,
+      "auxiliary_loss_mlp": 0.01027073,
+      "balance_loss_clip": 1.04603779,
+      "balance_loss_mlp": 1.01920533,
+      "epoch": 0.5531172969398185,
+      "flos": 24425971614720.0,
+      "grad_norm": 2.0557906378197717,
+      "language_loss": 0.79918826,
+      "learning_rate": 1.7536928909788786e-06,
+      "loss": 0.82136416,
+      "num_input_tokens_seen": 99283625,
+      "step": 4600,
+      "time_per_iteration": 2.676812171936035
+    },
+    {
+      "auxiliary_loss_clip": 0.01127707,
+      "auxiliary_loss_mlp": 0.01000726,
+      "balance_loss_clip": 1.017138,
+      "balance_loss_mlp": 0.99945015,
+      "epoch": 0.5532375398304575,
+      "flos": 64907316195840.0,
+      "grad_norm": 0.881009239251243,
+      "language_loss": 0.62023866,
+      "learning_rate": 1.752919867856231e-06,
+      "loss": 0.641523,
+      "num_input_tokens_seen": 99335270,
+      "step": 4601,
+      "time_per_iteration": 3.153716564178467
+    },
+    {
+      "auxiliary_loss_clip": 0.01187146,
+      "auxiliary_loss_mlp": 0.01032119,
+      "balance_loss_clip": 1.04640794,
+      "balance_loss_mlp": 1.02465677,
+      "epoch": 0.5533577827210966,
+      "flos": 19683105937920.0,
+      "grad_norm": 2.0953495712241708,
+      "language_loss": 0.7902776,
+      "learning_rate": 1.7521468822154436e-06,
+      "loss": 0.8124702,
+      "num_input_tokens_seen": 99354185,
+      "step": 4602,
+      "time_per_iteration": 2.6395251750946045
+    },
+    {
+      "auxiliary_loss_clip": 0.01196318,
+      "auxiliary_loss_mlp": 0.01026334,
+      "balance_loss_clip": 1.05369008,
+      "balance_loss_mlp": 1.01857948,
+      "epoch": 0.5534780256117358,
+      "flos": 32306496076800.0,
+      "grad_norm": 2.3181416056757738,
+      "language_loss": 0.7504257,
+      "learning_rate": 1.751373934173777e-06,
+      "loss": 0.77265215,
+      "num_input_tokens_seen": 99376930,
+      "step": 4603,
+      "time_per_iteration": 2.857050657272339
+    },
+    {
+      "auxiliary_loss_clip": 0.01179371,
+      "auxiliary_loss_mlp": 0.01027335,
+      "balance_loss_clip": 1.05028033,
+      "balance_loss_mlp": 1.01962829,
+      "epoch": 0.5535982685023748,
+      "flos": 23222425582080.0,
+      "grad_norm": 1.5507375706848958,
+      "language_loss": 0.72946846,
+      "learning_rate": 1.750601023848487e-06,
+      "loss": 0.75153553,
+      "num_input_tokens_seen": 99397655,
+      "step": 4604,
+      "time_per_iteration": 2.654961347579956
+    },
+    {
+      "auxiliary_loss_clip": 0.01178462,
+      "auxiliary_loss_mlp": 0.01378663,
+      "balance_loss_clip": 1.05296934,
+      "balance_loss_mlp": 1.00024235,
+      "epoch": 0.5537185113930139,
+      "flos": 24352534258560.0,
+      "grad_norm": 1.994104145798645,
+      "language_loss": 0.7365371,
+      "learning_rate": 1.749828151356823e-06,
+      "loss": 0.76210833,
+      "num_input_tokens_seen": 99417850,
+      "step": 4605,
+      "time_per_iteration": 2.6511895656585693
+    },
+    {
+      "auxiliary_loss_clip": 0.01197846,
+      "auxiliary_loss_mlp": 0.01024815,
+      "balance_loss_clip": 1.04972959,
+      "balance_loss_mlp": 1.01744175,
+      "epoch": 0.553838754283653,
+      "flos": 23549068886400.0,
+      "grad_norm": 1.644907269533533,
+      "language_loss": 0.75491381,
+      "learning_rate": 1.7490553168160297e-06,
+      "loss": 0.77714038,
+      "num_input_tokens_seen": 99438920,
+      "step": 4606,
+      "time_per_iteration": 2.7231545448303223
+    },
+    {
+      "auxiliary_loss_clip": 0.01194345,
+      "auxiliary_loss_mlp": 0.01025682,
+      "balance_loss_clip": 1.04800248,
+      "balance_loss_mlp": 1.01867199,
+      "epoch": 0.5539589971742921,
+      "flos": 17275044205440.0,
+      "grad_norm": 2.26441030144546,
+      "language_loss": 0.76722622,
+      "learning_rate": 1.748282520343345e-06,
+      "loss": 0.78942651,
+      "num_input_tokens_seen": 99457950,
+      "step": 4607,
+      "time_per_iteration": 2.665297746658325
+    },
+    {
+      "auxiliary_loss_clip": 0.01194196,
+      "auxiliary_loss_mlp": 0.01028157,
+      "balance_loss_clip": 1.05157042,
+      "balance_loss_mlp": 1.02043533,
+      "epoch": 0.5540792400649311,
+      "flos": 27564169104000.0,
+      "grad_norm": 2.0355169002525053,
+      "language_loss": 0.78707945,
+      "learning_rate": 1.7475097620560023e-06,
+      "loss": 0.80930293,
+      "num_input_tokens_seen": 99478015,
+      "step": 4608,
+      "time_per_iteration": 2.7565269470214844
+    },
+    {
+      "auxiliary_loss_clip": 0.01176478,
+      "auxiliary_loss_mlp": 0.01023083,
+      "balance_loss_clip": 1.05100632,
+      "balance_loss_mlp": 1.01575136,
+      "epoch": 0.5541994829555702,
+      "flos": 23878657105920.0,
+      "grad_norm": 1.83567038132216,
+      "language_loss": 0.71292019,
+      "learning_rate": 1.746737042071228e-06,
+      "loss": 0.73491585,
+      "num_input_tokens_seen": 99496520,
+      "step": 4609,
+      "time_per_iteration": 2.5956125259399414
+    },
+    {
+      "auxiliary_loss_clip": 0.01192098,
+      "auxiliary_loss_mlp": 0.01029792,
+      "balance_loss_clip": 1.05066597,
+      "balance_loss_mlp": 1.02266383,
+      "epoch": 0.5543197258462094,
+      "flos": 20115721342080.0,
+      "grad_norm": 1.9071393199946516,
+      "language_loss": 0.79265296,
+      "learning_rate": 1.7459643605062424e-06,
+      "loss": 0.81487191,
+      "num_input_tokens_seen": 99513780,
+      "step": 4610,
+      "time_per_iteration": 2.688256025314331
+    },
+    {
+      "auxiliary_loss_clip": 0.01216334,
+      "auxiliary_loss_mlp": 0.01025734,
+      "balance_loss_clip": 1.05138004,
+      "balance_loss_mlp": 1.01802111,
+      "epoch": 0.5544399687368484,
+      "flos": 20916565021440.0,
+      "grad_norm": 2.0887887334657598,
+      "language_loss": 0.80815077,
+      "learning_rate": 1.745191717478262e-06,
+      "loss": 0.83057141,
+      "num_input_tokens_seen": 99532360,
+      "step": 4611,
+      "time_per_iteration": 2.7876734733581543
+    },
+    {
+      "auxiliary_loss_clip": 0.01190112,
+      "auxiliary_loss_mlp": 0.01026274,
+      "balance_loss_clip": 1.0480926,
+      "balance_loss_mlp": 1.01821589,
+      "epoch": 0.5545602116274875,
+      "flos": 25518661297920.0,
+      "grad_norm": 1.751646332985938,
+      "language_loss": 0.79480463,
+      "learning_rate": 1.7444191131044948e-06,
+      "loss": 0.81696844,
+      "num_input_tokens_seen": 99552635,
+      "step": 4612,
+      "time_per_iteration": 2.754035472869873
+    },
+    {
+      "auxiliary_loss_clip": 0.01197135,
+      "auxiliary_loss_mlp": 0.01026756,
+      "balance_loss_clip": 1.05100894,
+      "balance_loss_mlp": 1.01874554,
+      "epoch": 0.5546804545181266,
+      "flos": 20995568985600.0,
+      "grad_norm": 1.7437665751793436,
+      "language_loss": 0.73201156,
+      "learning_rate": 1.7436465475021456e-06,
+      "loss": 0.75425053,
+      "num_input_tokens_seen": 99572685,
+      "step": 4613,
+      "time_per_iteration": 4.662269353866577
+    },
+    {
+      "auxiliary_loss_clip": 0.01196034,
+      "auxiliary_loss_mlp": 0.01024231,
+      "balance_loss_clip": 1.0462625,
+      "balance_loss_mlp": 1.01667297,
+      "epoch": 0.5548006974087657,
+      "flos": 26833638297600.0,
+      "grad_norm": 2.299812414896192,
+      "language_loss": 0.71433985,
+      "learning_rate": 1.7428740207884111e-06,
+      "loss": 0.73654246,
+      "num_input_tokens_seen": 99593565,
+      "step": 4614,
+      "time_per_iteration": 3.740806818008423
+    },
+    {
+      "auxiliary_loss_clip": 0.01217041,
+      "auxiliary_loss_mlp": 0.01025471,
+      "balance_loss_clip": 1.04719043,
+      "balance_loss_mlp": 1.01755559,
+      "epoch": 0.5549209402994048,
+      "flos": 33656414031360.0,
+      "grad_norm": 1.7275759470797425,
+      "language_loss": 0.60890484,
+      "learning_rate": 1.7421015330804833e-06,
+      "loss": 0.63133001,
+      "num_input_tokens_seen": 99613485,
+      "step": 4615,
+      "time_per_iteration": 2.7815072536468506
+    },
+    {
+      "auxiliary_loss_clip": 0.01177116,
+      "auxiliary_loss_mlp": 0.01024884,
+      "balance_loss_clip": 1.05051219,
+      "balance_loss_mlp": 1.01702213,
+      "epoch": 0.5550411831900439,
+      "flos": 23769524609280.0,
+      "grad_norm": 1.8476457451717478,
+      "language_loss": 0.72752076,
+      "learning_rate": 1.7413290844955475e-06,
+      "loss": 0.74954075,
+      "num_input_tokens_seen": 99633515,
+      "step": 4616,
+      "time_per_iteration": 3.4645230770111084
+    },
+    {
+      "auxiliary_loss_clip": 0.0117831,
+      "auxiliary_loss_mlp": 0.01030152,
+      "balance_loss_clip": 1.05132461,
+      "balance_loss_mlp": 1.02285016,
+      "epoch": 0.555161426080683,
+      "flos": 21651189978240.0,
+      "grad_norm": 2.131382564984793,
+      "language_loss": 0.7834838,
+      "learning_rate": 1.7405566751507843e-06,
+      "loss": 0.80556846,
+      "num_input_tokens_seen": 99651560,
+      "step": 4617,
+      "time_per_iteration": 2.697322130203247
+    },
+    {
+      "auxiliary_loss_clip": 0.01205739,
+      "auxiliary_loss_mlp": 0.010199,
+      "balance_loss_clip": 1.04963303,
+      "balance_loss_mlp": 1.01249719,
+      "epoch": 0.555281668971322,
+      "flos": 49563116605440.0,
+      "grad_norm": 2.0455563760712043,
+      "language_loss": 0.68000019,
+      "learning_rate": 1.7397843051633668e-06,
+      "loss": 0.70225656,
+      "num_input_tokens_seen": 99674255,
+      "step": 4618,
+      "time_per_iteration": 2.92587947845459
+    },
+    {
+      "auxiliary_loss_clip": 0.0118507,
+      "auxiliary_loss_mlp": 0.01025592,
+      "balance_loss_clip": 1.05164027,
+      "balance_loss_mlp": 1.01838613,
+      "epoch": 0.5554019118619612,
+      "flos": 20741608851840.0,
+      "grad_norm": 2.1335977962228707,
+      "language_loss": 0.71648061,
+      "learning_rate": 1.739011974650464e-06,
+      "loss": 0.73858726,
+      "num_input_tokens_seen": 99693585,
+      "step": 4619,
+      "time_per_iteration": 2.587373971939087
+    },
+    {
+      "auxiliary_loss_clip": 0.01224695,
+      "auxiliary_loss_mlp": 0.01034015,
+      "balance_loss_clip": 1.0514729,
+      "balance_loss_mlp": 1.02568841,
+      "epoch": 0.5555221547526003,
+      "flos": 25483217552640.0,
+      "grad_norm": 2.04072198252209,
+      "language_loss": 0.7647621,
+      "learning_rate": 1.7382396837292365e-06,
+      "loss": 0.78734922,
+      "num_input_tokens_seen": 99714045,
+      "step": 4620,
+      "time_per_iteration": 2.7853903770446777
+    },
+    {
+      "auxiliary_loss_clip": 0.01181174,
+      "auxiliary_loss_mlp": 0.01030614,
+      "balance_loss_clip": 1.05460668,
+      "balance_loss_mlp": 1.02232289,
+      "epoch": 0.5556423976432393,
+      "flos": 21762513204480.0,
+      "grad_norm": 1.6688508740765022,
+      "language_loss": 0.73562157,
+      "learning_rate": 1.737467432516841e-06,
+      "loss": 0.75773948,
+      "num_input_tokens_seen": 99734145,
+      "step": 4621,
+      "time_per_iteration": 2.6106584072113037
+    },
+    {
+      "auxiliary_loss_clip": 0.01194408,
+      "auxiliary_loss_mlp": 0.01028951,
+      "balance_loss_clip": 1.04729033,
+      "balance_loss_mlp": 1.02160192,
+      "epoch": 0.5557626405338785,
+      "flos": 24900171989760.0,
+      "grad_norm": 2.5525040374488586,
+      "language_loss": 0.74542958,
+      "learning_rate": 1.7366952211304274e-06,
+      "loss": 0.76766318,
+      "num_input_tokens_seen": 99751990,
+      "step": 4622,
+      "time_per_iteration": 2.7893149852752686
+    },
+    {
+      "auxiliary_loss_clip": 0.01185266,
+      "auxiliary_loss_mlp": 0.01024938,
+      "balance_loss_clip": 1.04649782,
+      "balance_loss_mlp": 1.01698053,
+      "epoch": 0.5558828834245175,
+      "flos": 18697501676160.0,
+      "grad_norm": 1.9926157205267918,
+      "language_loss": 0.8308562,
+      "learning_rate": 1.735923049687139e-06,
+      "loss": 0.85295826,
+      "num_input_tokens_seen": 99768565,
+      "step": 4623,
+      "time_per_iteration": 2.667311668395996
+    },
+    {
+      "auxiliary_loss_clip": 0.01188091,
+      "auxiliary_loss_mlp": 0.01027615,
+      "balance_loss_clip": 1.04744279,
+      "balance_loss_mlp": 1.01950264,
+      "epoch": 0.5560031263151566,
+      "flos": 27272179445760.0,
+      "grad_norm": 1.5649643205766421,
+      "language_loss": 0.73704135,
+      "learning_rate": 1.7351509183041144e-06,
+      "loss": 0.75919843,
+      "num_input_tokens_seen": 99788895,
+      "step": 4624,
+      "time_per_iteration": 2.6818912029266357
+    },
+    {
+      "auxiliary_loss_clip": 0.01181785,
+      "auxiliary_loss_mlp": 0.01027709,
+      "balance_loss_clip": 1.05353904,
+      "balance_loss_mlp": 1.01907182,
+      "epoch": 0.5561233692057957,
+      "flos": 23403738458880.0,
+      "grad_norm": 1.7280493226400975,
+      "language_loss": 0.717224,
+      "learning_rate": 1.7343788270984852e-06,
+      "loss": 0.73931897,
+      "num_input_tokens_seen": 99808035,
+      "step": 4625,
+      "time_per_iteration": 2.6496307849884033
+    },
+    {
+      "auxiliary_loss_clip": 0.01197303,
+      "auxiliary_loss_mlp": 0.01025365,
+      "balance_loss_clip": 1.05228305,
+      "balance_loss_mlp": 1.01725888,
+      "epoch": 0.5562436120964348,
+      "flos": 37670867804160.0,
+      "grad_norm": 2.230695898180457,
+      "language_loss": 0.74899745,
+      "learning_rate": 1.7336067761873764e-06,
+      "loss": 0.77122414,
+      "num_input_tokens_seen": 99830460,
+      "step": 4626,
+      "time_per_iteration": 2.773380994796753
+    },
+    {
+      "auxiliary_loss_clip": 0.0119388,
+      "auxiliary_loss_mlp": 0.01031273,
+      "balance_loss_clip": 1.05031955,
+      "balance_loss_mlp": 1.02269602,
+      "epoch": 0.5563638549870739,
+      "flos": 25155245445120.0,
+      "grad_norm": 2.072867997510411,
+      "language_loss": 0.76511657,
+      "learning_rate": 1.7328347656879076e-06,
+      "loss": 0.78736812,
+      "num_input_tokens_seen": 99850320,
+      "step": 4627,
+      "time_per_iteration": 2.6520979404449463
+    },
+    {
+      "auxiliary_loss_clip": 0.01202053,
+      "auxiliary_loss_mlp": 0.01025999,
+      "balance_loss_clip": 1.04707503,
+      "balance_loss_mlp": 1.01800621,
+      "epoch": 0.556484097877713,
+      "flos": 13581810783360.0,
+      "grad_norm": 2.1836758383730337,
+      "language_loss": 0.68390179,
+      "learning_rate": 1.7320627957171927e-06,
+      "loss": 0.7061823,
+      "num_input_tokens_seen": 99864980,
+      "step": 4628,
+      "time_per_iteration": 2.647186517715454
+    },
+    {
+      "auxiliary_loss_clip": 0.01179505,
+      "auxiliary_loss_mlp": 0.01021389,
+      "balance_loss_clip": 1.05345607,
+      "balance_loss_mlp": 1.01343155,
+      "epoch": 0.5566043407683521,
+      "flos": 24681368292480.0,
+      "grad_norm": 1.6820289160128548,
+      "language_loss": 0.81272006,
+      "learning_rate": 1.7312908663923382e-06,
+      "loss": 0.83472896,
+      "num_input_tokens_seen": 99881155,
+      "step": 4629,
+      "time_per_iteration": 2.6441421508789062
+    },
+    {
+      "auxiliary_loss_clip": 0.01178062,
+      "auxiliary_loss_mlp": 0.01031004,
+      "balance_loss_clip": 1.04689193,
+      "balance_loss_mlp": 1.02281392,
+      "epoch": 0.5567245836589911,
+      "flos": 20588161950720.0,
+      "grad_norm": 1.9672294283478988,
+      "language_loss": 0.6741907,
+      "learning_rate": 1.7305189778304463e-06,
+      "loss": 0.69628137,
+      "num_input_tokens_seen": 99899330,
+      "step": 4630,
+      "time_per_iteration": 2.630810499191284
+    },
+    {
+      "auxiliary_loss_clip": 0.0120276,
+      "auxiliary_loss_mlp": 0.0102803,
+      "balance_loss_clip": 1.05644596,
+      "balance_loss_mlp": 1.02041292,
+      "epoch": 0.5568448265496303,
+      "flos": 20704189858560.0,
+      "grad_norm": 2.630817886206473,
+      "language_loss": 0.79846507,
+      "learning_rate": 1.729747130148611e-06,
+      "loss": 0.82077301,
+      "num_input_tokens_seen": 99918525,
+      "step": 4631,
+      "time_per_iteration": 2.667227268218994
+    },
+    {
+      "auxiliary_loss_clip": 0.01214337,
+      "auxiliary_loss_mlp": 0.01028077,
+      "balance_loss_clip": 1.05028892,
+      "balance_loss_mlp": 1.01956522,
+      "epoch": 0.5569650694402694,
+      "flos": 25302910256640.0,
+      "grad_norm": 1.9327408196813807,
+      "language_loss": 0.77113485,
+      "learning_rate": 1.7289753234639208e-06,
+      "loss": 0.79355896,
+      "num_input_tokens_seen": 99937500,
+      "step": 4632,
+      "time_per_iteration": 2.7196621894836426
+    },
+    {
+      "auxiliary_loss_clip": 0.01195663,
+      "auxiliary_loss_mlp": 0.0102298,
+      "balance_loss_clip": 1.05225158,
+      "balance_loss_mlp": 1.01517749,
+      "epoch": 0.5570853123309084,
+      "flos": 19712623939200.0,
+      "grad_norm": 1.7888245923543538,
+      "language_loss": 0.76397938,
+      "learning_rate": 1.7282035578934592e-06,
+      "loss": 0.78616577,
+      "num_input_tokens_seen": 99955665,
+      "step": 4633,
+      "time_per_iteration": 2.6732187271118164
+    },
+    {
+      "auxiliary_loss_clip": 0.01195757,
+      "auxiliary_loss_mlp": 0.01029055,
+      "balance_loss_clip": 1.05524933,
+      "balance_loss_mlp": 1.02143788,
+      "epoch": 0.5572055552215476,
+      "flos": 16108091153280.0,
+      "grad_norm": 1.8428726273894507,
+      "language_loss": 0.79143739,
+      "learning_rate": 1.727431833554301e-06,
+      "loss": 0.81368548,
+      "num_input_tokens_seen": 99974140,
+      "step": 4634,
+      "time_per_iteration": 2.668886423110962
+    },
+    {
+      "auxiliary_loss_clip": 0.01230011,
+      "auxiliary_loss_mlp": 0.01028138,
+      "balance_loss_clip": 1.04562926,
+      "balance_loss_mlp": 1.02072656,
+      "epoch": 0.5573257981121866,
+      "flos": 17128815937920.0,
+      "grad_norm": 1.7647429568851274,
+      "language_loss": 0.77118933,
+      "learning_rate": 1.7266601505635175e-06,
+      "loss": 0.79377079,
+      "num_input_tokens_seen": 99991480,
+      "step": 4635,
+      "time_per_iteration": 2.773725748062134
+    },
+    {
+      "auxiliary_loss_clip": 0.01189208,
+      "auxiliary_loss_mlp": 0.01028251,
+      "balance_loss_clip": 1.05213714,
+      "balance_loss_mlp": 1.02007031,
+      "epoch": 0.5574460410028257,
+      "flos": 18807029222400.0,
+      "grad_norm": 1.889147706087297,
+      "language_loss": 0.75475854,
+      "learning_rate": 1.7258885090381717e-06,
+      "loss": 0.77693307,
+      "num_input_tokens_seen": 100009520,
+      "step": 4636,
+      "time_per_iteration": 2.6123993396759033
+    },
+    {
+      "auxiliary_loss_clip": 0.01198116,
+      "auxiliary_loss_mlp": 0.01023724,
+      "balance_loss_clip": 1.04849434,
+      "balance_loss_mlp": 1.01639843,
+      "epoch": 0.5575662838934649,
+      "flos": 29642678530560.0,
+      "grad_norm": 1.803533209581248,
+      "language_loss": 0.78515613,
+      "learning_rate": 1.7251169090953213e-06,
+      "loss": 0.80737448,
+      "num_input_tokens_seen": 100029995,
+      "step": 4637,
+      "time_per_iteration": 2.7456324100494385
+    },
+    {
+      "auxiliary_loss_clip": 0.01185329,
+      "auxiliary_loss_mlp": 0.01030664,
+      "balance_loss_clip": 1.04974091,
+      "balance_loss_mlp": 1.02274847,
+      "epoch": 0.5576865267841039,
+      "flos": 22054466949120.0,
+      "grad_norm": 2.3077793597962866,
+      "language_loss": 0.76017261,
+      "learning_rate": 1.7243453508520168e-06,
+      "loss": 0.78233254,
+      "num_input_tokens_seen": 100046980,
+      "step": 4638,
+      "time_per_iteration": 2.7117817401885986
+    },
+    {
+      "auxiliary_loss_clip": 0.01196172,
+      "auxiliary_loss_mlp": 0.0102856,
+      "balance_loss_clip": 1.04781294,
+      "balance_loss_mlp": 1.01950049,
+      "epoch": 0.557806769674743,
+      "flos": 17196040241280.0,
+      "grad_norm": 2.2608089403753047,
+      "language_loss": 0.84429049,
+      "learning_rate": 1.7235738344253038e-06,
+      "loss": 0.86653775,
+      "num_input_tokens_seen": 100060610,
+      "step": 4639,
+      "time_per_iteration": 4.665926456451416
+    },
+    {
+      "auxiliary_loss_clip": 0.0118594,
+      "auxiliary_loss_mlp": 0.01026354,
+      "balance_loss_clip": 1.05147672,
+      "balance_loss_mlp": 1.01808643,
+      "epoch": 0.557927012565382,
+      "flos": 24712717887360.0,
+      "grad_norm": 1.8751373251878405,
+      "language_loss": 0.82248175,
+      "learning_rate": 1.72280235993222e-06,
+      "loss": 0.84460467,
+      "num_input_tokens_seen": 100078915,
+      "step": 4640,
+      "time_per_iteration": 3.551297903060913
+    },
+    {
+      "auxiliary_loss_clip": 0.01187951,
+      "auxiliary_loss_mlp": 0.01379352,
+      "balance_loss_clip": 1.0524385,
+      "balance_loss_mlp": 1.00024462,
+      "epoch": 0.5580472554560212,
+      "flos": 16983090460800.0,
+      "grad_norm": 2.5093536908747103,
+      "language_loss": 0.69291514,
+      "learning_rate": 1.722030927489798e-06,
+      "loss": 0.71858823,
+      "num_input_tokens_seen": 100096195,
+      "step": 4641,
+      "time_per_iteration": 2.630371332168579
+    },
+    {
+      "auxiliary_loss_clip": 0.01205457,
+      "auxiliary_loss_mlp": 0.0102862,
+      "balance_loss_clip": 1.04876852,
+      "balance_loss_mlp": 1.02075565,
+      "epoch": 0.5581674983466602,
+      "flos": 23509100027520.0,
+      "grad_norm": 1.6801188306725556,
+      "language_loss": 0.7369858,
+      "learning_rate": 1.7212595372150634e-06,
+      "loss": 0.75932658,
+      "num_input_tokens_seen": 100116175,
+      "step": 4642,
+      "time_per_iteration": 3.7199108600616455
+    },
+    {
+      "auxiliary_loss_clip": 0.0117883,
+      "auxiliary_loss_mlp": 0.01023371,
+      "balance_loss_clip": 1.05315042,
+      "balance_loss_mlp": 1.01585519,
+      "epoch": 0.5582877412372993,
+      "flos": 13480291969920.0,
+      "grad_norm": 2.126063405886545,
+      "language_loss": 0.7258693,
+      "learning_rate": 1.720488189225035e-06,
+      "loss": 0.74789131,
+      "num_input_tokens_seen": 100133875,
+      "step": 4643,
+      "time_per_iteration": 2.5817832946777344
+    },
+    {
+      "auxiliary_loss_clip": 0.01192765,
+      "auxiliary_loss_mlp": 0.01026729,
+      "balance_loss_clip": 1.05262852,
+      "balance_loss_mlp": 1.01884329,
+      "epoch": 0.5584079841279385,
+      "flos": 21903605827200.0,
+      "grad_norm": 2.5664470734594205,
+      "language_loss": 0.79236299,
+      "learning_rate": 1.7197168836367265e-06,
+      "loss": 0.81455791,
+      "num_input_tokens_seen": 100150685,
+      "step": 4644,
+      "time_per_iteration": 2.665842294692993
+    },
+    {
+      "auxiliary_loss_clip": 0.01186485,
+      "auxiliary_loss_mlp": 0.01378966,
+      "balance_loss_clip": 1.05043364,
+      "balance_loss_mlp": 1.00020742,
+      "epoch": 0.5585282270185775,
+      "flos": 18843550375680.0,
+      "grad_norm": 1.9557441708403933,
+      "language_loss": 0.81940436,
+      "learning_rate": 1.7189456205671433e-06,
+      "loss": 0.84505886,
+      "num_input_tokens_seen": 100169530,
+      "step": 4645,
+      "time_per_iteration": 2.600283622741699
+    },
+    {
+      "auxiliary_loss_clip": 0.01196077,
+      "auxiliary_loss_mlp": 0.01030013,
+      "balance_loss_clip": 1.05313063,
+      "balance_loss_mlp": 1.02137041,
+      "epoch": 0.5586484699092166,
+      "flos": 21868449390720.0,
+      "grad_norm": 1.858024603957946,
+      "language_loss": 0.82463807,
+      "learning_rate": 1.7181744001332866e-06,
+      "loss": 0.84689897,
+      "num_input_tokens_seen": 100188140,
+      "step": 4646,
+      "time_per_iteration": 2.661710023880005
+    },
+    {
+      "auxiliary_loss_clip": 0.01180797,
+      "auxiliary_loss_mlp": 0.01024439,
+      "balance_loss_clip": 1.05450821,
+      "balance_loss_mlp": 1.01713181,
+      "epoch": 0.5587687127998557,
+      "flos": 22893232412160.0,
+      "grad_norm": 2.066126958370382,
+      "language_loss": 0.63190091,
+      "learning_rate": 1.7174032224521493e-06,
+      "loss": 0.65395325,
+      "num_input_tokens_seen": 100206850,
+      "step": 4647,
+      "time_per_iteration": 2.572096824645996
+    },
+    {
+      "auxiliary_loss_clip": 0.01187959,
+      "auxiliary_loss_mlp": 0.01025103,
+      "balance_loss_clip": 1.05202174,
+      "balance_loss_mlp": 1.01789665,
+      "epoch": 0.5588889556904948,
+      "flos": 20303067703680.0,
+      "grad_norm": 1.6771150089708393,
+      "language_loss": 0.69585657,
+      "learning_rate": 1.7166320876407184e-06,
+      "loss": 0.71798718,
+      "num_input_tokens_seen": 100226270,
+      "step": 4648,
+      "time_per_iteration": 2.6809322834014893
+    },
+    {
+      "auxiliary_loss_clip": 0.01182439,
+      "auxiliary_loss_mlp": 0.0137914,
+      "balance_loss_clip": 1.05448437,
+      "balance_loss_mlp": 1.00027132,
+      "epoch": 0.5590091985811338,
+      "flos": 16472153450880.0,
+      "grad_norm": 2.738640178610574,
+      "language_loss": 0.67544401,
+      "learning_rate": 1.7158609958159742e-06,
+      "loss": 0.70105976,
+      "num_input_tokens_seen": 100243675,
+      "step": 4649,
+      "time_per_iteration": 2.6236321926116943
+    },
+    {
+      "auxiliary_loss_clip": 0.01229864,
+      "auxiliary_loss_mlp": 0.01035815,
+      "balance_loss_clip": 1.04521787,
+      "balance_loss_mlp": 1.02746403,
+      "epoch": 0.559129441471773,
+      "flos": 14532186781440.0,
+      "grad_norm": 2.5660398242332856,
+      "language_loss": 0.78419644,
+      "learning_rate": 1.7150899470948911e-06,
+      "loss": 0.80685318,
+      "num_input_tokens_seen": 100258940,
+      "step": 4650,
+      "time_per_iteration": 2.7200827598571777
+    },
+    {
+      "auxiliary_loss_clip": 0.01094407,
+      "auxiliary_loss_mlp": 0.0100458,
+      "balance_loss_clip": 1.01679027,
+      "balance_loss_mlp": 1.00338793,
+      "epoch": 0.5592496843624121,
+      "flos": 60521009852160.0,
+      "grad_norm": 0.8037208332271406,
+      "language_loss": 0.56586361,
+      "learning_rate": 1.7143189415944365e-06,
+      "loss": 0.5868535,
+      "num_input_tokens_seen": 100323400,
+      "step": 4651,
+      "time_per_iteration": 3.2533490657806396
+    },
+    {
+      "auxiliary_loss_clip": 0.01184625,
+      "auxiliary_loss_mlp": 0.01031853,
+      "balance_loss_clip": 1.05058575,
+      "balance_loss_mlp": 1.02423906,
+      "epoch": 0.5593699272530511,
+      "flos": 20886256920960.0,
+      "grad_norm": 1.9691191236011423,
+      "language_loss": 0.76321828,
+      "learning_rate": 1.7135479794315714e-06,
+      "loss": 0.78538311,
+      "num_input_tokens_seen": 100340355,
+      "step": 4652,
+      "time_per_iteration": 2.603571653366089
+    },
+    {
+      "auxiliary_loss_clip": 0.01205164,
+      "auxiliary_loss_mlp": 0.01025178,
+      "balance_loss_clip": 1.05006337,
+      "balance_loss_mlp": 1.01763153,
+      "epoch": 0.5594901701436903,
+      "flos": 12896743616640.0,
+      "grad_norm": 2.1304961018725077,
+      "language_loss": 0.78891504,
+      "learning_rate": 1.7127770607232502e-06,
+      "loss": 0.8112185,
+      "num_input_tokens_seen": 100358900,
+      "step": 4653,
+      "time_per_iteration": 2.6754844188690186
+    },
+    {
+      "auxiliary_loss_clip": 0.01210309,
+      "auxiliary_loss_mlp": 0.01030311,
+      "balance_loss_clip": 1.0473963,
+      "balance_loss_mlp": 1.02294385,
+      "epoch": 0.5596104130343293,
+      "flos": 23112107936640.0,
+      "grad_norm": 1.8846642607313773,
+      "language_loss": 0.79830921,
+      "learning_rate": 1.7120061855864204e-06,
+      "loss": 0.82071537,
+      "num_input_tokens_seen": 100378910,
+      "step": 4654,
+      "time_per_iteration": 2.762981653213501
+    },
+    {
+      "auxiliary_loss_clip": 0.01187967,
+      "auxiliary_loss_mlp": 0.0102956,
+      "balance_loss_clip": 1.05324674,
+      "balance_loss_mlp": 1.02158499,
+      "epoch": 0.5597306559249684,
+      "flos": 25957812977280.0,
+      "grad_norm": 2.2802600130979283,
+      "language_loss": 0.71071219,
+      "learning_rate": 1.7112353541380233e-06,
+      "loss": 0.73288751,
+      "num_input_tokens_seen": 100398770,
+      "step": 4655,
+      "time_per_iteration": 2.7155048847198486
+    },
+    {
+      "auxiliary_loss_clip": 0.01196228,
+      "auxiliary_loss_mlp": 0.01027098,
+      "balance_loss_clip": 1.05108929,
+      "balance_loss_mlp": 1.0191524,
+      "epoch": 0.5598508988156076,
+      "flos": 22492289825280.0,
+      "grad_norm": 1.5847525902624378,
+      "language_loss": 0.72201216,
+      "learning_rate": 1.7104645664949931e-06,
+      "loss": 0.74424541,
+      "num_input_tokens_seen": 100421240,
+      "step": 4656,
+      "time_per_iteration": 2.6980180740356445
+    },
+    {
+      "auxiliary_loss_clip": 0.01196681,
+      "auxiliary_loss_mlp": 0.0102796,
+      "balance_loss_clip": 1.04730701,
+      "balance_loss_mlp": 1.0196507,
+      "epoch": 0.5599711417062466,
+      "flos": 23112538899840.0,
+      "grad_norm": 2.0892021714691613,
+      "language_loss": 0.71435004,
+      "learning_rate": 1.7096938227742584e-06,
+      "loss": 0.73659647,
+      "num_input_tokens_seen": 100442370,
+      "step": 4657,
+      "time_per_iteration": 2.855888843536377
+    },
+    {
+      "auxiliary_loss_clip": 0.01178735,
+      "auxiliary_loss_mlp": 0.01022254,
+      "balance_loss_clip": 1.05204916,
+      "balance_loss_mlp": 1.01460719,
+      "epoch": 0.5600913845968857,
+      "flos": 22339345714560.0,
+      "grad_norm": 1.7811795042791634,
+      "language_loss": 0.84074074,
+      "learning_rate": 1.70892312309274e-06,
+      "loss": 0.86275065,
+      "num_input_tokens_seen": 100460260,
+      "step": 4658,
+      "time_per_iteration": 2.592379570007324
+    },
+    {
+      "auxiliary_loss_clip": 0.01192769,
+      "auxiliary_loss_mlp": 0.01023955,
+      "balance_loss_clip": 1.04383183,
+      "balance_loss_mlp": 1.0166235,
+      "epoch": 0.5602116274875248,
+      "flos": 17633791290240.0,
+      "grad_norm": 1.9863480619466438,
+      "language_loss": 0.68547082,
+      "learning_rate": 1.7081524675673523e-06,
+      "loss": 0.70763803,
+      "num_input_tokens_seen": 100475750,
+      "step": 4659,
+      "time_per_iteration": 2.6514077186584473
+    },
+    {
+      "auxiliary_loss_clip": 0.01097427,
+      "auxiliary_loss_mlp": 0.01002743,
+      "balance_loss_clip": 1.01631808,
+      "balance_loss_mlp": 1.00152159,
+      "epoch": 0.5603318703781639,
+      "flos": 70115945529600.0,
+      "grad_norm": 0.7741477303482105,
+      "language_loss": 0.5963608,
+      "learning_rate": 1.7073818563150026e-06,
+      "loss": 0.6173625,
+      "num_input_tokens_seen": 100537830,
+      "step": 4660,
+      "time_per_iteration": 3.296078681945801
+    },
+    {
+      "auxiliary_loss_clip": 0.01181763,
+      "auxiliary_loss_mlp": 0.01024848,
+      "balance_loss_clip": 1.04793596,
+      "balance_loss_mlp": 1.01725423,
+      "epoch": 0.560452113268803,
+      "flos": 18545850455040.0,
+      "grad_norm": 3.1466856666491987,
+      "language_loss": 0.86497056,
+      "learning_rate": 1.7066112894525935e-06,
+      "loss": 0.88703668,
+      "num_input_tokens_seen": 100555910,
+      "step": 4661,
+      "time_per_iteration": 2.6337428092956543
+    },
+    {
+      "auxiliary_loss_clip": 0.01185299,
+      "auxiliary_loss_mlp": 0.01029678,
+      "balance_loss_clip": 1.04748285,
+      "balance_loss_mlp": 1.02164865,
+      "epoch": 0.5605723561594421,
+      "flos": 25264665250560.0,
+      "grad_norm": 1.9691069403126635,
+      "language_loss": 0.72686219,
+      "learning_rate": 1.7058407670970177e-06,
+      "loss": 0.74901193,
+      "num_input_tokens_seen": 100577385,
+      "step": 4662,
+      "time_per_iteration": 2.7117674350738525
+    },
+    {
+      "auxiliary_loss_clip": 0.01193488,
+      "auxiliary_loss_mlp": 0.01025609,
+      "balance_loss_clip": 1.05116153,
+      "balance_loss_mlp": 1.01828408,
+      "epoch": 0.5606925990500812,
+      "flos": 20594949621120.0,
+      "grad_norm": 1.8033277433045256,
+      "language_loss": 0.6128071,
+      "learning_rate": 1.7050702893651643e-06,
+      "loss": 0.63499808,
+      "num_input_tokens_seen": 100596965,
+      "step": 4663,
+      "time_per_iteration": 2.626025915145874
+    },
+    {
+      "auxiliary_loss_clip": 0.01187662,
+      "auxiliary_loss_mlp": 0.01026278,
+      "balance_loss_clip": 1.05184734,
+      "balance_loss_mlp": 1.01873779,
+      "epoch": 0.5608128419407202,
+      "flos": 35006044677120.0,
+      "grad_norm": 2.4261432132070873,
+      "language_loss": 0.75642133,
+      "learning_rate": 1.7042998563739134e-06,
+      "loss": 0.7785607,
+      "num_input_tokens_seen": 100615315,
+      "step": 4664,
+      "time_per_iteration": 2.7722949981689453
+    },
+    {
+      "auxiliary_loss_clip": 0.01202663,
+      "auxiliary_loss_mlp": 0.01030001,
+      "balance_loss_clip": 1.04818833,
+      "balance_loss_mlp": 1.02163887,
+      "epoch": 0.5609330848313594,
+      "flos": 24639819235200.0,
+      "grad_norm": 2.593551326020325,
+      "language_loss": 0.71786857,
+      "learning_rate": 1.703529468240139e-06,
+      "loss": 0.74019516,
+      "num_input_tokens_seen": 100634185,
+      "step": 4665,
+      "time_per_iteration": 3.5799922943115234
+    },
+    {
+      "auxiliary_loss_clip": 0.01189295,
+      "auxiliary_loss_mlp": 0.01026807,
+      "balance_loss_clip": 1.04811502,
+      "balance_loss_mlp": 1.01886749,
+      "epoch": 0.5610533277219985,
+      "flos": 18762894385920.0,
+      "grad_norm": 2.242952949744467,
+      "language_loss": 0.73397911,
+      "learning_rate": 1.7027591250807088e-06,
+      "loss": 0.75614017,
+      "num_input_tokens_seen": 100651360,
+      "step": 4666,
+      "time_per_iteration": 3.588545799255371
+    },
+    {
+      "auxiliary_loss_clip": 0.01180396,
+      "auxiliary_loss_mlp": 0.01027094,
+      "balance_loss_clip": 1.05335319,
+      "balance_loss_mlp": 1.01917839,
+      "epoch": 0.5611735706126375,
+      "flos": 15012384727680.0,
+      "grad_norm": 2.4975285250507184,
+      "language_loss": 0.84582877,
+      "learning_rate": 1.7019888270124825e-06,
+      "loss": 0.86790371,
+      "num_input_tokens_seen": 100668525,
+      "step": 4667,
+      "time_per_iteration": 2.605821371078491
+    },
+    {
+      "auxiliary_loss_clip": 0.01189822,
+      "auxiliary_loss_mlp": 0.01037965,
+      "balance_loss_clip": 1.05203032,
+      "balance_loss_mlp": 1.03036869,
+      "epoch": 0.5612938135032767,
+      "flos": 16468167041280.0,
+      "grad_norm": 2.035289586716538,
+      "language_loss": 0.81896031,
+      "learning_rate": 1.7012185741523147e-06,
+      "loss": 0.84123814,
+      "num_input_tokens_seen": 100684850,
+      "step": 4668,
+      "time_per_iteration": 3.585791826248169
+    },
+    {
+      "auxiliary_loss_clip": 0.01178398,
+      "auxiliary_loss_mlp": 0.01031653,
+      "balance_loss_clip": 1.05364633,
+      "balance_loss_mlp": 1.02381539,
+      "epoch": 0.5614140563939157,
+      "flos": 25666433850240.0,
+      "grad_norm": 2.0649709770612934,
+      "language_loss": 0.62158233,
+      "learning_rate": 1.7004483666170514e-06,
+      "loss": 0.64368284,
+      "num_input_tokens_seen": 100705345,
+      "step": 4669,
+      "time_per_iteration": 2.6376729011535645
+    },
+    {
+      "auxiliary_loss_clip": 0.01185362,
+      "auxiliary_loss_mlp": 0.01029626,
+      "balance_loss_clip": 1.05088663,
+      "balance_loss_mlp": 1.02185917,
+      "epoch": 0.5615342992845548,
+      "flos": 24717566223360.0,
+      "grad_norm": 1.8079998379933702,
+      "language_loss": 0.79796034,
+      "learning_rate": 1.699678204523533e-06,
+      "loss": 0.8201102,
+      "num_input_tokens_seen": 100725210,
+      "step": 4670,
+      "time_per_iteration": 2.5908474922180176
+    },
+    {
+      "auxiliary_loss_clip": 0.01199949,
+      "auxiliary_loss_mlp": 0.01028516,
+      "balance_loss_clip": 1.05265808,
+      "balance_loss_mlp": 1.0209316,
+      "epoch": 0.5616545421751938,
+      "flos": 22015934634240.0,
+      "grad_norm": 2.7031658696373624,
+      "language_loss": 0.68310541,
+      "learning_rate": 1.6989080879885918e-06,
+      "loss": 0.7053901,
+      "num_input_tokens_seen": 100743070,
+      "step": 4671,
+      "time_per_iteration": 2.681229829788208
+    },
+    {
+      "auxiliary_loss_clip": 0.01112248,
+      "auxiliary_loss_mlp": 0.01006824,
+      "balance_loss_clip": 1.01902556,
+      "balance_loss_mlp": 1.00562048,
+      "epoch": 0.561774785065833,
+      "flos": 53760358690560.0,
+      "grad_norm": 0.9139652638089119,
+      "language_loss": 0.61051512,
+      "learning_rate": 1.6981380171290544e-06,
+      "loss": 0.63170588,
+      "num_input_tokens_seen": 100804095,
+      "step": 4672,
+      "time_per_iteration": 3.239626407623291
+    },
+    {
+      "auxiliary_loss_clip": 0.01187235,
+      "auxiliary_loss_mlp": 0.01025247,
+      "balance_loss_clip": 1.04573143,
+      "balance_loss_mlp": 1.01782632,
+      "epoch": 0.5618950279564721,
+      "flos": 19750007018880.0,
+      "grad_norm": 1.9563742510157367,
+      "language_loss": 0.7448194,
+      "learning_rate": 1.6973679920617396e-06,
+      "loss": 0.76694417,
+      "num_input_tokens_seen": 100821630,
+      "step": 4673,
+      "time_per_iteration": 2.6868226528167725
+    },
+    {
+      "auxiliary_loss_clip": 0.01194022,
+      "auxiliary_loss_mlp": 0.01022534,
+      "balance_loss_clip": 1.05007899,
+      "balance_loss_mlp": 1.01501143,
+      "epoch": 0.5620152708471111,
+      "flos": 16800592435200.0,
+      "grad_norm": 2.0615607517455143,
+      "language_loss": 0.84965062,
+      "learning_rate": 1.6965980129034603e-06,
+      "loss": 0.87181616,
+      "num_input_tokens_seen": 100839015,
+      "step": 4674,
+      "time_per_iteration": 2.6463096141815186
+    },
+    {
+      "auxiliary_loss_clip": 0.01197937,
+      "auxiliary_loss_mlp": 0.01030326,
+      "balance_loss_clip": 1.05170155,
+      "balance_loss_mlp": 1.02280951,
+      "epoch": 0.5621355137377503,
+      "flos": 26797799502720.0,
+      "grad_norm": 1.4929352524283488,
+      "language_loss": 0.76491058,
+      "learning_rate": 1.6958280797710209e-06,
+      "loss": 0.78719318,
+      "num_input_tokens_seen": 100860940,
+      "step": 4675,
+      "time_per_iteration": 2.7184700965881348
+    },
+    {
+      "auxiliary_loss_clip": 0.01097099,
+      "auxiliary_loss_mlp": 0.01001661,
+      "balance_loss_clip": 1.0162828,
+      "balance_loss_mlp": 1.00048661,
+      "epoch": 0.5622557566283893,
+      "flos": 61207046686080.0,
+      "grad_norm": 0.7216748039201613,
+      "language_loss": 0.547328,
+      "learning_rate": 1.6950581927812198e-06,
+      "loss": 0.56831563,
+      "num_input_tokens_seen": 100920510,
+      "step": 4676,
+      "time_per_iteration": 3.1256117820739746
+    },
+    {
+      "auxiliary_loss_clip": 0.01188538,
+      "auxiliary_loss_mlp": 0.01021049,
+      "balance_loss_clip": 1.0513463,
+      "balance_loss_mlp": 1.01362491,
+      "epoch": 0.5623759995190284,
+      "flos": 26468534505600.0,
+      "grad_norm": 2.0965648208689975,
+      "language_loss": 0.79391789,
+      "learning_rate": 1.6942883520508486e-06,
+      "loss": 0.81601381,
+      "num_input_tokens_seen": 100939245,
+      "step": 4677,
+      "time_per_iteration": 2.736186981201172
+    },
+    {
+      "auxiliary_loss_clip": 0.01188054,
+      "auxiliary_loss_mlp": 0.01022081,
+      "balance_loss_clip": 1.05131602,
+      "balance_loss_mlp": 1.01495576,
+      "epoch": 0.5624962424096676,
+      "flos": 19390900798080.0,
+      "grad_norm": 2.66952114866511,
+      "language_loss": 0.77082872,
+      "learning_rate": 1.693518557696691e-06,
+      "loss": 0.79293001,
+      "num_input_tokens_seen": 100958385,
+      "step": 4678,
+      "time_per_iteration": 2.64693021774292
+    },
+    {
+      "auxiliary_loss_clip": 0.011813,
+      "auxiliary_loss_mlp": 0.01023051,
+      "balance_loss_clip": 1.0476675,
+      "balance_loss_mlp": 1.01530218,
+      "epoch": 0.5626164853003066,
+      "flos": 20667345482880.0,
+      "grad_norm": 2.0522632041269557,
+      "language_loss": 0.89212102,
+      "learning_rate": 1.6927488098355252e-06,
+      "loss": 0.91416448,
+      "num_input_tokens_seen": 100976015,
+      "step": 4679,
+      "time_per_iteration": 2.596606969833374
+    },
+    {
+      "auxiliary_loss_clip": 0.01125859,
+      "auxiliary_loss_mlp": 0.01002273,
+      "balance_loss_clip": 1.01500154,
+      "balance_loss_mlp": 1.00096726,
+      "epoch": 0.5627367281909457,
+      "flos": 62766071665920.0,
+      "grad_norm": 0.9154567475766638,
+      "language_loss": 0.63182545,
+      "learning_rate": 1.6919791085841201e-06,
+      "loss": 0.65310669,
+      "num_input_tokens_seen": 101033425,
+      "step": 4680,
+      "time_per_iteration": 3.2400002479553223
+    },
+    {
+      "auxiliary_loss_clip": 0.0117826,
+      "auxiliary_loss_mlp": 0.01031153,
+      "balance_loss_clip": 1.04656434,
+      "balance_loss_mlp": 1.02319002,
+      "epoch": 0.5628569710815848,
+      "flos": 12787144243200.0,
+      "grad_norm": 2.277281710030721,
+      "language_loss": 0.78757888,
+      "learning_rate": 1.6912094540592396e-06,
+      "loss": 0.80967295,
+      "num_input_tokens_seen": 101048945,
+      "step": 4681,
+      "time_per_iteration": 2.551325798034668
+    },
+    {
+      "auxiliary_loss_clip": 0.01183963,
+      "auxiliary_loss_mlp": 0.01026819,
+      "balance_loss_clip": 1.04994273,
+      "balance_loss_mlp": 1.01954687,
+      "epoch": 0.5629772139722239,
+      "flos": 13762082165760.0,
+      "grad_norm": 2.6451415820808637,
+      "language_loss": 0.80931532,
+      "learning_rate": 1.6904398463776393e-06,
+      "loss": 0.83142316,
+      "num_input_tokens_seen": 101062745,
+      "step": 4682,
+      "time_per_iteration": 2.6265225410461426
+    },
+    {
+      "auxiliary_loss_clip": 0.01187639,
+      "auxiliary_loss_mlp": 0.01023003,
+      "balance_loss_clip": 1.04920578,
+      "balance_loss_mlp": 1.01605296,
+      "epoch": 0.5630974568628629,
+      "flos": 21467830026240.0,
+      "grad_norm": 1.714165604103692,
+      "language_loss": 0.72558618,
+      "learning_rate": 1.6896702856560683e-06,
+      "loss": 0.74769264,
+      "num_input_tokens_seen": 101081840,
+      "step": 4683,
+      "time_per_iteration": 2.621053457260132
+    },
+    {
+      "auxiliary_loss_clip": 0.01197805,
+      "auxiliary_loss_mlp": 0.0102755,
+      "balance_loss_clip": 1.04282475,
+      "balance_loss_mlp": 1.01960468,
+      "epoch": 0.5632176997535021,
+      "flos": 14245907385600.0,
+      "grad_norm": 2.9775259633727402,
+      "language_loss": 0.69274217,
+      "learning_rate": 1.6889007720112677e-06,
+      "loss": 0.71499574,
+      "num_input_tokens_seen": 101099585,
+      "step": 4684,
+      "time_per_iteration": 2.667989492416382
+    },
+    {
+      "auxiliary_loss_clip": 0.01188034,
+      "auxiliary_loss_mlp": 0.01026977,
+      "balance_loss_clip": 1.05073178,
+      "balance_loss_mlp": 1.01969075,
+      "epoch": 0.5633379426441412,
+      "flos": 20812244947200.0,
+      "grad_norm": 1.7247116254297548,
+      "language_loss": 0.77114666,
+      "learning_rate": 1.6881313055599734e-06,
+      "loss": 0.79329675,
+      "num_input_tokens_seen": 101119515,
+      "step": 4685,
+      "time_per_iteration": 2.636867046356201
+    },
+    {
+      "auxiliary_loss_clip": 0.0117652,
+      "auxiliary_loss_mlp": 0.01026547,
+      "balance_loss_clip": 1.04307997,
+      "balance_loss_mlp": 1.01838136,
+      "epoch": 0.5634581855347802,
+      "flos": 22600883617920.0,
+      "grad_norm": 2.3160626820558243,
+      "language_loss": 0.82221228,
+      "learning_rate": 1.6873618864189117e-06,
+      "loss": 0.84424293,
+      "num_input_tokens_seen": 101135285,
+      "step": 4686,
+      "time_per_iteration": 2.63897705078125
+    },
+    {
+      "auxiliary_loss_clip": 0.01186284,
+      "auxiliary_loss_mlp": 0.01026471,
+      "balance_loss_clip": 1.05031466,
+      "balance_loss_mlp": 1.01918697,
+      "epoch": 0.5635784284254194,
+      "flos": 21506972872320.0,
+      "grad_norm": 9.32020089765182,
+      "language_loss": 0.78020597,
+      "learning_rate": 1.686592514704803e-06,
+      "loss": 0.80233347,
+      "num_input_tokens_seen": 101152680,
+      "step": 4687,
+      "time_per_iteration": 2.630263328552246
+    },
+    {
+      "auxiliary_loss_clip": 0.01193433,
+      "auxiliary_loss_mlp": 0.01022552,
+      "balance_loss_clip": 1.05022669,
+      "balance_loss_mlp": 1.01532817,
+      "epoch": 0.5636986713160584,
+      "flos": 19827466698240.0,
+      "grad_norm": 2.2803217012834716,
+      "language_loss": 0.70250565,
+      "learning_rate": 1.685823190534361e-06,
+      "loss": 0.72466552,
+      "num_input_tokens_seen": 101170920,
+      "step": 4688,
+      "time_per_iteration": 2.6373345851898193
+    },
+    {
+      "auxiliary_loss_clip": 0.01180372,
+      "auxiliary_loss_mlp": 0.01024154,
+      "balance_loss_clip": 1.05170751,
+      "balance_loss_mlp": 1.01611328,
+      "epoch": 0.5638189142066975,
+      "flos": 19792453916160.0,
+      "grad_norm": 2.047998982651886,
+      "language_loss": 0.83509701,
+      "learning_rate": 1.6850539140242907e-06,
+      "loss": 0.85714227,
+      "num_input_tokens_seen": 101190180,
+      "step": 4689,
+      "time_per_iteration": 2.611609935760498
+    },
+    {
+      "auxiliary_loss_clip": 0.01190303,
+      "auxiliary_loss_mlp": 0.01027673,
+      "balance_loss_clip": 1.05084121,
+      "balance_loss_mlp": 1.02015102,
+      "epoch": 0.5639391570973367,
+      "flos": 22893771116160.0,
+      "grad_norm": 1.7728269967969363,
+      "language_loss": 0.82214105,
+      "learning_rate": 1.684284685291292e-06,
+      "loss": 0.84432089,
+      "num_input_tokens_seen": 101211825,
+      "step": 4690,
+      "time_per_iteration": 2.6738977432250977
+    },
+    {
+      "auxiliary_loss_clip": 0.01178146,
+      "auxiliary_loss_mlp": 0.01025694,
+      "balance_loss_clip": 1.05194497,
+      "balance_loss_mlp": 1.01808894,
+      "epoch": 0.5640593999879757,
+      "flos": 23727077712000.0,
+      "grad_norm": 1.9582331982498058,
+      "language_loss": 0.81162798,
+      "learning_rate": 1.683515504452055e-06,
+      "loss": 0.83366632,
+      "num_input_tokens_seen": 101229200,
+      "step": 4691,
+      "time_per_iteration": 4.450700044631958
+    },
+    {
+      "auxiliary_loss_clip": 0.01195686,
+      "auxiliary_loss_mlp": 0.01027808,
+      "balance_loss_clip": 1.0450927,
+      "balance_loss_mlp": 1.02003551,
+      "epoch": 0.5641796428786148,
+      "flos": 22710123855360.0,
+      "grad_norm": 1.763151651690187,
+      "language_loss": 0.66606534,
+      "learning_rate": 1.6827463716232648e-06,
+      "loss": 0.68830025,
+      "num_input_tokens_seen": 101249860,
+      "step": 4692,
+      "time_per_iteration": 3.6335630416870117
+    },
+    {
+      "auxiliary_loss_clip": 0.01185179,
+      "auxiliary_loss_mlp": 0.01378521,
+      "balance_loss_clip": 1.05097902,
+      "balance_loss_mlp": 1.00016749,
+      "epoch": 0.5642998857692539,
+      "flos": 19791987039360.0,
+      "grad_norm": 1.7496111374665757,
+      "language_loss": 0.75867361,
+      "learning_rate": 1.6819772869215972e-06,
+      "loss": 0.78431058,
+      "num_input_tokens_seen": 101268940,
+      "step": 4693,
+      "time_per_iteration": 2.7004873752593994
+    },
+    {
+      "auxiliary_loss_clip": 0.01201111,
+      "auxiliary_loss_mlp": 0.01022496,
+      "balance_loss_clip": 1.04951024,
+      "balance_loss_mlp": 1.01508999,
+      "epoch": 0.564420128659893,
+      "flos": 23185904428800.0,
+      "grad_norm": 1.75554306911985,
+      "language_loss": 0.82399809,
+      "learning_rate": 1.6812082504637228e-06,
+      "loss": 0.84623408,
+      "num_input_tokens_seen": 101290260,
+      "step": 4694,
+      "time_per_iteration": 3.6020593643188477
+    },
+    {
+      "auxiliary_loss_clip": 0.01182881,
+      "auxiliary_loss_mlp": 0.01023767,
+      "balance_loss_clip": 1.05085015,
+      "balance_loss_mlp": 1.01638818,
+      "epoch": 0.564540371550532,
+      "flos": 23258264376960.0,
+      "grad_norm": 1.4592352244844795,
+      "language_loss": 0.74429524,
+      "learning_rate": 1.6804392623663025e-06,
+      "loss": 0.76636171,
+      "num_input_tokens_seen": 101311465,
+      "step": 4695,
+      "time_per_iteration": 2.6950035095214844
+    },
+    {
+      "auxiliary_loss_clip": 0.01180019,
+      "auxiliary_loss_mlp": 0.01021534,
+      "balance_loss_clip": 1.0486927,
+      "balance_loss_mlp": 1.01428628,
+      "epoch": 0.5646606144411712,
+      "flos": 25010058672000.0,
+      "grad_norm": 1.9562120344744225,
+      "language_loss": 0.78301603,
+      "learning_rate": 1.6796703227459935e-06,
+      "loss": 0.80503154,
+      "num_input_tokens_seen": 101329420,
+      "step": 4696,
+      "time_per_iteration": 2.6516659259796143
+    },
+    {
+      "auxiliary_loss_clip": 0.01201276,
+      "auxiliary_loss_mlp": 0.01028629,
+      "balance_loss_clip": 1.04182649,
+      "balance_loss_mlp": 1.02091038,
+      "epoch": 0.5647808573318103,
+      "flos": 36539645806080.0,
+      "grad_norm": 1.7781475821577184,
+      "language_loss": 0.76240063,
+      "learning_rate": 1.6789014317194407e-06,
+      "loss": 0.78469968,
+      "num_input_tokens_seen": 101350900,
+      "step": 4697,
+      "time_per_iteration": 2.916534185409546
+    },
+    {
+      "auxiliary_loss_clip": 0.01204291,
+      "auxiliary_loss_mlp": 0.01025538,
+      "balance_loss_clip": 1.05152023,
+      "balance_loss_mlp": 1.01719904,
+      "epoch": 0.5649011002224493,
+      "flos": 22528451842560.0,
+      "grad_norm": 2.1553704535704212,
+      "language_loss": 0.72772586,
+      "learning_rate": 1.6781325894032853e-06,
+      "loss": 0.7500242,
+      "num_input_tokens_seen": 101369860,
+      "step": 4698,
+      "time_per_iteration": 2.6952898502349854
+    },
+    {
+      "auxiliary_loss_clip": 0.01188497,
+      "auxiliary_loss_mlp": 0.0102769,
+      "balance_loss_clip": 1.04774761,
+      "balance_loss_mlp": 1.01957798,
+      "epoch": 0.5650213431130885,
+      "flos": 18515147304960.0,
+      "grad_norm": 2.357038664202,
+      "language_loss": 0.91879141,
+      "learning_rate": 1.6773637959141608e-06,
+      "loss": 0.94095325,
+      "num_input_tokens_seen": 101386835,
+      "step": 4699,
+      "time_per_iteration": 2.6569759845733643
+    },
+    {
+      "auxiliary_loss_clip": 0.01184303,
+      "auxiliary_loss_mlp": 0.01025091,
+      "balance_loss_clip": 1.04695427,
+      "balance_loss_mlp": 1.01764619,
+      "epoch": 0.5651415860037275,
+      "flos": 17526310819200.0,
+      "grad_norm": 2.3294719639520265,
+      "language_loss": 0.66483784,
+      "learning_rate": 1.6765950513686915e-06,
+      "loss": 0.68693185,
+      "num_input_tokens_seen": 101404945,
+      "step": 4700,
+      "time_per_iteration": 2.6550447940826416
+    },
+    {
+      "auxiliary_loss_clip": 0.01210767,
+      "auxiliary_loss_mlp": 0.01027046,
+      "balance_loss_clip": 1.04430032,
+      "balance_loss_mlp": 1.01919019,
+      "epoch": 0.5652618288943666,
+      "flos": 25520026014720.0,
+      "grad_norm": 1.7787068860109008,
+      "language_loss": 0.76122963,
+      "learning_rate": 1.675826355883496e-06,
+      "loss": 0.78360772,
+      "num_input_tokens_seen": 101424160,
+      "step": 4701,
+      "time_per_iteration": 2.7795374393463135
+    },
+    {
+      "auxiliary_loss_clip": 0.01193279,
+      "auxiliary_loss_mlp": 0.01020411,
+      "balance_loss_clip": 1.05279732,
+      "balance_loss_mlp": 1.01291823,
+      "epoch": 0.5653820717850057,
+      "flos": 19683105937920.0,
+      "grad_norm": 1.8742344827305066,
+      "language_loss": 0.78891891,
+      "learning_rate": 1.6750577095751848e-06,
+      "loss": 0.81105578,
+      "num_input_tokens_seen": 101443270,
+      "step": 4702,
+      "time_per_iteration": 2.6995296478271484
+    },
+    {
+      "auxiliary_loss_clip": 0.01175554,
+      "auxiliary_loss_mlp": 0.01022995,
+      "balance_loss_clip": 1.05112171,
+      "balance_loss_mlp": 1.01561594,
+      "epoch": 0.5655023146756448,
+      "flos": 26979722910720.0,
+      "grad_norm": 1.7154345227349075,
+      "language_loss": 0.72847933,
+      "learning_rate": 1.6742891125603605e-06,
+      "loss": 0.75046486,
+      "num_input_tokens_seen": 101464175,
+      "step": 4703,
+      "time_per_iteration": 2.6859140396118164
+    },
+    {
+      "auxiliary_loss_clip": 0.01185205,
+      "auxiliary_loss_mlp": 0.01026138,
+      "balance_loss_clip": 1.05112922,
+      "balance_loss_mlp": 1.0180198,
+      "epoch": 0.5656225575662839,
+      "flos": 27669351104640.0,
+      "grad_norm": 2.0884347446373615,
+      "language_loss": 0.7246809,
+      "learning_rate": 1.6735205649556185e-06,
+      "loss": 0.74679434,
+      "num_input_tokens_seen": 101484045,
+      "step": 4704,
+      "time_per_iteration": 2.7629354000091553
+    },
+    {
+      "auxiliary_loss_clip": 0.01207776,
+      "auxiliary_loss_mlp": 0.01021598,
+      "balance_loss_clip": 1.04815412,
+      "balance_loss_mlp": 1.0141356,
+      "epoch": 0.5657428004569229,
+      "flos": 24349732997760.0,
+      "grad_norm": 1.6193473541291175,
+      "language_loss": 0.84971273,
+      "learning_rate": 1.6727520668775476e-06,
+      "loss": 0.87200642,
+      "num_input_tokens_seen": 101504330,
+      "step": 4705,
+      "time_per_iteration": 2.7716777324676514
+    },
+    {
+      "auxiliary_loss_clip": 0.01179229,
+      "auxiliary_loss_mlp": 0.01030664,
+      "balance_loss_clip": 1.05135596,
+      "balance_loss_mlp": 1.0226711,
+      "epoch": 0.5658630433475621,
+      "flos": 21944041562880.0,
+      "grad_norm": 1.5625421161843651,
+      "language_loss": 0.74966884,
+      "learning_rate": 1.6719836184427275e-06,
+      "loss": 0.7717678,
+      "num_input_tokens_seen": 101524635,
+      "step": 4706,
+      "time_per_iteration": 2.719562530517578
+    },
+    {
+      "auxiliary_loss_clip": 0.0118976,
+      "auxiliary_loss_mlp": 0.01026265,
+      "balance_loss_clip": 1.04796529,
+      "balance_loss_mlp": 1.01893377,
+      "epoch": 0.5659832862382012,
+      "flos": 30409012218240.0,
+      "grad_norm": 1.901362259558202,
+      "language_loss": 0.64416224,
+      "learning_rate": 1.671215219767733e-06,
+      "loss": 0.66632247,
+      "num_input_tokens_seen": 101544095,
+      "step": 4707,
+      "time_per_iteration": 2.7367639541625977
+    },
+    {
+      "auxiliary_loss_clip": 0.01212673,
+      "auxiliary_loss_mlp": 0.01029007,
+      "balance_loss_clip": 1.04604197,
+      "balance_loss_mlp": 1.02145529,
+      "epoch": 0.5661035291288402,
+      "flos": 13188194570880.0,
+      "grad_norm": 2.0984459117957033,
+      "language_loss": 0.76340812,
+      "learning_rate": 1.670446870969127e-06,
+      "loss": 0.78582495,
+      "num_input_tokens_seen": 101561760,
+      "step": 4708,
+      "time_per_iteration": 2.7265570163726807
+    },
+    {
+      "auxiliary_loss_clip": 0.0119746,
+      "auxiliary_loss_mlp": 0.01027404,
+      "balance_loss_clip": 1.04896164,
+      "balance_loss_mlp": 1.01931548,
+      "epoch": 0.5662237720194794,
+      "flos": 16143032108160.0,
+      "grad_norm": 2.43638896041354,
+      "language_loss": 0.80078804,
+      "learning_rate": 1.6696785721634685e-06,
+      "loss": 0.82303667,
+      "num_input_tokens_seen": 101576245,
+      "step": 4709,
+      "time_per_iteration": 2.601170778274536
+    },
+    {
+      "auxiliary_loss_clip": 0.01188033,
+      "auxiliary_loss_mlp": 0.01025452,
+      "balance_loss_clip": 1.05144143,
+      "balance_loss_mlp": 1.01736331,
+      "epoch": 0.5663440149101184,
+      "flos": 17676848718720.0,
+      "grad_norm": 2.3245354461810597,
+      "language_loss": 0.73939264,
+      "learning_rate": 1.6689103234673086e-06,
+      "loss": 0.76152748,
+      "num_input_tokens_seen": 101594565,
+      "step": 4710,
+      "time_per_iteration": 2.6434593200683594
+    },
+    {
+      "auxiliary_loss_clip": 0.01196872,
+      "auxiliary_loss_mlp": 0.01027207,
+      "balance_loss_clip": 1.05337656,
+      "balance_loss_mlp": 1.01963758,
+      "epoch": 0.5664642578007575,
+      "flos": 23368330627200.0,
+      "grad_norm": 2.1112809300148525,
+      "language_loss": 0.77376205,
+      "learning_rate": 1.668142124997189e-06,
+      "loss": 0.79600286,
+      "num_input_tokens_seen": 101614225,
+      "step": 4711,
+      "time_per_iteration": 2.6548595428466797
+    },
+    {
+      "auxiliary_loss_clip": 0.01094461,
+      "auxiliary_loss_mlp": 0.01002762,
+      "balance_loss_clip": 1.02014399,
+      "balance_loss_mlp": 1.00140333,
+      "epoch": 0.5665845006913967,
+      "flos": 65516470945920.0,
+      "grad_norm": 0.7252111722995853,
+      "language_loss": 0.59837472,
+      "learning_rate": 1.6673739768696453e-06,
+      "loss": 0.61934698,
+      "num_input_tokens_seen": 101680795,
+      "step": 4712,
+      "time_per_iteration": 3.244798183441162
+    },
+    {
+      "auxiliary_loss_clip": 0.01200285,
+      "auxiliary_loss_mlp": 0.01027954,
+      "balance_loss_clip": 1.04886246,
+      "balance_loss_mlp": 1.02047336,
+      "epoch": 0.5667047435820357,
+      "flos": 26140885620480.0,
+      "grad_norm": 1.7839976587017945,
+      "language_loss": 0.77337909,
+      "learning_rate": 1.6666058792012052e-06,
+      "loss": 0.79566145,
+      "num_input_tokens_seen": 101701680,
+      "step": 4713,
+      "time_per_iteration": 2.719442367553711
+    },
+    {
+      "auxiliary_loss_clip": 0.01088083,
+      "auxiliary_loss_mlp": 0.01000729,
+      "balance_loss_clip": 1.01809657,
+      "balance_loss_mlp": 0.99945372,
+      "epoch": 0.5668249864726748,
+      "flos": 71866949725440.0,
+      "grad_norm": 0.8940712721357841,
+      "language_loss": 0.68712121,
+      "learning_rate": 1.6658378321083878e-06,
+      "loss": 0.7080093,
+      "num_input_tokens_seen": 101766010,
+      "step": 4714,
+      "time_per_iteration": 3.2868449687957764
+    },
+    {
+      "auxiliary_loss_clip": 0.0122606,
+      "auxiliary_loss_mlp": 0.01026001,
+      "balance_loss_clip": 1.04550612,
+      "balance_loss_mlp": 1.01886082,
+      "epoch": 0.5669452293633139,
+      "flos": 22195667312640.0,
+      "grad_norm": 1.7367178334085103,
+      "language_loss": 0.82541895,
+      "learning_rate": 1.6650698357077055e-06,
+      "loss": 0.84793955,
+      "num_input_tokens_seen": 101783055,
+      "step": 4715,
+      "time_per_iteration": 2.877772808074951
+    },
+    {
+      "auxiliary_loss_clip": 0.0119726,
+      "auxiliary_loss_mlp": 0.01027078,
+      "balance_loss_clip": 1.04908633,
+      "balance_loss_mlp": 1.01971054,
+      "epoch": 0.567065472253953,
+      "flos": 18223193560320.0,
+      "grad_norm": 6.595369046809832,
+      "language_loss": 0.80956358,
+      "learning_rate": 1.6643018901156632e-06,
+      "loss": 0.83180696,
+      "num_input_tokens_seen": 101802150,
+      "step": 4716,
+      "time_per_iteration": 2.624027967453003
+    },
+    {
+      "auxiliary_loss_clip": 0.01198483,
+      "auxiliary_loss_mlp": 0.01028234,
+      "balance_loss_clip": 1.04736066,
+      "balance_loss_mlp": 1.02088177,
+      "epoch": 0.567185715144592,
+      "flos": 20371548983040.0,
+      "grad_norm": 3.4240971794734887,
+      "language_loss": 0.79373258,
+      "learning_rate": 1.6635339954487566e-06,
+      "loss": 0.81599975,
+      "num_input_tokens_seen": 101818025,
+      "step": 4717,
+      "time_per_iteration": 4.486262083053589
+    },
+    {
+      "auxiliary_loss_clip": 0.01198375,
+      "auxiliary_loss_mlp": 0.01031069,
+      "balance_loss_clip": 1.04938269,
+      "balance_loss_mlp": 1.02328491,
+      "epoch": 0.5673059580352312,
+      "flos": 23221348174080.0,
+      "grad_norm": 1.7930060087393058,
+      "language_loss": 0.8227213,
+      "learning_rate": 1.6627661518234765e-06,
+      "loss": 0.84501576,
+      "num_input_tokens_seen": 101837280,
+      "step": 4718,
+      "time_per_iteration": 3.5464024543762207
+    },
+    {
+      "auxiliary_loss_clip": 0.01216586,
+      "auxiliary_loss_mlp": 0.01030936,
+      "balance_loss_clip": 1.04810858,
+      "balance_loss_mlp": 1.0232892,
+      "epoch": 0.5674262009258703,
+      "flos": 21719599430400.0,
+      "grad_norm": 2.119012075138681,
+      "language_loss": 0.85308123,
+      "learning_rate": 1.661998359356302e-06,
+      "loss": 0.87555641,
+      "num_input_tokens_seen": 101856310,
+      "step": 4719,
+      "time_per_iteration": 2.7196109294891357
+    },
+    {
+      "auxiliary_loss_clip": 0.01073481,
+      "auxiliary_loss_mlp": 0.01002598,
+      "balance_loss_clip": 1.01705027,
+      "balance_loss_mlp": 1.00129879,
+      "epoch": 0.5675464438165093,
+      "flos": 67470369114240.0,
+      "grad_norm": 0.7529489494027298,
+      "language_loss": 0.55803692,
+      "learning_rate": 1.6612306181637077e-06,
+      "loss": 0.5787977,
+      "num_input_tokens_seen": 101915635,
+      "step": 4720,
+      "time_per_iteration": 4.026615381240845
+    },
+    {
+      "auxiliary_loss_clip": 0.01203429,
+      "auxiliary_loss_mlp": 0.01025819,
+      "balance_loss_clip": 1.04853404,
+      "balance_loss_mlp": 1.01808858,
+      "epoch": 0.5676666867071485,
+      "flos": 18879173688960.0,
+      "grad_norm": 2.5575184148354566,
+      "language_loss": 0.65230542,
+      "learning_rate": 1.6604629283621598e-06,
+      "loss": 0.67459792,
+      "num_input_tokens_seen": 101933565,
+      "step": 4721,
+      "time_per_iteration": 2.7277939319610596
+    },
+    {
+      "auxiliary_loss_clip": 0.01180487,
+      "auxiliary_loss_mlp": 0.01026923,
+      "balance_loss_clip": 1.05197465,
+      "balance_loss_mlp": 1.01894784,
+      "epoch": 0.5677869295977875,
+      "flos": 33546778744320.0,
+      "grad_norm": 1.7029334385735158,
+      "language_loss": 0.74301267,
+      "learning_rate": 1.6596952900681152e-06,
+      "loss": 0.76508677,
+      "num_input_tokens_seen": 101954325,
+      "step": 4722,
+      "time_per_iteration": 2.7801811695098877
+    },
+    {
+      "auxiliary_loss_clip": 0.01201538,
+      "auxiliary_loss_mlp": 0.01027128,
+      "balance_loss_clip": 1.0477159,
+      "balance_loss_mlp": 1.01825261,
+      "epoch": 0.5679071724884266,
+      "flos": 28037256157440.0,
+      "grad_norm": 1.9866323644826513,
+      "language_loss": 0.82014555,
+      "learning_rate": 1.658927703398025e-06,
+      "loss": 0.8424322,
+      "num_input_tokens_seen": 101974390,
+      "step": 4723,
+      "time_per_iteration": 2.8509647846221924
+    },
+    {
+      "auxiliary_loss_clip": 0.01208629,
+      "auxiliary_loss_mlp": 0.01027739,
+      "balance_loss_clip": 1.04224372,
+      "balance_loss_mlp": 1.02048492,
+      "epoch": 0.5680274153790658,
+      "flos": 23550110380800.0,
+      "grad_norm": 12.996413606737951,
+      "language_loss": 0.78076148,
+      "learning_rate": 1.6581601684683309e-06,
+      "loss": 0.80312514,
+      "num_input_tokens_seen": 101994815,
+      "step": 4724,
+      "time_per_iteration": 2.767723321914673
+    },
+    {
+      "auxiliary_loss_clip": 0.01189885,
+      "auxiliary_loss_mlp": 0.01025856,
+      "balance_loss_clip": 1.05229187,
+      "balance_loss_mlp": 1.01776147,
+      "epoch": 0.5681476582697048,
+      "flos": 22455158140800.0,
+      "grad_norm": 2.70530101162823,
+      "language_loss": 0.68625128,
+      "learning_rate": 1.6573926853954674e-06,
+      "loss": 0.70840871,
+      "num_input_tokens_seen": 102012400,
+      "step": 4725,
+      "time_per_iteration": 2.668689012527466
+    },
+    {
+      "auxiliary_loss_clip": 0.01187449,
+      "auxiliary_loss_mlp": 0.0102861,
+      "balance_loss_clip": 1.04626489,
+      "balance_loss_mlp": 1.02078962,
+      "epoch": 0.5682679011603439,
+      "flos": 19536913584000.0,
+      "grad_norm": 1.7692444104538416,
+      "language_loss": 0.82944596,
+      "learning_rate": 1.6566252542958608e-06,
+      "loss": 0.85160661,
+      "num_input_tokens_seen": 102031900,
+      "step": 4726,
+      "time_per_iteration": 2.7086734771728516
+    },
+    {
+      "auxiliary_loss_clip": 0.01194461,
+      "auxiliary_loss_mlp": 0.01026874,
+      "balance_loss_clip": 1.04662776,
+      "balance_loss_mlp": 1.01890469,
+      "epoch": 0.568388144050983,
+      "flos": 28765488493440.0,
+      "grad_norm": 2.152744254554076,
+      "language_loss": 0.78225911,
+      "learning_rate": 1.6558578752859305e-06,
+      "loss": 0.80447251,
+      "num_input_tokens_seen": 102050860,
+      "step": 4727,
+      "time_per_iteration": 2.762875556945801
+    },
+    {
+      "auxiliary_loss_clip": 0.01201691,
+      "auxiliary_loss_mlp": 0.01024191,
+      "balance_loss_clip": 1.04527974,
+      "balance_loss_mlp": 1.01673698,
+      "epoch": 0.5685083869416221,
+      "flos": 21209452519680.0,
+      "grad_norm": 2.349359438086861,
+      "language_loss": 0.78564596,
+      "learning_rate": 1.6550905484820865e-06,
+      "loss": 0.80790484,
+      "num_input_tokens_seen": 102069320,
+      "step": 4728,
+      "time_per_iteration": 2.7381036281585693
+    },
+    {
+      "auxiliary_loss_clip": 0.01177247,
+      "auxiliary_loss_mlp": 0.01027205,
+      "balance_loss_clip": 1.04974687,
+      "balance_loss_mlp": 1.01943243,
+      "epoch": 0.5686286298322611,
+      "flos": 24827021942400.0,
+      "grad_norm": 2.6323732399555837,
+      "language_loss": 0.78560752,
+      "learning_rate": 1.6543232740007328e-06,
+      "loss": 0.80765206,
+      "num_input_tokens_seen": 102086435,
+      "step": 4729,
+      "time_per_iteration": 2.6075539588928223
+    },
+    {
+      "auxiliary_loss_clip": 0.01189667,
+      "auxiliary_loss_mlp": 0.01023645,
+      "balance_loss_clip": 1.05133009,
+      "balance_loss_mlp": 1.01590228,
+      "epoch": 0.5687488727229003,
+      "flos": 26615121909120.0,
+      "grad_norm": 2.660536355806763,
+      "language_loss": 0.67399198,
+      "learning_rate": 1.653556051958263e-06,
+      "loss": 0.69612503,
+      "num_input_tokens_seen": 102106115,
+      "step": 4730,
+      "time_per_iteration": 2.730152130126953
+    },
+    {
+      "auxiliary_loss_clip": 0.01201036,
+      "auxiliary_loss_mlp": 0.01027549,
+      "balance_loss_clip": 1.04213285,
+      "balance_loss_mlp": 1.01988721,
+      "epoch": 0.5688691156135394,
+      "flos": 20808725414400.0,
+      "grad_norm": 2.392290494183486,
+      "language_loss": 0.73760843,
+      "learning_rate": 1.6527888824710642e-06,
+      "loss": 0.75989425,
+      "num_input_tokens_seen": 102125715,
+      "step": 4731,
+      "time_per_iteration": 2.77139949798584
+    },
+    {
+      "auxiliary_loss_clip": 0.01193407,
+      "auxiliary_loss_mlp": 0.01027921,
+      "balance_loss_clip": 1.04319251,
+      "balance_loss_mlp": 1.01954699,
+      "epoch": 0.5689893585041784,
+      "flos": 25880963829120.0,
+      "grad_norm": 2.385331367965475,
+      "language_loss": 0.7644484,
+      "learning_rate": 1.6520217656555166e-06,
+      "loss": 0.78666162,
+      "num_input_tokens_seen": 102145005,
+      "step": 4732,
+      "time_per_iteration": 2.792149782180786
+    },
+    {
+      "auxiliary_loss_clip": 0.01181521,
+      "auxiliary_loss_mlp": 0.01028118,
+      "balance_loss_clip": 1.04587233,
+      "balance_loss_mlp": 1.02114475,
+      "epoch": 0.5691096013948175,
+      "flos": 23477463123840.0,
+      "grad_norm": 1.5649775069582368,
+      "language_loss": 0.70804095,
+      "learning_rate": 1.65125470162799e-06,
+      "loss": 0.73013735,
+      "num_input_tokens_seen": 102165360,
+      "step": 4733,
+      "time_per_iteration": 2.726076602935791
+    },
+    {
+      "auxiliary_loss_clip": 0.01206767,
+      "auxiliary_loss_mlp": 0.01026429,
+      "balance_loss_clip": 1.0469352,
+      "balance_loss_mlp": 1.0182811,
+      "epoch": 0.5692298442854566,
+      "flos": 18075600576000.0,
+      "grad_norm": 2.187775355448344,
+      "language_loss": 0.6983428,
+      "learning_rate": 1.6504876905048485e-06,
+      "loss": 0.72067469,
+      "num_input_tokens_seen": 102182320,
+      "step": 4734,
+      "time_per_iteration": 2.72792387008667
+    },
+    {
+      "auxiliary_loss_clip": 0.01178193,
+      "auxiliary_loss_mlp": 0.01024687,
+      "balance_loss_clip": 1.05339479,
+      "balance_loss_mlp": 1.01727843,
+      "epoch": 0.5693500871760957,
+      "flos": 23039317025280.0,
+      "grad_norm": 1.6340362889136006,
+      "language_loss": 0.72252274,
+      "learning_rate": 1.6497207324024464e-06,
+      "loss": 0.74455154,
+      "num_input_tokens_seen": 102201220,
+      "step": 4735,
+      "time_per_iteration": 2.579802989959717
+    },
+    {
+      "auxiliary_loss_clip": 0.01205423,
+      "auxiliary_loss_mlp": 0.01026066,
+      "balance_loss_clip": 1.05032897,
+      "balance_loss_mlp": 1.01807332,
+      "epoch": 0.5694703300667348,
+      "flos": 18989670902400.0,
+      "grad_norm": 1.9000645440685004,
+      "language_loss": 0.82710713,
+      "learning_rate": 1.6489538274371305e-06,
+      "loss": 0.84942198,
+      "num_input_tokens_seen": 102219825,
+      "step": 4736,
+      "time_per_iteration": 2.731051206588745
+    },
+    {
+      "auxiliary_loss_clip": 0.0118399,
+      "auxiliary_loss_mlp": 0.01023892,
+      "balance_loss_clip": 1.05292058,
+      "balance_loss_mlp": 1.01641166,
+      "epoch": 0.5695905729573739,
+      "flos": 21908705558400.0,
+      "grad_norm": 2.0471975448646345,
+      "language_loss": 0.83285344,
+      "learning_rate": 1.6481869757252396e-06,
+      "loss": 0.85493231,
+      "num_input_tokens_seen": 102238160,
+      "step": 4737,
+      "time_per_iteration": 2.647428035736084
+    },
+    {
+      "auxiliary_loss_clip": 0.0118819,
+      "auxiliary_loss_mlp": 0.01033304,
+      "balance_loss_clip": 1.05199575,
+      "balance_loss_mlp": 1.0264163,
+      "epoch": 0.569710815848013,
+      "flos": 28476659232000.0,
+      "grad_norm": 1.4803359326383196,
+      "language_loss": 0.71709144,
+      "learning_rate": 1.647420177383105e-06,
+      "loss": 0.73930633,
+      "num_input_tokens_seen": 102261030,
+      "step": 4738,
+      "time_per_iteration": 2.6609644889831543
+    },
+    {
+      "auxiliary_loss_clip": 0.0118175,
+      "auxiliary_loss_mlp": 0.01024049,
+      "balance_loss_clip": 1.05182791,
+      "balance_loss_mlp": 1.01641321,
+      "epoch": 0.569831058738652,
+      "flos": 28366162018560.0,
+      "grad_norm": 2.257294642305495,
+      "language_loss": 0.72609919,
+      "learning_rate": 1.646653432527049e-06,
+      "loss": 0.74815714,
+      "num_input_tokens_seen": 102281670,
+      "step": 4739,
+      "time_per_iteration": 2.6719486713409424
+    },
+    {
+      "auxiliary_loss_clip": 0.01204504,
+      "auxiliary_loss_mlp": 0.01025666,
+      "balance_loss_clip": 1.04757261,
+      "balance_loss_mlp": 1.01856685,
+      "epoch": 0.5699513016292912,
+      "flos": 25849973370240.0,
+      "grad_norm": 1.6427869849442969,
+      "language_loss": 0.74070281,
+      "learning_rate": 1.645886741273387e-06,
+      "loss": 0.76300454,
+      "num_input_tokens_seen": 102303485,
+      "step": 4740,
+      "time_per_iteration": 2.7495362758636475
+    },
+    {
+      "auxiliary_loss_clip": 0.0119706,
+      "auxiliary_loss_mlp": 0.01027449,
+      "balance_loss_clip": 1.04806709,
+      "balance_loss_mlp": 1.01973629,
+      "epoch": 0.5700715445199303,
+      "flos": 18037858360320.0,
+      "grad_norm": 2.9731307722686657,
+      "language_loss": 0.74049711,
+      "learning_rate": 1.645120103738424e-06,
+      "loss": 0.76274228,
+      "num_input_tokens_seen": 102320995,
+      "step": 4741,
+      "time_per_iteration": 2.7187256813049316
+    },
+    {
+      "auxiliary_loss_clip": 0.01172673,
+      "auxiliary_loss_mlp": 0.01378214,
+      "balance_loss_clip": 1.04824758,
+      "balance_loss_mlp": 1.00016379,
+      "epoch": 0.5701917874105693,
+      "flos": 11473352392320.0,
+      "grad_norm": 1.930321399063842,
+      "language_loss": 0.83715481,
+      "learning_rate": 1.6443535200384591e-06,
+      "loss": 0.86266375,
+      "num_input_tokens_seen": 102339170,
+      "step": 4742,
+      "time_per_iteration": 2.711185932159424
+    },
+    {
+      "auxiliary_loss_clip": 0.01178833,
+      "auxiliary_loss_mlp": 0.01025698,
+      "balance_loss_clip": 1.05366015,
+      "balance_loss_mlp": 1.01809812,
+      "epoch": 0.5703120303012085,
+      "flos": 21761759018880.0,
+      "grad_norm": 2.9774648009047797,
+      "language_loss": 0.70580578,
+      "learning_rate": 1.6435869902897827e-06,
+      "loss": 0.72785103,
+      "num_input_tokens_seen": 102357750,
+      "step": 4743,
+      "time_per_iteration": 4.569341659545898
+    },
+    {
+      "auxiliary_loss_clip": 0.01105556,
+      "auxiliary_loss_mlp": 0.01006091,
+      "balance_loss_clip": 1.01491201,
+      "balance_loss_mlp": 1.00476766,
+      "epoch": 0.5704322731918475,
+      "flos": 56746258513920.0,
+      "grad_norm": 0.7975801900444153,
+      "language_loss": 0.62057233,
+      "learning_rate": 1.6428205146086764e-06,
+      "loss": 0.64168882,
+      "num_input_tokens_seen": 102419730,
+      "step": 4744,
+      "time_per_iteration": 4.274521589279175
+    },
+    {
+      "auxiliary_loss_clip": 0.0120036,
+      "auxiliary_loss_mlp": 0.0103498,
+      "balance_loss_clip": 1.04865265,
+      "balance_loss_mlp": 1.02750552,
+      "epoch": 0.5705525160824866,
+      "flos": 20741141975040.0,
+      "grad_norm": 1.4994812365568706,
+      "language_loss": 0.70754373,
+      "learning_rate": 1.6420540931114142e-06,
+      "loss": 0.72989714,
+      "num_input_tokens_seen": 102440320,
+      "step": 4745,
+      "time_per_iteration": 2.774373769760132
+    },
+    {
+      "auxiliary_loss_clip": 0.01198809,
+      "auxiliary_loss_mlp": 0.01030258,
+      "balance_loss_clip": 1.05069017,
+      "balance_loss_mlp": 1.02232444,
+      "epoch": 0.5706727589731257,
+      "flos": 18771262254720.0,
+      "grad_norm": 2.8739494859419397,
+      "language_loss": 0.79271501,
+      "learning_rate": 1.6412877259142616e-06,
+      "loss": 0.81500566,
+      "num_input_tokens_seen": 102460240,
+      "step": 4746,
+      "time_per_iteration": 3.6549899578094482
+    },
+    {
+      "auxiliary_loss_clip": 0.01193673,
+      "auxiliary_loss_mlp": 0.01032463,
+      "balance_loss_clip": 1.05090594,
+      "balance_loss_mlp": 1.02421975,
+      "epoch": 0.5707930018637648,
+      "flos": 27634733372160.0,
+      "grad_norm": 2.0085180207323514,
+      "language_loss": 0.73808742,
+      "learning_rate": 1.6405214131334757e-06,
+      "loss": 0.7603488,
+      "num_input_tokens_seen": 102478765,
+      "step": 4747,
+      "time_per_iteration": 2.859628677368164
+    },
+    {
+      "auxiliary_loss_clip": 0.01209107,
+      "auxiliary_loss_mlp": 0.01028031,
+      "balance_loss_clip": 1.04904771,
+      "balance_loss_mlp": 1.02082777,
+      "epoch": 0.5709132447544039,
+      "flos": 27597673514880.0,
+      "grad_norm": 1.6640745579715495,
+      "language_loss": 0.79615873,
+      "learning_rate": 1.6397551548853052e-06,
+      "loss": 0.81853008,
+      "num_input_tokens_seen": 102496930,
+      "step": 4748,
+      "time_per_iteration": 2.810631036758423
+    },
+    {
+      "auxiliary_loss_clip": 0.01197664,
+      "auxiliary_loss_mlp": 0.01023704,
+      "balance_loss_clip": 1.05165589,
+      "balance_loss_mlp": 1.01540756,
+      "epoch": 0.571033487645043,
+      "flos": 21686095019520.0,
+      "grad_norm": 1.6762504246671335,
+      "language_loss": 0.70685935,
+      "learning_rate": 1.6389889512859917e-06,
+      "loss": 0.72907305,
+      "num_input_tokens_seen": 102516590,
+      "step": 4749,
+      "time_per_iteration": 2.754183530807495
+    },
+    {
+      "auxiliary_loss_clip": 0.01095733,
+      "auxiliary_loss_mlp": 0.01003132,
+      "balance_loss_clip": 1.01650977,
+      "balance_loss_mlp": 1.0017848,
+      "epoch": 0.5711537305356821,
+      "flos": 70181445980160.0,
+      "grad_norm": 0.8150568152821756,
+      "language_loss": 0.60382938,
+      "learning_rate": 1.638222802451767e-06,
+      "loss": 0.62481803,
+      "num_input_tokens_seen": 102578070,
+      "step": 4750,
+      "time_per_iteration": 3.274487257003784
+    },
+    {
+      "auxiliary_loss_clip": 0.01182891,
+      "auxiliary_loss_mlp": 0.01023692,
+      "balance_loss_clip": 1.05290127,
+      "balance_loss_mlp": 1.01651525,
+      "epoch": 0.5712739734263211,
+      "flos": 24717494396160.0,
+      "grad_norm": 2.0748095159938713,
+      "language_loss": 0.75231946,
+      "learning_rate": 1.6374567084988561e-06,
+      "loss": 0.77438527,
+      "num_input_tokens_seen": 102599255,
+      "step": 4751,
+      "time_per_iteration": 2.6633858680725098
+    },
+    {
+      "auxiliary_loss_clip": 0.01201549,
+      "auxiliary_loss_mlp": 0.01034087,
+      "balance_loss_clip": 1.05292201,
+      "balance_loss_mlp": 1.02520037,
+      "epoch": 0.5713942163169603,
+      "flos": 26578169792640.0,
+      "grad_norm": 1.889077786193702,
+      "language_loss": 0.76619709,
+      "learning_rate": 1.6366906695434738e-06,
+      "loss": 0.78855348,
+      "num_input_tokens_seen": 102621775,
+      "step": 4752,
+      "time_per_iteration": 2.75439453125
+    },
+    {
+      "auxiliary_loss_clip": 0.01189483,
+      "auxiliary_loss_mlp": 0.01028068,
+      "balance_loss_clip": 1.054268,
+      "balance_loss_mlp": 1.02015829,
+      "epoch": 0.5715144592075994,
+      "flos": 21142443697920.0,
+      "grad_norm": 1.9808534029718272,
+      "language_loss": 0.86116379,
+      "learning_rate": 1.6359246857018275e-06,
+      "loss": 0.88333929,
+      "num_input_tokens_seen": 102639305,
+      "step": 4753,
+      "time_per_iteration": 2.6631178855895996
+    },
+    {
+      "auxiliary_loss_clip": 0.0120859,
+      "auxiliary_loss_mlp": 0.01027748,
+      "balance_loss_clip": 1.04374099,
+      "balance_loss_mlp": 1.02026749,
+      "epoch": 0.5716347020982384,
+      "flos": 23330265189120.0,
+      "grad_norm": 2.151612245147142,
+      "language_loss": 0.78257805,
+      "learning_rate": 1.6351587570901178e-06,
+      "loss": 0.80494148,
+      "num_input_tokens_seen": 102659430,
+      "step": 4754,
+      "time_per_iteration": 2.7838029861450195
+    },
+    {
+      "auxiliary_loss_clip": 0.01202701,
+      "auxiliary_loss_mlp": 0.01026492,
+      "balance_loss_clip": 1.04733717,
+      "balance_loss_mlp": 1.01880264,
+      "epoch": 0.5717549449888776,
+      "flos": 17009555806080.0,
+      "grad_norm": 2.5376569068441324,
+      "language_loss": 0.75083899,
+      "learning_rate": 1.634392883824534e-06,
+      "loss": 0.77313089,
+      "num_input_tokens_seen": 102671430,
+      "step": 4755,
+      "time_per_iteration": 2.6631762981414795
+    },
+    {
+      "auxiliary_loss_clip": 0.01213284,
+      "auxiliary_loss_mlp": 0.01030567,
+      "balance_loss_clip": 1.04456019,
+      "balance_loss_mlp": 1.02232361,
+      "epoch": 0.5718751878795166,
+      "flos": 35518130922240.0,
+      "grad_norm": 1.5767903381967439,
+      "language_loss": 0.67686957,
+      "learning_rate": 1.6336270660212595e-06,
+      "loss": 0.69930804,
+      "num_input_tokens_seen": 102693025,
+      "step": 4756,
+      "time_per_iteration": 2.860032081604004
+    },
+    {
+      "auxiliary_loss_clip": 0.01191602,
+      "auxiliary_loss_mlp": 0.01028018,
+      "balance_loss_clip": 1.05068398,
+      "balance_loss_mlp": 1.02008414,
+      "epoch": 0.5719954307701557,
+      "flos": 38613989255040.0,
+      "grad_norm": 5.582013934611639,
+      "language_loss": 0.65549731,
+      "learning_rate": 1.6328613037964676e-06,
+      "loss": 0.67769355,
+      "num_input_tokens_seen": 102716090,
+      "step": 4757,
+      "time_per_iteration": 2.803731918334961
+    },
+    {
+      "auxiliary_loss_clip": 0.01185823,
+      "auxiliary_loss_mlp": 0.01025799,
+      "balance_loss_clip": 1.050385,
+      "balance_loss_mlp": 1.01853967,
+      "epoch": 0.5721156736607949,
+      "flos": 20631111638400.0,
+      "grad_norm": 3.7685320118645724,
+      "language_loss": 0.68010682,
+      "learning_rate": 1.6320955972663241e-06,
+      "loss": 0.70222306,
+      "num_input_tokens_seen": 102735685,
+      "step": 4758,
+      "time_per_iteration": 2.6573455333709717
+    },
+    {
+      "auxiliary_loss_clip": 0.0118551,
+      "auxiliary_loss_mlp": 0.01025701,
+      "balance_loss_clip": 1.04955029,
+      "balance_loss_mlp": 1.01802957,
+      "epoch": 0.5722359165514339,
+      "flos": 37415076076800.0,
+      "grad_norm": 3.9215366144033164,
+      "language_loss": 0.6520794,
+      "learning_rate": 1.6313299465469857e-06,
+      "loss": 0.67419147,
+      "num_input_tokens_seen": 102758415,
+      "step": 4759,
+      "time_per_iteration": 2.802989959716797
+    },
+    {
+      "auxiliary_loss_clip": 0.01182133,
+      "auxiliary_loss_mlp": 0.01026418,
+      "balance_loss_clip": 1.05028605,
+      "balance_loss_mlp": 1.01839495,
+      "epoch": 0.572356159442073,
+      "flos": 21972877205760.0,
+      "grad_norm": 2.8958351109044913,
+      "language_loss": 0.79449862,
+      "learning_rate": 1.6305643517546014e-06,
+      "loss": 0.81658423,
+      "num_input_tokens_seen": 102773795,
+      "step": 4760,
+      "time_per_iteration": 2.700590133666992
+    },
+    {
+      "auxiliary_loss_clip": 0.01178747,
+      "auxiliary_loss_mlp": 0.01025123,
+      "balance_loss_clip": 1.05412197,
+      "balance_loss_mlp": 1.01790202,
+      "epoch": 0.5724764023327121,
+      "flos": 19135540033920.0,
+      "grad_norm": 2.0282755366224046,
+      "language_loss": 0.84758902,
+      "learning_rate": 1.629798813005311e-06,
+      "loss": 0.86962771,
+      "num_input_tokens_seen": 102793515,
+      "step": 4761,
+      "time_per_iteration": 2.631070613861084
+    },
+    {
+      "auxiliary_loss_clip": 0.01213629,
+      "auxiliary_loss_mlp": 0.01020959,
+      "balance_loss_clip": 1.04878497,
+      "balance_loss_mlp": 1.01396728,
+      "epoch": 0.5725966452233512,
+      "flos": 22819759142400.0,
+      "grad_norm": 2.50267772363466,
+      "language_loss": 0.70868027,
+      "learning_rate": 1.6290333304152473e-06,
+      "loss": 0.73102617,
+      "num_input_tokens_seen": 102813390,
+      "step": 4762,
+      "time_per_iteration": 2.7801406383514404
+    },
+    {
+      "auxiliary_loss_clip": 0.01191164,
+      "auxiliary_loss_mlp": 0.0102971,
+      "balance_loss_clip": 1.05054832,
+      "balance_loss_mlp": 1.02210426,
+      "epoch": 0.5727168881139902,
+      "flos": 41496610498560.0,
+      "grad_norm": 2.009604681091092,
+      "language_loss": 0.56894839,
+      "learning_rate": 1.6282679041005314e-06,
+      "loss": 0.5911572,
+      "num_input_tokens_seen": 102838980,
+      "step": 4763,
+      "time_per_iteration": 3.0059618949890137
+    },
+    {
+      "auxiliary_loss_clip": 0.01184999,
+      "auxiliary_loss_mlp": 0.01028542,
+      "balance_loss_clip": 1.04628909,
+      "balance_loss_mlp": 1.02047455,
+      "epoch": 0.5728371310046293,
+      "flos": 14647675985280.0,
+      "grad_norm": 2.1285934513924105,
+      "language_loss": 0.87072009,
+      "learning_rate": 1.6275025341772789e-06,
+      "loss": 0.89285547,
+      "num_input_tokens_seen": 102855285,
+      "step": 4764,
+      "time_per_iteration": 2.7160232067108154
+    },
+    {
+      "auxiliary_loss_clip": 0.01194854,
+      "auxiliary_loss_mlp": 0.01030397,
+      "balance_loss_clip": 1.04862869,
+      "balance_loss_mlp": 1.02215672,
+      "epoch": 0.5729573738952685,
+      "flos": 21506613736320.0,
+      "grad_norm": 2.2136668723257085,
+      "language_loss": 0.81815732,
+      "learning_rate": 1.626737220761596e-06,
+      "loss": 0.84040976,
+      "num_input_tokens_seen": 102872750,
+      "step": 4765,
+      "time_per_iteration": 2.7283742427825928
+    },
+    {
+      "auxiliary_loss_clip": 0.0118402,
+      "auxiliary_loss_mlp": 0.01026634,
+      "balance_loss_clip": 1.05199504,
+      "balance_loss_mlp": 1.01923752,
+      "epoch": 0.5730776167859075,
+      "flos": 23621680229760.0,
+      "grad_norm": 2.1771583333708464,
+      "language_loss": 0.78581923,
+      "learning_rate": 1.62597196396958e-06,
+      "loss": 0.80792576,
+      "num_input_tokens_seen": 102890920,
+      "step": 4766,
+      "time_per_iteration": 2.65975022315979
+    },
+    {
+      "auxiliary_loss_clip": 0.01187065,
+      "auxiliary_loss_mlp": 0.01026618,
+      "balance_loss_clip": 1.05267859,
+      "balance_loss_mlp": 1.01838064,
+      "epoch": 0.5731978596765466,
+      "flos": 25739224761600.0,
+      "grad_norm": 2.1913488273143797,
+      "language_loss": 0.85307133,
+      "learning_rate": 1.6252067639173197e-06,
+      "loss": 0.87520814,
+      "num_input_tokens_seen": 102912830,
+      "step": 4767,
+      "time_per_iteration": 2.685936212539673
+    },
+    {
+      "auxiliary_loss_clip": 0.01187978,
+      "auxiliary_loss_mlp": 0.01025455,
+      "balance_loss_clip": 1.05113828,
+      "balance_loss_mlp": 1.01772451,
+      "epoch": 0.5733181025671857,
+      "flos": 26359509749760.0,
+      "grad_norm": 1.9015254829317498,
+      "language_loss": 0.69895118,
+      "learning_rate": 1.6244416207208956e-06,
+      "loss": 0.72108555,
+      "num_input_tokens_seen": 102933765,
+      "step": 4768,
+      "time_per_iteration": 2.651395797729492
+    },
+    {
+      "auxiliary_loss_clip": 0.01202848,
+      "auxiliary_loss_mlp": 0.01026228,
+      "balance_loss_clip": 1.04772592,
+      "balance_loss_mlp": 1.01869404,
+      "epoch": 0.5734383454578248,
+      "flos": 29423874833280.0,
+      "grad_norm": 1.845047190745912,
+      "language_loss": 0.73823094,
+      "learning_rate": 1.6236765344963787e-06,
+      "loss": 0.76052171,
+      "num_input_tokens_seen": 102955025,
+      "step": 4769,
+      "time_per_iteration": 4.479487895965576
+    },
+    {
+      "auxiliary_loss_clip": 0.01195433,
+      "auxiliary_loss_mlp": 0.01025111,
+      "balance_loss_clip": 1.05133271,
+      "balance_loss_mlp": 1.01727343,
+      "epoch": 0.5735585883484638,
+      "flos": 34969954487040.0,
+      "grad_norm": 3.383500056224,
+      "language_loss": 0.69275862,
+      "learning_rate": 1.6229115053598322e-06,
+      "loss": 0.71496409,
+      "num_input_tokens_seen": 102976780,
+      "step": 4770,
+      "time_per_iteration": 3.6855883598327637
+    },
+    {
+      "auxiliary_loss_clip": 0.01189603,
+      "auxiliary_loss_mlp": 0.01030177,
+      "balance_loss_clip": 1.05371332,
+      "balance_loss_mlp": 1.0227623,
+      "epoch": 0.573678831239103,
+      "flos": 18770759464320.0,
+      "grad_norm": 1.9995419433947477,
+      "language_loss": 0.72244662,
+      "learning_rate": 1.6221465334273108e-06,
+      "loss": 0.7446444,
+      "num_input_tokens_seen": 102995990,
+      "step": 4771,
+      "time_per_iteration": 2.6783673763275146
+    },
+    {
+      "auxiliary_loss_clip": 0.01209394,
+      "auxiliary_loss_mlp": 0.01026684,
+      "balance_loss_clip": 1.04892349,
+      "balance_loss_mlp": 1.0191319,
+      "epoch": 0.5737990741297421,
+      "flos": 25702883176320.0,
+      "grad_norm": 2.6158964096297335,
+      "language_loss": 0.61759734,
+      "learning_rate": 1.6213816188148593e-06,
+      "loss": 0.63995814,
+      "num_input_tokens_seen": 103014695,
+      "step": 4772,
+      "time_per_iteration": 2.733689546585083
+    },
+    {
+      "auxiliary_loss_clip": 0.01183647,
+      "auxiliary_loss_mlp": 0.0102838,
+      "balance_loss_clip": 1.04807007,
+      "balance_loss_mlp": 1.02126598,
+      "epoch": 0.5739193170203811,
+      "flos": 27269234530560.0,
+      "grad_norm": 1.5734794879468268,
+      "language_loss": 0.77103269,
+      "learning_rate": 1.6206167616385162e-06,
+      "loss": 0.79315293,
+      "num_input_tokens_seen": 103035760,
+      "step": 4773,
+      "time_per_iteration": 3.6787490844726562
+    },
+    {
+      "auxiliary_loss_clip": 0.01201383,
+      "auxiliary_loss_mlp": 0.01029302,
+      "balance_loss_clip": 1.05229211,
+      "balance_loss_mlp": 1.02124906,
+      "epoch": 0.5740395599110203,
+      "flos": 12239721993600.0,
+      "grad_norm": 1.89094182883935,
+      "language_loss": 0.73745644,
+      "learning_rate": 1.6198519620143078e-06,
+      "loss": 0.7597633,
+      "num_input_tokens_seen": 103052915,
+      "step": 4774,
+      "time_per_iteration": 2.67010235786438
+    },
+    {
+      "auxiliary_loss_clip": 0.01207455,
+      "auxiliary_loss_mlp": 0.01027462,
+      "balance_loss_clip": 1.04839683,
+      "balance_loss_mlp": 1.01957083,
+      "epoch": 0.5741598028016593,
+      "flos": 25921399564800.0,
+      "grad_norm": 1.6494065125497137,
+      "language_loss": 0.78192514,
+      "learning_rate": 1.6190872200582546e-06,
+      "loss": 0.80427426,
+      "num_input_tokens_seen": 103074655,
+      "step": 4775,
+      "time_per_iteration": 2.787111759185791
+    },
+    {
+      "auxiliary_loss_clip": 0.01189624,
+      "auxiliary_loss_mlp": 0.01378678,
+      "balance_loss_clip": 1.04821658,
+      "balance_loss_mlp": 1.00015914,
+      "epoch": 0.5742800456922984,
+      "flos": 19244133826560.0,
+      "grad_norm": 3.0148482803565213,
+      "language_loss": 0.7788949,
+      "learning_rate": 1.6183225358863676e-06,
+      "loss": 0.80457795,
+      "num_input_tokens_seen": 103091550,
+      "step": 4776,
+      "time_per_iteration": 2.664595365524292
+    },
+    {
+      "auxiliary_loss_clip": 0.01185311,
+      "auxiliary_loss_mlp": 0.01025465,
+      "balance_loss_clip": 1.04607415,
+      "balance_loss_mlp": 1.01744807,
+      "epoch": 0.5744002885829376,
+      "flos": 30920487932160.0,
+      "grad_norm": 2.3954749933987207,
+      "language_loss": 0.72038364,
+      "learning_rate": 1.617557909614648e-06,
+      "loss": 0.74249136,
+      "num_input_tokens_seen": 103110985,
+      "step": 4777,
+      "time_per_iteration": 2.750925302505493
+    },
+    {
+      "auxiliary_loss_clip": 0.01198096,
+      "auxiliary_loss_mlp": 0.01030668,
+      "balance_loss_clip": 1.0458504,
+      "balance_loss_mlp": 1.02319109,
+      "epoch": 0.5745205314735766,
+      "flos": 23840017050240.0,
+      "grad_norm": 1.9679160790447816,
+      "language_loss": 0.86385322,
+      "learning_rate": 1.6167933413590899e-06,
+      "loss": 0.88614094,
+      "num_input_tokens_seen": 103129890,
+      "step": 4778,
+      "time_per_iteration": 2.7711572647094727
+    },
+    {
+      "auxiliary_loss_clip": 0.01186896,
+      "auxiliary_loss_mlp": 0.0103204,
+      "balance_loss_clip": 1.05247998,
+      "balance_loss_mlp": 1.0238626,
+      "epoch": 0.5746407743642157,
+      "flos": 12311902373760.0,
+      "grad_norm": 2.4258942818025657,
+      "language_loss": 0.90584075,
+      "learning_rate": 1.6160288312356773e-06,
+      "loss": 0.92803013,
+      "num_input_tokens_seen": 103147020,
+      "step": 4779,
+      "time_per_iteration": 2.5931711196899414
+    },
+    {
+      "auxiliary_loss_clip": 0.01189001,
+      "auxiliary_loss_mlp": 0.01025498,
+      "balance_loss_clip": 1.05039752,
+      "balance_loss_mlp": 1.01803541,
+      "epoch": 0.5747610172548548,
+      "flos": 24133658734080.0,
+      "grad_norm": 1.8305776733731465,
+      "language_loss": 0.81754726,
+      "learning_rate": 1.6152643793603857e-06,
+      "loss": 0.83969223,
+      "num_input_tokens_seen": 103167370,
+      "step": 4780,
+      "time_per_iteration": 2.7874908447265625
+    },
+    {
+      "auxiliary_loss_clip": 0.01176968,
+      "auxiliary_loss_mlp": 0.01028863,
+      "balance_loss_clip": 1.05164444,
+      "balance_loss_mlp": 1.02088833,
+      "epoch": 0.5748812601454939,
+      "flos": 25408451393280.0,
+      "grad_norm": 1.8717545566221356,
+      "language_loss": 0.87908888,
+      "learning_rate": 1.6144999858491815e-06,
+      "loss": 0.90114719,
+      "num_input_tokens_seen": 103186000,
+      "step": 4781,
+      "time_per_iteration": 2.624628782272339
+    },
+    {
+      "auxiliary_loss_clip": 0.01197938,
+      "auxiliary_loss_mlp": 0.01022936,
+      "balance_loss_clip": 1.04863095,
+      "balance_loss_mlp": 1.01469851,
+      "epoch": 0.575001503036133,
+      "flos": 30624942827520.0,
+      "grad_norm": 3.416795237685919,
+      "language_loss": 0.85910976,
+      "learning_rate": 1.6137356508180232e-06,
+      "loss": 0.88131845,
+      "num_input_tokens_seen": 103207710,
+      "step": 4782,
+      "time_per_iteration": 2.7461915016174316
+    },
+    {
+      "auxiliary_loss_clip": 0.01177689,
+      "auxiliary_loss_mlp": 0.01378833,
+      "balance_loss_clip": 1.05106807,
+      "balance_loss_mlp": 1.00015235,
+      "epoch": 0.5751217459267721,
+      "flos": 21726566668800.0,
+      "grad_norm": 2.293829302182643,
+      "language_loss": 0.80993915,
+      "learning_rate": 1.6129713743828593e-06,
+      "loss": 0.83550429,
+      "num_input_tokens_seen": 103226720,
+      "step": 4783,
+      "time_per_iteration": 2.585479497909546
+    },
+    {
+      "auxiliary_loss_clip": 0.01192809,
+      "auxiliary_loss_mlp": 0.01024937,
+      "balance_loss_clip": 1.04661238,
+      "balance_loss_mlp": 1.01780534,
+      "epoch": 0.5752419888174112,
+      "flos": 21651620941440.0,
+      "grad_norm": 3.010472948757005,
+      "language_loss": 0.75591862,
+      "learning_rate": 1.6122071566596306e-06,
+      "loss": 0.77809608,
+      "num_input_tokens_seen": 103246995,
+      "step": 4784,
+      "time_per_iteration": 2.8080015182495117
+    },
+    {
+      "auxiliary_loss_clip": 0.0118797,
+      "auxiliary_loss_mlp": 0.01029895,
+      "balance_loss_clip": 1.05102348,
+      "balance_loss_mlp": 1.02228332,
+      "epoch": 0.5753622317080502,
+      "flos": 17775997234560.0,
+      "grad_norm": 2.4040024470966874,
+      "language_loss": 0.83082616,
+      "learning_rate": 1.6114429977642674e-06,
+      "loss": 0.85300481,
+      "num_input_tokens_seen": 103261500,
+      "step": 4785,
+      "time_per_iteration": 2.530289649963379
+    },
+    {
+      "auxiliary_loss_clip": 0.01187319,
+      "auxiliary_loss_mlp": 0.01030533,
+      "balance_loss_clip": 1.05324411,
+      "balance_loss_mlp": 1.02353287,
+      "epoch": 0.5754824745986894,
+      "flos": 19789616741760.0,
+      "grad_norm": 1.6639193636083833,
+      "language_loss": 0.74153411,
+      "learning_rate": 1.6106788978126926e-06,
+      "loss": 0.76371264,
+      "num_input_tokens_seen": 103280475,
+      "step": 4786,
+      "time_per_iteration": 2.6612958908081055
+    },
+    {
+      "auxiliary_loss_clip": 0.01206462,
+      "auxiliary_loss_mlp": 0.01026435,
+      "balance_loss_clip": 1.04225278,
+      "balance_loss_mlp": 1.01841259,
+      "epoch": 0.5756027174893285,
+      "flos": 30985665160320.0,
+      "grad_norm": 2.8503491016850924,
+      "language_loss": 0.78528178,
+      "learning_rate": 1.6099148569208196e-06,
+      "loss": 0.80761075,
+      "num_input_tokens_seen": 103297695,
+      "step": 4787,
+      "time_per_iteration": 2.804701805114746
+    },
+    {
+      "auxiliary_loss_clip": 0.01194272,
+      "auxiliary_loss_mlp": 0.0102775,
+      "balance_loss_clip": 1.05114949,
+      "balance_loss_mlp": 1.01984012,
+      "epoch": 0.5757229603799675,
+      "flos": 28546864364160.0,
+      "grad_norm": 1.8965882151813527,
+      "language_loss": 0.62709117,
+      "learning_rate": 1.6091508752045523e-06,
+      "loss": 0.64931136,
+      "num_input_tokens_seen": 103318575,
+      "step": 4788,
+      "time_per_iteration": 2.7485127449035645
+    },
+    {
+      "auxiliary_loss_clip": 0.01191422,
+      "auxiliary_loss_mlp": 0.01028736,
+      "balance_loss_clip": 1.04231083,
+      "balance_loss_mlp": 1.02064121,
+      "epoch": 0.5758432032706067,
+      "flos": 22999024944000.0,
+      "grad_norm": 1.5979812133747526,
+      "language_loss": 0.86290514,
+      "learning_rate": 1.608386952779787e-06,
+      "loss": 0.88510674,
+      "num_input_tokens_seen": 103337945,
+      "step": 4789,
+      "time_per_iteration": 2.728635787963867
+    },
+    {
+      "auxiliary_loss_clip": 0.01199626,
+      "auxiliary_loss_mlp": 0.01027373,
+      "balance_loss_clip": 1.05001712,
+      "balance_loss_mlp": 1.01931143,
+      "epoch": 0.5759634461612457,
+      "flos": 25739727552000.0,
+      "grad_norm": 1.587811981808485,
+      "language_loss": 0.74758101,
+      "learning_rate": 1.6076230897624098e-06,
+      "loss": 0.76985097,
+      "num_input_tokens_seen": 103360150,
+      "step": 4790,
+      "time_per_iteration": 2.722787380218506
+    },
+    {
+      "auxiliary_loss_clip": 0.01186291,
+      "auxiliary_loss_mlp": 0.01028729,
+      "balance_loss_clip": 1.04908121,
+      "balance_loss_mlp": 1.02068245,
+      "epoch": 0.5760836890518848,
+      "flos": 30591761639040.0,
+      "grad_norm": 2.1323656091621834,
+      "language_loss": 0.77352846,
+      "learning_rate": 1.6068592862682974e-06,
+      "loss": 0.79567868,
+      "num_input_tokens_seen": 103378305,
+      "step": 4791,
+      "time_per_iteration": 2.7700233459472656
+    },
+    {
+      "auxiliary_loss_clip": 0.01199254,
+      "auxiliary_loss_mlp": 0.01028573,
+      "balance_loss_clip": 1.05172861,
+      "balance_loss_mlp": 1.02111936,
+      "epoch": 0.576203931942524,
+      "flos": 36538963447680.0,
+      "grad_norm": 1.7999128603595542,
+      "language_loss": 0.73818582,
+      "learning_rate": 1.6060955424133187e-06,
+      "loss": 0.76046407,
+      "num_input_tokens_seen": 103399230,
+      "step": 4792,
+      "time_per_iteration": 2.8996293544769287
+    },
+    {
+      "auxiliary_loss_clip": 0.0118486,
+      "auxiliary_loss_mlp": 0.01024578,
+      "balance_loss_clip": 1.0511241,
+      "balance_loss_mlp": 1.01635814,
+      "epoch": 0.576324174833163,
+      "flos": 25516937445120.0,
+      "grad_norm": 3.6879083043451217,
+      "language_loss": 0.893677,
+      "learning_rate": 1.6053318583133332e-06,
+      "loss": 0.91577142,
+      "num_input_tokens_seen": 103420100,
+      "step": 4793,
+      "time_per_iteration": 2.686967372894287
+    },
+    {
+      "auxiliary_loss_clip": 0.01183409,
+      "auxiliary_loss_mlp": 0.01022962,
+      "balance_loss_clip": 1.04962075,
+      "balance_loss_mlp": 1.01551771,
+      "epoch": 0.5764444177238021,
+      "flos": 25119262995840.0,
+      "grad_norm": 2.369787117982701,
+      "language_loss": 0.74926293,
+      "learning_rate": 1.6045682340841907e-06,
+      "loss": 0.77132666,
+      "num_input_tokens_seen": 103439025,
+      "step": 4794,
+      "time_per_iteration": 2.752265453338623
+    },
+    {
+      "auxiliary_loss_clip": 0.01112912,
+      "auxiliary_loss_mlp": 0.01373794,
+      "balance_loss_clip": 1.01751304,
+      "balance_loss_mlp": 0.9998706,
+      "epoch": 0.5765646606144411,
+      "flos": 62212687758720.0,
+      "grad_norm": 0.7493410378436927,
+      "language_loss": 0.58024514,
+      "learning_rate": 1.6038046698417336e-06,
+      "loss": 0.6051122,
+      "num_input_tokens_seen": 103499920,
+      "step": 4795,
+      "time_per_iteration": 5.037665367126465
+    },
+    {
+      "auxiliary_loss_clip": 0.01184823,
+      "auxiliary_loss_mlp": 0.01028481,
+      "balance_loss_clip": 1.0498625,
+      "balance_loss_mlp": 1.02017832,
+      "epoch": 0.5766849035050803,
+      "flos": 25118760205440.0,
+      "grad_norm": 1.7637198589306777,
+      "language_loss": 0.68365031,
+      "learning_rate": 1.6030411657017919e-06,
+      "loss": 0.70578337,
+      "num_input_tokens_seen": 103519575,
+      "step": 4796,
+      "time_per_iteration": 3.623316526412964
+    },
+    {
+      "auxiliary_loss_clip": 0.0117685,
+      "auxiliary_loss_mlp": 0.01024551,
+      "balance_loss_clip": 1.04971242,
+      "balance_loss_mlp": 1.01747012,
+      "epoch": 0.5768051463957193,
+      "flos": 15991093578240.0,
+      "grad_norm": 1.890727893079794,
+      "language_loss": 0.84441018,
+      "learning_rate": 1.6022777217801903e-06,
+      "loss": 0.86642414,
+      "num_input_tokens_seen": 103536530,
+      "step": 4797,
+      "time_per_iteration": 2.5901365280151367
+    },
+    {
+      "auxiliary_loss_clip": 0.01209863,
+      "auxiliary_loss_mlp": 0.01027575,
+      "balance_loss_clip": 1.05383301,
+      "balance_loss_mlp": 1.0194931,
+      "epoch": 0.5769253892863584,
+      "flos": 22163635359360.0,
+      "grad_norm": 2.346129741176678,
+      "language_loss": 0.73858368,
+      "learning_rate": 1.601514338192742e-06,
+      "loss": 0.76095808,
+      "num_input_tokens_seen": 103556460,
+      "step": 4798,
+      "time_per_iteration": 3.5992770195007324
+    },
+    {
+      "auxiliary_loss_clip": 0.01173882,
+      "auxiliary_loss_mlp": 0.01022884,
+      "balance_loss_clip": 1.05162072,
+      "balance_loss_mlp": 1.01575243,
+      "epoch": 0.5770456321769976,
+      "flos": 22856388036480.0,
+      "grad_norm": 2.8230430258099735,
+      "language_loss": 0.71565241,
+      "learning_rate": 1.6007510150552514e-06,
+      "loss": 0.73762012,
+      "num_input_tokens_seen": 103574520,
+      "step": 4799,
+      "time_per_iteration": 2.589027166366577
+    },
+    {
+      "auxiliary_loss_clip": 0.01190207,
+      "auxiliary_loss_mlp": 0.01027796,
+      "balance_loss_clip": 1.05013537,
+      "balance_loss_mlp": 1.01920366,
+      "epoch": 0.5771658750676366,
+      "flos": 46353672489600.0,
+      "grad_norm": 1.495351583141527,
+      "language_loss": 0.62303042,
+      "learning_rate": 1.599987752483515e-06,
+      "loss": 0.64521044,
+      "num_input_tokens_seen": 103598965,
+      "step": 4800,
+      "time_per_iteration": 2.8211605548858643
+    },
+    {
+      "auxiliary_loss_clip": 0.01193535,
+      "auxiliary_loss_mlp": 0.01026678,
+      "balance_loss_clip": 1.04477549,
+      "balance_loss_mlp": 1.01927173,
+      "epoch": 0.5772861179582757,
+      "flos": 22159972172160.0,
+      "grad_norm": 1.6830468488260446,
+      "language_loss": 0.67977065,
+      "learning_rate": 1.5992245505933184e-06,
+      "loss": 0.70197272,
+      "num_input_tokens_seen": 103618665,
+      "step": 4801,
+      "time_per_iteration": 2.735440731048584
+    },
+    {
+      "auxiliary_loss_clip": 0.01180318,
+      "auxiliary_loss_mlp": 0.0103177,
+      "balance_loss_clip": 1.05390286,
+      "balance_loss_mlp": 1.02383053,
+      "epoch": 0.5774063608489148,
+      "flos": 31248926916480.0,
+      "grad_norm": 2.1427884506284185,
+      "language_loss": 0.71234202,
+      "learning_rate": 1.5984614095004388e-06,
+      "loss": 0.73446286,
+      "num_input_tokens_seen": 103639800,
+      "step": 4802,
+      "time_per_iteration": 2.770792007446289
+    },
+    {
+      "auxiliary_loss_clip": 0.01176545,
+      "auxiliary_loss_mlp": 0.01031622,
+      "balance_loss_clip": 1.0478543,
+      "balance_loss_mlp": 1.02375376,
+      "epoch": 0.5775266037395539,
+      "flos": 22527123039360.0,
+      "grad_norm": 2.0727116919953623,
+      "language_loss": 0.80911523,
+      "learning_rate": 1.5976983293206438e-06,
+      "loss": 0.8311969,
+      "num_input_tokens_seen": 103655605,
+      "step": 4803,
+      "time_per_iteration": 2.6991071701049805
+    },
+    {
+      "auxiliary_loss_clip": 0.01188382,
+      "auxiliary_loss_mlp": 0.01026689,
+      "balance_loss_clip": 1.04557467,
+      "balance_loss_mlp": 1.01905942,
+      "epoch": 0.577646846630193,
+      "flos": 21068790860160.0,
+      "grad_norm": 14.274625439716555,
+      "language_loss": 0.7160399,
+      "learning_rate": 1.5969353101696928e-06,
+      "loss": 0.73819059,
+      "num_input_tokens_seen": 103674045,
+      "step": 4804,
+      "time_per_iteration": 2.65514874458313
+    },
+    {
+      "auxiliary_loss_clip": 0.01184465,
+      "auxiliary_loss_mlp": 0.01030243,
+      "balance_loss_clip": 1.04875863,
+      "balance_loss_mlp": 1.02271461,
+      "epoch": 0.5777670895208321,
+      "flos": 29714284293120.0,
+      "grad_norm": 1.6881081364594006,
+      "language_loss": 0.79349661,
+      "learning_rate": 1.5961723521633341e-06,
+      "loss": 0.81564373,
+      "num_input_tokens_seen": 103695285,
+      "step": 4805,
+      "time_per_iteration": 2.7793328762054443
+    },
+    {
+      "auxiliary_loss_clip": 0.0118773,
+      "auxiliary_loss_mlp": 0.01024255,
+      "balance_loss_clip": 1.04736722,
+      "balance_loss_mlp": 1.01679575,
+      "epoch": 0.5778873324114712,
+      "flos": 19500428344320.0,
+      "grad_norm": 2.181900412966423,
+      "language_loss": 0.9042663,
+      "learning_rate": 1.5954094554173097e-06,
+      "loss": 0.92638612,
+      "num_input_tokens_seen": 103713275,
+      "step": 4806,
+      "time_per_iteration": 2.6690189838409424
+    },
+    {
+      "auxiliary_loss_clip": 0.01201002,
+      "auxiliary_loss_mlp": 0.01019287,
+      "balance_loss_clip": 1.05111563,
+      "balance_loss_mlp": 1.01245689,
+      "epoch": 0.5780075753021102,
+      "flos": 14136846716160.0,
+      "grad_norm": 1.9433650574981685,
+      "language_loss": 0.79119712,
+      "learning_rate": 1.5946466200473482e-06,
+      "loss": 0.81340003,
+      "num_input_tokens_seen": 103731185,
+      "step": 4807,
+      "time_per_iteration": 2.633751153945923
+    },
+    {
+      "auxiliary_loss_clip": 0.01197251,
+      "auxiliary_loss_mlp": 0.01025772,
+      "balance_loss_clip": 1.0471499,
+      "balance_loss_mlp": 1.01870322,
+      "epoch": 0.5781278181927494,
+      "flos": 15262178883840.0,
+      "grad_norm": 1.9041963853773922,
+      "language_loss": 0.8341338,
+      "learning_rate": 1.5938838461691723e-06,
+      "loss": 0.85636407,
+      "num_input_tokens_seen": 103748095,
+      "step": 4808,
+      "time_per_iteration": 2.695213794708252
+    },
+    {
+      "auxiliary_loss_clip": 0.01180428,
+      "auxiliary_loss_mlp": 0.01029715,
+      "balance_loss_clip": 1.05444908,
+      "balance_loss_mlp": 1.0220443,
+      "epoch": 0.5782480610833884,
+      "flos": 16726831856640.0,
+      "grad_norm": 3.296296451106676,
+      "language_loss": 0.82680118,
+      "learning_rate": 1.593121133898494e-06,
+      "loss": 0.84890264,
+      "num_input_tokens_seen": 103765300,
+      "step": 4809,
+      "time_per_iteration": 2.5641534328460693
+    },
+    {
+      "auxiliary_loss_clip": 0.01194744,
+      "auxiliary_loss_mlp": 0.01029784,
+      "balance_loss_clip": 1.05298936,
+      "balance_loss_mlp": 1.02154088,
+      "epoch": 0.5783683039740275,
+      "flos": 25482140144640.0,
+      "grad_norm": 2.108882324526585,
+      "language_loss": 0.79220885,
+      "learning_rate": 1.592358483351016e-06,
+      "loss": 0.8144542,
+      "num_input_tokens_seen": 103785475,
+      "step": 4810,
+      "time_per_iteration": 2.704834461212158
+    },
+    {
+      "auxiliary_loss_clip": 0.01184614,
+      "auxiliary_loss_mlp": 0.01024593,
+      "balance_loss_clip": 1.0500896,
+      "balance_loss_mlp": 1.01729107,
+      "epoch": 0.5784885468646667,
+      "flos": 18405835240320.0,
+      "grad_norm": 2.0528379940961354,
+      "language_loss": 0.7231313,
+      "learning_rate": 1.5915958946424326e-06,
+      "loss": 0.7452234,
+      "num_input_tokens_seen": 103804160,
+      "step": 4811,
+      "time_per_iteration": 2.600417137145996
+    },
+    {
+      "auxiliary_loss_clip": 0.01204357,
+      "auxiliary_loss_mlp": 0.01379246,
+      "balance_loss_clip": 1.04771352,
+      "balance_loss_mlp": 1.0001725,
+      "epoch": 0.5786087897553057,
+      "flos": 46100717936640.0,
+      "grad_norm": 1.8553706284583507,
+      "language_loss": 0.74427634,
+      "learning_rate": 1.5908333678884271e-06,
+      "loss": 0.77011245,
+      "num_input_tokens_seen": 103830580,
+      "step": 4812,
+      "time_per_iteration": 2.9886412620544434
+    },
+    {
+      "auxiliary_loss_clip": 0.01185526,
+      "auxiliary_loss_mlp": 0.01024475,
+      "balance_loss_clip": 1.05058384,
+      "balance_loss_mlp": 1.01696491,
+      "epoch": 0.5787290326459448,
+      "flos": 12385950261120.0,
+      "grad_norm": 1.9508367475598687,
+      "language_loss": 0.7380631,
+      "learning_rate": 1.5900709032046743e-06,
+      "loss": 0.76016307,
+      "num_input_tokens_seen": 103848655,
+      "step": 4813,
+      "time_per_iteration": 2.685457229614258
+    },
+    {
+      "auxiliary_loss_clip": 0.01196039,
+      "auxiliary_loss_mlp": 0.01023584,
+      "balance_loss_clip": 1.05353725,
+      "balance_loss_mlp": 1.01615751,
+      "epoch": 0.5788492755365839,
+      "flos": 23290332243840.0,
+      "grad_norm": 6.91880045363904,
+      "language_loss": 0.78126955,
+      "learning_rate": 1.5893085007068391e-06,
+      "loss": 0.80346584,
+      "num_input_tokens_seen": 103866215,
+      "step": 4814,
+      "time_per_iteration": 2.7484130859375
+    },
+    {
+      "auxiliary_loss_clip": 0.01179964,
+      "auxiliary_loss_mlp": 0.0103486,
+      "balance_loss_clip": 1.04487288,
+      "balance_loss_mlp": 1.02638388,
+      "epoch": 0.578969518427223,
+      "flos": 24061047390720.0,
+      "grad_norm": 2.1706790827454174,
+      "language_loss": 0.70701647,
+      "learning_rate": 1.5885461605105786e-06,
+      "loss": 0.72916472,
+      "num_input_tokens_seen": 103887815,
+      "step": 4815,
+      "time_per_iteration": 2.6977715492248535
+    },
+    {
+      "auxiliary_loss_clip": 0.01195141,
+      "auxiliary_loss_mlp": 0.010307,
+      "balance_loss_clip": 1.04869175,
+      "balance_loss_mlp": 1.0226351,
+      "epoch": 0.579089761317862,
+      "flos": 21871825269120.0,
+      "grad_norm": 2.1615622256303326,
+      "language_loss": 0.76957691,
+      "learning_rate": 1.5877838827315375e-06,
+      "loss": 0.79183531,
+      "num_input_tokens_seen": 103906360,
+      "step": 4816,
+      "time_per_iteration": 2.7050514221191406
+    },
+    {
+      "auxiliary_loss_clip": 0.0117613,
+      "auxiliary_loss_mlp": 0.01025908,
+      "balance_loss_clip": 1.05182481,
+      "balance_loss_mlp": 1.01788473,
+      "epoch": 0.5792100042085012,
+      "flos": 22929681738240.0,
+      "grad_norm": 1.7225727698253972,
+      "language_loss": 0.70664269,
+      "learning_rate": 1.587021667485355e-06,
+      "loss": 0.72866309,
+      "num_input_tokens_seen": 103925730,
+      "step": 4817,
+      "time_per_iteration": 2.667398452758789
+    },
+    {
+      "auxiliary_loss_clip": 0.01197439,
+      "auxiliary_loss_mlp": 0.01030254,
+      "balance_loss_clip": 1.0474751,
+      "balance_loss_mlp": 1.02276707,
+      "epoch": 0.5793302470991403,
+      "flos": 21470056669440.0,
+      "grad_norm": 1.7116972545038946,
+      "language_loss": 0.78421128,
+      "learning_rate": 1.5862595148876559e-06,
+      "loss": 0.80648816,
+      "num_input_tokens_seen": 103945835,
+      "step": 4818,
+      "time_per_iteration": 2.7048046588897705
+    },
+    {
+      "auxiliary_loss_clip": 0.01211178,
+      "auxiliary_loss_mlp": 0.01027304,
+      "balance_loss_clip": 1.04553461,
+      "balance_loss_mlp": 1.01910853,
+      "epoch": 0.5794504899897793,
+      "flos": 12711013367040.0,
+      "grad_norm": 2.457878824908087,
+      "language_loss": 0.76279104,
+      "learning_rate": 1.58549742505406e-06,
+      "loss": 0.78517592,
+      "num_input_tokens_seen": 103960580,
+      "step": 4819,
+      "time_per_iteration": 2.7765660285949707
+    },
+    {
+      "auxiliary_loss_clip": 0.01178369,
+      "auxiliary_loss_mlp": 0.0102734,
+      "balance_loss_clip": 1.05169666,
+      "balance_loss_mlp": 1.01878047,
+      "epoch": 0.5795707328804185,
+      "flos": 14867054300160.0,
+      "grad_norm": 1.955390528661184,
+      "language_loss": 0.75794625,
+      "learning_rate": 1.5847353981001747e-06,
+      "loss": 0.78000331,
+      "num_input_tokens_seen": 103977760,
+      "step": 4820,
+      "time_per_iteration": 3.5173113346099854
+    },
+    {
+      "auxiliary_loss_clip": 0.01183482,
+      "auxiliary_loss_mlp": 0.01027397,
+      "balance_loss_clip": 1.04469347,
+      "balance_loss_mlp": 1.01927829,
+      "epoch": 0.5796909757710575,
+      "flos": 36430046432640.0,
+      "grad_norm": 1.9036018484228647,
+      "language_loss": 0.69890356,
+      "learning_rate": 1.5839734341415993e-06,
+      "loss": 0.72101229,
+      "num_input_tokens_seen": 103999960,
+      "step": 4821,
+      "time_per_iteration": 3.7130117416381836
+    },
+    {
+      "auxiliary_loss_clip": 0.01178894,
+      "auxiliary_loss_mlp": 0.01024574,
+      "balance_loss_clip": 1.05147088,
+      "balance_loss_mlp": 1.01721549,
+      "epoch": 0.5798112186616966,
+      "flos": 23039891642880.0,
+      "grad_norm": 2.467906495536079,
+      "language_loss": 0.76385826,
+      "learning_rate": 1.5832115332939238e-06,
+      "loss": 0.78589296,
+      "num_input_tokens_seen": 104018400,
+      "step": 4822,
+      "time_per_iteration": 3.5508084297180176
+    },
+    {
+      "auxiliary_loss_clip": 0.01188115,
+      "auxiliary_loss_mlp": 0.0102355,
+      "balance_loss_clip": 1.0508604,
+      "balance_loss_mlp": 1.01598322,
+      "epoch": 0.5799314615523358,
+      "flos": 16652604401280.0,
+      "grad_norm": 1.6234978556490467,
+      "language_loss": 0.74938208,
+      "learning_rate": 1.5824496956727272e-06,
+      "loss": 0.7714988,
+      "num_input_tokens_seen": 104035605,
+      "step": 4823,
+      "time_per_iteration": 2.6096272468566895
+    },
+    {
+      "auxiliary_loss_clip": 0.01194812,
+      "auxiliary_loss_mlp": 0.0102442,
+      "balance_loss_clip": 1.04914641,
+      "balance_loss_mlp": 1.01773787,
+      "epoch": 0.5800517044429748,
+      "flos": 20485673470080.0,
+      "grad_norm": 2.226324518453105,
+      "language_loss": 0.73417664,
+      "learning_rate": 1.5816879213935797e-06,
+      "loss": 0.75636899,
+      "num_input_tokens_seen": 104054415,
+      "step": 4824,
+      "time_per_iteration": 2.721134901046753
+    },
+    {
+      "auxiliary_loss_clip": 0.01181411,
+      "auxiliary_loss_mlp": 0.0102741,
+      "balance_loss_clip": 1.0504775,
+      "balance_loss_mlp": 1.01999533,
+      "epoch": 0.5801719473336139,
+      "flos": 31538258968320.0,
+      "grad_norm": 1.5503388870247385,
+      "language_loss": 0.79654193,
+      "learning_rate": 1.5809262105720416e-06,
+      "loss": 0.8186301,
+      "num_input_tokens_seen": 104075455,
+      "step": 4825,
+      "time_per_iteration": 3.640547513961792
+    },
+    {
+      "auxiliary_loss_clip": 0.01174401,
+      "auxiliary_loss_mlp": 0.01025046,
+      "balance_loss_clip": 1.05147195,
+      "balance_loss_mlp": 1.01753628,
+      "epoch": 0.580292190224253,
+      "flos": 20375966355840.0,
+      "grad_norm": 1.5330811698691795,
+      "language_loss": 0.79349494,
+      "learning_rate": 1.5801645633236644e-06,
+      "loss": 0.81548941,
+      "num_input_tokens_seen": 104096440,
+      "step": 4826,
+      "time_per_iteration": 2.578209400177002
+    },
+    {
+      "auxiliary_loss_clip": 0.01186107,
+      "auxiliary_loss_mlp": 0.01030607,
+      "balance_loss_clip": 1.04639518,
+      "balance_loss_mlp": 1.02310276,
+      "epoch": 0.5804124331148921,
+      "flos": 26615373304320.0,
+      "grad_norm": 2.0401035283760587,
+      "language_loss": 0.77037597,
+      "learning_rate": 1.579402979763989e-06,
+      "loss": 0.79254311,
+      "num_input_tokens_seen": 104116775,
+      "step": 4827,
+      "time_per_iteration": 2.7139346599578857
+    },
+    {
+      "auxiliary_loss_clip": 0.01235609,
+      "auxiliary_loss_mlp": 0.01027302,
+      "balance_loss_clip": 1.04872441,
+      "balance_loss_mlp": 1.01989341,
+      "epoch": 0.5805326760055312,
+      "flos": 13478496289920.0,
+      "grad_norm": 2.22041693299378,
+      "language_loss": 0.81688166,
+      "learning_rate": 1.578641460008548e-06,
+      "loss": 0.8395108,
+      "num_input_tokens_seen": 104134510,
+      "step": 4828,
+      "time_per_iteration": 2.71773099899292
+    },
+    {
+      "auxiliary_loss_clip": 0.01183943,
+      "auxiliary_loss_mlp": 0.0102968,
+      "balance_loss_clip": 1.05019486,
+      "balance_loss_mlp": 1.022223,
+      "epoch": 0.5806529188961702,
+      "flos": 12091374823680.0,
+      "grad_norm": 2.2612288181952085,
+      "language_loss": 0.68177164,
+      "learning_rate": 1.5778800041728613e-06,
+      "loss": 0.70390785,
+      "num_input_tokens_seen": 104150800,
+      "step": 4829,
+      "time_per_iteration": 2.584672212600708
+    },
+    {
+      "auxiliary_loss_clip": 0.01179295,
+      "auxiliary_loss_mlp": 0.01024194,
+      "balance_loss_clip": 1.04878092,
+      "balance_loss_mlp": 1.01710057,
+      "epoch": 0.5807731617868094,
+      "flos": 26214107495040.0,
+      "grad_norm": 1.7343921105485103,
+      "language_loss": 0.65866363,
+      "learning_rate": 1.577118612372443e-06,
+      "loss": 0.68069851,
+      "num_input_tokens_seen": 104172640,
+      "step": 4830,
+      "time_per_iteration": 2.666156530380249
+    },
+    {
+      "auxiliary_loss_clip": 0.01189339,
+      "auxiliary_loss_mlp": 0.01379091,
+      "balance_loss_clip": 1.04708457,
+      "balance_loss_mlp": 1.0000912,
+      "epoch": 0.5808934046774484,
+      "flos": 37962139190400.0,
+      "grad_norm": 1.6313122091219616,
+      "language_loss": 0.70823133,
+      "learning_rate": 1.5763572847227943e-06,
+      "loss": 0.73391563,
+      "num_input_tokens_seen": 104193525,
+      "step": 4831,
+      "time_per_iteration": 2.808462619781494
+    },
+    {
+      "auxiliary_loss_clip": 0.0118544,
+      "auxiliary_loss_mlp": 0.01023019,
+      "balance_loss_clip": 1.04982591,
+      "balance_loss_mlp": 1.01582432,
+      "epoch": 0.5810136475680875,
+      "flos": 20485853038080.0,
+      "grad_norm": 1.9970361059303787,
+      "language_loss": 0.81237626,
+      "learning_rate": 1.5755960213394091e-06,
+      "loss": 0.83446079,
+      "num_input_tokens_seen": 104210625,
+      "step": 4832,
+      "time_per_iteration": 2.627732753753662
+    },
+    {
+      "auxiliary_loss_clip": 0.0120466,
+      "auxiliary_loss_mlp": 0.01022511,
+      "balance_loss_clip": 1.04730606,
+      "balance_loss_mlp": 1.01554012,
+      "epoch": 0.5811338904587267,
+      "flos": 17530153574400.0,
+      "grad_norm": 1.8043146192666475,
+      "language_loss": 0.78264725,
+      "learning_rate": 1.5748348223377703e-06,
+      "loss": 0.804919,
+      "num_input_tokens_seen": 104228180,
+      "step": 4833,
+      "time_per_iteration": 2.7221221923828125
+    },
+    {
+      "auxiliary_loss_clip": 0.0119597,
+      "auxiliary_loss_mlp": 0.01023003,
+      "balance_loss_clip": 1.05219889,
+      "balance_loss_mlp": 1.01574874,
+      "epoch": 0.5812541333493657,
+      "flos": 19458017360640.0,
+      "grad_norm": 1.5339914669634982,
+      "language_loss": 0.7803793,
+      "learning_rate": 1.5740736878333507e-06,
+      "loss": 0.80256903,
+      "num_input_tokens_seen": 104246020,
+      "step": 4834,
+      "time_per_iteration": 2.634526491165161
+    },
+    {
+      "auxiliary_loss_clip": 0.01195856,
+      "auxiliary_loss_mlp": 0.01026326,
+      "balance_loss_clip": 1.04737139,
+      "balance_loss_mlp": 1.01913524,
+      "epoch": 0.5813743762400048,
+      "flos": 20594949621120.0,
+      "grad_norm": 10.934106729296534,
+      "language_loss": 0.77676874,
+      "learning_rate": 1.5733126179416143e-06,
+      "loss": 0.79899055,
+      "num_input_tokens_seen": 104260505,
+      "step": 4835,
+      "time_per_iteration": 2.736595392227173
+    },
+    {
+      "auxiliary_loss_clip": 0.01183438,
+      "auxiliary_loss_mlp": 0.01020985,
+      "balance_loss_clip": 1.05025256,
+      "balance_loss_mlp": 1.01360297,
+      "epoch": 0.5814946191306439,
+      "flos": 33178227246720.0,
+      "grad_norm": 1.9397033120024165,
+      "language_loss": 0.72699046,
+      "learning_rate": 1.5725516127780137e-06,
+      "loss": 0.7490347,
+      "num_input_tokens_seen": 104282640,
+      "step": 4836,
+      "time_per_iteration": 2.751741886138916
+    },
+    {
+      "auxiliary_loss_clip": 0.0119304,
+      "auxiliary_loss_mlp": 0.01029431,
+      "balance_loss_clip": 1.05050516,
+      "balance_loss_mlp": 1.02111602,
+      "epoch": 0.581614862021283,
+      "flos": 16143283503360.0,
+      "grad_norm": 2.3221356701370044,
+      "language_loss": 0.88010895,
+      "learning_rate": 1.5717906724579943e-06,
+      "loss": 0.90233362,
+      "num_input_tokens_seen": 104299700,
+      "step": 4837,
+      "time_per_iteration": 2.6494925022125244
+    },
+    {
+      "auxiliary_loss_clip": 0.01209916,
+      "auxiliary_loss_mlp": 0.01028793,
+      "balance_loss_clip": 1.04798639,
+      "balance_loss_mlp": 1.02167583,
+      "epoch": 0.581735104911922,
+      "flos": 33802642298880.0,
+      "grad_norm": 2.6813502519702395,
+      "language_loss": 0.68134302,
+      "learning_rate": 1.571029797096989e-06,
+      "loss": 0.70373011,
+      "num_input_tokens_seen": 104320805,
+      "step": 4838,
+      "time_per_iteration": 2.8542933464050293
+    },
+    {
+      "auxiliary_loss_clip": 0.01171948,
+      "auxiliary_loss_mlp": 0.01027865,
+      "balance_loss_clip": 1.04948366,
+      "balance_loss_mlp": 1.02028656,
+      "epoch": 0.5818553478025612,
+      "flos": 23331163029120.0,
+      "grad_norm": 1.9638468770582664,
+      "language_loss": 0.78773975,
+      "learning_rate": 1.570268986810423e-06,
+      "loss": 0.80973798,
+      "num_input_tokens_seen": 104340700,
+      "step": 4839,
+      "time_per_iteration": 2.59895396232605
+    },
+    {
+      "auxiliary_loss_clip": 0.01190548,
+      "auxiliary_loss_mlp": 0.01024476,
+      "balance_loss_clip": 1.04732168,
+      "balance_loss_mlp": 1.0169065,
+      "epoch": 0.5819755906932003,
+      "flos": 20996143603200.0,
+      "grad_norm": 2.5715140094094315,
+      "language_loss": 0.74369788,
+      "learning_rate": 1.5695082417137096e-06,
+      "loss": 0.76584804,
+      "num_input_tokens_seen": 104358575,
+      "step": 4840,
+      "time_per_iteration": 2.8211193084716797
+    },
+    {
+      "auxiliary_loss_clip": 0.01187607,
+      "auxiliary_loss_mlp": 0.01030814,
+      "balance_loss_clip": 1.04379702,
+      "balance_loss_mlp": 1.02409399,
+      "epoch": 0.5820958335838393,
+      "flos": 21431668008960.0,
+      "grad_norm": 2.1888603765485586,
+      "language_loss": 0.7509467,
+      "learning_rate": 1.5687475619222539e-06,
+      "loss": 0.77313089,
+      "num_input_tokens_seen": 104378530,
+      "step": 4841,
+      "time_per_iteration": 2.6931798458099365
+    },
+    {
+      "auxiliary_loss_clip": 0.01180984,
+      "auxiliary_loss_mlp": 0.0102443,
+      "balance_loss_clip": 1.04337835,
+      "balance_loss_mlp": 1.01651454,
+      "epoch": 0.5822160764744785,
+      "flos": 17967473660160.0,
+      "grad_norm": 2.776963621413354,
+      "language_loss": 0.72990531,
+      "learning_rate": 1.5679869475514496e-06,
+      "loss": 0.75195944,
+      "num_input_tokens_seen": 104395465,
+      "step": 4842,
+      "time_per_iteration": 2.661700487136841
+    },
+    {
+      "auxiliary_loss_clip": 0.01184462,
+      "auxiliary_loss_mlp": 0.01026038,
+      "balance_loss_clip": 1.04931712,
+      "balance_loss_mlp": 1.0187217,
+      "epoch": 0.5823363193651175,
+      "flos": 23033858158080.0,
+      "grad_norm": 2.4806663064898675,
+      "language_loss": 0.81046623,
+      "learning_rate": 1.567226398716682e-06,
+      "loss": 0.83257127,
+      "num_input_tokens_seen": 104415380,
+      "step": 4843,
+      "time_per_iteration": 2.623974084854126
+    },
+    {
+      "auxiliary_loss_clip": 0.01201232,
+      "auxiliary_loss_mlp": 0.01026304,
+      "balance_loss_clip": 1.04920971,
+      "balance_loss_mlp": 1.01810288,
+      "epoch": 0.5824565622557566,
+      "flos": 32891840110080.0,
+      "grad_norm": 4.859982576040207,
+      "language_loss": 0.62006754,
+      "learning_rate": 1.566465915533326e-06,
+      "loss": 0.64234293,
+      "num_input_tokens_seen": 104437410,
+      "step": 4844,
+      "time_per_iteration": 2.856506586074829
+    },
+    {
+      "auxiliary_loss_clip": 0.01181072,
+      "auxiliary_loss_mlp": 0.01025409,
+      "balance_loss_clip": 1.04954839,
+      "balance_loss_mlp": 1.01784468,
+      "epoch": 0.5825768051463958,
+      "flos": 22229674513920.0,
+      "grad_norm": 1.8419350428303076,
+      "language_loss": 0.88355112,
+      "learning_rate": 1.5657054981167458e-06,
+      "loss": 0.90561593,
+      "num_input_tokens_seen": 104456305,
+      "step": 4845,
+      "time_per_iteration": 2.635943651199341
+    },
+    {
+      "auxiliary_loss_clip": 0.01177758,
+      "auxiliary_loss_mlp": 0.01027414,
+      "balance_loss_clip": 1.04742932,
+      "balance_loss_mlp": 1.02017212,
+      "epoch": 0.5826970480370348,
+      "flos": 28001561016960.0,
+      "grad_norm": 1.698160452577204,
+      "language_loss": 0.67972159,
+      "learning_rate": 1.5649451465822965e-06,
+      "loss": 0.70177323,
+      "num_input_tokens_seen": 104477695,
+      "step": 4846,
+      "time_per_iteration": 3.627601146697998
+    },
+    {
+      "auxiliary_loss_clip": 0.01210167,
+      "auxiliary_loss_mlp": 0.01029011,
+      "balance_loss_clip": 1.0486269,
+      "balance_loss_mlp": 1.0216316,
+      "epoch": 0.5828172909276739,
+      "flos": 17858053854720.0,
+      "grad_norm": 1.6095921780484277,
+      "language_loss": 0.83627629,
+      "learning_rate": 1.5641848610453218e-06,
+      "loss": 0.85866809,
+      "num_input_tokens_seen": 104496355,
+      "step": 4847,
+      "time_per_iteration": 3.734710216522217
+    },
+    {
+      "auxiliary_loss_clip": 0.01181862,
+      "auxiliary_loss_mlp": 0.01027603,
+      "balance_loss_clip": 1.05126429,
+      "balance_loss_mlp": 1.02004528,
+      "epoch": 0.582937533818313,
+      "flos": 19865244827520.0,
+      "grad_norm": 2.072400498922807,
+      "language_loss": 0.85673451,
+      "learning_rate": 1.563424641621158e-06,
+      "loss": 0.87882918,
+      "num_input_tokens_seen": 104515535,
+      "step": 4848,
+      "time_per_iteration": 3.5718181133270264
+    },
+    {
+      "auxiliary_loss_clip": 0.01195195,
+      "auxiliary_loss_mlp": 0.01025315,
+      "balance_loss_clip": 1.04736865,
+      "balance_loss_mlp": 1.01736939,
+      "epoch": 0.5830577767089521,
+      "flos": 26870734068480.0,
+      "grad_norm": 1.8441546943370064,
+      "language_loss": 0.70176154,
+      "learning_rate": 1.5626644884251282e-06,
+      "loss": 0.72396672,
+      "num_input_tokens_seen": 104535055,
+      "step": 4849,
+      "time_per_iteration": 2.7213635444641113
+    },
+    {
+      "auxiliary_loss_clip": 0.01171318,
+      "auxiliary_loss_mlp": 0.0102317,
+      "balance_loss_clip": 1.04900229,
+      "balance_loss_mlp": 1.01615191,
+      "epoch": 0.5831780195995911,
+      "flos": 25298205575040.0,
+      "grad_norm": 1.5533564572639507,
+      "language_loss": 0.87817246,
+      "learning_rate": 1.5619044015725488e-06,
+      "loss": 0.9001174,
+      "num_input_tokens_seen": 104554745,
+      "step": 4850,
+      "time_per_iteration": 2.660586357116699
+    },
+    {
+      "auxiliary_loss_clip": 0.01183438,
+      "auxiliary_loss_mlp": 0.01024529,
+      "balance_loss_clip": 1.0559175,
+      "balance_loss_mlp": 1.01653552,
+      "epoch": 0.5832982624902303,
+      "flos": 14756988049920.0,
+      "grad_norm": 2.2583595271879715,
+      "language_loss": 0.86968774,
+      "learning_rate": 1.5611443811787224e-06,
+      "loss": 0.89176732,
+      "num_input_tokens_seen": 104568870,
+      "step": 4851,
+      "time_per_iteration": 3.477557897567749
+    },
+    {
+      "auxiliary_loss_clip": 0.0118104,
+      "auxiliary_loss_mlp": 0.01025561,
+      "balance_loss_clip": 1.04948282,
+      "balance_loss_mlp": 1.0186677,
+      "epoch": 0.5834185053808694,
+      "flos": 20444555376000.0,
+      "grad_norm": 2.235763048429158,
+      "language_loss": 0.69337231,
+      "learning_rate": 1.560384427358945e-06,
+      "loss": 0.71543837,
+      "num_input_tokens_seen": 104588415,
+      "step": 4852,
+      "time_per_iteration": 2.6310524940490723
+    },
+    {
+      "auxiliary_loss_clip": 0.01181624,
+      "auxiliary_loss_mlp": 0.01026488,
+      "balance_loss_clip": 1.04264009,
+      "balance_loss_mlp": 1.01930547,
+      "epoch": 0.5835387482715084,
+      "flos": 27200394115200.0,
+      "grad_norm": 1.4467175607997855,
+      "language_loss": 0.72680473,
+      "learning_rate": 1.5596245402284998e-06,
+      "loss": 0.74888587,
+      "num_input_tokens_seen": 104611940,
+      "step": 4853,
+      "time_per_iteration": 2.696119785308838
+    },
+    {
+      "auxiliary_loss_clip": 0.01186384,
+      "auxiliary_loss_mlp": 0.01028206,
+      "balance_loss_clip": 1.05204558,
+      "balance_loss_mlp": 1.02068377,
+      "epoch": 0.5836589911621476,
+      "flos": 16654615562880.0,
+      "grad_norm": 1.7414298969092812,
+      "language_loss": 0.82100284,
+      "learning_rate": 1.5588647199026619e-06,
+      "loss": 0.84314871,
+      "num_input_tokens_seen": 104629675,
+      "step": 4854,
+      "time_per_iteration": 2.641765594482422
+    },
+    {
+      "auxiliary_loss_clip": 0.01180191,
+      "auxiliary_loss_mlp": 0.01027529,
+      "balance_loss_clip": 1.05420887,
+      "balance_loss_mlp": 1.01958954,
+      "epoch": 0.5837792340527866,
+      "flos": 20446817932800.0,
+      "grad_norm": 2.380193852947612,
+      "language_loss": 0.87155586,
+      "learning_rate": 1.5581049664966956e-06,
+      "loss": 0.89363307,
+      "num_input_tokens_seen": 104647435,
+      "step": 4855,
+      "time_per_iteration": 2.5473251342773438
+    },
+    {
+      "auxiliary_loss_clip": 0.01137067,
+      "auxiliary_loss_mlp": 0.01002209,
+      "balance_loss_clip": 1.01548326,
+      "balance_loss_mlp": 1.00074291,
+      "epoch": 0.5838994769434257,
+      "flos": 65995480765440.0,
+      "grad_norm": 0.9851960704627538,
+      "language_loss": 0.65123177,
+      "learning_rate": 1.5573452801258545e-06,
+      "loss": 0.67262459,
+      "num_input_tokens_seen": 104694605,
+      "step": 4856,
+      "time_per_iteration": 3.074672222137451
+    },
+    {
+      "auxiliary_loss_clip": 0.01189153,
+      "auxiliary_loss_mlp": 0.01025083,
+      "balance_loss_clip": 1.05038548,
+      "balance_loss_mlp": 1.01756716,
+      "epoch": 0.5840197198340649,
+      "flos": 21470523546240.0,
+      "grad_norm": 1.9948178406110058,
+      "language_loss": 0.63401371,
+      "learning_rate": 1.5565856609053824e-06,
+      "loss": 0.65615606,
+      "num_input_tokens_seen": 104713400,
+      "step": 4857,
+      "time_per_iteration": 2.7106540203094482
+    },
+    {
+      "auxiliary_loss_clip": 0.01177501,
+      "auxiliary_loss_mlp": 0.01024888,
+      "balance_loss_clip": 1.05163288,
+      "balance_loss_mlp": 1.01709139,
+      "epoch": 0.5841399627247039,
+      "flos": 19135144984320.0,
+      "grad_norm": 1.784677463079084,
+      "language_loss": 0.80291796,
+      "learning_rate": 1.5558261089505127e-06,
+      "loss": 0.82494181,
+      "num_input_tokens_seen": 104732130,
+      "step": 4858,
+      "time_per_iteration": 2.545693874359131
+    },
+    {
+      "auxiliary_loss_clip": 0.011878,
+      "auxiliary_loss_mlp": 0.01026496,
+      "balance_loss_clip": 1.05279589,
+      "balance_loss_mlp": 1.01898623,
+      "epoch": 0.584260205615343,
+      "flos": 26425692558720.0,
+      "grad_norm": 1.885345348569696,
+      "language_loss": 0.79777807,
+      "learning_rate": 1.5550666243764697e-06,
+      "loss": 0.81992102,
+      "num_input_tokens_seen": 104750290,
+      "step": 4859,
+      "time_per_iteration": 2.6878652572631836
+    },
+    {
+      "auxiliary_loss_clip": 0.0118813,
+      "auxiliary_loss_mlp": 0.01028631,
+      "balance_loss_clip": 1.05249977,
+      "balance_loss_mlp": 1.02098978,
+      "epoch": 0.584380448505982,
+      "flos": 13881809174400.0,
+      "grad_norm": 2.0524066010976165,
+      "language_loss": 0.77324939,
+      "learning_rate": 1.554307207298465e-06,
+      "loss": 0.79541701,
+      "num_input_tokens_seen": 104768550,
+      "step": 4860,
+      "time_per_iteration": 2.6185011863708496
+    },
+    {
+      "auxiliary_loss_clip": 0.01176968,
+      "auxiliary_loss_mlp": 0.01026922,
+      "balance_loss_clip": 1.05183721,
+      "balance_loss_mlp": 1.01884246,
+      "epoch": 0.5845006913966212,
+      "flos": 21543709507200.0,
+      "grad_norm": 2.028196277564857,
+      "language_loss": 0.78713149,
+      "learning_rate": 1.553547857831704e-06,
+      "loss": 0.80917037,
+      "num_input_tokens_seen": 104785060,
+      "step": 4861,
+      "time_per_iteration": 2.6018574237823486
+    },
+    {
+      "auxiliary_loss_clip": 0.01072896,
+      "auxiliary_loss_mlp": 0.01002648,
+      "balance_loss_clip": 1.01668,
+      "balance_loss_mlp": 1.00134897,
+      "epoch": 0.5846209342872603,
+      "flos": 58375452712320.0,
+      "grad_norm": 0.8871750242934636,
+      "language_loss": 0.64215672,
+      "learning_rate": 1.5527885760913771e-06,
+      "loss": 0.66291213,
+      "num_input_tokens_seen": 104834950,
+      "step": 4862,
+      "time_per_iteration": 2.9832000732421875
+    },
+    {
+      "auxiliary_loss_clip": 0.01193909,
+      "auxiliary_loss_mlp": 0.01025338,
+      "balance_loss_clip": 1.05112875,
+      "balance_loss_mlp": 1.0185883,
+      "epoch": 0.5847411771778993,
+      "flos": 18588045957120.0,
+      "grad_norm": 1.5400927699063411,
+      "language_loss": 0.76549459,
+      "learning_rate": 1.552029362192668e-06,
+      "loss": 0.787687,
+      "num_input_tokens_seen": 104854210,
+      "step": 4863,
+      "time_per_iteration": 2.653881788253784
+    },
+    {
+      "auxiliary_loss_clip": 0.01197316,
+      "auxiliary_loss_mlp": 0.01024133,
+      "balance_loss_clip": 1.04727793,
+      "balance_loss_mlp": 1.01677203,
+      "epoch": 0.5848614200685385,
+      "flos": 24240780069120.0,
+      "grad_norm": 2.6239223934619336,
+      "language_loss": 0.72430557,
+      "learning_rate": 1.5512702162507478e-06,
+      "loss": 0.74652004,
+      "num_input_tokens_seen": 104874525,
+      "step": 4864,
+      "time_per_iteration": 2.7079696655273438
+    },
+    {
+      "auxiliary_loss_clip": 0.01096932,
+      "auxiliary_loss_mlp": 0.0100106,
+      "balance_loss_clip": 1.01543617,
+      "balance_loss_mlp": 0.99976045,
+      "epoch": 0.5849816629591775,
+      "flos": 71660245933440.0,
+      "grad_norm": 1.1307008950543531,
+      "language_loss": 0.55755633,
+      "learning_rate": 1.5505111383807792e-06,
+      "loss": 0.57853621,
+      "num_input_tokens_seen": 104937195,
+      "step": 4865,
+      "time_per_iteration": 3.2816059589385986
+    },
+    {
+      "auxiliary_loss_clip": 0.0120951,
+      "auxiliary_loss_mlp": 0.01027568,
+      "balance_loss_clip": 1.04283023,
+      "balance_loss_mlp": 1.02030861,
+      "epoch": 0.5851019058498166,
+      "flos": 23802095266560.0,
+      "grad_norm": 1.7900652840352809,
+      "language_loss": 0.80482519,
+      "learning_rate": 1.5497521286979138e-06,
+      "loss": 0.82719588,
+      "num_input_tokens_seen": 104957435,
+      "step": 4866,
+      "time_per_iteration": 2.7309088706970215
+    },
+    {
+      "auxiliary_loss_clip": 0.01205487,
+      "auxiliary_loss_mlp": 0.01028943,
+      "balance_loss_clip": 1.04567051,
+      "balance_loss_mlp": 1.02062857,
+      "epoch": 0.5852221487404557,
+      "flos": 24388516707840.0,
+      "grad_norm": 1.959504779706754,
+      "language_loss": 0.74263656,
+      "learning_rate": 1.5489931873172927e-06,
+      "loss": 0.76498085,
+      "num_input_tokens_seen": 104978755,
+      "step": 4867,
+      "time_per_iteration": 2.702197313308716
+    },
+    {
+      "auxiliary_loss_clip": 0.01197452,
+      "auxiliary_loss_mlp": 0.0102674,
+      "balance_loss_clip": 1.03872156,
+      "balance_loss_mlp": 1.01899791,
+      "epoch": 0.5853423916310948,
+      "flos": 27271425260160.0,
+      "grad_norm": 1.621314166342712,
+      "language_loss": 0.79208881,
+      "learning_rate": 1.5482343143540467e-06,
+      "loss": 0.8143307,
+      "num_input_tokens_seen": 105000020,
+      "step": 4868,
+      "time_per_iteration": 2.8234126567840576
+    },
+    {
+      "auxiliary_loss_clip": 0.01203675,
+      "auxiliary_loss_mlp": 0.01378125,
+      "balance_loss_clip": 1.04612207,
+      "balance_loss_mlp": 1.00008988,
+      "epoch": 0.5854626345217339,
+      "flos": 11983786611840.0,
+      "grad_norm": 2.581387551630424,
+      "language_loss": 0.82619458,
+      "learning_rate": 1.547475509923295e-06,
+      "loss": 0.85201257,
+      "num_input_tokens_seen": 105017060,
+      "step": 4869,
+      "time_per_iteration": 2.7942123413085938
+    },
+    {
+      "auxiliary_loss_clip": 0.01122571,
+      "auxiliary_loss_mlp": 0.00999512,
+      "balance_loss_clip": 1.0148648,
+      "balance_loss_mlp": 0.99813509,
+      "epoch": 0.585582877412373,
+      "flos": 64342335173760.0,
+      "grad_norm": 0.7256745423376223,
+      "language_loss": 0.56047952,
+      "learning_rate": 1.5467167741401495e-06,
+      "loss": 0.58170033,
+      "num_input_tokens_seen": 105078540,
+      "step": 4870,
+      "time_per_iteration": 3.319235324859619
+    },
+    {
+      "auxiliary_loss_clip": 0.01189266,
+      "auxiliary_loss_mlp": 0.01027398,
+      "balance_loss_clip": 1.04690504,
+      "balance_loss_mlp": 1.01912475,
+      "epoch": 0.5857031203030121,
+      "flos": 17011926103680.0,
+      "grad_norm": 2.309740679961388,
+      "language_loss": 0.71239281,
+      "learning_rate": 1.5459581071197083e-06,
+      "loss": 0.73455942,
+      "num_input_tokens_seen": 105094200,
+      "step": 4871,
+      "time_per_iteration": 2.653958559036255
+    },
+    {
+      "auxiliary_loss_clip": 0.01188015,
+      "auxiliary_loss_mlp": 0.01025987,
+      "balance_loss_clip": 1.05222654,
+      "balance_loss_mlp": 1.01833379,
+      "epoch": 0.5858233631936511,
+      "flos": 20885682303360.0,
+      "grad_norm": 2.2152507438662816,
+      "language_loss": 0.83042067,
+      "learning_rate": 1.5451995089770624e-06,
+      "loss": 0.8525607,
+      "num_input_tokens_seen": 105113985,
+      "step": 4872,
+      "time_per_iteration": 3.6209311485290527
+    },
+    {
+      "auxiliary_loss_clip": 0.01175393,
+      "auxiliary_loss_mlp": 0.01023281,
+      "balance_loss_clip": 1.05211985,
+      "balance_loss_mlp": 1.01674557,
+      "epoch": 0.5859436060842903,
+      "flos": 23191902000000.0,
+      "grad_norm": 1.3507240333272335,
+      "language_loss": 0.71721065,
+      "learning_rate": 1.5444409798272885e-06,
+      "loss": 0.73919737,
+      "num_input_tokens_seen": 105138075,
+      "step": 4873,
+      "time_per_iteration": 3.6690468788146973
+    },
+    {
+      "auxiliary_loss_clip": 0.01204605,
+      "auxiliary_loss_mlp": 0.0102259,
+      "balance_loss_clip": 1.04791474,
+      "balance_loss_mlp": 1.01490736,
+      "epoch": 0.5860638489749294,
+      "flos": 22492648961280.0,
+      "grad_norm": 1.9381795754469806,
+      "language_loss": 0.80582458,
+      "learning_rate": 1.543682519785456e-06,
+      "loss": 0.82809657,
+      "num_input_tokens_seen": 105156555,
+      "step": 4874,
+      "time_per_iteration": 3.660700798034668
+    },
+    {
+      "auxiliary_loss_clip": 0.01190959,
+      "auxiliary_loss_mlp": 0.01026173,
+      "balance_loss_clip": 1.04825926,
+      "balance_loss_mlp": 1.0182997,
+      "epoch": 0.5861840918655684,
+      "flos": 17566243764480.0,
+      "grad_norm": 3.5240934223445066,
+      "language_loss": 0.79885304,
+      "learning_rate": 1.5429241289666219e-06,
+      "loss": 0.82102436,
+      "num_input_tokens_seen": 105174055,
+      "step": 4875,
+      "time_per_iteration": 2.683790445327759
+    },
+    {
+      "auxiliary_loss_clip": 0.01185723,
+      "auxiliary_loss_mlp": 0.01023676,
+      "balance_loss_clip": 1.04687119,
+      "balance_loss_mlp": 1.01631212,
+      "epoch": 0.5863043347562076,
+      "flos": 25556152118400.0,
+      "grad_norm": 1.9734183691470555,
+      "language_loss": 0.69774848,
+      "learning_rate": 1.5421658074858342e-06,
+      "loss": 0.71984243,
+      "num_input_tokens_seen": 105192160,
+      "step": 4876,
+      "time_per_iteration": 2.727687120437622
+    },
+    {
+      "auxiliary_loss_clip": 0.01189973,
+      "auxiliary_loss_mlp": 0.01024136,
+      "balance_loss_clip": 1.0489701,
+      "balance_loss_mlp": 1.0163517,
+      "epoch": 0.5864245776468466,
+      "flos": 20667525050880.0,
+      "grad_norm": 2.6476262989959722,
+      "language_loss": 0.66449606,
+      "learning_rate": 1.5414075554581298e-06,
+      "loss": 0.6866371,
+      "num_input_tokens_seen": 105210205,
+      "step": 4877,
+      "time_per_iteration": 3.5154473781585693
+    },
+    {
+      "auxiliary_loss_clip": 0.01176179,
+      "auxiliary_loss_mlp": 0.01028745,
+      "balance_loss_clip": 1.04960823,
+      "balance_loss_mlp": 1.02121115,
+      "epoch": 0.5865448205374857,
+      "flos": 28913907490560.0,
+      "grad_norm": 2.635644820410014,
+      "language_loss": 0.78735292,
+      "learning_rate": 1.5406493729985348e-06,
+      "loss": 0.80940211,
+      "num_input_tokens_seen": 105229400,
+      "step": 4878,
+      "time_per_iteration": 2.608513116836548
+    },
+    {
+      "auxiliary_loss_clip": 0.0121607,
+      "auxiliary_loss_mlp": 0.013789,
+      "balance_loss_clip": 1.04770291,
+      "balance_loss_mlp": 1.00016236,
+      "epoch": 0.5866650634281249,
+      "flos": 25842575168640.0,
+      "grad_norm": 2.1795970102892066,
+      "language_loss": 0.71919042,
+      "learning_rate": 1.5398912602220644e-06,
+      "loss": 0.74514008,
+      "num_input_tokens_seen": 105248675,
+      "step": 4879,
+      "time_per_iteration": 2.845057487487793
+    },
+    {
+      "auxiliary_loss_clip": 0.01222671,
+      "auxiliary_loss_mlp": 0.01024787,
+      "balance_loss_clip": 1.04697871,
+      "balance_loss_mlp": 1.01679444,
+      "epoch": 0.5867853063187639,
+      "flos": 17052325925760.0,
+      "grad_norm": 2.1988013631947982,
+      "language_loss": 0.78759611,
+      "learning_rate": 1.539133217243724e-06,
+      "loss": 0.81007069,
+      "num_input_tokens_seen": 105265695,
+      "step": 4880,
+      "time_per_iteration": 2.69659161567688
+    },
+    {
+      "auxiliary_loss_clip": 0.01207074,
+      "auxiliary_loss_mlp": 0.01028355,
+      "balance_loss_clip": 1.04693079,
+      "balance_loss_mlp": 1.02003431,
+      "epoch": 0.586905549209403,
+      "flos": 24645026707200.0,
+      "grad_norm": 2.2659555035145726,
+      "language_loss": 0.76425028,
+      "learning_rate": 1.5383752441785081e-06,
+      "loss": 0.78660458,
+      "num_input_tokens_seen": 105284920,
+      "step": 4881,
+      "time_per_iteration": 2.747098684310913
+    },
+    {
+      "auxiliary_loss_clip": 0.01190485,
+      "auxiliary_loss_mlp": 0.01028848,
+      "balance_loss_clip": 1.05193508,
+      "balance_loss_mlp": 1.02056313,
+      "epoch": 0.5870257921000421,
+      "flos": 14720538723840.0,
+      "grad_norm": 2.0409455262955216,
+      "language_loss": 0.85557038,
+      "learning_rate": 1.5376173411414003e-06,
+      "loss": 0.87776375,
+      "num_input_tokens_seen": 105302960,
+      "step": 4882,
+      "time_per_iteration": 2.590705633163452
+    },
+    {
+      "auxiliary_loss_clip": 0.01191806,
+      "auxiliary_loss_mlp": 0.01022306,
+      "balance_loss_clip": 1.04563951,
+      "balance_loss_mlp": 1.01470637,
+      "epoch": 0.5871460349906812,
+      "flos": 23914998691200.0,
+      "grad_norm": 1.9887558430285261,
+      "language_loss": 0.79355538,
+      "learning_rate": 1.5368595082473753e-06,
+      "loss": 0.81569654,
+      "num_input_tokens_seen": 105321260,
+      "step": 4883,
+      "time_per_iteration": 2.6891181468963623
+    },
+    {
+      "auxiliary_loss_clip": 0.0118651,
+      "auxiliary_loss_mlp": 0.01024913,
+      "balance_loss_clip": 1.04945004,
+      "balance_loss_mlp": 1.01765597,
+      "epoch": 0.5872662778813202,
+      "flos": 22164174063360.0,
+      "grad_norm": 1.7963619600666978,
+      "language_loss": 0.77854705,
+      "learning_rate": 1.5361017456113935e-06,
+      "loss": 0.80066121,
+      "num_input_tokens_seen": 105341610,
+      "step": 4884,
+      "time_per_iteration": 2.615159034729004
+    },
+    {
+      "auxiliary_loss_clip": 0.01184743,
+      "auxiliary_loss_mlp": 0.01028338,
+      "balance_loss_clip": 1.04885566,
+      "balance_loss_mlp": 1.02083409,
+      "epoch": 0.5873865207719594,
+      "flos": 18441925430400.0,
+      "grad_norm": 1.9003211409964442,
+      "language_loss": 0.86006391,
+      "learning_rate": 1.5353440533484085e-06,
+      "loss": 0.88219476,
+      "num_input_tokens_seen": 105360465,
+      "step": 4885,
+      "time_per_iteration": 2.7642979621887207
+    },
+    {
+      "auxiliary_loss_clip": 0.01195744,
+      "auxiliary_loss_mlp": 0.01029774,
+      "balance_loss_clip": 1.04835296,
+      "balance_loss_mlp": 1.02156591,
+      "epoch": 0.5875067636625985,
+      "flos": 54015321427200.0,
+      "grad_norm": 1.771784593372174,
+      "language_loss": 0.65918803,
+      "learning_rate": 1.534586431573361e-06,
+      "loss": 0.68144321,
+      "num_input_tokens_seen": 105385405,
+      "step": 4886,
+      "time_per_iteration": 2.943300485610962
+    },
+    {
+      "auxiliary_loss_clip": 0.01216551,
+      "auxiliary_loss_mlp": 0.0102936,
+      "balance_loss_clip": 1.04199529,
+      "balance_loss_mlp": 1.02108705,
+      "epoch": 0.5876270065532375,
+      "flos": 27995707100160.0,
+      "grad_norm": 2.091257437835265,
+      "language_loss": 0.79089093,
+      "learning_rate": 1.5338288804011817e-06,
+      "loss": 0.81335002,
+      "num_input_tokens_seen": 105404905,
+      "step": 4887,
+      "time_per_iteration": 2.8546030521392822
+    },
+    {
+      "auxiliary_loss_clip": 0.01184722,
+      "auxiliary_loss_mlp": 0.01026729,
+      "balance_loss_clip": 1.04446745,
+      "balance_loss_mlp": 1.01877165,
+      "epoch": 0.5877472494438767,
+      "flos": 21361462876800.0,
+      "grad_norm": 1.8815274140704696,
+      "language_loss": 0.71161306,
+      "learning_rate": 1.533071399946791e-06,
+      "loss": 0.73372757,
+      "num_input_tokens_seen": 105423650,
+      "step": 4888,
+      "time_per_iteration": 2.6376094818115234
+    },
+    {
+      "auxiliary_loss_clip": 0.01196665,
+      "auxiliary_loss_mlp": 0.01030165,
+      "balance_loss_clip": 1.04762363,
+      "balance_loss_mlp": 1.02277422,
+      "epoch": 0.5878674923345157,
+      "flos": 22383013674240.0,
+      "grad_norm": 1.9323954555474923,
+      "language_loss": 0.57212341,
+      "learning_rate": 1.5323139903250977e-06,
+      "loss": 0.5943917,
+      "num_input_tokens_seen": 105444255,
+      "step": 4889,
+      "time_per_iteration": 2.7016048431396484
+    },
+    {
+      "auxiliary_loss_clip": 0.01198742,
+      "auxiliary_loss_mlp": 0.01025372,
+      "balance_loss_clip": 1.05222154,
+      "balance_loss_mlp": 1.01751041,
+      "epoch": 0.5879877352251548,
+      "flos": 21868664872320.0,
+      "grad_norm": 1.4418096988148235,
+      "language_loss": 0.76725775,
+      "learning_rate": 1.5315566516510002e-06,
+      "loss": 0.78949881,
+      "num_input_tokens_seen": 105462425,
+      "step": 4890,
+      "time_per_iteration": 2.6725475788116455
+    },
+    {
+      "auxiliary_loss_clip": 0.01177878,
+      "auxiliary_loss_mlp": 0.01025893,
+      "balance_loss_clip": 1.05291975,
+      "balance_loss_mlp": 1.01828122,
+      "epoch": 0.5881079781157939,
+      "flos": 17493811989120.0,
+      "grad_norm": 1.7555598056851252,
+      "language_loss": 0.67619002,
+      "learning_rate": 1.5307993840393857e-06,
+      "loss": 0.69822776,
+      "num_input_tokens_seen": 105480505,
+      "step": 4891,
+      "time_per_iteration": 2.7021844387054443
+    },
+    {
+      "auxiliary_loss_clip": 0.01174695,
+      "auxiliary_loss_mlp": 0.0102649,
+      "balance_loss_clip": 1.05000997,
+      "balance_loss_mlp": 1.01895034,
+      "epoch": 0.588228221006433,
+      "flos": 22601853285120.0,
+      "grad_norm": 2.1023521488289805,
+      "language_loss": 0.80380136,
+      "learning_rate": 1.530042187605132e-06,
+      "loss": 0.82581317,
+      "num_input_tokens_seen": 105499760,
+      "step": 4892,
+      "time_per_iteration": 2.6224076747894287
+    },
+    {
+      "auxiliary_loss_clip": 0.01185717,
+      "auxiliary_loss_mlp": 0.0137835,
+      "balance_loss_clip": 1.05002832,
+      "balance_loss_mlp": 1.00014091,
+      "epoch": 0.5883484638970721,
+      "flos": 26176939896960.0,
+      "grad_norm": 1.4172563100195699,
+      "language_loss": 0.83997506,
+      "learning_rate": 1.5292850624631044e-06,
+      "loss": 0.86561573,
+      "num_input_tokens_seen": 105521955,
+      "step": 4893,
+      "time_per_iteration": 2.6764559745788574
+    },
+    {
+      "auxiliary_loss_clip": 0.01181688,
+      "auxiliary_loss_mlp": 0.01028983,
+      "balance_loss_clip": 1.05117702,
+      "balance_loss_mlp": 1.02137768,
+      "epoch": 0.5884687067877111,
+      "flos": 30443737691520.0,
+      "grad_norm": 3.6489903285640115,
+      "language_loss": 0.80214965,
+      "learning_rate": 1.5285280087281593e-06,
+      "loss": 0.82425636,
+      "num_input_tokens_seen": 105542685,
+      "step": 4894,
+      "time_per_iteration": 2.7156217098236084
+    },
+    {
+      "auxiliary_loss_clip": 0.01099804,
+      "auxiliary_loss_mlp": 0.0100856,
+      "balance_loss_clip": 1.01625156,
+      "balance_loss_mlp": 1.00710571,
+      "epoch": 0.5885889496783503,
+      "flos": 70507550580480.0,
+      "grad_norm": 0.6457050545719698,
+      "language_loss": 0.566661,
+      "learning_rate": 1.5277710265151398e-06,
+      "loss": 0.58774465,
+      "num_input_tokens_seen": 105612165,
+      "step": 4895,
+      "time_per_iteration": 3.3958799839019775
+    },
+    {
+      "auxiliary_loss_clip": 0.01182282,
+      "auxiliary_loss_mlp": 0.01031686,
+      "balance_loss_clip": 1.04840446,
+      "balance_loss_mlp": 1.02332389,
+      "epoch": 0.5887091925689893,
+      "flos": 19098767485440.0,
+      "grad_norm": 5.625363639929155,
+      "language_loss": 0.77212441,
+      "learning_rate": 1.5270141159388803e-06,
+      "loss": 0.79426408,
+      "num_input_tokens_seen": 105629185,
+      "step": 4896,
+      "time_per_iteration": 2.6420059204101562
+    },
+    {
+      "auxiliary_loss_clip": 0.01177385,
+      "auxiliary_loss_mlp": 0.0102832,
+      "balance_loss_clip": 1.0512346,
+      "balance_loss_mlp": 1.02059579,
+      "epoch": 0.5888294354596284,
+      "flos": 23294282739840.0,
+      "grad_norm": 1.9402328019032566,
+      "language_loss": 0.80402809,
+      "learning_rate": 1.526257277114203e-06,
+      "loss": 0.82608515,
+      "num_input_tokens_seen": 105650260,
+      "step": 4897,
+      "time_per_iteration": 2.629640817642212
+    },
+    {
+      "auxiliary_loss_clip": 0.01193361,
+      "auxiliary_loss_mlp": 0.01027911,
+      "balance_loss_clip": 1.05186093,
+      "balance_loss_mlp": 1.02053761,
+      "epoch": 0.5889496783502676,
+      "flos": 21981532383360.0,
+      "grad_norm": 1.8454337839092492,
+      "language_loss": 0.79680955,
+      "learning_rate": 1.5255005101559201e-06,
+      "loss": 0.81902224,
+      "num_input_tokens_seen": 105667870,
+      "step": 4898,
+      "time_per_iteration": 3.681647777557373
+    },
+    {
+      "auxiliary_loss_clip": 0.0118727,
+      "auxiliary_loss_mlp": 0.01029176,
+      "balance_loss_clip": 1.05014777,
+      "balance_loss_mlp": 1.02172589,
+      "epoch": 0.5890699212409066,
+      "flos": 21685233093120.0,
+      "grad_norm": 2.051714553003266,
+      "language_loss": 0.76661533,
+      "learning_rate": 1.524743815178833e-06,
+      "loss": 0.78877985,
+      "num_input_tokens_seen": 105685830,
+      "step": 4899,
+      "time_per_iteration": 3.5687785148620605
+    },
+    {
+      "auxiliary_loss_clip": 0.01195733,
+      "auxiliary_loss_mlp": 0.01024794,
+      "balance_loss_clip": 1.04832804,
+      "balance_loss_mlp": 1.01737309,
+      "epoch": 0.5891901641315457,
+      "flos": 19464553635840.0,
+      "grad_norm": 1.8201472081236096,
+      "language_loss": 0.80378556,
+      "learning_rate": 1.5239871922977315e-06,
+      "loss": 0.82599086,
+      "num_input_tokens_seen": 105705745,
+      "step": 4900,
+      "time_per_iteration": 3.6229820251464844
+    },
+    {
+      "auxiliary_loss_clip": 0.01189159,
+      "auxiliary_loss_mlp": 0.01026676,
+      "balance_loss_clip": 1.04704785,
+      "balance_loss_mlp": 1.01889765,
+      "epoch": 0.5893104070221848,
+      "flos": 19609884063360.0,
+      "grad_norm": 2.045084651173101,
+      "language_loss": 0.89867854,
+      "learning_rate": 1.523230641627394e-06,
+      "loss": 0.92083687,
+      "num_input_tokens_seen": 105724730,
+      "step": 4901,
+      "time_per_iteration": 2.718205451965332
+    },
+    {
+      "auxiliary_loss_clip": 0.01211787,
+      "auxiliary_loss_mlp": 0.01031348,
+      "balance_loss_clip": 1.04318452,
+      "balance_loss_mlp": 1.02397513,
+      "epoch": 0.5894306499128239,
+      "flos": 29060063930880.0,
+      "grad_norm": 2.0243008161158276,
+      "language_loss": 0.72757477,
+      "learning_rate": 1.5224741632825888e-06,
+      "loss": 0.7500062,
+      "num_input_tokens_seen": 105744920,
+      "step": 4902,
+      "time_per_iteration": 2.8557066917419434
+    },
+    {
+      "auxiliary_loss_clip": 0.01179436,
+      "auxiliary_loss_mlp": 0.01025177,
+      "balance_loss_clip": 1.0531249,
+      "balance_loss_mlp": 1.01738691,
+      "epoch": 0.589550892803463,
+      "flos": 42298890721920.0,
+      "grad_norm": 1.7277163448741713,
+      "language_loss": 0.69215256,
+      "learning_rate": 1.521717757378074e-06,
+      "loss": 0.71419871,
+      "num_input_tokens_seen": 105765465,
+      "step": 4903,
+      "time_per_iteration": 3.7000999450683594
+    },
+    {
+      "auxiliary_loss_clip": 0.01190805,
+      "auxiliary_loss_mlp": 0.0102882,
+      "balance_loss_clip": 1.05115819,
+      "balance_loss_mlp": 1.02077293,
+      "epoch": 0.5896711356941021,
+      "flos": 14137062197760.0,
+      "grad_norm": 2.4054178159222976,
+      "language_loss": 0.68952024,
+      "learning_rate": 1.5209614240285943e-06,
+      "loss": 0.71171641,
+      "num_input_tokens_seen": 105783120,
+      "step": 4904,
+      "time_per_iteration": 2.690521240234375
+    },
+    {
+      "auxiliary_loss_clip": 0.01176831,
+      "auxiliary_loss_mlp": 0.0137865,
+      "balance_loss_clip": 1.05087662,
+      "balance_loss_mlp": 1.0001384,
+      "epoch": 0.5897913785847412,
+      "flos": 17201355454080.0,
+      "grad_norm": 2.3792163693880273,
+      "language_loss": 0.84814882,
+      "learning_rate": 1.520205163348887e-06,
+      "loss": 0.8737036,
+      "num_input_tokens_seen": 105801055,
+      "step": 4905,
+      "time_per_iteration": 2.672571897506714
+    },
+    {
+      "auxiliary_loss_clip": 0.01114343,
+      "auxiliary_loss_mlp": 0.01001668,
+      "balance_loss_clip": 1.01712489,
+      "balance_loss_mlp": 1.00023735,
+      "epoch": 0.5899116214753802,
+      "flos": 48794164202880.0,
+      "grad_norm": 0.731274131262861,
+      "language_loss": 0.56997871,
+      "learning_rate": 1.519448975453674e-06,
+      "loss": 0.59113884,
+      "num_input_tokens_seen": 105856155,
+      "step": 4906,
+      "time_per_iteration": 3.15983510017395
+    },
+    {
+      "auxiliary_loss_clip": 0.0118677,
+      "auxiliary_loss_mlp": 0.01378709,
+      "balance_loss_clip": 1.05337274,
+      "balance_loss_mlp": 1.00014687,
+      "epoch": 0.5900318643660194,
+      "flos": 21103659987840.0,
+      "grad_norm": 1.9708159692812883,
+      "language_loss": 0.76182365,
+      "learning_rate": 1.5186928604576696e-06,
+      "loss": 0.78747845,
+      "num_input_tokens_seen": 105873350,
+      "step": 4907,
+      "time_per_iteration": 2.635859489440918
+    },
+    {
+      "auxiliary_loss_clip": 0.01194334,
+      "auxiliary_loss_mlp": 0.01026647,
+      "balance_loss_clip": 1.04806352,
+      "balance_loss_mlp": 1.01932788,
+      "epoch": 0.5901521072566585,
+      "flos": 21178390233600.0,
+      "grad_norm": 2.4805039860370184,
+      "language_loss": 0.77229559,
+      "learning_rate": 1.5179368184755752e-06,
+      "loss": 0.79450542,
+      "num_input_tokens_seen": 105891435,
+      "step": 4908,
+      "time_per_iteration": 2.622663974761963
+    },
+    {
+      "auxiliary_loss_clip": 0.01195545,
+      "auxiliary_loss_mlp": 0.01028553,
+      "balance_loss_clip": 1.05037999,
+      "balance_loss_mlp": 1.02109623,
+      "epoch": 0.5902723501472975,
+      "flos": 20225967160320.0,
+      "grad_norm": 1.4838097798382128,
+      "language_loss": 0.82575685,
+      "learning_rate": 1.5171808496220821e-06,
+      "loss": 0.84799784,
+      "num_input_tokens_seen": 105910190,
+      "step": 4909,
+      "time_per_iteration": 2.697227716445923
+    },
+    {
+      "auxiliary_loss_clip": 0.01197827,
+      "auxiliary_loss_mlp": 0.01023124,
+      "balance_loss_clip": 1.04835296,
+      "balance_loss_mlp": 1.01572144,
+      "epoch": 0.5903925930379367,
+      "flos": 22964407211520.0,
+      "grad_norm": 1.6827251867598345,
+      "language_loss": 0.81294411,
+      "learning_rate": 1.5164249540118708e-06,
+      "loss": 0.83515364,
+      "num_input_tokens_seen": 105929315,
+      "step": 4910,
+      "time_per_iteration": 2.65260648727417
+    },
+    {
+      "auxiliary_loss_clip": 0.01224245,
+      "auxiliary_loss_mlp": 0.01024192,
+      "balance_loss_clip": 1.04361892,
+      "balance_loss_mlp": 1.01665211,
+      "epoch": 0.5905128359285757,
+      "flos": 23367720096000.0,
+      "grad_norm": 2.0533547894352924,
+      "language_loss": 0.83204377,
+      "learning_rate": 1.5156691317596093e-06,
+      "loss": 0.85452819,
+      "num_input_tokens_seen": 105950740,
+      "step": 4911,
+      "time_per_iteration": 2.8266823291778564
+    },
+    {
+      "auxiliary_loss_clip": 0.01187963,
+      "auxiliary_loss_mlp": 0.01378419,
+      "balance_loss_clip": 1.05176234,
+      "balance_loss_mlp": 1.00024402,
+      "epoch": 0.5906330788192148,
+      "flos": 28032335994240.0,
+      "grad_norm": 2.1232674171044166,
+      "language_loss": 0.66607964,
+      "learning_rate": 1.5149133829799556e-06,
+      "loss": 0.69174343,
+      "num_input_tokens_seen": 105968735,
+      "step": 4912,
+      "time_per_iteration": 2.697878837585449
+    },
+    {
+      "auxiliary_loss_clip": 0.01201597,
+      "auxiliary_loss_mlp": 0.01026171,
+      "balance_loss_clip": 1.04944229,
+      "balance_loss_mlp": 1.0184288,
+      "epoch": 0.590753321709854,
+      "flos": 18477943793280.0,
+      "grad_norm": 1.9250629534143096,
+      "language_loss": 0.80793506,
+      "learning_rate": 1.5141577077875556e-06,
+      "loss": 0.83021277,
+      "num_input_tokens_seen": 105986060,
+      "step": 4913,
+      "time_per_iteration": 2.6867871284484863
+    },
+    {
+      "auxiliary_loss_clip": 0.01186116,
+      "auxiliary_loss_mlp": 0.01024253,
+      "balance_loss_clip": 1.04870343,
+      "balance_loss_mlp": 1.0171783,
+      "epoch": 0.590873564600493,
+      "flos": 16873706568960.0,
+      "grad_norm": 2.506021661640814,
+      "language_loss": 0.72304398,
+      "learning_rate": 1.5134021062970451e-06,
+      "loss": 0.74514771,
+      "num_input_tokens_seen": 106004440,
+      "step": 4914,
+      "time_per_iteration": 2.646012306213379
+    },
+    {
+      "auxiliary_loss_clip": 0.01194183,
+      "auxiliary_loss_mlp": 0.01025106,
+      "balance_loss_clip": 1.04883242,
+      "balance_loss_mlp": 1.0174973,
+      "epoch": 0.5909938074911321,
+      "flos": 13516166678400.0,
+      "grad_norm": 1.7247887702536269,
+      "language_loss": 0.811885,
+      "learning_rate": 1.5126465786230483e-06,
+      "loss": 0.83407795,
+      "num_input_tokens_seen": 106021215,
+      "step": 4915,
+      "time_per_iteration": 2.7106754779815674
+    },
+    {
+      "auxiliary_loss_clip": 0.01175574,
+      "auxiliary_loss_mlp": 0.01028616,
+      "balance_loss_clip": 1.05162334,
+      "balance_loss_mlp": 1.02112055,
+      "epoch": 0.5911140503817712,
+      "flos": 26024067613440.0,
+      "grad_norm": 1.8536066768682917,
+      "language_loss": 0.82010758,
+      "learning_rate": 1.5118911248801787e-06,
+      "loss": 0.84214944,
+      "num_input_tokens_seen": 106039225,
+      "step": 4916,
+      "time_per_iteration": 2.6112852096557617
+    },
+    {
+      "auxiliary_loss_clip": 0.01179843,
+      "auxiliary_loss_mlp": 0.01027233,
+      "balance_loss_clip": 1.04915059,
+      "balance_loss_mlp": 1.01996744,
+      "epoch": 0.5912342932724103,
+      "flos": 23258731253760.0,
+      "grad_norm": 1.8707427955851075,
+      "language_loss": 0.79714215,
+      "learning_rate": 1.5111357451830364e-06,
+      "loss": 0.81921291,
+      "num_input_tokens_seen": 106057920,
+      "step": 4917,
+      "time_per_iteration": 2.679396390914917
+    },
+    {
+      "auxiliary_loss_clip": 0.01187302,
+      "auxiliary_loss_mlp": 0.01021973,
+      "balance_loss_clip": 1.05167532,
+      "balance_loss_mlp": 1.01449561,
+      "epoch": 0.5913545361630493,
+      "flos": 19573039687680.0,
+      "grad_norm": 1.8198581783248053,
+      "language_loss": 0.71079659,
+      "learning_rate": 1.5103804396462131e-06,
+      "loss": 0.73288935,
+      "num_input_tokens_seen": 106077855,
+      "step": 4918,
+      "time_per_iteration": 2.602557420730591
+    },
+    {
+      "auxiliary_loss_clip": 0.01188034,
+      "auxiliary_loss_mlp": 0.01025427,
+      "balance_loss_clip": 1.04811454,
+      "balance_loss_mlp": 1.01751757,
+      "epoch": 0.5914747790536885,
+      "flos": 26213532877440.0,
+      "grad_norm": 2.085421431243963,
+      "language_loss": 0.79756176,
+      "learning_rate": 1.5096252083842877e-06,
+      "loss": 0.81969631,
+      "num_input_tokens_seen": 106097065,
+      "step": 4919,
+      "time_per_iteration": 2.7491540908813477
+    },
+    {
+      "auxiliary_loss_clip": 0.01179896,
+      "auxiliary_loss_mlp": 0.01025159,
+      "balance_loss_clip": 1.04664731,
+      "balance_loss_mlp": 1.01723123,
+      "epoch": 0.5915950219443276,
+      "flos": 27417545786880.0,
+      "grad_norm": 1.8056062335031433,
+      "language_loss": 0.85323215,
+      "learning_rate": 1.5088700515118285e-06,
+      "loss": 0.8752827,
+      "num_input_tokens_seen": 106116385,
+      "step": 4920,
+      "time_per_iteration": 2.7221648693084717
+    },
+    {
+      "auxiliary_loss_clip": 0.01195895,
+      "auxiliary_loss_mlp": 0.01026518,
+      "balance_loss_clip": 1.0457629,
+      "balance_loss_mlp": 1.0189364,
+      "epoch": 0.5917152648349666,
+      "flos": 21907879545600.0,
+      "grad_norm": 2.9761244896402532,
+      "language_loss": 0.6661762,
+      "learning_rate": 1.508114969143392e-06,
+      "loss": 0.68840033,
+      "num_input_tokens_seen": 106136370,
+      "step": 4921,
+      "time_per_iteration": 2.6574547290802
+    },
+    {
+      "auxiliary_loss_clip": 0.01191669,
+      "auxiliary_loss_mlp": 0.01025216,
+      "balance_loss_clip": 1.04552698,
+      "balance_loss_mlp": 1.01799452,
+      "epoch": 0.5918355077256057,
+      "flos": 28109185142400.0,
+      "grad_norm": 1.5456468858900456,
+      "language_loss": 0.77510965,
+      "learning_rate": 1.5073599613935238e-06,
+      "loss": 0.79727846,
+      "num_input_tokens_seen": 106158490,
+      "step": 4922,
+      "time_per_iteration": 2.7766385078430176
+    },
+    {
+      "auxiliary_loss_clip": 0.01195387,
+      "auxiliary_loss_mlp": 0.01022398,
+      "balance_loss_clip": 1.04959273,
+      "balance_loss_mlp": 1.01487947,
+      "epoch": 0.5919557506162448,
+      "flos": 28183807647360.0,
+      "grad_norm": 2.0489057000565425,
+      "language_loss": 0.57793808,
+      "learning_rate": 1.5066050283767574e-06,
+      "loss": 0.6001159,
+      "num_input_tokens_seen": 106179170,
+      "step": 4923,
+      "time_per_iteration": 2.689788341522217
+    },
+    {
+      "auxiliary_loss_clip": 0.01187449,
+      "auxiliary_loss_mlp": 0.01022478,
+      "balance_loss_clip": 1.04828644,
+      "balance_loss_mlp": 1.01490784,
+      "epoch": 0.5920759935068839,
+      "flos": 12094355652480.0,
+      "grad_norm": 2.359012502522417,
+      "language_loss": 0.82661754,
+      "learning_rate": 1.505850170207616e-06,
+      "loss": 0.84871674,
+      "num_input_tokens_seen": 106196035,
+      "step": 4924,
+      "time_per_iteration": 3.694469451904297
+    },
+    {
+      "auxiliary_loss_clip": 0.01191543,
+      "auxiliary_loss_mlp": 0.01024079,
+      "balance_loss_clip": 1.04726267,
+      "balance_loss_mlp": 1.01627982,
+      "epoch": 0.592196236397523,
+      "flos": 29424772673280.0,
+      "grad_norm": 2.141980585526547,
+      "language_loss": 0.7792725,
+      "learning_rate": 1.505095387000611e-06,
+      "loss": 0.80142868,
+      "num_input_tokens_seen": 106218335,
+      "step": 4925,
+      "time_per_iteration": 3.6661510467529297
+    },
+    {
+      "auxiliary_loss_clip": 0.01181858,
+      "auxiliary_loss_mlp": 0.01028898,
+      "balance_loss_clip": 1.04820502,
+      "balance_loss_mlp": 1.02176964,
+      "epoch": 0.5923164792881621,
+      "flos": 24384709866240.0,
+      "grad_norm": 2.503536713159901,
+      "language_loss": 0.74326533,
+      "learning_rate": 1.504340678870242e-06,
+      "loss": 0.76537287,
+      "num_input_tokens_seen": 106236550,
+      "step": 4926,
+      "time_per_iteration": 3.6221871376037598
+    },
+    {
+      "auxiliary_loss_clip": 0.01183781,
+      "auxiliary_loss_mlp": 0.01027784,
+      "balance_loss_clip": 1.0503118,
+      "balance_loss_mlp": 1.01934981,
+      "epoch": 0.5924367221788012,
+      "flos": 24024238928640.0,
+      "grad_norm": 1.8559038100490606,
+      "language_loss": 0.89538884,
+      "learning_rate": 1.5035860459309989e-06,
+      "loss": 0.91750455,
+      "num_input_tokens_seen": 106254265,
+      "step": 4927,
+      "time_per_iteration": 2.6506073474884033
+    },
+    {
+      "auxiliary_loss_clip": 0.01187171,
+      "auxiliary_loss_mlp": 0.0103172,
+      "balance_loss_clip": 1.04660034,
+      "balance_loss_mlp": 1.02361941,
+      "epoch": 0.5925569650694402,
+      "flos": 26870590414080.0,
+      "grad_norm": 1.9578817457569428,
+      "language_loss": 0.63521749,
+      "learning_rate": 1.5028314882973568e-06,
+      "loss": 0.65740639,
+      "num_input_tokens_seen": 106274670,
+      "step": 4928,
+      "time_per_iteration": 2.7096340656280518
+    },
+    {
+      "auxiliary_loss_clip": 0.01196207,
+      "auxiliary_loss_mlp": 0.01030125,
+      "balance_loss_clip": 1.04970407,
+      "balance_loss_mlp": 1.02229333,
+      "epoch": 0.5926772079600794,
+      "flos": 22302788647680.0,
+      "grad_norm": 1.9379983239193972,
+      "language_loss": 0.84413505,
+      "learning_rate": 1.502077006083783e-06,
+      "loss": 0.86639833,
+      "num_input_tokens_seen": 106293330,
+      "step": 4929,
+      "time_per_iteration": 3.6024558544158936
+    },
+    {
+      "auxiliary_loss_clip": 0.01187047,
+      "auxiliary_loss_mlp": 0.01378586,
+      "balance_loss_clip": 1.04955006,
+      "balance_loss_mlp": 1.00014472,
+      "epoch": 0.5927974508507184,
+      "flos": 19865244827520.0,
+      "grad_norm": 1.808965904634993,
+      "language_loss": 0.76590735,
+      "learning_rate": 1.5013225994047315e-06,
+      "loss": 0.79156363,
+      "num_input_tokens_seen": 106310960,
+      "step": 4930,
+      "time_per_iteration": 2.6454505920410156
+    },
+    {
+      "auxiliary_loss_clip": 0.01186902,
+      "auxiliary_loss_mlp": 0.01378378,
+      "balance_loss_clip": 1.05079174,
+      "balance_loss_mlp": 1.00013328,
+      "epoch": 0.5929176937413575,
+      "flos": 15776743167360.0,
+      "grad_norm": 1.8327825271780886,
+      "language_loss": 0.80735147,
+      "learning_rate": 1.5005682683746452e-06,
+      "loss": 0.8330043,
+      "num_input_tokens_seen": 106329475,
+      "step": 4931,
+      "time_per_iteration": 2.6751868724823
+    },
+    {
+      "auxiliary_loss_clip": 0.01185119,
+      "auxiliary_loss_mlp": 0.01027683,
+      "balance_loss_clip": 1.05134249,
+      "balance_loss_mlp": 1.01929069,
+      "epoch": 0.5930379366319967,
+      "flos": 17601472028160.0,
+      "grad_norm": 2.336764277571825,
+      "language_loss": 0.72853792,
+      "learning_rate": 1.4998140131079553e-06,
+      "loss": 0.7506659,
+      "num_input_tokens_seen": 106345565,
+      "step": 4932,
+      "time_per_iteration": 2.613007068634033
+    },
+    {
+      "auxiliary_loss_clip": 0.01216232,
+      "auxiliary_loss_mlp": 0.01378371,
+      "balance_loss_clip": 1.0431664,
+      "balance_loss_mlp": 1.00006509,
+      "epoch": 0.5931581795226357,
+      "flos": 17704283731200.0,
+      "grad_norm": 1.7711028938899744,
+      "language_loss": 0.73536289,
+      "learning_rate": 1.4990598337190821e-06,
+      "loss": 0.76130897,
+      "num_input_tokens_seen": 106361920,
+      "step": 4933,
+      "time_per_iteration": 2.7690353393554688
+    },
+    {
+      "auxiliary_loss_clip": 0.01177014,
+      "auxiliary_loss_mlp": 0.01378738,
+      "balance_loss_clip": 1.05203342,
+      "balance_loss_mlp": 1.00011992,
+      "epoch": 0.5932784224132748,
+      "flos": 24280102483200.0,
+      "grad_norm": 1.738368904686563,
+      "language_loss": 0.67919648,
+      "learning_rate": 1.4983057303224338e-06,
+      "loss": 0.70475399,
+      "num_input_tokens_seen": 106381735,
+      "step": 4934,
+      "time_per_iteration": 2.680751085281372
+    },
+    {
+      "auxiliary_loss_clip": 0.01205369,
+      "auxiliary_loss_mlp": 0.0102578,
+      "balance_loss_clip": 1.04368544,
+      "balance_loss_mlp": 1.01837158,
+      "epoch": 0.5933986653039139,
+      "flos": 22926700909440.0,
+      "grad_norm": 1.6723781393063344,
+      "language_loss": 0.87643582,
+      "learning_rate": 1.4975517030324072e-06,
+      "loss": 0.89874732,
+      "num_input_tokens_seen": 106399745,
+      "step": 4935,
+      "time_per_iteration": 2.7631072998046875
+    },
+    {
+      "auxiliary_loss_clip": 0.01068362,
+      "auxiliary_loss_mlp": 0.01374334,
+      "balance_loss_clip": 1.01253009,
+      "balance_loss_mlp": 0.99988014,
+      "epoch": 0.593518908194553,
+      "flos": 71121730256640.0,
+      "grad_norm": 0.78279372825631,
+      "language_loss": 0.61761278,
+      "learning_rate": 1.4967977519633882e-06,
+      "loss": 0.64203972,
+      "num_input_tokens_seen": 106457205,
+      "step": 4936,
+      "time_per_iteration": 3.2491958141326904
+    },
+    {
+      "auxiliary_loss_clip": 0.01199285,
+      "auxiliary_loss_mlp": 0.01028808,
+      "balance_loss_clip": 1.04697394,
+      "balance_loss_mlp": 1.02085078,
+      "epoch": 0.593639151085192,
+      "flos": 20448649526400.0,
+      "grad_norm": 3.3751801829811328,
+      "language_loss": 0.78039372,
+      "learning_rate": 1.4960438772297494e-06,
+      "loss": 0.80267465,
+      "num_input_tokens_seen": 106474250,
+      "step": 4937,
+      "time_per_iteration": 2.676424503326416
+    },
+    {
+      "auxiliary_loss_clip": 0.01194379,
+      "auxiliary_loss_mlp": 0.01029021,
+      "balance_loss_clip": 1.04729867,
+      "balance_loss_mlp": 1.02081394,
+      "epoch": 0.5937593939758312,
+      "flos": 30883428074880.0,
+      "grad_norm": 1.8831136187573094,
+      "language_loss": 0.72876388,
+      "learning_rate": 1.495290078945855e-06,
+      "loss": 0.75099784,
+      "num_input_tokens_seen": 106494015,
+      "step": 4938,
+      "time_per_iteration": 2.6961188316345215
+    },
+    {
+      "auxiliary_loss_clip": 0.01174754,
+      "auxiliary_loss_mlp": 0.01026425,
+      "balance_loss_clip": 1.05154204,
+      "balance_loss_mlp": 1.01877797,
+      "epoch": 0.5938796368664703,
+      "flos": 36898069668480.0,
+      "grad_norm": 2.26264486625646,
+      "language_loss": 0.74348342,
+      "learning_rate": 1.4945363572260529e-06,
+      "loss": 0.76549524,
+      "num_input_tokens_seen": 106515010,
+      "step": 4939,
+      "time_per_iteration": 2.7259767055511475
+    },
+    {
+      "auxiliary_loss_clip": 0.01186055,
+      "auxiliary_loss_mlp": 0.01025159,
+      "balance_loss_clip": 1.04985154,
+      "balance_loss_mlp": 1.01756573,
+      "epoch": 0.5939998797571093,
+      "flos": 23842926051840.0,
+      "grad_norm": 2.1380775251193427,
+      "language_loss": 0.67724371,
+      "learning_rate": 1.4937827121846845e-06,
+      "loss": 0.69935584,
+      "num_input_tokens_seen": 106535265,
+      "step": 4940,
+      "time_per_iteration": 2.6376359462738037
+    },
+    {
+      "auxiliary_loss_clip": 0.01195721,
+      "auxiliary_loss_mlp": 0.0102853,
+      "balance_loss_clip": 1.04708171,
+      "balance_loss_mlp": 1.02090049,
+      "epoch": 0.5941201226477485,
+      "flos": 25191407462400.0,
+      "grad_norm": 1.581117831516465,
+      "language_loss": 0.73640811,
+      "learning_rate": 1.4930291439360755e-06,
+      "loss": 0.75865066,
+      "num_input_tokens_seen": 106557830,
+      "step": 4941,
+      "time_per_iteration": 2.7309670448303223
+    },
+    {
+      "auxiliary_loss_clip": 0.01186252,
+      "auxiliary_loss_mlp": 0.01030894,
+      "balance_loss_clip": 1.05113053,
+      "balance_loss_mlp": 1.02278829,
+      "epoch": 0.5942403655383875,
+      "flos": 22418996123520.0,
+      "grad_norm": 2.0060183565134695,
+      "language_loss": 0.79081923,
+      "learning_rate": 1.4922756525945427e-06,
+      "loss": 0.81299067,
+      "num_input_tokens_seen": 106577140,
+      "step": 4942,
+      "time_per_iteration": 2.6206893920898438
+    },
+    {
+      "auxiliary_loss_clip": 0.01082247,
+      "auxiliary_loss_mlp": 0.01004014,
+      "balance_loss_clip": 1.01278865,
+      "balance_loss_mlp": 1.00257158,
+      "epoch": 0.5943606084290266,
+      "flos": 67629310796160.0,
+      "grad_norm": 0.7724082646404062,
+      "language_loss": 0.59526819,
+      "learning_rate": 1.4915222382743894e-06,
+      "loss": 0.61613083,
+      "num_input_tokens_seen": 106635975,
+      "step": 4943,
+      "time_per_iteration": 3.257869243621826
+    },
+    {
+      "auxiliary_loss_clip": 0.01187198,
+      "auxiliary_loss_mlp": 0.01029306,
+      "balance_loss_clip": 1.05104911,
+      "balance_loss_mlp": 1.02085388,
+      "epoch": 0.5944808513196658,
+      "flos": 18223157646720.0,
+      "grad_norm": 2.2979591761826015,
+      "language_loss": 0.72285295,
+      "learning_rate": 1.4907689010899085e-06,
+      "loss": 0.74501801,
+      "num_input_tokens_seen": 106653555,
+      "step": 4944,
+      "time_per_iteration": 2.600130558013916
+    },
+    {
+      "auxiliary_loss_clip": 0.01196433,
+      "auxiliary_loss_mlp": 0.01024288,
+      "balance_loss_clip": 1.04961205,
+      "balance_loss_mlp": 1.01662016,
+      "epoch": 0.5946010942103048,
+      "flos": 24790824011520.0,
+      "grad_norm": 2.1323163306986417,
+      "language_loss": 0.6209963,
+      "learning_rate": 1.4900156411553804e-06,
+      "loss": 0.6432035,
+      "num_input_tokens_seen": 106673385,
+      "step": 4945,
+      "time_per_iteration": 2.673372507095337
+    },
+    {
+      "auxiliary_loss_clip": 0.01196101,
+      "auxiliary_loss_mlp": 0.01029471,
+      "balance_loss_clip": 1.05075598,
+      "balance_loss_mlp": 1.02168655,
+      "epoch": 0.5947213371009439,
+      "flos": 15231619388160.0,
+      "grad_norm": 2.0934670235317365,
+      "language_loss": 0.85470086,
+      "learning_rate": 1.4892624585850739e-06,
+      "loss": 0.87695658,
+      "num_input_tokens_seen": 106691740,
+      "step": 4946,
+      "time_per_iteration": 2.680891752243042
+    },
+    {
+      "auxiliary_loss_clip": 0.01179318,
+      "auxiliary_loss_mlp": 0.0102887,
+      "balance_loss_clip": 1.05199027,
+      "balance_loss_mlp": 1.02071643,
+      "epoch": 0.594841579991583,
+      "flos": 25848069949440.0,
+      "grad_norm": 2.0507872259231834,
+      "language_loss": 0.79228449,
+      "learning_rate": 1.4885093534932465e-06,
+      "loss": 0.81436646,
+      "num_input_tokens_seen": 106709705,
+      "step": 4947,
+      "time_per_iteration": 2.66162109375
+    },
+    {
+      "auxiliary_loss_clip": 0.01192197,
+      "auxiliary_loss_mlp": 0.01026688,
+      "balance_loss_clip": 1.0496099,
+      "balance_loss_mlp": 1.01840889,
+      "epoch": 0.5949618228822221,
+      "flos": 23981109672960.0,
+      "grad_norm": 1.9521854011519022,
+      "language_loss": 0.71054214,
+      "learning_rate": 1.4877563259941433e-06,
+      "loss": 0.73273098,
+      "num_input_tokens_seen": 106727560,
+      "step": 4948,
+      "time_per_iteration": 2.749681234359741
+    },
+    {
+      "auxiliary_loss_clip": 0.01195304,
+      "auxiliary_loss_mlp": 0.01027337,
+      "balance_loss_clip": 1.05319428,
+      "balance_loss_mlp": 1.0191946,
+      "epoch": 0.5950820657728612,
+      "flos": 40547491476480.0,
+      "grad_norm": 2.055152455358312,
+      "language_loss": 0.67698646,
+      "learning_rate": 1.4870033762019988e-06,
+      "loss": 0.69921291,
+      "num_input_tokens_seen": 106747725,
+      "step": 4949,
+      "time_per_iteration": 2.8032073974609375
+    },
+    {
+      "auxiliary_loss_clip": 0.01192383,
+      "auxiliary_loss_mlp": 0.01032518,
+      "balance_loss_clip": 1.04897773,
+      "balance_loss_mlp": 1.0244832,
+      "epoch": 0.5952023086635003,
+      "flos": 23184467884800.0,
+      "grad_norm": 1.779198645749974,
+      "language_loss": 0.73400307,
+      "learning_rate": 1.4862505042310334e-06,
+      "loss": 0.75625211,
+      "num_input_tokens_seen": 106767010,
+      "step": 4950,
+      "time_per_iteration": 3.5437233448028564
+    },
+    {
+      "auxiliary_loss_clip": 0.01187184,
+      "auxiliary_loss_mlp": 0.01026741,
+      "balance_loss_clip": 1.04818833,
+      "balance_loss_mlp": 1.01911139,
+      "epoch": 0.5953225515541394,
+      "flos": 33653289548160.0,
+      "grad_norm": 1.5944752382819432,
+      "language_loss": 0.69597536,
+      "learning_rate": 1.4854977101954587e-06,
+      "loss": 0.71811461,
+      "num_input_tokens_seen": 106789230,
+      "step": 4951,
+      "time_per_iteration": 2.760876178741455
+    },
+    {
+      "auxiliary_loss_clip": 0.01186158,
+      "auxiliary_loss_mlp": 0.01025886,
+      "balance_loss_clip": 1.04764116,
+      "balance_loss_mlp": 1.01820898,
+      "epoch": 0.5954427944447784,
+      "flos": 24459619680000.0,
+      "grad_norm": 1.786852365267225,
+      "language_loss": 0.86193728,
+      "learning_rate": 1.4847449942094716e-06,
+      "loss": 0.88405776,
+      "num_input_tokens_seen": 106808110,
+      "step": 4952,
+      "time_per_iteration": 3.5106866359710693
+    },
+    {
+      "auxiliary_loss_clip": 0.01191121,
+      "auxiliary_loss_mlp": 0.01028126,
+      "balance_loss_clip": 1.04876757,
+      "balance_loss_mlp": 1.02045441,
+      "epoch": 0.5955630373354175,
+      "flos": 18551848026240.0,
+      "grad_norm": 2.2562916789638963,
+      "language_loss": 0.86029422,
+      "learning_rate": 1.4839923563872598e-06,
+      "loss": 0.8824867,
+      "num_input_tokens_seen": 106826650,
+      "step": 4953,
+      "time_per_iteration": 2.644876003265381
+    },
+    {
+      "auxiliary_loss_clip": 0.01205243,
+      "auxiliary_loss_mlp": 0.01029216,
+      "balance_loss_clip": 1.04900765,
+      "balance_loss_mlp": 1.0216105,
+      "epoch": 0.5956832802260567,
+      "flos": 19791699730560.0,
+      "grad_norm": 1.7874333283782033,
+      "language_loss": 0.7609573,
+      "learning_rate": 1.483239796842997e-06,
+      "loss": 0.78330183,
+      "num_input_tokens_seen": 106844680,
+      "step": 4954,
+      "time_per_iteration": 2.6679441928863525
+    },
+    {
+      "auxiliary_loss_clip": 0.0120359,
+      "auxiliary_loss_mlp": 0.01028765,
+      "balance_loss_clip": 1.0492475,
+      "balance_loss_mlp": 1.02091789,
+      "epoch": 0.5958035231166957,
+      "flos": 19750868945280.0,
+      "grad_norm": 1.8491774888263373,
+      "language_loss": 0.83701026,
+      "learning_rate": 1.4824873156908462e-06,
+      "loss": 0.85933381,
+      "num_input_tokens_seen": 106862605,
+      "step": 4955,
+      "time_per_iteration": 3.6189894676208496
+    },
+    {
+      "auxiliary_loss_clip": 0.01187103,
+      "auxiliary_loss_mlp": 0.0137949,
+      "balance_loss_clip": 1.0514425,
+      "balance_loss_mlp": 1.00020742,
+      "epoch": 0.5959237660073348,
+      "flos": 21652806090240.0,
+      "grad_norm": 1.5419984196435363,
+      "language_loss": 0.75614119,
+      "learning_rate": 1.4817349130449584e-06,
+      "loss": 0.78180707,
+      "num_input_tokens_seen": 106882325,
+      "step": 4956,
+      "time_per_iteration": 2.6676559448242188
+    },
+    {
+      "auxiliary_loss_clip": 0.0118312,
+      "auxiliary_loss_mlp": 0.01027556,
+      "balance_loss_clip": 1.05032754,
+      "balance_loss_mlp": 1.01908565,
+      "epoch": 0.5960440088979739,
+      "flos": 21171207513600.0,
+      "grad_norm": 1.9969604419787508,
+      "language_loss": 0.83067173,
+      "learning_rate": 1.4809825890194717e-06,
+      "loss": 0.85277843,
+      "num_input_tokens_seen": 106900995,
+      "step": 4957,
+      "time_per_iteration": 2.640886068344116
+    },
+    {
+      "auxiliary_loss_clip": 0.01186066,
+      "auxiliary_loss_mlp": 0.0102794,
+      "balance_loss_clip": 1.04496861,
+      "balance_loss_mlp": 1.02081132,
+      "epoch": 0.596164251788613,
+      "flos": 14757526753920.0,
+      "grad_norm": 1.792782091736877,
+      "language_loss": 0.77573669,
+      "learning_rate": 1.4802303437285139e-06,
+      "loss": 0.79787672,
+      "num_input_tokens_seen": 106918265,
+      "step": 4958,
+      "time_per_iteration": 2.6674225330352783
+    },
+    {
+      "auxiliary_loss_clip": 0.0119133,
+      "auxiliary_loss_mlp": 0.01027231,
+      "balance_loss_clip": 1.04708743,
+      "balance_loss_mlp": 1.01890969,
+      "epoch": 0.596284494679252,
+      "flos": 20485924865280.0,
+      "grad_norm": 2.254089008559132,
+      "language_loss": 0.80801541,
+      "learning_rate": 1.4794781772861994e-06,
+      "loss": 0.83020097,
+      "num_input_tokens_seen": 106934760,
+      "step": 4959,
+      "time_per_iteration": 2.675511598587036
+    },
+    {
+      "auxiliary_loss_clip": 0.01191537,
+      "auxiliary_loss_mlp": 0.0137879,
+      "balance_loss_clip": 1.04744816,
+      "balance_loss_mlp": 1.00019956,
+      "epoch": 0.5964047375698912,
+      "flos": 31212262108800.0,
+      "grad_norm": 2.3626037499715613,
+      "language_loss": 0.66934025,
+      "learning_rate": 1.4787260898066324e-06,
+      "loss": 0.6950435,
+      "num_input_tokens_seen": 106954760,
+      "step": 4960,
+      "time_per_iteration": 2.761446475982666
+    },
+    {
+      "auxiliary_loss_clip": 0.01174327,
+      "auxiliary_loss_mlp": 0.01025553,
+      "balance_loss_clip": 1.05086935,
+      "balance_loss_mlp": 1.01808786,
+      "epoch": 0.5965249804605303,
+      "flos": 27483620855040.0,
+      "grad_norm": 1.8801936429276753,
+      "language_loss": 0.85282743,
+      "learning_rate": 1.4779740814039023e-06,
+      "loss": 0.87482625,
+      "num_input_tokens_seen": 106974845,
+      "step": 4961,
+      "time_per_iteration": 2.680574417114258
+    },
+    {
+      "auxiliary_loss_clip": 0.01176641,
+      "auxiliary_loss_mlp": 0.01022406,
+      "balance_loss_clip": 1.05142307,
+      "balance_loss_mlp": 1.01497293,
+      "epoch": 0.5966452233511693,
+      "flos": 30773936442240.0,
+      "grad_norm": 7.204208544942799,
+      "language_loss": 0.68579435,
+      "learning_rate": 1.4772221521920894e-06,
+      "loss": 0.70778477,
+      "num_input_tokens_seen": 106994870,
+      "step": 4962,
+      "time_per_iteration": 2.6853818893432617
+    },
+    {
+      "auxiliary_loss_clip": 0.0119323,
+      "auxiliary_loss_mlp": 0.01028033,
+      "balance_loss_clip": 1.04965413,
+      "balance_loss_mlp": 1.02069533,
+      "epoch": 0.5967654662418085,
+      "flos": 25481170477440.0,
+      "grad_norm": 1.973121553032953,
+      "language_loss": 0.74209297,
+      "learning_rate": 1.4764703022852598e-06,
+      "loss": 0.76430559,
+      "num_input_tokens_seen": 107015390,
+      "step": 4963,
+      "time_per_iteration": 2.747811794281006
+    },
+    {
+      "auxiliary_loss_clip": 0.01205859,
+      "auxiliary_loss_mlp": 0.01019521,
+      "balance_loss_clip": 1.04192948,
+      "balance_loss_mlp": 1.01225221,
+      "epoch": 0.5968857091324475,
+      "flos": 19099126621440.0,
+      "grad_norm": 1.7071762940843942,
+      "language_loss": 0.77287441,
+      "learning_rate": 1.4757185317974696e-06,
+      "loss": 0.79512823,
+      "num_input_tokens_seen": 107033775,
+      "step": 4964,
+      "time_per_iteration": 2.777527093887329
+    },
+    {
+      "auxiliary_loss_clip": 0.01184805,
+      "auxiliary_loss_mlp": 0.01028316,
+      "balance_loss_clip": 1.04746604,
+      "balance_loss_mlp": 1.02023911,
+      "epoch": 0.5970059520230866,
+      "flos": 23692711374720.0,
+      "grad_norm": 2.7147112018372663,
+      "language_loss": 0.71626455,
+      "learning_rate": 1.474966840842761e-06,
+      "loss": 0.73839581,
+      "num_input_tokens_seen": 107053355,
+      "step": 4965,
+      "time_per_iteration": 2.653012990951538
+    },
+    {
+      "auxiliary_loss_clip": 0.01189881,
+      "auxiliary_loss_mlp": 0.01026252,
+      "balance_loss_clip": 1.05153918,
+      "balance_loss_mlp": 1.01880717,
+      "epoch": 0.5971261949137258,
+      "flos": 23185545292800.0,
+      "grad_norm": 1.7505475670241228,
+      "language_loss": 0.86967933,
+      "learning_rate": 1.4742152295351655e-06,
+      "loss": 0.8918407,
+      "num_input_tokens_seen": 107072510,
+      "step": 4966,
+      "time_per_iteration": 2.6377921104431152
+    },
+    {
+      "auxiliary_loss_clip": 0.01185075,
+      "auxiliary_loss_mlp": 0.0137929,
+      "balance_loss_clip": 1.04888749,
+      "balance_loss_mlp": 1.00021803,
+      "epoch": 0.5972464378043648,
+      "flos": 20557710195840.0,
+      "grad_norm": 3.0309281636711414,
+      "language_loss": 0.63798219,
+      "learning_rate": 1.4734636979887016e-06,
+      "loss": 0.66362584,
+      "num_input_tokens_seen": 107089970,
+      "step": 4967,
+      "time_per_iteration": 2.60334849357605
+    },
+    {
+      "auxiliary_loss_clip": 0.01207768,
+      "auxiliary_loss_mlp": 0.01025148,
+      "balance_loss_clip": 1.04698205,
+      "balance_loss_mlp": 1.01738739,
+      "epoch": 0.5973666806950039,
+      "flos": 29387030457600.0,
+      "grad_norm": 1.9491382794655505,
+      "language_loss": 0.90175748,
+      "learning_rate": 1.4727122463173755e-06,
+      "loss": 0.92408663,
+      "num_input_tokens_seen": 107108500,
+      "step": 4968,
+      "time_per_iteration": 2.8154964447021484
+    },
+    {
+      "auxiliary_loss_clip": 0.01194942,
+      "auxiliary_loss_mlp": 0.01026779,
+      "balance_loss_clip": 1.04975045,
+      "balance_loss_mlp": 1.01891685,
+      "epoch": 0.597486923585643,
+      "flos": 22273522041600.0,
+      "grad_norm": 1.7833715721717005,
+      "language_loss": 0.6429776,
+      "learning_rate": 1.471960874635183e-06,
+      "loss": 0.66519475,
+      "num_input_tokens_seen": 107128060,
+      "step": 4969,
+      "time_per_iteration": 2.6523427963256836
+    },
+    {
+      "auxiliary_loss_clip": 0.01186266,
+      "auxiliary_loss_mlp": 0.01023135,
+      "balance_loss_clip": 1.04592657,
+      "balance_loss_mlp": 1.01483238,
+      "epoch": 0.5976071664762821,
+      "flos": 13772461196160.0,
+      "grad_norm": 2.2284654188191064,
+      "language_loss": 0.71477687,
+      "learning_rate": 1.4712095830561055e-06,
+      "loss": 0.73687088,
+      "num_input_tokens_seen": 107146550,
+      "step": 4970,
+      "time_per_iteration": 2.673051595687866
+    },
+    {
+      "auxiliary_loss_clip": 0.0119131,
+      "auxiliary_loss_mlp": 0.01022185,
+      "balance_loss_clip": 1.04689384,
+      "balance_loss_mlp": 1.01481771,
+      "epoch": 0.5977274093669211,
+      "flos": 19098623831040.0,
+      "grad_norm": 2.658901397018828,
+      "language_loss": 0.8144924,
+      "learning_rate": 1.4704583716941147e-06,
+      "loss": 0.83662736,
+      "num_input_tokens_seen": 107165415,
+      "step": 4971,
+      "time_per_iteration": 2.637568235397339
+    },
+    {
+      "auxiliary_loss_clip": 0.01177205,
+      "auxiliary_loss_mlp": 0.01022226,
+      "balance_loss_clip": 1.05063379,
+      "balance_loss_mlp": 1.01467681,
+      "epoch": 0.5978476522575603,
+      "flos": 20376002269440.0,
+      "grad_norm": 1.959990710349794,
+      "language_loss": 0.72223479,
+      "learning_rate": 1.4697072406631672e-06,
+      "loss": 0.74422908,
+      "num_input_tokens_seen": 107185320,
+      "step": 4972,
+      "time_per_iteration": 2.6591880321502686
+    },
+    {
+      "auxiliary_loss_clip": 0.01219099,
+      "auxiliary_loss_mlp": 0.0102921,
+      "balance_loss_clip": 1.05041087,
+      "balance_loss_mlp": 1.02082348,
+      "epoch": 0.5979678951481994,
+      "flos": 29023147728000.0,
+      "grad_norm": 1.667379745109581,
+      "language_loss": 0.73034608,
+      "learning_rate": 1.4689561900772097e-06,
+      "loss": 0.75282919,
+      "num_input_tokens_seen": 107205380,
+      "step": 4973,
+      "time_per_iteration": 2.7931947708129883
+    },
+    {
+      "auxiliary_loss_clip": 0.011931,
+      "auxiliary_loss_mlp": 0.01030987,
+      "balance_loss_clip": 1.04839873,
+      "balance_loss_mlp": 1.02322006,
+      "epoch": 0.5980881380388384,
+      "flos": 17967689141760.0,
+      "grad_norm": 2.4258351028699714,
+      "language_loss": 0.72684228,
+      "learning_rate": 1.4682052200501758e-06,
+      "loss": 0.74908316,
+      "num_input_tokens_seen": 107222585,
+      "step": 4974,
+      "time_per_iteration": 2.6031227111816406
+    },
+    {
+      "auxiliary_loss_clip": 0.0117752,
+      "auxiliary_loss_mlp": 0.01025505,
+      "balance_loss_clip": 1.05161607,
+      "balance_loss_mlp": 1.01730669,
+      "epoch": 0.5982083809294776,
+      "flos": 22962827013120.0,
+      "grad_norm": 1.756469507066638,
+      "language_loss": 0.80108827,
+      "learning_rate": 1.4674543306959876e-06,
+      "loss": 0.82311857,
+      "num_input_tokens_seen": 107242055,
+      "step": 4975,
+      "time_per_iteration": 2.646831750869751
+    },
+    {
+      "auxiliary_loss_clip": 0.01196637,
+      "auxiliary_loss_mlp": 0.0102712,
+      "balance_loss_clip": 1.04774892,
+      "balance_loss_mlp": 1.0187993,
+      "epoch": 0.5983286238201166,
+      "flos": 20991941712000.0,
+      "grad_norm": 2.3878095585271604,
+      "language_loss": 0.84570694,
+      "learning_rate": 1.4667035221285535e-06,
+      "loss": 0.86794454,
+      "num_input_tokens_seen": 107259695,
+      "step": 4976,
+      "time_per_iteration": 4.530776023864746
+    },
+    {
+      "auxiliary_loss_clip": 0.01181567,
+      "auxiliary_loss_mlp": 0.01023612,
+      "balance_loss_clip": 1.04909801,
+      "balance_loss_mlp": 1.01575637,
+      "epoch": 0.5984488667107557,
+      "flos": 28183448511360.0,
+      "grad_norm": 1.831053754555859,
+      "language_loss": 0.74013668,
+      "learning_rate": 1.4659527944617715e-06,
+      "loss": 0.76218849,
+      "num_input_tokens_seen": 107279640,
+      "step": 4977,
+      "time_per_iteration": 2.682292938232422
+    },
+    {
+      "auxiliary_loss_clip": 0.0121213,
+      "auxiliary_loss_mlp": 0.010258,
+      "balance_loss_clip": 1.04152012,
+      "balance_loss_mlp": 1.01813436,
+      "epoch": 0.5985691096013949,
+      "flos": 16471794314880.0,
+      "grad_norm": 1.6254540217437152,
+      "language_loss": 0.76004171,
+      "learning_rate": 1.465202147809526e-06,
+      "loss": 0.78242099,
+      "num_input_tokens_seen": 107298135,
+      "step": 4978,
+      "time_per_iteration": 3.6163442134857178
+    },
+    {
+      "auxiliary_loss_clip": 0.01176567,
+      "auxiliary_loss_mlp": 0.01027765,
+      "balance_loss_clip": 1.05085814,
+      "balance_loss_mlp": 1.01992726,
+      "epoch": 0.5986893524920339,
+      "flos": 26719046933760.0,
+      "grad_norm": 2.0257739243944446,
+      "language_loss": 0.75946361,
+      "learning_rate": 1.4644515822856888e-06,
+      "loss": 0.7815069,
+      "num_input_tokens_seen": 107316570,
+      "step": 4979,
+      "time_per_iteration": 2.644519805908203
+    },
+    {
+      "auxiliary_loss_clip": 0.01104205,
+      "auxiliary_loss_mlp": 0.01001649,
+      "balance_loss_clip": 1.011765,
+      "balance_loss_mlp": 1.00028443,
+      "epoch": 0.598809595382673,
+      "flos": 61608061100160.0,
+      "grad_norm": 0.7534433514236746,
+      "language_loss": 0.56576234,
+      "learning_rate": 1.4637010980041215e-06,
+      "loss": 0.5868209,
+      "num_input_tokens_seen": 107378680,
+      "step": 4980,
+      "time_per_iteration": 4.192070722579956
+    },
+    {
+      "auxiliary_loss_clip": 0.01177872,
+      "auxiliary_loss_mlp": 0.0102749,
+      "balance_loss_clip": 1.05223489,
+      "balance_loss_mlp": 1.01941347,
+      "epoch": 0.5989298382733121,
+      "flos": 11801719549440.0,
+      "grad_norm": 2.1843784107912922,
+      "language_loss": 0.89679033,
+      "learning_rate": 1.4629506950786707e-06,
+      "loss": 0.91884392,
+      "num_input_tokens_seen": 107394860,
+      "step": 4981,
+      "time_per_iteration": 2.594289779663086
+    },
+    {
+      "auxiliary_loss_clip": 0.01069,
+      "auxiliary_loss_mlp": 0.01001084,
+      "balance_loss_clip": 1.01390791,
+      "balance_loss_mlp": 0.99988586,
+      "epoch": 0.5990500811639512,
+      "flos": 60025800021120.0,
+      "grad_norm": 0.8142801664145489,
+      "language_loss": 0.5607599,
+      "learning_rate": 1.4622003736231733e-06,
+      "loss": 0.58146071,
+      "num_input_tokens_seen": 107453850,
+      "step": 4982,
+      "time_per_iteration": 3.2590086460113525
+    },
+    {
+      "auxiliary_loss_clip": 0.01184273,
+      "auxiliary_loss_mlp": 0.01026999,
+      "balance_loss_clip": 1.0510273,
+      "balance_loss_mlp": 1.01855922,
+      "epoch": 0.5991703240545903,
+      "flos": 18222726683520.0,
+      "grad_norm": 1.9726161565173326,
+      "language_loss": 0.80786109,
+      "learning_rate": 1.461450133751451e-06,
+      "loss": 0.82997382,
+      "num_input_tokens_seen": 107471920,
+      "step": 4983,
+      "time_per_iteration": 2.6681418418884277
+    },
+    {
+      "auxiliary_loss_clip": 0.01189424,
+      "auxiliary_loss_mlp": 0.0102195,
+      "balance_loss_clip": 1.05095649,
+      "balance_loss_mlp": 1.0146246,
+      "epoch": 0.5992905669452293,
+      "flos": 27709894581120.0,
+      "grad_norm": 1.693361224000888,
+      "language_loss": 0.75819403,
+      "learning_rate": 1.4606999755773153e-06,
+      "loss": 0.78030777,
+      "num_input_tokens_seen": 107493125,
+      "step": 4984,
+      "time_per_iteration": 2.6367294788360596
+    },
+    {
+      "auxiliary_loss_clip": 0.01174546,
+      "auxiliary_loss_mlp": 0.0102612,
+      "balance_loss_clip": 1.05058312,
+      "balance_loss_mlp": 1.01885438,
+      "epoch": 0.5994108098358685,
+      "flos": 20449008662400.0,
+      "grad_norm": 1.6412279029905126,
+      "language_loss": 0.82310742,
+      "learning_rate": 1.4599498992145643e-06,
+      "loss": 0.84511411,
+      "num_input_tokens_seen": 107513150,
+      "step": 4985,
+      "time_per_iteration": 2.598134994506836
+    },
+    {
+      "auxiliary_loss_clip": 0.01199437,
+      "auxiliary_loss_mlp": 0.01378546,
+      "balance_loss_clip": 1.05040717,
+      "balance_loss_mlp": 1.0001173,
+      "epoch": 0.5995310527265075,
+      "flos": 22269966595200.0,
+      "grad_norm": 2.062011933841704,
+      "language_loss": 0.7107085,
+      "learning_rate": 1.4591999047769846e-06,
+      "loss": 0.73648834,
+      "num_input_tokens_seen": 107532005,
+      "step": 4986,
+      "time_per_iteration": 2.670072555541992
+    },
+    {
+      "auxiliary_loss_clip": 0.01211992,
+      "auxiliary_loss_mlp": 0.01035134,
+      "balance_loss_clip": 1.04047513,
+      "balance_loss_mlp": 1.02742112,
+      "epoch": 0.5996512956171466,
+      "flos": 18916951818240.0,
+      "grad_norm": 1.8800541283070908,
+      "language_loss": 0.7525211,
+      "learning_rate": 1.4584499923783486e-06,
+      "loss": 0.77499229,
+      "num_input_tokens_seen": 107550585,
+      "step": 4987,
+      "time_per_iteration": 2.7835073471069336
+    },
+    {
+      "auxiliary_loss_clip": 0.01194447,
+      "auxiliary_loss_mlp": 0.01023889,
+      "balance_loss_clip": 1.04920888,
+      "balance_loss_mlp": 1.01655173,
+      "epoch": 0.5997715385077858,
+      "flos": 15370916330880.0,
+      "grad_norm": 1.8233694956972906,
+      "language_loss": 0.76138026,
+      "learning_rate": 1.457700162132419e-06,
+      "loss": 0.78356361,
+      "num_input_tokens_seen": 107567575,
+      "step": 4988,
+      "time_per_iteration": 2.699075222015381
+    },
+    {
+      "auxiliary_loss_clip": 0.01205934,
+      "auxiliary_loss_mlp": 0.01022508,
+      "balance_loss_clip": 1.04541099,
+      "balance_loss_mlp": 1.0152185,
+      "epoch": 0.5998917813984248,
+      "flos": 25264844818560.0,
+      "grad_norm": 2.138544533385474,
+      "language_loss": 0.72654504,
+      "learning_rate": 1.4569504141529433e-06,
+      "loss": 0.74882942,
+      "num_input_tokens_seen": 107585410,
+      "step": 4989,
+      "time_per_iteration": 2.8205173015594482
+    },
+    {
+      "auxiliary_loss_clip": 0.01184879,
+      "auxiliary_loss_mlp": 0.01025548,
+      "balance_loss_clip": 1.05061054,
+      "balance_loss_mlp": 1.01719117,
+      "epoch": 0.6000120242890639,
+      "flos": 22054502862720.0,
+      "grad_norm": 6.8397796862381375,
+      "language_loss": 0.72285521,
+      "learning_rate": 1.456200748553658e-06,
+      "loss": 0.74495947,
+      "num_input_tokens_seen": 107603405,
+      "step": 4990,
+      "time_per_iteration": 2.7157278060913086
+    },
+    {
+      "auxiliary_loss_clip": 0.01177046,
+      "auxiliary_loss_mlp": 0.01033543,
+      "balance_loss_clip": 1.05229688,
+      "balance_loss_mlp": 1.02534139,
+      "epoch": 0.600132267179703,
+      "flos": 29863421562240.0,
+      "grad_norm": 1.4743090650938189,
+      "language_loss": 0.78808475,
+      "learning_rate": 1.455451165448287e-06,
+      "loss": 0.81019068,
+      "num_input_tokens_seen": 107626060,
+      "step": 4991,
+      "time_per_iteration": 2.724163293838501
+    },
+    {
+      "auxiliary_loss_clip": 0.01192683,
+      "auxiliary_loss_mlp": 0.01026332,
+      "balance_loss_clip": 1.04918551,
+      "balance_loss_mlp": 1.01846385,
+      "epoch": 0.6002525100703421,
+      "flos": 25045358762880.0,
+      "grad_norm": 2.3435507352496425,
+      "language_loss": 0.73307526,
+      "learning_rate": 1.4547016649505407e-06,
+      "loss": 0.75526541,
+      "num_input_tokens_seen": 107644070,
+      "step": 4992,
+      "time_per_iteration": 2.765842914581299
+    },
+    {
+      "auxiliary_loss_clip": 0.01197773,
+      "auxiliary_loss_mlp": 0.01028088,
+      "balance_loss_clip": 1.04363179,
+      "balance_loss_mlp": 1.02023792,
+      "epoch": 0.6003727529609811,
+      "flos": 20849592113280.0,
+      "grad_norm": 2.1116748378889545,
+      "language_loss": 0.85000652,
+      "learning_rate": 1.4539522471741193e-06,
+      "loss": 0.87226516,
+      "num_input_tokens_seen": 107661495,
+      "step": 4993,
+      "time_per_iteration": 278.9556670188904
+    },
+    {
+      "auxiliary_loss_clip": 0.01189575,
+      "auxiliary_loss_mlp": 0.01033311,
+      "balance_loss_clip": 1.0501194,
+      "balance_loss_mlp": 1.02481115,
+      "epoch": 0.6004929958516203,
+      "flos": 15594604277760.0,
+      "grad_norm": 1.9542416436148122,
+      "language_loss": 0.71049535,
+      "learning_rate": 1.4532029122327067e-06,
+      "loss": 0.73272419,
+      "num_input_tokens_seen": 107678280,
+      "step": 4994,
+      "time_per_iteration": 2.7194650173187256
+    },
+    {
+      "auxiliary_loss_clip": 0.0119752,
+      "auxiliary_loss_mlp": 0.01028931,
+      "balance_loss_clip": 1.05094862,
+      "balance_loss_mlp": 1.02164686,
+      "epoch": 0.6006132387422594,
+      "flos": 21763267390080.0,
+      "grad_norm": 1.8886393858192396,
+      "language_loss": 0.7547189,
+      "learning_rate": 1.4524536602399783e-06,
+      "loss": 0.77698344,
+      "num_input_tokens_seen": 107697370,
+      "step": 4995,
+      "time_per_iteration": 2.6526713371276855
+    },
+    {
+      "auxiliary_loss_clip": 0.01190577,
+      "auxiliary_loss_mlp": 0.01026926,
+      "balance_loss_clip": 1.05095506,
+      "balance_loss_mlp": 1.01920116,
+      "epoch": 0.6007334816328984,
+      "flos": 22858542852480.0,
+      "grad_norm": 3.210277091795197,
+      "language_loss": 0.77208364,
+      "learning_rate": 1.4517044913095938e-06,
+      "loss": 0.79425865,
+      "num_input_tokens_seen": 107717790,
+      "step": 4996,
+      "time_per_iteration": 2.631024122238159
+    },
+    {
+      "auxiliary_loss_clip": 0.01182841,
+      "auxiliary_loss_mlp": 0.01028141,
+      "balance_loss_clip": 1.04948318,
+      "balance_loss_mlp": 1.02024984,
+      "epoch": 0.6008537245235376,
+      "flos": 28324577047680.0,
+      "grad_norm": 1.650203704373414,
+      "language_loss": 0.81581473,
+      "learning_rate": 1.4509554055552022e-06,
+      "loss": 0.8379246,
+      "num_input_tokens_seen": 107738020,
+      "step": 4997,
+      "time_per_iteration": 2.6357080936431885
+    },
+    {
+      "auxiliary_loss_clip": 0.01187836,
+      "auxiliary_loss_mlp": 0.01030906,
+      "balance_loss_clip": 1.04627228,
+      "balance_loss_mlp": 1.02294016,
+      "epoch": 0.6009739674141766,
+      "flos": 20886113266560.0,
+      "grad_norm": 2.310454651353158,
+      "language_loss": 0.84087813,
+      "learning_rate": 1.450206403090439e-06,
+      "loss": 0.8630656,
+      "num_input_tokens_seen": 107756215,
+      "step": 4998,
+      "time_per_iteration": 2.60292911529541
+    },
+    {
+      "auxiliary_loss_clip": 0.01180978,
+      "auxiliary_loss_mlp": 0.0102027,
+      "balance_loss_clip": 1.05118227,
+      "balance_loss_mlp": 1.01334071,
+      "epoch": 0.6010942103048157,
+      "flos": 20481004702080.0,
+      "grad_norm": 2.094770015834136,
+      "language_loss": 0.86247647,
+      "learning_rate": 1.4494574840289274e-06,
+      "loss": 0.88448894,
+      "num_input_tokens_seen": 107773330,
+      "step": 4999,
+      "time_per_iteration": 2.58461332321167
+    },
+    {
+      "auxiliary_loss_clip": 0.01188364,
+      "auxiliary_loss_mlp": 0.01027737,
+      "balance_loss_clip": 1.04933381,
+      "balance_loss_mlp": 1.01925576,
+      "epoch": 0.6012144531954549,
+      "flos": 23805973935360.0,
+      "grad_norm": 1.7901054044816458,
+      "language_loss": 0.74055737,
+      "learning_rate": 1.4487086484842782e-06,
+      "loss": 0.76271838,
+      "num_input_tokens_seen": 107791975,
+      "step": 5000,
+      "time_per_iteration": 2.593947172164917
+    },
+    {
+      "auxiliary_loss_clip": 0.01176217,
+      "auxiliary_loss_mlp": 0.01024029,
+      "balance_loss_clip": 1.05155659,
+      "balance_loss_mlp": 1.01652479,
+      "epoch": 0.6013346960860939,
+      "flos": 18988378012800.0,
+      "grad_norm": 1.8584328651550805,
+      "language_loss": 0.60474902,
+      "learning_rate": 1.4479598965700878e-06,
+      "loss": 0.62675148,
+      "num_input_tokens_seen": 107809240,
+      "step": 5001,
+      "time_per_iteration": 3.472097635269165
+    },
+    {
+      "auxiliary_loss_clip": 0.01197666,
+      "auxiliary_loss_mlp": 0.01025535,
+      "balance_loss_clip": 1.04547286,
+      "balance_loss_mlp": 1.01752985,
+      "epoch": 0.601454938976733,
+      "flos": 24025316336640.0,
+      "grad_norm": 2.377773997444708,
+      "language_loss": 0.68957388,
+      "learning_rate": 1.4472112283999427e-06,
+      "loss": 0.71180588,
+      "num_input_tokens_seen": 107827895,
+      "step": 5002,
+      "time_per_iteration": 3.6353039741516113
+    },
+    {
+      "auxiliary_loss_clip": 0.01178602,
+      "auxiliary_loss_mlp": 0.01025611,
+      "balance_loss_clip": 1.04894948,
+      "balance_loss_mlp": 1.01826739,
+      "epoch": 0.6015751818673721,
+      "flos": 26427129102720.0,
+      "grad_norm": 1.9234792047571303,
+      "language_loss": 0.69085443,
+      "learning_rate": 1.4464626440874143e-06,
+      "loss": 0.71289659,
+      "num_input_tokens_seen": 107847010,
+      "step": 5003,
+      "time_per_iteration": 3.498868703842163
+    },
+    {
+      "auxiliary_loss_clip": 0.01215952,
+      "auxiliary_loss_mlp": 0.01028243,
+      "balance_loss_clip": 1.04254961,
+      "balance_loss_mlp": 1.02005887,
+      "epoch": 0.6016954247580112,
+      "flos": 13115260005120.0,
+      "grad_norm": 2.8458608533574177,
+      "language_loss": 0.74272943,
+      "learning_rate": 1.4457141437460636e-06,
+      "loss": 0.76517141,
+      "num_input_tokens_seen": 107864235,
+      "step": 5004,
+      "time_per_iteration": 2.6700122356414795
+    },
+    {
+      "auxiliary_loss_clip": 0.01193905,
+      "auxiliary_loss_mlp": 0.01030498,
+      "balance_loss_clip": 1.04842269,
+      "balance_loss_mlp": 1.02218342,
+      "epoch": 0.6018156676486502,
+      "flos": 23768447201280.0,
+      "grad_norm": 1.8421989814914366,
+      "language_loss": 0.73403627,
+      "learning_rate": 1.444965727489436e-06,
+      "loss": 0.7562803,
+      "num_input_tokens_seen": 107883680,
+      "step": 5005,
+      "time_per_iteration": 2.6201157569885254
+    },
+    {
+      "auxiliary_loss_clip": 0.01195689,
+      "auxiliary_loss_mlp": 0.01023672,
+      "balance_loss_clip": 1.0432291,
+      "balance_loss_mlp": 1.01640916,
+      "epoch": 0.6019359105392894,
+      "flos": 26469360518400.0,
+      "grad_norm": 1.7975295969816631,
+      "language_loss": 0.63169003,
+      "learning_rate": 1.444217395431066e-06,
+      "loss": 0.6538837,
+      "num_input_tokens_seen": 107906220,
+      "step": 5006,
+      "time_per_iteration": 3.5711910724639893
+    },
+    {
+      "auxiliary_loss_clip": 0.01108939,
+      "auxiliary_loss_mlp": 0.01002721,
+      "balance_loss_clip": 1.02031636,
+      "balance_loss_mlp": 1.00158298,
+      "epoch": 0.6020561534299285,
+      "flos": 69190849728000.0,
+      "grad_norm": 0.8519951561309418,
+      "language_loss": 0.55796051,
+      "learning_rate": 1.4434691476844755e-06,
+      "loss": 0.57907712,
+      "num_input_tokens_seen": 107967195,
+      "step": 5007,
+      "time_per_iteration": 3.235978126525879
+    },
+    {
+      "auxiliary_loss_clip": 0.01192253,
+      "auxiliary_loss_mlp": 0.01024369,
+      "balance_loss_clip": 1.0504868,
+      "balance_loss_mlp": 1.01773453,
+      "epoch": 0.6021763963205675,
+      "flos": 21835304115840.0,
+      "grad_norm": 2.0152564651581084,
+      "language_loss": 0.66984671,
+      "learning_rate": 1.4427209843631729e-06,
+      "loss": 0.69201291,
+      "num_input_tokens_seen": 107984245,
+      "step": 5008,
+      "time_per_iteration": 2.670264959335327
+    },
+    {
+      "auxiliary_loss_clip": 0.01171998,
+      "auxiliary_loss_mlp": 0.01378565,
+      "balance_loss_clip": 1.04989767,
+      "balance_loss_mlp": 1.00021374,
+      "epoch": 0.6022966392112067,
+      "flos": 26578636669440.0,
+      "grad_norm": 1.7305350653769673,
+      "language_loss": 0.81313449,
+      "learning_rate": 1.4419729055806534e-06,
+      "loss": 0.83864015,
+      "num_input_tokens_seen": 108003680,
+      "step": 5009,
+      "time_per_iteration": 2.647916078567505
+    },
+    {
+      "auxiliary_loss_clip": 0.0118835,
+      "auxiliary_loss_mlp": 0.01378602,
+      "balance_loss_clip": 1.04973447,
+      "balance_loss_mlp": 1.0001626,
+      "epoch": 0.6024168821018457,
+      "flos": 20703722981760.0,
+      "grad_norm": 2.289899656900874,
+      "language_loss": 0.82156283,
+      "learning_rate": 1.441224911450401e-06,
+      "loss": 0.84723234,
+      "num_input_tokens_seen": 108019635,
+      "step": 5010,
+      "time_per_iteration": 2.6436808109283447
+    },
+    {
+      "auxiliary_loss_clip": 0.01185784,
+      "auxiliary_loss_mlp": 0.01025814,
+      "balance_loss_clip": 1.04908645,
+      "balance_loss_mlp": 1.01839364,
+      "epoch": 0.6025371249924848,
+      "flos": 24680973242880.0,
+      "grad_norm": 2.0636820343112507,
+      "language_loss": 0.8215487,
+      "learning_rate": 1.4404770020858851e-06,
+      "loss": 0.84366465,
+      "num_input_tokens_seen": 108039120,
+      "step": 5011,
+      "time_per_iteration": 2.6895675659179688
+    },
+    {
+      "auxiliary_loss_clip": 0.01177205,
+      "auxiliary_loss_mlp": 0.01027068,
+      "balance_loss_clip": 1.04820538,
+      "balance_loss_mlp": 1.01967096,
+      "epoch": 0.602657367883124,
+      "flos": 25955801815680.0,
+      "grad_norm": 1.809296358535974,
+      "language_loss": 0.86109871,
+      "learning_rate": 1.439729177600563e-06,
+      "loss": 0.8831414,
+      "num_input_tokens_seen": 108059615,
+      "step": 5012,
+      "time_per_iteration": 2.695675849914551
+    },
+    {
+      "auxiliary_loss_clip": 0.01180319,
+      "auxiliary_loss_mlp": 0.01028731,
+      "balance_loss_clip": 1.04893899,
+      "balance_loss_mlp": 1.02117062,
+      "epoch": 0.602777610773763,
+      "flos": 16690633925760.0,
+      "grad_norm": 2.1851002884885116,
+      "language_loss": 0.73159254,
+      "learning_rate": 1.4389814381078793e-06,
+      "loss": 0.75368297,
+      "num_input_tokens_seen": 108078855,
+      "step": 5013,
+      "time_per_iteration": 2.5987110137939453
+    },
+    {
+      "auxiliary_loss_clip": 0.01244595,
+      "auxiliary_loss_mlp": 0.01024745,
+      "balance_loss_clip": 1.04050422,
+      "balance_loss_mlp": 1.01725292,
+      "epoch": 0.6028978536644021,
+      "flos": 13334243270400.0,
+      "grad_norm": 1.9001742351339244,
+      "language_loss": 0.80029887,
+      "learning_rate": 1.438233783721265e-06,
+      "loss": 0.82299221,
+      "num_input_tokens_seen": 108095020,
+      "step": 5014,
+      "time_per_iteration": 3.2404139041900635
+    },
+    {
+      "auxiliary_loss_clip": 0.01186861,
+      "auxiliary_loss_mlp": 0.01024234,
+      "balance_loss_clip": 1.05050862,
+      "balance_loss_mlp": 1.01688457,
+      "epoch": 0.6030180965550412,
+      "flos": 19644825018240.0,
+      "grad_norm": 2.0315641732441447,
+      "language_loss": 0.77840042,
+      "learning_rate": 1.43748621455414e-06,
+      "loss": 0.80051136,
+      "num_input_tokens_seen": 108111455,
+      "step": 5015,
+      "time_per_iteration": 2.8461592197418213
+    },
+    {
+      "auxiliary_loss_clip": 0.01190162,
+      "auxiliary_loss_mlp": 0.01024401,
+      "balance_loss_clip": 1.04820001,
+      "balance_loss_mlp": 1.0158062,
+      "epoch": 0.6031383394456803,
+      "flos": 14458390289280.0,
+      "grad_norm": 3.4984680431524064,
+      "language_loss": 0.80443555,
+      "learning_rate": 1.4367387307199082e-06,
+      "loss": 0.82658124,
+      "num_input_tokens_seen": 108128305,
+      "step": 5016,
+      "time_per_iteration": 2.7211220264434814
+    },
+    {
+      "auxiliary_loss_clip": 0.01175912,
+      "auxiliary_loss_mlp": 0.01027763,
+      "balance_loss_clip": 1.04668355,
+      "balance_loss_mlp": 1.02036011,
+      "epoch": 0.6032585823363193,
+      "flos": 13917791623680.0,
+      "grad_norm": 1.733449069920537,
+      "language_loss": 0.82623637,
+      "learning_rate": 1.4359913323319632e-06,
+      "loss": 0.84827316,
+      "num_input_tokens_seen": 108145475,
+      "step": 5017,
+      "time_per_iteration": 2.6385879516601562
+    },
+    {
+      "auxiliary_loss_clip": 0.01204633,
+      "auxiliary_loss_mlp": 0.01024659,
+      "balance_loss_clip": 1.04091895,
+      "balance_loss_mlp": 1.01629055,
+      "epoch": 0.6033788252269584,
+      "flos": 24353252530560.0,
+      "grad_norm": 1.6917507700374184,
+      "language_loss": 0.77813107,
+      "learning_rate": 1.4352440195036847e-06,
+      "loss": 0.80042398,
+      "num_input_tokens_seen": 108165650,
+      "step": 5018,
+      "time_per_iteration": 2.8069300651550293
+    },
+    {
+      "auxiliary_loss_clip": 0.01229137,
+      "auxiliary_loss_mlp": 0.01025041,
+      "balance_loss_clip": 1.03919411,
+      "balance_loss_mlp": 1.01790047,
+      "epoch": 0.6034990681175976,
+      "flos": 25521247077120.0,
+      "grad_norm": 1.8606410479642317,
+      "language_loss": 0.79749084,
+      "learning_rate": 1.4344967923484395e-06,
+      "loss": 0.8200326,
+      "num_input_tokens_seen": 108187620,
+      "step": 5019,
+      "time_per_iteration": 2.789881944656372
+    },
+    {
+      "auxiliary_loss_clip": 0.01180332,
+      "auxiliary_loss_mlp": 0.01026662,
+      "balance_loss_clip": 1.04965138,
+      "balance_loss_mlp": 1.01894951,
+      "epoch": 0.6036193110082366,
+      "flos": 25958387594880.0,
+      "grad_norm": 1.9943698453956604,
+      "language_loss": 0.72275233,
+      "learning_rate": 1.433749650979581e-06,
+      "loss": 0.74482226,
+      "num_input_tokens_seen": 108207605,
+      "step": 5020,
+      "time_per_iteration": 2.887808322906494
+    },
+    {
+      "auxiliary_loss_clip": 0.01205352,
+      "auxiliary_loss_mlp": 0.01031795,
+      "balance_loss_clip": 1.04607749,
+      "balance_loss_mlp": 1.02421331,
+      "epoch": 0.6037395538988757,
+      "flos": 25593427457280.0,
+      "grad_norm": 1.6900778875060796,
+      "language_loss": 0.6793679,
+      "learning_rate": 1.433002595510451e-06,
+      "loss": 0.70173937,
+      "num_input_tokens_seen": 108226385,
+      "step": 5021,
+      "time_per_iteration": 3.5044820308685303
+    },
+    {
+      "auxiliary_loss_clip": 0.01185568,
+      "auxiliary_loss_mlp": 0.01378859,
+      "balance_loss_clip": 1.04526055,
+      "balance_loss_mlp": 1.00017786,
+      "epoch": 0.6038597967895148,
+      "flos": 17816253402240.0,
+      "grad_norm": 1.736943521791554,
+      "language_loss": 0.71671075,
+      "learning_rate": 1.4322556260543757e-06,
+      "loss": 0.74235499,
+      "num_input_tokens_seen": 108242960,
+      "step": 5022,
+      "time_per_iteration": 2.658573627471924
+    },
+    {
+      "auxiliary_loss_clip": 0.01104977,
+      "auxiliary_loss_mlp": 0.01000278,
+      "balance_loss_clip": 1.01133084,
+      "balance_loss_mlp": 0.9990446,
+      "epoch": 0.6039800396801539,
+      "flos": 65169213235200.0,
+      "grad_norm": 0.894153701548628,
+      "language_loss": 0.62752819,
+      "learning_rate": 1.4315087427246703e-06,
+      "loss": 0.64858073,
+      "num_input_tokens_seen": 108296785,
+      "step": 5023,
+      "time_per_iteration": 3.1860246658325195
+    },
+    {
+      "auxiliary_loss_clip": 0.01066228,
+      "auxiliary_loss_mlp": 0.01001851,
+      "balance_loss_clip": 1.01137984,
+      "balance_loss_mlp": 1.00067651,
+      "epoch": 0.604100282570793,
+      "flos": 67386409073280.0,
+      "grad_norm": 0.87281248856669,
+      "language_loss": 0.58485025,
+      "learning_rate": 1.4307619456346372e-06,
+      "loss": 0.60553104,
+      "num_input_tokens_seen": 108341090,
+      "step": 5024,
+      "time_per_iteration": 2.879485607147217
+    },
+    {
+      "auxiliary_loss_clip": 0.01181541,
+      "auxiliary_loss_mlp": 0.01022583,
+      "balance_loss_clip": 1.04531646,
+      "balance_loss_mlp": 1.01497126,
+      "epoch": 0.6042205254614321,
+      "flos": 35297495631360.0,
+      "grad_norm": 1.8564567993084808,
+      "language_loss": 0.74177516,
+      "learning_rate": 1.430015234897564e-06,
+      "loss": 0.76381636,
+      "num_input_tokens_seen": 108364370,
+      "step": 5025,
+      "time_per_iteration": 2.7953710556030273
+    },
+    {
+      "auxiliary_loss_clip": 0.01172055,
+      "auxiliary_loss_mlp": 0.01378517,
+      "balance_loss_clip": 1.04886436,
+      "balance_loss_mlp": 1.00017381,
+      "epoch": 0.6043407683520712,
+      "flos": 45658262206080.0,
+      "grad_norm": 1.539970554244968,
+      "language_loss": 0.66578662,
+      "learning_rate": 1.4292686106267274e-06,
+      "loss": 0.69129241,
+      "num_input_tokens_seen": 108387220,
+      "step": 5026,
+      "time_per_iteration": 2.750547409057617
+    },
+    {
+      "auxiliary_loss_clip": 0.01184925,
+      "auxiliary_loss_mlp": 0.01030725,
+      "balance_loss_clip": 1.0485779,
+      "balance_loss_mlp": 1.02341771,
+      "epoch": 0.6044610112427102,
+      "flos": 16180020138240.0,
+      "grad_norm": 1.5512020129153021,
+      "language_loss": 0.77426076,
+      "learning_rate": 1.4285220729353876e-06,
+      "loss": 0.79641736,
+      "num_input_tokens_seen": 108405760,
+      "step": 5027,
+      "time_per_iteration": 3.3895082473754883
+    },
+    {
+      "auxiliary_loss_clip": 0.01187601,
+      "auxiliary_loss_mlp": 0.01023278,
+      "balance_loss_clip": 1.04477227,
+      "balance_loss_mlp": 1.01576519,
+      "epoch": 0.6045812541333494,
+      "flos": 13804062186240.0,
+      "grad_norm": 1.8086359331506427,
+      "language_loss": 0.77865499,
+      "learning_rate": 1.4277756219367957e-06,
+      "loss": 0.80076373,
+      "num_input_tokens_seen": 108422785,
+      "step": 5028,
+      "time_per_iteration": 3.700751543045044
+    },
+    {
+      "auxiliary_loss_clip": 0.01205726,
+      "auxiliary_loss_mlp": 0.01030573,
+      "balance_loss_clip": 1.04618418,
+      "balance_loss_mlp": 1.02258658,
+      "epoch": 0.6047014970239885,
+      "flos": 19975059682560.0,
+      "grad_norm": 1.8174060986292806,
+      "language_loss": 0.79718423,
+      "learning_rate": 1.4270292577441864e-06,
+      "loss": 0.81954724,
+      "num_input_tokens_seen": 108442290,
+      "step": 5029,
+      "time_per_iteration": 2.6915500164031982
+    },
+    {
+      "auxiliary_loss_clip": 0.01183767,
+      "auxiliary_loss_mlp": 0.01022902,
+      "balance_loss_clip": 1.04642725,
+      "balance_loss_mlp": 1.01545763,
+      "epoch": 0.6048217399146275,
+      "flos": 25337097025920.0,
+      "grad_norm": 1.5635158360415142,
+      "language_loss": 0.720052,
+      "learning_rate": 1.4262829804707836e-06,
+      "loss": 0.7421186,
+      "num_input_tokens_seen": 108464280,
+      "step": 5030,
+      "time_per_iteration": 3.5695228576660156
+    },
+    {
+      "auxiliary_loss_clip": 0.01182214,
+      "auxiliary_loss_mlp": 0.01024804,
+      "balance_loss_clip": 1.04637492,
+      "balance_loss_mlp": 1.01677561,
+      "epoch": 0.6049419828052667,
+      "flos": 26030819370240.0,
+      "grad_norm": 1.4250032210874128,
+      "language_loss": 0.6978668,
+      "learning_rate": 1.4255367902297958e-06,
+      "loss": 0.71993697,
+      "num_input_tokens_seen": 108485610,
+      "step": 5031,
+      "time_per_iteration": 2.704991579055786
+    },
+    {
+      "auxiliary_loss_clip": 0.01172066,
+      "auxiliary_loss_mlp": 0.01031569,
+      "balance_loss_clip": 1.04958296,
+      "balance_loss_mlp": 1.02409124,
+      "epoch": 0.6050622256959057,
+      "flos": 14648106948480.0,
+      "grad_norm": 2.10374596958434,
+      "language_loss": 0.78658462,
+      "learning_rate": 1.4247906871344215e-06,
+      "loss": 0.80862099,
+      "num_input_tokens_seen": 108501005,
+      "step": 5032,
+      "time_per_iteration": 3.4191696643829346
+    },
+    {
+      "auxiliary_loss_clip": 0.01183912,
+      "auxiliary_loss_mlp": 0.01024141,
+      "balance_loss_clip": 1.04451871,
+      "balance_loss_mlp": 1.01660061,
+      "epoch": 0.6051824685865448,
+      "flos": 23331450337920.0,
+      "grad_norm": 2.178546680394733,
+      "language_loss": 0.75269401,
+      "learning_rate": 1.4240446712978415e-06,
+      "loss": 0.77477449,
+      "num_input_tokens_seen": 108519990,
+      "step": 5033,
+      "time_per_iteration": 2.695950984954834
+    },
+    {
+      "auxiliary_loss_clip": 0.01184793,
+      "auxiliary_loss_mlp": 0.01027126,
+      "balance_loss_clip": 1.0477556,
+      "balance_loss_mlp": 1.01889467,
+      "epoch": 0.605302711477184,
+      "flos": 27563307177600.0,
+      "grad_norm": 1.8115677155084506,
+      "language_loss": 0.74081063,
+      "learning_rate": 1.423298742833227e-06,
+      "loss": 0.7629298,
+      "num_input_tokens_seen": 108538650,
+      "step": 5034,
+      "time_per_iteration": 2.63480281829834
+    },
+    {
+      "auxiliary_loss_clip": 0.01203684,
+      "auxiliary_loss_mlp": 0.01026639,
+      "balance_loss_clip": 1.04445779,
+      "balance_loss_mlp": 1.01872349,
+      "epoch": 0.605422954367823,
+      "flos": 15154698412800.0,
+      "grad_norm": 1.7876856808666606,
+      "language_loss": 0.71574175,
+      "learning_rate": 1.4225529018537352e-06,
+      "loss": 0.73804492,
+      "num_input_tokens_seen": 108554155,
+      "step": 5035,
+      "time_per_iteration": 2.708824872970581
+    },
+    {
+      "auxiliary_loss_clip": 0.01172393,
+      "auxiliary_loss_mlp": 0.01025171,
+      "balance_loss_clip": 1.05016708,
+      "balance_loss_mlp": 1.01744032,
+      "epoch": 0.6055431972584621,
+      "flos": 27673912131840.0,
+      "grad_norm": 1.739510168718603,
+      "language_loss": 0.77966535,
+      "learning_rate": 1.4218071484725082e-06,
+      "loss": 0.80164099,
+      "num_input_tokens_seen": 108576275,
+      "step": 5036,
+      "time_per_iteration": 2.6675803661346436
+    },
+    {
+      "auxiliary_loss_clip": 0.01188429,
+      "auxiliary_loss_mlp": 0.01028718,
+      "balance_loss_clip": 1.04952693,
+      "balance_loss_mlp": 1.0211122,
+      "epoch": 0.6056634401491012,
+      "flos": 19387489006080.0,
+      "grad_norm": 1.9652691033172112,
+      "language_loss": 0.76399577,
+      "learning_rate": 1.4210614828026786e-06,
+      "loss": 0.78616726,
+      "num_input_tokens_seen": 108594125,
+      "step": 5037,
+      "time_per_iteration": 2.6519978046417236
+    },
+    {
+      "auxiliary_loss_clip": 0.0117117,
+      "auxiliary_loss_mlp": 0.01017845,
+      "balance_loss_clip": 1.04836869,
+      "balance_loss_mlp": 1.01061535,
+      "epoch": 0.6057836830397403,
+      "flos": 24789459294720.0,
+      "grad_norm": 1.624955341742406,
+      "language_loss": 0.74402583,
+      "learning_rate": 1.4203159049573605e-06,
+      "loss": 0.76591599,
+      "num_input_tokens_seen": 108615360,
+      "step": 5038,
+      "time_per_iteration": 2.599740505218506
+    },
+    {
+      "auxiliary_loss_clip": 0.01194956,
+      "auxiliary_loss_mlp": 0.01029138,
+      "balance_loss_clip": 1.04519844,
+      "balance_loss_mlp": 1.02152085,
+      "epoch": 0.6059039259303793,
+      "flos": 20558248899840.0,
+      "grad_norm": 1.982037460669727,
+      "language_loss": 0.87194753,
+      "learning_rate": 1.4195704150496593e-06,
+      "loss": 0.8941884,
+      "num_input_tokens_seen": 108633075,
+      "step": 5039,
+      "time_per_iteration": 2.6819283962249756
+    },
+    {
+      "auxiliary_loss_clip": 0.01191202,
+      "auxiliary_loss_mlp": 0.01025606,
+      "balance_loss_clip": 1.04798067,
+      "balance_loss_mlp": 1.01753545,
+      "epoch": 0.6060241688210185,
+      "flos": 21069724613760.0,
+      "grad_norm": 1.6281269075682039,
+      "language_loss": 0.73870277,
+      "learning_rate": 1.4188250131926639e-06,
+      "loss": 0.76087087,
+      "num_input_tokens_seen": 108651875,
+      "step": 5040,
+      "time_per_iteration": 2.67334246635437
+    },
+    {
+      "auxiliary_loss_clip": 0.01190548,
+      "auxiliary_loss_mlp": 0.01027555,
+      "balance_loss_clip": 1.04670942,
+      "balance_loss_mlp": 1.01980615,
+      "epoch": 0.6061444117116576,
+      "flos": 16361081619840.0,
+      "grad_norm": 1.795902818309764,
+      "language_loss": 0.80714798,
+      "learning_rate": 1.4180796994994525e-06,
+      "loss": 0.82932901,
+      "num_input_tokens_seen": 108669290,
+      "step": 5041,
+      "time_per_iteration": 2.6400911808013916
+    },
+    {
+      "auxiliary_loss_clip": 0.01187015,
+      "auxiliary_loss_mlp": 0.01022385,
+      "balance_loss_clip": 1.04527473,
+      "balance_loss_mlp": 1.01547337,
+      "epoch": 0.6062646546022966,
+      "flos": 21507296094720.0,
+      "grad_norm": 4.351895094201186,
+      "language_loss": 0.72577298,
+      "learning_rate": 1.4173344740830877e-06,
+      "loss": 0.74786693,
+      "num_input_tokens_seen": 108688420,
+      "step": 5042,
+      "time_per_iteration": 2.678586483001709
+    },
+    {
+      "auxiliary_loss_clip": 0.0118362,
+      "auxiliary_loss_mlp": 0.01024844,
+      "balance_loss_clip": 1.04798603,
+      "balance_loss_mlp": 1.0174408,
+      "epoch": 0.6063848974929358,
+      "flos": 38983151283840.0,
+      "grad_norm": 1.5408031462275746,
+      "language_loss": 0.7044484,
+      "learning_rate": 1.4165893370566206e-06,
+      "loss": 0.72653306,
+      "num_input_tokens_seen": 108712175,
+      "step": 5043,
+      "time_per_iteration": 2.8405823707580566
+    },
+    {
+      "auxiliary_loss_clip": 0.01176266,
+      "auxiliary_loss_mlp": 0.01026195,
+      "balance_loss_clip": 1.04666495,
+      "balance_loss_mlp": 1.01867247,
+      "epoch": 0.6065051403835748,
+      "flos": 19646584784640.0,
+      "grad_norm": 1.6829704463065933,
+      "language_loss": 0.77632737,
+      "learning_rate": 1.4158442885330865e-06,
+      "loss": 0.798352,
+      "num_input_tokens_seen": 108730745,
+      "step": 5044,
+      "time_per_iteration": 2.6199798583984375
+    },
+    {
+      "auxiliary_loss_clip": 0.01174969,
+      "auxiliary_loss_mlp": 0.0102436,
+      "balance_loss_clip": 1.04594755,
+      "balance_loss_mlp": 1.01694548,
+      "epoch": 0.6066253832742139,
+      "flos": 23513086437120.0,
+      "grad_norm": 2.2017105935050116,
+      "language_loss": 0.79035324,
+      "learning_rate": 1.4150993286255094e-06,
+      "loss": 0.81234652,
+      "num_input_tokens_seen": 108749995,
+      "step": 5045,
+      "time_per_iteration": 2.6393744945526123
+    },
+    {
+      "auxiliary_loss_clip": 0.01169075,
+      "auxiliary_loss_mlp": 0.01026035,
+      "balance_loss_clip": 1.04687536,
+      "balance_loss_mlp": 1.01912665,
+      "epoch": 0.6067456261648531,
+      "flos": 19133708440320.0,
+      "grad_norm": 1.889658728308776,
+      "language_loss": 0.79865587,
+      "learning_rate": 1.4143544574468993e-06,
+      "loss": 0.82060695,
+      "num_input_tokens_seen": 108768355,
+      "step": 5046,
+      "time_per_iteration": 2.6335508823394775
+    },
+    {
+      "auxiliary_loss_clip": 0.0117847,
+      "auxiliary_loss_mlp": 0.01023558,
+      "balance_loss_clip": 1.04799318,
+      "balance_loss_mlp": 1.01649177,
+      "epoch": 0.6068658690554921,
+      "flos": 20520614424960.0,
+      "grad_norm": 1.7522357919018865,
+      "language_loss": 0.82489032,
+      "learning_rate": 1.4136096751102523e-06,
+      "loss": 0.8469106,
+      "num_input_tokens_seen": 108786685,
+      "step": 5047,
+      "time_per_iteration": 2.637357473373413
+    },
+    {
+      "auxiliary_loss_clip": 0.01195126,
+      "auxiliary_loss_mlp": 0.01029355,
+      "balance_loss_clip": 1.04887748,
+      "balance_loss_mlp": 1.02238166,
+      "epoch": 0.6069861119461312,
+      "flos": 27374560185600.0,
+      "grad_norm": 1.968996300401948,
+      "language_loss": 0.83096051,
+      "learning_rate": 1.4128649817285516e-06,
+      "loss": 0.85320532,
+      "num_input_tokens_seen": 108804820,
+      "step": 5048,
+      "time_per_iteration": 2.737483263015747
+    },
+    {
+      "auxiliary_loss_clip": 0.01189293,
+      "auxiliary_loss_mlp": 0.01029982,
+      "balance_loss_clip": 1.04370475,
+      "balance_loss_mlp": 1.02276695,
+      "epoch": 0.6071063548367702,
+      "flos": 25626500904960.0,
+      "grad_norm": 1.9055241248954158,
+      "language_loss": 0.62896669,
+      "learning_rate": 1.412120377414766e-06,
+      "loss": 0.65115947,
+      "num_input_tokens_seen": 108825010,
+      "step": 5049,
+      "time_per_iteration": 2.7001259326934814
+    },
+    {
+      "auxiliary_loss_clip": 0.01171843,
+      "auxiliary_loss_mlp": 0.01024268,
+      "balance_loss_clip": 1.05039692,
+      "balance_loss_mlp": 1.01710927,
+      "epoch": 0.6072265977274094,
+      "flos": 24460517520000.0,
+      "grad_norm": 1.7660009028426797,
+      "language_loss": 0.71232373,
+      "learning_rate": 1.4113758622818522e-06,
+      "loss": 0.73428482,
+      "num_input_tokens_seen": 108845075,
+      "step": 5050,
+      "time_per_iteration": 2.6957361698150635
+    },
+    {
+      "auxiliary_loss_clip": 0.01196243,
+      "auxiliary_loss_mlp": 0.01378064,
+      "balance_loss_clip": 1.04930198,
+      "balance_loss_mlp": 1.00025117,
+      "epoch": 0.6073468406180484,
+      "flos": 18149253413760.0,
+      "grad_norm": 2.073710166160785,
+      "language_loss": 0.83096743,
+      "learning_rate": 1.410631436442751e-06,
+      "loss": 0.85671055,
+      "num_input_tokens_seen": 108863870,
+      "step": 5051,
+      "time_per_iteration": 2.720871686935425
+    },
+    {
+      "auxiliary_loss_clip": 0.01185755,
+      "auxiliary_loss_mlp": 0.01022081,
+      "balance_loss_clip": 1.04794455,
+      "balance_loss_mlp": 1.01478589,
+      "epoch": 0.6074670835086875,
+      "flos": 20697617669760.0,
+      "grad_norm": 2.107018526237109,
+      "language_loss": 0.8649981,
+      "learning_rate": 1.4098871000103936e-06,
+      "loss": 0.88707644,
+      "num_input_tokens_seen": 108882470,
+      "step": 5052,
+      "time_per_iteration": 2.6497995853424072
+    },
+    {
+      "auxiliary_loss_clip": 0.01189787,
+      "auxiliary_loss_mlp": 0.01024839,
+      "balance_loss_clip": 1.0459553,
+      "balance_loss_mlp": 1.01715064,
+      "epoch": 0.6075873263993267,
+      "flos": 23769955572480.0,
+      "grad_norm": 1.7147129482831582,
+      "language_loss": 0.82722437,
+      "learning_rate": 1.409142853097693e-06,
+      "loss": 0.8493706,
+      "num_input_tokens_seen": 108902710,
+      "step": 5053,
+      "time_per_iteration": 3.5723376274108887
+    },
+    {
+      "auxiliary_loss_clip": 0.0119131,
+      "auxiliary_loss_mlp": 0.01026649,
+      "balance_loss_clip": 1.04717422,
+      "balance_loss_mlp": 1.01873922,
+      "epoch": 0.6077075692899657,
+      "flos": 24454484035200.0,
+      "grad_norm": 1.9441844022616672,
+      "language_loss": 0.79443502,
+      "learning_rate": 1.408398695817553e-06,
+      "loss": 0.81661451,
+      "num_input_tokens_seen": 108919935,
+      "step": 5054,
+      "time_per_iteration": 3.5411176681518555
+    },
+    {
+      "auxiliary_loss_clip": 0.01187016,
+      "auxiliary_loss_mlp": 0.01023588,
+      "balance_loss_clip": 1.04509008,
+      "balance_loss_mlp": 1.01558924,
+      "epoch": 0.6078278121806048,
+      "flos": 27382102041600.0,
+      "grad_norm": 9.34394413028431,
+      "language_loss": 0.70168692,
+      "learning_rate": 1.4076546282828593e-06,
+      "loss": 0.72379291,
+      "num_input_tokens_seen": 108942790,
+      "step": 5055,
+      "time_per_iteration": 2.7430145740509033
+    },
+    {
+      "auxiliary_loss_clip": 0.01190736,
+      "auxiliary_loss_mlp": 0.01028479,
+      "balance_loss_clip": 1.04251766,
+      "balance_loss_mlp": 1.02103448,
+      "epoch": 0.6079480550712439,
+      "flos": 38436447306240.0,
+      "grad_norm": 3.1261300037881643,
+      "language_loss": 0.65868759,
+      "learning_rate": 1.4069106506064874e-06,
+      "loss": 0.68087971,
+      "num_input_tokens_seen": 108964215,
+      "step": 5056,
+      "time_per_iteration": 3.59738826751709
+    },
+    {
+      "auxiliary_loss_clip": 0.0118899,
+      "auxiliary_loss_mlp": 0.01026107,
+      "balance_loss_clip": 1.05000913,
+      "balance_loss_mlp": 1.01919615,
+      "epoch": 0.608068297961883,
+      "flos": 25336271013120.0,
+      "grad_norm": 1.8006266288280157,
+      "language_loss": 0.78641605,
+      "learning_rate": 1.4061667629012989e-06,
+      "loss": 0.80856699,
+      "num_input_tokens_seen": 108984885,
+      "step": 5057,
+      "time_per_iteration": 2.634763717651367
+    },
+    {
+      "auxiliary_loss_clip": 0.01176361,
+      "auxiliary_loss_mlp": 0.0102785,
+      "balance_loss_clip": 1.04470575,
+      "balance_loss_mlp": 1.02040815,
+      "epoch": 0.608188540852522,
+      "flos": 24202463235840.0,
+      "grad_norm": 1.7176498110391982,
+      "language_loss": 0.83394992,
+      "learning_rate": 1.40542296528014e-06,
+      "loss": 0.85599202,
+      "num_input_tokens_seen": 109004545,
+      "step": 5058,
+      "time_per_iteration": 3.6182427406311035
+    },
+    {
+      "auxiliary_loss_clip": 0.0118094,
+      "auxiliary_loss_mlp": 0.01027242,
+      "balance_loss_clip": 1.04804111,
+      "balance_loss_mlp": 1.01974034,
+      "epoch": 0.6083087837431612,
+      "flos": 21284146851840.0,
+      "grad_norm": 2.0976651442245244,
+      "language_loss": 0.75918335,
+      "learning_rate": 1.4046792578558452e-06,
+      "loss": 0.78126514,
+      "num_input_tokens_seen": 109022440,
+      "step": 5059,
+      "time_per_iteration": 2.68562650680542
+    },
+    {
+      "auxiliary_loss_clip": 0.0118818,
+      "auxiliary_loss_mlp": 0.01027428,
+      "balance_loss_clip": 1.04759383,
+      "balance_loss_mlp": 1.02013826,
+      "epoch": 0.6084290266338003,
+      "flos": 16471435178880.0,
+      "grad_norm": 2.141049919182063,
+      "language_loss": 0.75815749,
+      "learning_rate": 1.4039356407412325e-06,
+      "loss": 0.78031355,
+      "num_input_tokens_seen": 109035680,
+      "step": 5060,
+      "time_per_iteration": 2.776806116104126
+    },
+    {
+      "auxiliary_loss_clip": 0.01079679,
+      "auxiliary_loss_mlp": 0.01002836,
+      "balance_loss_clip": 1.01150107,
+      "balance_loss_mlp": 1.00159645,
+      "epoch": 0.6085492695244393,
+      "flos": 66443574931200.0,
+      "grad_norm": 0.787410382652146,
+      "language_loss": 0.57146621,
+      "learning_rate": 1.40319211404911e-06,
+      "loss": 0.59229136,
+      "num_input_tokens_seen": 109090680,
+      "step": 5061,
+      "time_per_iteration": 3.1962053775787354
+    },
+    {
+      "auxiliary_loss_clip": 0.0117545,
+      "auxiliary_loss_mlp": 0.01027885,
+      "balance_loss_clip": 1.05131721,
+      "balance_loss_mlp": 1.02086973,
+      "epoch": 0.6086695124150785,
+      "flos": 23618986709760.0,
+      "grad_norm": 2.3182288595184715,
+      "language_loss": 0.90557986,
+      "learning_rate": 1.4024486778922691e-06,
+      "loss": 0.9276132,
+      "num_input_tokens_seen": 109108995,
+      "step": 5062,
+      "time_per_iteration": 2.570935010910034
+    },
+    {
+      "auxiliary_loss_clip": 0.01194058,
+      "auxiliary_loss_mlp": 0.01025354,
+      "balance_loss_clip": 1.04451561,
+      "balance_loss_mlp": 1.01793647,
+      "epoch": 0.6087897553057176,
+      "flos": 20157054917760.0,
+      "grad_norm": 7.646880112292274,
+      "language_loss": 0.77516758,
+      "learning_rate": 1.4017053323834884e-06,
+      "loss": 0.79736173,
+      "num_input_tokens_seen": 109128825,
+      "step": 5063,
+      "time_per_iteration": 2.6905572414398193
+    },
+    {
+      "auxiliary_loss_clip": 0.01192948,
+      "auxiliary_loss_mlp": 0.01023586,
+      "balance_loss_clip": 1.04560685,
+      "balance_loss_mlp": 1.01658821,
+      "epoch": 0.6089099981963566,
+      "flos": 25482535194240.0,
+      "grad_norm": 2.0244269463825177,
+      "language_loss": 0.76019371,
+      "learning_rate": 1.4009620776355333e-06,
+      "loss": 0.78235906,
+      "num_input_tokens_seen": 109150425,
+      "step": 5064,
+      "time_per_iteration": 2.6679346561431885
+    },
+    {
+      "auxiliary_loss_clip": 0.01177238,
+      "auxiliary_loss_mlp": 0.01030198,
+      "balance_loss_clip": 1.0460813,
+      "balance_loss_mlp": 1.02229476,
+      "epoch": 0.6090302410869958,
+      "flos": 25332895134720.0,
+      "grad_norm": 2.0367212735906963,
+      "language_loss": 0.79354304,
+      "learning_rate": 1.4002189137611553e-06,
+      "loss": 0.81561744,
+      "num_input_tokens_seen": 109169765,
+      "step": 5065,
+      "time_per_iteration": 2.6926538944244385
+    },
+    {
+      "auxiliary_loss_clip": 0.01177567,
+      "auxiliary_loss_mlp": 0.0102427,
+      "balance_loss_clip": 1.04657197,
+      "balance_loss_mlp": 1.01736438,
+      "epoch": 0.6091504839776348,
+      "flos": 23987358639360.0,
+      "grad_norm": 1.8811615582721448,
+      "language_loss": 0.697191,
+      "learning_rate": 1.3994758408730901e-06,
+      "loss": 0.71920931,
+      "num_input_tokens_seen": 109188950,
+      "step": 5066,
+      "time_per_iteration": 2.6695470809936523
+    },
+    {
+      "auxiliary_loss_clip": 0.01195823,
+      "auxiliary_loss_mlp": 0.01030655,
+      "balance_loss_clip": 1.05104434,
+      "balance_loss_mlp": 1.02334785,
+      "epoch": 0.6092707268682739,
+      "flos": 29643037666560.0,
+      "grad_norm": 2.002795448093154,
+      "language_loss": 0.7696979,
+      "learning_rate": 1.3987328590840629e-06,
+      "loss": 0.79196274,
+      "num_input_tokens_seen": 109209895,
+      "step": 5067,
+      "time_per_iteration": 2.6862685680389404
+    },
+    {
+      "auxiliary_loss_clip": 0.01175673,
+      "auxiliary_loss_mlp": 0.0102608,
+      "balance_loss_clip": 1.04455316,
+      "balance_loss_mlp": 1.01859331,
+      "epoch": 0.609390969758913,
+      "flos": 24024957200640.0,
+      "grad_norm": 1.8521387339581064,
+      "language_loss": 0.86203206,
+      "learning_rate": 1.397989968506783e-06,
+      "loss": 0.88404959,
+      "num_input_tokens_seen": 109228905,
+      "step": 5068,
+      "time_per_iteration": 2.6183454990386963
+    },
+    {
+      "auxiliary_loss_clip": 0.01178291,
+      "auxiliary_loss_mlp": 0.01024501,
+      "balance_loss_clip": 1.05242419,
+      "balance_loss_mlp": 1.01711631,
+      "epoch": 0.6095112126495521,
+      "flos": 11102143288320.0,
+      "grad_norm": 9.356131169102184,
+      "language_loss": 0.72417325,
+      "learning_rate": 1.3972471692539458e-06,
+      "loss": 0.74620116,
+      "num_input_tokens_seen": 109243620,
+      "step": 5069,
+      "time_per_iteration": 2.582779884338379
+    },
+    {
+      "auxiliary_loss_clip": 0.01183878,
+      "auxiliary_loss_mlp": 0.01026581,
+      "balance_loss_clip": 1.04566193,
+      "balance_loss_mlp": 1.01936626,
+      "epoch": 0.6096314555401912,
+      "flos": 17265491187840.0,
+      "grad_norm": 2.10475790760658,
+      "language_loss": 0.75329113,
+      "learning_rate": 1.3965044614382348e-06,
+      "loss": 0.77539575,
+      "num_input_tokens_seen": 109259070,
+      "step": 5070,
+      "time_per_iteration": 2.591376304626465
+    },
+    {
+      "auxiliary_loss_clip": 0.01175309,
+      "auxiliary_loss_mlp": 0.01027506,
+      "balance_loss_clip": 1.05104053,
+      "balance_loss_mlp": 1.01949549,
+      "epoch": 0.6097516984308303,
+      "flos": 21645910679040.0,
+      "grad_norm": 2.555740339584095,
+      "language_loss": 0.75499809,
+      "learning_rate": 1.3957618451723162e-06,
+      "loss": 0.77702624,
+      "num_input_tokens_seen": 109275100,
+      "step": 5071,
+      "time_per_iteration": 2.6054434776306152
+    },
+    {
+      "auxiliary_loss_clip": 0.01191951,
+      "auxiliary_loss_mlp": 0.01028105,
+      "balance_loss_clip": 1.0467844,
+      "balance_loss_mlp": 1.02013612,
+      "epoch": 0.6098719413214694,
+      "flos": 27199208966400.0,
+      "grad_norm": 1.828499877216809,
+      "language_loss": 0.714782,
+      "learning_rate": 1.3950193205688457e-06,
+      "loss": 0.73698252,
+      "num_input_tokens_seen": 109294825,
+      "step": 5072,
+      "time_per_iteration": 2.717057943344116
+    },
+    {
+      "auxiliary_loss_clip": 0.01189113,
+      "auxiliary_loss_mlp": 0.01023107,
+      "balance_loss_clip": 1.04732871,
+      "balance_loss_mlp": 1.01645184,
+      "epoch": 0.6099921842121084,
+      "flos": 20412954385920.0,
+      "grad_norm": 1.7635717098872892,
+      "language_loss": 0.83535302,
+      "learning_rate": 1.3942768877404627e-06,
+      "loss": 0.85747516,
+      "num_input_tokens_seen": 109313790,
+      "step": 5073,
+      "time_per_iteration": 2.6553397178649902
+    },
+    {
+      "auxiliary_loss_clip": 0.01172473,
+      "auxiliary_loss_mlp": 0.0102076,
+      "balance_loss_clip": 1.04878831,
+      "balance_loss_mlp": 1.01373267,
+      "epoch": 0.6101124271027476,
+      "flos": 23366139897600.0,
+      "grad_norm": 1.4962684191886504,
+      "language_loss": 0.73858792,
+      "learning_rate": 1.393534546799795e-06,
+      "loss": 0.76052022,
+      "num_input_tokens_seen": 109333490,
+      "step": 5074,
+      "time_per_iteration": 2.618119239807129
+    },
+    {
+      "auxiliary_loss_clip": 0.01183615,
+      "auxiliary_loss_mlp": 0.01026462,
+      "balance_loss_clip": 1.04852414,
+      "balance_loss_mlp": 1.01900589,
+      "epoch": 0.6102326699933867,
+      "flos": 26687840993280.0,
+      "grad_norm": 1.8093183996689899,
+      "language_loss": 0.67931223,
+      "learning_rate": 1.3927922978594536e-06,
+      "loss": 0.70141304,
+      "num_input_tokens_seen": 109354575,
+      "step": 5075,
+      "time_per_iteration": 2.6739728450775146
+    },
+    {
+      "auxiliary_loss_clip": 0.01076324,
+      "auxiliary_loss_mlp": 0.01001986,
+      "balance_loss_clip": 1.01254725,
+      "balance_loss_mlp": 1.00078821,
+      "epoch": 0.6103529128840257,
+      "flos": 60644612551680.0,
+      "grad_norm": 0.8173677543081892,
+      "language_loss": 0.5747155,
+      "learning_rate": 1.3920501410320387e-06,
+      "loss": 0.59549856,
+      "num_input_tokens_seen": 109410690,
+      "step": 5076,
+      "time_per_iteration": 3.143334150314331
+    },
+    {
+      "auxiliary_loss_clip": 0.0119152,
+      "auxiliary_loss_mlp": 0.01028707,
+      "balance_loss_clip": 1.04722846,
+      "balance_loss_mlp": 1.0211612,
+      "epoch": 0.6104731557746649,
+      "flos": 19021307806080.0,
+      "grad_norm": 2.485369227272328,
+      "language_loss": 0.76058835,
+      "learning_rate": 1.3913080764301333e-06,
+      "loss": 0.78279066,
+      "num_input_tokens_seen": 109427650,
+      "step": 5077,
+      "time_per_iteration": 2.6071135997772217
+    },
+    {
+      "auxiliary_loss_clip": 0.01214192,
+      "auxiliary_loss_mlp": 0.01025245,
+      "balance_loss_clip": 1.0413543,
+      "balance_loss_mlp": 1.01762748,
+      "epoch": 0.6105933986653039,
+      "flos": 23366894083200.0,
+      "grad_norm": 1.6940330425036256,
+      "language_loss": 0.71565199,
+      "learning_rate": 1.3905661041663085e-06,
+      "loss": 0.73804629,
+      "num_input_tokens_seen": 109448835,
+      "step": 5078,
+      "time_per_iteration": 2.8196568489074707
+    },
+    {
+      "auxiliary_loss_clip": 0.0118495,
+      "auxiliary_loss_mlp": 0.01023829,
+      "balance_loss_clip": 1.05014527,
+      "balance_loss_mlp": 1.01594353,
+      "epoch": 0.610713641555943,
+      "flos": 34637565006720.0,
+      "grad_norm": 2.2922764496078165,
+      "language_loss": 0.65140957,
+      "learning_rate": 1.389824224353122e-06,
+      "loss": 0.67349732,
+      "num_input_tokens_seen": 109470425,
+      "step": 5079,
+      "time_per_iteration": 3.6541993618011475
+    },
+    {
+      "auxiliary_loss_clip": 0.01179602,
+      "auxiliary_loss_mlp": 0.01024475,
+      "balance_loss_clip": 1.04935098,
+      "balance_loss_mlp": 1.01734638,
+      "epoch": 0.610833884446582,
+      "flos": 26646471504000.0,
+      "grad_norm": 1.4751536701301249,
+      "language_loss": 0.77104181,
+      "learning_rate": 1.389082437103115e-06,
+      "loss": 0.79308259,
+      "num_input_tokens_seen": 109489695,
+      "step": 5080,
+      "time_per_iteration": 3.508945941925049
+    },
+    {
+      "auxiliary_loss_clip": 0.01196449,
+      "auxiliary_loss_mlp": 0.01025394,
+      "balance_loss_clip": 1.04407072,
+      "balance_loss_mlp": 1.01783633,
+      "epoch": 0.6109541273372212,
+      "flos": 21215126868480.0,
+      "grad_norm": 1.9935177281664116,
+      "language_loss": 0.78032601,
+      "learning_rate": 1.3883407425288172e-06,
+      "loss": 0.80254447,
+      "num_input_tokens_seen": 109510030,
+      "step": 5081,
+      "time_per_iteration": 2.6616432666778564
+    },
+    {
+      "auxiliary_loss_clip": 0.01186384,
+      "auxiliary_loss_mlp": 0.01025443,
+      "balance_loss_clip": 1.04501474,
+      "balance_loss_mlp": 1.01730061,
+      "epoch": 0.6110743702278603,
+      "flos": 20084084438400.0,
+      "grad_norm": 1.9791369060020063,
+      "language_loss": 0.79759127,
+      "learning_rate": 1.3875991407427417e-06,
+      "loss": 0.81970954,
+      "num_input_tokens_seen": 109528255,
+      "step": 5082,
+      "time_per_iteration": 3.6140544414520264
+    },
+    {
+      "auxiliary_loss_clip": 0.01106051,
+      "auxiliary_loss_mlp": 0.01002741,
+      "balance_loss_clip": 1.01095271,
+      "balance_loss_mlp": 1.00140595,
+      "epoch": 0.6111946131184993,
+      "flos": 68302957438080.0,
+      "grad_norm": 0.7671254139770796,
+      "language_loss": 0.5822165,
+      "learning_rate": 1.38685763185739e-06,
+      "loss": 0.60330439,
+      "num_input_tokens_seen": 109581915,
+      "step": 5083,
+      "time_per_iteration": 3.243497371673584
+    },
+    {
+      "auxiliary_loss_clip": 0.01170989,
+      "auxiliary_loss_mlp": 0.01028821,
+      "balance_loss_clip": 1.04817688,
+      "balance_loss_mlp": 1.02111745,
+      "epoch": 0.6113148560091385,
+      "flos": 19937676602880.0,
+      "grad_norm": 4.393137236577229,
+      "language_loss": 0.67776847,
+      "learning_rate": 1.3861162159852476e-06,
+      "loss": 0.69976664,
+      "num_input_tokens_seen": 109600050,
+      "step": 5084,
+      "time_per_iteration": 3.5655317306518555
+    },
+    {
+      "auxiliary_loss_clip": 0.01193747,
+      "auxiliary_loss_mlp": 0.01024308,
+      "balance_loss_clip": 1.04707837,
+      "balance_loss_mlp": 1.01665473,
+      "epoch": 0.6114350988997775,
+      "flos": 23731854220800.0,
+      "grad_norm": 2.031675352004249,
+      "language_loss": 0.79985571,
+      "learning_rate": 1.3853748932387875e-06,
+      "loss": 0.82203627,
+      "num_input_tokens_seen": 109620690,
+      "step": 5085,
+      "time_per_iteration": 2.6523375511169434
+    },
+    {
+      "auxiliary_loss_clip": 0.01176336,
+      "auxiliary_loss_mlp": 0.01026284,
+      "balance_loss_clip": 1.04342294,
+      "balance_loss_mlp": 1.01856816,
+      "epoch": 0.6115553417904166,
+      "flos": 24023700224640.0,
+      "grad_norm": 9.754352953506595,
+      "language_loss": 0.74890554,
+      "learning_rate": 1.3846336637304671e-06,
+      "loss": 0.77093184,
+      "num_input_tokens_seen": 109638960,
+      "step": 5086,
+      "time_per_iteration": 2.683394432067871
+    },
+    {
+      "auxiliary_loss_clip": 0.01179958,
+      "auxiliary_loss_mlp": 0.01028094,
+      "balance_loss_clip": 1.04442263,
+      "balance_loss_mlp": 1.02041125,
+      "epoch": 0.6116755846810558,
+      "flos": 23733542160000.0,
+      "grad_norm": 2.314824566978744,
+      "language_loss": 0.83334392,
+      "learning_rate": 1.3838925275727316e-06,
+      "loss": 0.8554244,
+      "num_input_tokens_seen": 109659700,
+      "step": 5087,
+      "time_per_iteration": 2.679874897003174
+    },
+    {
+      "auxiliary_loss_clip": 0.01176562,
+      "auxiliary_loss_mlp": 0.01021631,
+      "balance_loss_clip": 1.05218029,
+      "balance_loss_mlp": 1.01394749,
+      "epoch": 0.6117958275716948,
+      "flos": 18661626967680.0,
+      "grad_norm": 1.7962126688568691,
+      "language_loss": 0.79365194,
+      "learning_rate": 1.3831514848780089e-06,
+      "loss": 0.81563389,
+      "num_input_tokens_seen": 109679275,
+      "step": 5088,
+      "time_per_iteration": 2.5830085277557373
+    },
+    {
+      "auxiliary_loss_clip": 0.01172122,
+      "auxiliary_loss_mlp": 0.01024073,
+      "balance_loss_clip": 1.04643321,
+      "balance_loss_mlp": 1.01657462,
+      "epoch": 0.6119160704623339,
+      "flos": 16471183783680.0,
+      "grad_norm": 2.274642833193415,
+      "language_loss": 0.9178437,
+      "learning_rate": 1.3824105357587152e-06,
+      "loss": 0.93980563,
+      "num_input_tokens_seen": 109696380,
+      "step": 5089,
+      "time_per_iteration": 2.713649034500122
+    },
+    {
+      "auxiliary_loss_clip": 0.01183278,
+      "auxiliary_loss_mlp": 0.01025489,
+      "balance_loss_clip": 1.04390955,
+      "balance_loss_mlp": 1.0189352,
+      "epoch": 0.612036313352973,
+      "flos": 23915465568000.0,
+      "grad_norm": 1.5000013504114686,
+      "language_loss": 0.82451457,
+      "learning_rate": 1.381669680327253e-06,
+      "loss": 0.84660226,
+      "num_input_tokens_seen": 109718060,
+      "step": 5090,
+      "time_per_iteration": 2.642984628677368
+    },
+    {
+      "auxiliary_loss_clip": 0.01181691,
+      "auxiliary_loss_mlp": 0.0102294,
+      "balance_loss_clip": 1.04697752,
+      "balance_loss_mlp": 1.01533484,
+      "epoch": 0.6121565562436121,
+      "flos": 26974766833920.0,
+      "grad_norm": 1.8719749671390475,
+      "language_loss": 0.70926392,
+      "learning_rate": 1.380928918696008e-06,
+      "loss": 0.73131019,
+      "num_input_tokens_seen": 109736830,
+      "step": 5091,
+      "time_per_iteration": 2.7297470569610596
+    },
+    {
+      "auxiliary_loss_clip": 0.01181492,
+      "auxiliary_loss_mlp": 0.01026742,
+      "balance_loss_clip": 1.04710603,
+      "balance_loss_mlp": 1.01877308,
+      "epoch": 0.6122767991342511,
+      "flos": 15668867646720.0,
+      "grad_norm": 2.9303043160459272,
+      "language_loss": 0.7179873,
+      "learning_rate": 1.3801882509773548e-06,
+      "loss": 0.74006969,
+      "num_input_tokens_seen": 109754690,
+      "step": 5092,
+      "time_per_iteration": 2.5594265460968018
+    },
+    {
+      "auxiliary_loss_clip": 0.0117635,
+      "auxiliary_loss_mlp": 0.0102522,
+      "balance_loss_clip": 1.04663396,
+      "balance_loss_mlp": 1.01726246,
+      "epoch": 0.6123970420248903,
+      "flos": 27964321591680.0,
+      "grad_norm": 2.997958315054078,
+      "language_loss": 0.81749403,
+      "learning_rate": 1.3794476772836503e-06,
+      "loss": 0.83950973,
+      "num_input_tokens_seen": 109775790,
+      "step": 5093,
+      "time_per_iteration": 2.7277045249938965
+    },
+    {
+      "auxiliary_loss_clip": 0.01189713,
+      "auxiliary_loss_mlp": 0.01025624,
+      "balance_loss_clip": 1.04456365,
+      "balance_loss_mlp": 1.0180366,
+      "epoch": 0.6125172849155294,
+      "flos": 21468727866240.0,
+      "grad_norm": 1.6302250960682663,
+      "language_loss": 0.84438765,
+      "learning_rate": 1.3787071977272402e-06,
+      "loss": 0.86654103,
+      "num_input_tokens_seen": 109795050,
+      "step": 5094,
+      "time_per_iteration": 2.680312156677246
+    },
+    {
+      "auxiliary_loss_clip": 0.0120681,
+      "auxiliary_loss_mlp": 0.01027589,
+      "balance_loss_clip": 1.04766202,
+      "balance_loss_mlp": 1.01984644,
+      "epoch": 0.6126375278061684,
+      "flos": 16248321849600.0,
+      "grad_norm": 3.112352388427994,
+      "language_loss": 0.72220224,
+      "learning_rate": 1.3779668124204535e-06,
+      "loss": 0.74454623,
+      "num_input_tokens_seen": 109811465,
+      "step": 5095,
+      "time_per_iteration": 2.7014338970184326
+    },
+    {
+      "auxiliary_loss_clip": 0.01185308,
+      "auxiliary_loss_mlp": 0.01024991,
+      "balance_loss_clip": 1.04805064,
+      "balance_loss_mlp": 1.01737404,
+      "epoch": 0.6127577706968076,
+      "flos": 20448865008000.0,
+      "grad_norm": 1.6995139642606978,
+      "language_loss": 0.80895829,
+      "learning_rate": 1.3772265214756074e-06,
+      "loss": 0.8310613,
+      "num_input_tokens_seen": 109831225,
+      "step": 5096,
+      "time_per_iteration": 2.8021023273468018
+    },
+    {
+      "auxiliary_loss_clip": 0.01183185,
+      "auxiliary_loss_mlp": 0.01031719,
+      "balance_loss_clip": 1.04673839,
+      "balance_loss_mlp": 1.02384567,
+      "epoch": 0.6128780135874466,
+      "flos": 18260397072000.0,
+      "grad_norm": 1.736963717411517,
+      "language_loss": 0.75153065,
+      "learning_rate": 1.3764863250050025e-06,
+      "loss": 0.77367961,
+      "num_input_tokens_seen": 109849465,
+      "step": 5097,
+      "time_per_iteration": 2.686950922012329
+    },
+    {
+      "auxiliary_loss_clip": 0.01197337,
+      "auxiliary_loss_mlp": 0.01026259,
+      "balance_loss_clip": 1.04356682,
+      "balance_loss_mlp": 1.01913595,
+      "epoch": 0.6129982564780857,
+      "flos": 24937088192640.0,
+      "grad_norm": 1.7666660196838777,
+      "language_loss": 0.80423307,
+      "learning_rate": 1.3757462231209272e-06,
+      "loss": 0.82646906,
+      "num_input_tokens_seen": 109869770,
+      "step": 5098,
+      "time_per_iteration": 2.7291462421417236
+    },
+    {
+      "auxiliary_loss_clip": 0.01181999,
+      "auxiliary_loss_mlp": 0.01026339,
+      "balance_loss_clip": 1.04512,
+      "balance_loss_mlp": 1.01847124,
+      "epoch": 0.6131184993687249,
+      "flos": 22492038430080.0,
+      "grad_norm": 1.9033874671508946,
+      "language_loss": 0.88775229,
+      "learning_rate": 1.3750062159356525e-06,
+      "loss": 0.90983564,
+      "num_input_tokens_seen": 109889120,
+      "step": 5099,
+      "time_per_iteration": 2.694331407546997
+    },
+    {
+      "auxiliary_loss_clip": 0.0118888,
+      "auxiliary_loss_mlp": 0.01026863,
+      "balance_loss_clip": 1.04579425,
+      "balance_loss_mlp": 1.01948369,
+      "epoch": 0.6132387422593639,
+      "flos": 15885839750400.0,
+      "grad_norm": 2.083194676091527,
+      "language_loss": 0.83066964,
+      "learning_rate": 1.3742663035614382e-06,
+      "loss": 0.85282707,
+      "num_input_tokens_seen": 109906490,
+      "step": 5100,
+      "time_per_iteration": 2.6084392070770264
+    },
+    {
+      "auxiliary_loss_clip": 0.01176335,
+      "auxiliary_loss_mlp": 0.01028682,
+      "balance_loss_clip": 1.05204535,
+      "balance_loss_mlp": 1.02111793,
+      "epoch": 0.613358985150003,
+      "flos": 25411539962880.0,
+      "grad_norm": 1.721489670504918,
+      "language_loss": 0.80024052,
+      "learning_rate": 1.3735264861105283e-06,
+      "loss": 0.82229078,
+      "num_input_tokens_seen": 109927130,
+      "step": 5101,
+      "time_per_iteration": 2.6757237911224365
+    },
+    {
+      "auxiliary_loss_clip": 0.01201423,
+      "auxiliary_loss_mlp": 0.01022993,
+      "balance_loss_clip": 1.04477859,
+      "balance_loss_mlp": 1.01597786,
+      "epoch": 0.6134792280406421,
+      "flos": 21361283308800.0,
+      "grad_norm": 1.9940898341591027,
+      "language_loss": 0.7848472,
+      "learning_rate": 1.372786763695152e-06,
+      "loss": 0.80709136,
+      "num_input_tokens_seen": 109945890,
+      "step": 5102,
+      "time_per_iteration": 2.6960439682006836
+    },
+    {
+      "auxiliary_loss_clip": 0.01183768,
+      "auxiliary_loss_mlp": 0.01024315,
+      "balance_loss_clip": 1.04846549,
+      "balance_loss_mlp": 1.0166024,
+      "epoch": 0.6135994709312812,
+      "flos": 21211248199680.0,
+      "grad_norm": 1.7653529651390456,
+      "language_loss": 0.77331781,
+      "learning_rate": 1.3720471364275257e-06,
+      "loss": 0.79539865,
+      "num_input_tokens_seen": 109965535,
+      "step": 5103,
+      "time_per_iteration": 2.6634511947631836
+    },
+    {
+      "auxiliary_loss_clip": 0.01192643,
+      "auxiliary_loss_mlp": 0.01378901,
+      "balance_loss_clip": 1.04327559,
+      "balance_loss_mlp": 1.00016952,
+      "epoch": 0.6137197138219203,
+      "flos": 14794047907200.0,
+      "grad_norm": 2.1801956929216737,
+      "language_loss": 0.77733994,
+      "learning_rate": 1.3713076044198486e-06,
+      "loss": 0.80305541,
+      "num_input_tokens_seen": 109982345,
+      "step": 5104,
+      "time_per_iteration": 2.7406342029571533
+    },
+    {
+      "auxiliary_loss_clip": 0.01182532,
+      "auxiliary_loss_mlp": 0.01026732,
+      "balance_loss_clip": 1.04371738,
+      "balance_loss_mlp": 1.01937437,
+      "epoch": 0.6138399567125594,
+      "flos": 20084515401600.0,
+      "grad_norm": 3.0826928601640757,
+      "language_loss": 0.81650156,
+      "learning_rate": 1.3705681677843086e-06,
+      "loss": 0.8385942,
+      "num_input_tokens_seen": 110000940,
+      "step": 5105,
+      "time_per_iteration": 3.4416747093200684
+    },
+    {
+      "auxiliary_loss_clip": 0.01066587,
+      "auxiliary_loss_mlp": 0.01001492,
+      "balance_loss_clip": 1.01208782,
+      "balance_loss_mlp": 1.00031173,
+      "epoch": 0.6139601996031985,
+      "flos": 60123838193280.0,
+      "grad_norm": 0.8032689566612465,
+      "language_loss": 0.60619599,
+      "learning_rate": 1.3698288266330768e-06,
+      "loss": 0.62687677,
+      "num_input_tokens_seen": 110061565,
+      "step": 5106,
+      "time_per_iteration": 4.198812484741211
+    },
+    {
+      "auxiliary_loss_clip": 0.01186573,
+      "auxiliary_loss_mlp": 0.01023369,
+      "balance_loss_clip": 1.04912055,
+      "balance_loss_mlp": 1.01629376,
+      "epoch": 0.6140804424938375,
+      "flos": 23586703361280.0,
+      "grad_norm": 2.485637216129516,
+      "language_loss": 0.72526371,
+      "learning_rate": 1.3690895810783113e-06,
+      "loss": 0.74736315,
+      "num_input_tokens_seen": 110080360,
+      "step": 5107,
+      "time_per_iteration": 2.6487507820129395
+    },
+    {
+      "auxiliary_loss_clip": 0.01223885,
+      "auxiliary_loss_mlp": 0.01378797,
+      "balance_loss_clip": 1.04242408,
+      "balance_loss_mlp": 1.00019884,
+      "epoch": 0.6142006853844767,
+      "flos": 21398199511680.0,
+      "grad_norm": 1.8420416125770123,
+      "language_loss": 0.71945,
+      "learning_rate": 1.3683504312321543e-06,
+      "loss": 0.74547678,
+      "num_input_tokens_seen": 110100695,
+      "step": 5108,
+      "time_per_iteration": 3.72360897064209
+    },
+    {
+      "auxiliary_loss_clip": 0.0118807,
+      "auxiliary_loss_mlp": 0.01028668,
+      "balance_loss_clip": 1.05031347,
+      "balance_loss_mlp": 1.02129769,
+      "epoch": 0.6143209282751158,
+      "flos": 12057367622400.0,
+      "grad_norm": 3.4797204275669085,
+      "language_loss": 0.80285501,
+      "learning_rate": 1.3676113772067355e-06,
+      "loss": 0.82502246,
+      "num_input_tokens_seen": 110117750,
+      "step": 5109,
+      "time_per_iteration": 2.812711715698242
+    },
+    {
+      "auxiliary_loss_clip": 0.01213049,
+      "auxiliary_loss_mlp": 0.0102092,
+      "balance_loss_clip": 1.04402304,
+      "balance_loss_mlp": 1.01352334,
+      "epoch": 0.6144411711657548,
+      "flos": 25082274965760.0,
+      "grad_norm": 1.8276451986147315,
+      "language_loss": 0.72623062,
+      "learning_rate": 1.3668724191141671e-06,
+      "loss": 0.74857032,
+      "num_input_tokens_seen": 110137020,
+      "step": 5110,
+      "time_per_iteration": 3.697143077850342
+    },
+    {
+      "auxiliary_loss_clip": 0.01199568,
+      "auxiliary_loss_mlp": 0.01029682,
+      "balance_loss_clip": 1.05224109,
+      "balance_loss_mlp": 1.02231824,
+      "epoch": 0.6145614140563939,
+      "flos": 20114069316480.0,
+      "grad_norm": 2.2985379089717997,
+      "language_loss": 0.66701394,
+      "learning_rate": 1.3661335570665493e-06,
+      "loss": 0.68930644,
+      "num_input_tokens_seen": 110154930,
+      "step": 5111,
+      "time_per_iteration": 2.6650357246398926
+    },
+    {
+      "auxiliary_loss_clip": 0.011955,
+      "auxiliary_loss_mlp": 0.01025346,
+      "balance_loss_clip": 1.04995394,
+      "balance_loss_mlp": 1.01767516,
+      "epoch": 0.614681656947033,
+      "flos": 16800376953600.0,
+      "grad_norm": 2.4103317310754306,
+      "language_loss": 0.69864202,
+      "learning_rate": 1.3653947911759676e-06,
+      "loss": 0.72085047,
+      "num_input_tokens_seen": 110172480,
+      "step": 5112,
+      "time_per_iteration": 2.624075174331665
+    },
+    {
+      "auxiliary_loss_clip": 0.01198549,
+      "auxiliary_loss_mlp": 0.01035187,
+      "balance_loss_clip": 1.04340613,
+      "balance_loss_mlp": 1.02699757,
+      "epoch": 0.6148018998376721,
+      "flos": 38801587011840.0,
+      "grad_norm": 1.8822209725306036,
+      "language_loss": 0.74515641,
+      "learning_rate": 1.3646561215544904e-06,
+      "loss": 0.76749372,
+      "num_input_tokens_seen": 110197120,
+      "step": 5113,
+      "time_per_iteration": 2.8511171340942383
+    },
+    {
+      "auxiliary_loss_clip": 0.01182983,
+      "auxiliary_loss_mlp": 0.01026738,
+      "balance_loss_clip": 1.04969501,
+      "balance_loss_mlp": 1.01885188,
+      "epoch": 0.6149221427283111,
+      "flos": 23327032965120.0,
+      "grad_norm": 1.909668272476531,
+      "language_loss": 0.7924937,
+      "learning_rate": 1.363917548314176e-06,
+      "loss": 0.81459093,
+      "num_input_tokens_seen": 110216385,
+      "step": 5114,
+      "time_per_iteration": 2.640557289123535
+    },
+    {
+      "auxiliary_loss_clip": 0.01188551,
+      "auxiliary_loss_mlp": 0.01025365,
+      "balance_loss_clip": 1.04898512,
+      "balance_loss_mlp": 1.01695514,
+      "epoch": 0.6150423856189503,
+      "flos": 22379494141440.0,
+      "grad_norm": 1.6356287624445862,
+      "language_loss": 0.73402876,
+      "learning_rate": 1.3631790715670626e-06,
+      "loss": 0.75616789,
+      "num_input_tokens_seen": 110234790,
+      "step": 5115,
+      "time_per_iteration": 2.5900397300720215
+    },
+    {
+      "auxiliary_loss_clip": 0.012142,
+      "auxiliary_loss_mlp": 0.01026335,
+      "balance_loss_clip": 1.04294419,
+      "balance_loss_mlp": 1.01924467,
+      "epoch": 0.6151626285095894,
+      "flos": 18692078722560.0,
+      "grad_norm": 2.20372280679702,
+      "language_loss": 0.85766423,
+      "learning_rate": 1.3624406914251783e-06,
+      "loss": 0.88006949,
+      "num_input_tokens_seen": 110251910,
+      "step": 5116,
+      "time_per_iteration": 3.096787691116333
+    },
+    {
+      "auxiliary_loss_clip": 0.01183705,
+      "auxiliary_loss_mlp": 0.01025387,
+      "balance_loss_clip": 1.0492152,
+      "balance_loss_mlp": 1.01763225,
+      "epoch": 0.6152828714002284,
+      "flos": 15851688894720.0,
+      "grad_norm": 2.4199471268077057,
+      "language_loss": 0.88508463,
+      "learning_rate": 1.3617024080005335e-06,
+      "loss": 0.90717554,
+      "num_input_tokens_seen": 110268810,
+      "step": 5117,
+      "time_per_iteration": 2.8918299674987793
+    },
+    {
+      "auxiliary_loss_clip": 0.0119686,
+      "auxiliary_loss_mlp": 0.01378729,
+      "balance_loss_clip": 1.04752922,
+      "balance_loss_mlp": 1.00018561,
+      "epoch": 0.6154031142908676,
+      "flos": 24869792062080.0,
+      "grad_norm": 1.5497942969039815,
+      "language_loss": 0.74336016,
+      "learning_rate": 1.3609642214051266e-06,
+      "loss": 0.76911604,
+      "num_input_tokens_seen": 110293035,
+      "step": 5118,
+      "time_per_iteration": 2.738150119781494
+    },
+    {
+      "auxiliary_loss_clip": 0.01183769,
+      "auxiliary_loss_mlp": 0.01036892,
+      "balance_loss_clip": 1.04709935,
+      "balance_loss_mlp": 1.02918541,
+      "epoch": 0.6155233571815066,
+      "flos": 19244744357760.0,
+      "grad_norm": 2.0867622984444965,
+      "language_loss": 0.6591289,
+      "learning_rate": 1.3602261317509385e-06,
+      "loss": 0.68133551,
+      "num_input_tokens_seen": 110309695,
+      "step": 5119,
+      "time_per_iteration": 2.659801959991455
+    },
+    {
+      "auxiliary_loss_clip": 0.01186322,
+      "auxiliary_loss_mlp": 0.01028259,
+      "balance_loss_clip": 1.04925919,
+      "balance_loss_mlp": 1.01990271,
+      "epoch": 0.6156436000721457,
+      "flos": 18770077105920.0,
+      "grad_norm": 2.2272540922537014,
+      "language_loss": 0.82824814,
+      "learning_rate": 1.3594881391499387e-06,
+      "loss": 0.85039395,
+      "num_input_tokens_seen": 110328610,
+      "step": 5120,
+      "time_per_iteration": 2.6043102741241455
+    },
+    {
+      "auxiliary_loss_clip": 0.01193015,
+      "auxiliary_loss_mlp": 0.01024253,
+      "balance_loss_clip": 1.04754686,
+      "balance_loss_mlp": 1.0172143,
+      "epoch": 0.6157638429627849,
+      "flos": 18041198325120.0,
+      "grad_norm": 1.6806959095108358,
+      "language_loss": 0.79018843,
+      "learning_rate": 1.3587502437140778e-06,
+      "loss": 0.81236112,
+      "num_input_tokens_seen": 110346775,
+      "step": 5121,
+      "time_per_iteration": 2.6658923625946045
+    },
+    {
+      "auxiliary_loss_clip": 0.01195394,
+      "auxiliary_loss_mlp": 0.01023658,
+      "balance_loss_clip": 1.04583597,
+      "balance_loss_mlp": 1.01568925,
+      "epoch": 0.6158840858534239,
+      "flos": 25556726736000.0,
+      "grad_norm": 2.1177290381414386,
+      "language_loss": 0.85193717,
+      "learning_rate": 1.3580124455552952e-06,
+      "loss": 0.87412769,
+      "num_input_tokens_seen": 110366140,
+      "step": 5122,
+      "time_per_iteration": 2.6720995903015137
+    },
+    {
+      "auxiliary_loss_clip": 0.01183133,
+      "auxiliary_loss_mlp": 0.01378718,
+      "balance_loss_clip": 1.04884291,
+      "balance_loss_mlp": 1.00017774,
+      "epoch": 0.616004328744063,
+      "flos": 24640788902400.0,
+      "grad_norm": 1.6399556342585868,
+      "language_loss": 0.87457585,
+      "learning_rate": 1.3572747447855148e-06,
+      "loss": 0.90019441,
+      "num_input_tokens_seen": 110386550,
+      "step": 5123,
+      "time_per_iteration": 2.6479170322418213
+    },
+    {
+      "auxiliary_loss_clip": 0.01174837,
+      "auxiliary_loss_mlp": 0.01025683,
+      "balance_loss_clip": 1.05010653,
+      "balance_loss_mlp": 1.01769042,
+      "epoch": 0.6161245716347021,
+      "flos": 21689686379520.0,
+      "grad_norm": 1.8110081004635579,
+      "language_loss": 0.69493949,
+      "learning_rate": 1.356537141516644e-06,
+      "loss": 0.71694469,
+      "num_input_tokens_seen": 110403970,
+      "step": 5124,
+      "time_per_iteration": 2.558889627456665
+    },
+    {
+      "auxiliary_loss_clip": 0.01183193,
+      "auxiliary_loss_mlp": 0.01026708,
+      "balance_loss_clip": 1.05181837,
+      "balance_loss_mlp": 1.01962709,
+      "epoch": 0.6162448145253412,
+      "flos": 35189225061120.0,
+      "grad_norm": 2.2945202972308456,
+      "language_loss": 0.61984873,
+      "learning_rate": 1.3557996358605775e-06,
+      "loss": 0.64194769,
+      "num_input_tokens_seen": 110423890,
+      "step": 5125,
+      "time_per_iteration": 2.7832791805267334
+    },
+    {
+      "auxiliary_loss_clip": 0.01183916,
+      "auxiliary_loss_mlp": 0.01025539,
+      "balance_loss_clip": 1.04956472,
+      "balance_loss_mlp": 1.01807666,
+      "epoch": 0.6163650574159802,
+      "flos": 21615279356160.0,
+      "grad_norm": 4.899384271194756,
+      "language_loss": 0.70037705,
+      "learning_rate": 1.3550622279291941e-06,
+      "loss": 0.72247159,
+      "num_input_tokens_seen": 110442035,
+      "step": 5126,
+      "time_per_iteration": 2.605290174484253
+    },
+    {
+      "auxiliary_loss_clip": 0.01194006,
+      "auxiliary_loss_mlp": 0.01028257,
+      "balance_loss_clip": 1.04027212,
+      "balance_loss_mlp": 1.02059782,
+      "epoch": 0.6164853003066194,
+      "flos": 24572163968640.0,
+      "grad_norm": 1.4291043908170555,
+      "language_loss": 0.83260775,
+      "learning_rate": 1.354324917834358e-06,
+      "loss": 0.85483038,
+      "num_input_tokens_seen": 110463280,
+      "step": 5127,
+      "time_per_iteration": 2.7777106761932373
+    },
+    {
+      "auxiliary_loss_clip": 0.01209293,
+      "auxiliary_loss_mlp": 0.01378461,
+      "balance_loss_clip": 1.040272,
+      "balance_loss_mlp": 1.00022411,
+      "epoch": 0.6166055431972585,
+      "flos": 21835986474240.0,
+      "grad_norm": 1.8107311463881968,
+      "language_loss": 0.76944762,
+      "learning_rate": 1.353587705687918e-06,
+      "loss": 0.79532516,
+      "num_input_tokens_seen": 110481455,
+      "step": 5128,
+      "time_per_iteration": 2.7619171142578125
+    },
+    {
+      "auxiliary_loss_clip": 0.01195599,
+      "auxiliary_loss_mlp": 0.01028805,
+      "balance_loss_clip": 1.04921675,
+      "balance_loss_mlp": 1.02031732,
+      "epoch": 0.6167257860878975,
+      "flos": 17785262943360.0,
+      "grad_norm": 2.3664029386672047,
+      "language_loss": 0.72562253,
+      "learning_rate": 1.3528505916017096e-06,
+      "loss": 0.74786657,
+      "num_input_tokens_seen": 110499155,
+      "step": 5129,
+      "time_per_iteration": 2.6443023681640625
+    },
+    {
+      "auxiliary_loss_clip": 0.01181212,
+      "auxiliary_loss_mlp": 0.01030788,
+      "balance_loss_clip": 1.0479455,
+      "balance_loss_mlp": 1.02354646,
+      "epoch": 0.6168460289785367,
+      "flos": 23214811898880.0,
+      "grad_norm": 2.361397011889762,
+      "language_loss": 0.88605243,
+      "learning_rate": 1.3521135756875514e-06,
+      "loss": 0.90817249,
+      "num_input_tokens_seen": 110515470,
+      "step": 5130,
+      "time_per_iteration": 3.6771655082702637
+    },
+    {
+      "auxiliary_loss_clip": 0.01206604,
+      "auxiliary_loss_mlp": 0.01024011,
+      "balance_loss_clip": 1.04261732,
+      "balance_loss_mlp": 1.01724613,
+      "epoch": 0.6169662718691757,
+      "flos": 26213281482240.0,
+      "grad_norm": 1.5162086505347896,
+      "language_loss": 0.86273819,
+      "learning_rate": 1.3513766580572496e-06,
+      "loss": 0.8850444,
+      "num_input_tokens_seen": 110538290,
+      "step": 5131,
+      "time_per_iteration": 3.9729108810424805
+    },
+    {
+      "auxiliary_loss_clip": 0.01181949,
+      "auxiliary_loss_mlp": 0.01025324,
+      "balance_loss_clip": 1.04919302,
+      "balance_loss_mlp": 1.01792097,
+      "epoch": 0.6170865147598148,
+      "flos": 19026120228480.0,
+      "grad_norm": 2.021510014672573,
+      "language_loss": 0.7734825,
+      "learning_rate": 1.3506398388225924e-06,
+      "loss": 0.79555523,
+      "num_input_tokens_seen": 110555610,
+      "step": 5132,
+      "time_per_iteration": 2.645951509475708
+    },
+    {
+      "auxiliary_loss_clip": 0.01175886,
+      "auxiliary_loss_mlp": 0.01025782,
+      "balance_loss_clip": 1.0534687,
+      "balance_loss_mlp": 1.01831698,
+      "epoch": 0.617206757650454,
+      "flos": 18260361158400.0,
+      "grad_norm": 1.7819829899374586,
+      "language_loss": 0.71778715,
+      "learning_rate": 1.349903118095355e-06,
+      "loss": 0.73980385,
+      "num_input_tokens_seen": 110574745,
+      "step": 5133,
+      "time_per_iteration": 3.9083869457244873
+    },
+    {
+      "auxiliary_loss_clip": 0.01186122,
+      "auxiliary_loss_mlp": 0.0102442,
+      "balance_loss_clip": 1.04883623,
+      "balance_loss_mlp": 1.01681137,
+      "epoch": 0.617327000541093,
+      "flos": 18186959715840.0,
+      "grad_norm": 1.706705704206341,
+      "language_loss": 0.73153609,
+      "learning_rate": 1.349166495987298e-06,
+      "loss": 0.75364149,
+      "num_input_tokens_seen": 110593310,
+      "step": 5134,
+      "time_per_iteration": 2.6564929485321045
+    },
+    {
+      "auxiliary_loss_clip": 0.01093892,
+      "auxiliary_loss_mlp": 0.01000578,
+      "balance_loss_clip": 1.01944447,
+      "balance_loss_mlp": 0.99959415,
+      "epoch": 0.6174472434317321,
+      "flos": 61833796122240.0,
+      "grad_norm": 0.823059213632666,
+      "language_loss": 0.6091435,
+      "learning_rate": 1.348429972610166e-06,
+      "loss": 0.63008821,
+      "num_input_tokens_seen": 110657615,
+      "step": 5135,
+      "time_per_iteration": 3.3525495529174805
+    },
+    {
+      "auxiliary_loss_clip": 0.01123614,
+      "auxiliary_loss_mlp": 0.01001629,
+      "balance_loss_clip": 1.02712321,
+      "balance_loss_mlp": 1.00055063,
+      "epoch": 0.6175674863223712,
+      "flos": 71230970494080.0,
+      "grad_norm": 0.8426185508015155,
+      "language_loss": 0.57787406,
+      "learning_rate": 1.3476935480756897e-06,
+      "loss": 0.59912646,
+      "num_input_tokens_seen": 110714365,
+      "step": 5136,
+      "time_per_iteration": 4.045832395553589
+    },
+    {
+      "auxiliary_loss_clip": 0.01187469,
+      "auxiliary_loss_mlp": 0.01022583,
+      "balance_loss_clip": 1.04332304,
+      "balance_loss_mlp": 1.01477516,
+      "epoch": 0.6176877292130103,
+      "flos": 21835447770240.0,
+      "grad_norm": 2.40913327992124,
+      "language_loss": 0.75473905,
+      "learning_rate": 1.346957222495583e-06,
+      "loss": 0.77683961,
+      "num_input_tokens_seen": 110732160,
+      "step": 5137,
+      "time_per_iteration": 2.676870346069336
+    },
+    {
+      "auxiliary_loss_clip": 0.01199487,
+      "auxiliary_loss_mlp": 0.01379,
+      "balance_loss_clip": 1.05066347,
+      "balance_loss_mlp": 1.00022733,
+      "epoch": 0.6178079721036493,
+      "flos": 17741738638080.0,
+      "grad_norm": 2.7030913390240814,
+      "language_loss": 0.71048039,
+      "learning_rate": 1.3462209959815466e-06,
+      "loss": 0.7362653,
+      "num_input_tokens_seen": 110746900,
+      "step": 5138,
+      "time_per_iteration": 2.5954928398132324
+    },
+    {
+      "auxiliary_loss_clip": 0.01193426,
+      "auxiliary_loss_mlp": 0.01029509,
+      "balance_loss_clip": 1.04933,
+      "balance_loss_mlp": 1.02235031,
+      "epoch": 0.6179282149942885,
+      "flos": 22633131052800.0,
+      "grad_norm": 2.2283209920860156,
+      "language_loss": 0.74572527,
+      "learning_rate": 1.345484868645265e-06,
+      "loss": 0.76795459,
+      "num_input_tokens_seen": 110765710,
+      "step": 5139,
+      "time_per_iteration": 2.6524603366851807
+    },
+    {
+      "auxiliary_loss_clip": 0.01210381,
+      "auxiliary_loss_mlp": 0.01022287,
+      "balance_loss_clip": 1.04815245,
+      "balance_loss_mlp": 1.01477623,
+      "epoch": 0.6180484578849276,
+      "flos": 22310330503680.0,
+      "grad_norm": 2.017629815552318,
+      "language_loss": 0.78634953,
+      "learning_rate": 1.3447488405984088e-06,
+      "loss": 0.80867624,
+      "num_input_tokens_seen": 110783970,
+      "step": 5140,
+      "time_per_iteration": 2.7033097743988037
+    },
+    {
+      "auxiliary_loss_clip": 0.01191592,
+      "auxiliary_loss_mlp": 0.01027052,
+      "balance_loss_clip": 1.04808617,
+      "balance_loss_mlp": 1.01871955,
+      "epoch": 0.6181687007755666,
+      "flos": 35225458905600.0,
+      "grad_norm": 2.248293122738211,
+      "language_loss": 0.70183671,
+      "learning_rate": 1.3440129119526322e-06,
+      "loss": 0.7240231,
+      "num_input_tokens_seen": 110806395,
+      "step": 5141,
+      "time_per_iteration": 2.769543409347534
+    },
+    {
+      "auxiliary_loss_clip": 0.01067573,
+      "auxiliary_loss_mlp": 0.01000016,
+      "balance_loss_clip": 1.01352811,
+      "balance_loss_mlp": 0.99881756,
+      "epoch": 0.6182889436662057,
+      "flos": 61547370094080.0,
+      "grad_norm": 0.8227258310719788,
+      "language_loss": 0.51213521,
+      "learning_rate": 1.3432770828195762e-06,
+      "loss": 0.53281111,
+      "num_input_tokens_seen": 110867380,
+      "step": 5142,
+      "time_per_iteration": 3.3066136837005615
+    },
+    {
+      "auxiliary_loss_clip": 0.0118758,
+      "auxiliary_loss_mlp": 0.01031435,
+      "balance_loss_clip": 1.0430665,
+      "balance_loss_mlp": 1.02383518,
+      "epoch": 0.6184091865568448,
+      "flos": 19609991804160.0,
+      "grad_norm": 4.713924142381766,
+      "language_loss": 0.70317042,
+      "learning_rate": 1.3425413533108635e-06,
+      "loss": 0.72536063,
+      "num_input_tokens_seen": 110885980,
+      "step": 5143,
+      "time_per_iteration": 2.708279609680176
+    },
+    {
+      "auxiliary_loss_clip": 0.01209281,
+      "auxiliary_loss_mlp": 0.01027046,
+      "balance_loss_clip": 1.04683518,
+      "balance_loss_mlp": 1.01951766,
+      "epoch": 0.6185294294474839,
+      "flos": 23586882929280.0,
+      "grad_norm": 3.166117295054762,
+      "language_loss": 0.70824796,
+      "learning_rate": 1.341805723538105e-06,
+      "loss": 0.73061121,
+      "num_input_tokens_seen": 110906085,
+      "step": 5144,
+      "time_per_iteration": 2.739205837249756
+    },
+    {
+      "auxiliary_loss_clip": 0.01200849,
+      "auxiliary_loss_mlp": 0.01030241,
+      "balance_loss_clip": 1.05024672,
+      "balance_loss_mlp": 1.02304399,
+      "epoch": 0.618649672338123,
+      "flos": 26762032535040.0,
+      "grad_norm": 1.5211366705450422,
+      "language_loss": 0.77755296,
+      "learning_rate": 1.3410701936128948e-06,
+      "loss": 0.79986393,
+      "num_input_tokens_seen": 110928865,
+      "step": 5145,
+      "time_per_iteration": 2.982651472091675
+    },
+    {
+      "auxiliary_loss_clip": 0.01182527,
+      "auxiliary_loss_mlp": 0.01024856,
+      "balance_loss_clip": 1.05084515,
+      "balance_loss_mlp": 1.01747131,
+      "epoch": 0.6187699152287621,
+      "flos": 14456630522880.0,
+      "grad_norm": 2.4659922669281262,
+      "language_loss": 0.84959018,
+      "learning_rate": 1.340334763646812e-06,
+      "loss": 0.87166399,
+      "num_input_tokens_seen": 110943000,
+      "step": 5146,
+      "time_per_iteration": 2.591214656829834
+    },
+    {
+      "auxiliary_loss_clip": 0.01175882,
+      "auxiliary_loss_mlp": 0.01027067,
+      "balance_loss_clip": 1.05078149,
+      "balance_loss_mlp": 1.01921678,
+      "epoch": 0.6188901581194012,
+      "flos": 20084766796800.0,
+      "grad_norm": 1.6762856864615612,
+      "language_loss": 0.74346697,
+      "learning_rate": 1.3395994337514218e-06,
+      "loss": 0.76549643,
+      "num_input_tokens_seen": 110963170,
+      "step": 5147,
+      "time_per_iteration": 2.602576494216919
+    },
+    {
+      "auxiliary_loss_clip": 0.01174102,
+      "auxiliary_loss_mlp": 0.01024196,
+      "balance_loss_clip": 1.04650533,
+      "balance_loss_mlp": 1.0168463,
+      "epoch": 0.6190104010100402,
+      "flos": 25700728360320.0,
+      "grad_norm": 1.4695195519074824,
+      "language_loss": 0.78674662,
+      "learning_rate": 1.3388642040382725e-06,
+      "loss": 0.80872965,
+      "num_input_tokens_seen": 110983595,
+      "step": 5148,
+      "time_per_iteration": 2.6578121185302734
+    },
+    {
+      "auxiliary_loss_clip": 0.0120125,
+      "auxiliary_loss_mlp": 0.01026983,
+      "balance_loss_clip": 1.04354715,
+      "balance_loss_mlp": 1.01893687,
+      "epoch": 0.6191306439006794,
+      "flos": 30442372974720.0,
+      "grad_norm": 1.7272305114690225,
+      "language_loss": 0.8407461,
+      "learning_rate": 1.3381290746188975e-06,
+      "loss": 0.86302847,
+      "num_input_tokens_seen": 111002965,
+      "step": 5149,
+      "time_per_iteration": 2.7598092555999756
+    },
+    {
+      "auxiliary_loss_clip": 0.01186567,
+      "auxiliary_loss_mlp": 0.01028983,
+      "balance_loss_clip": 1.05399191,
+      "balance_loss_mlp": 1.02147841,
+      "epoch": 0.6192508867913185,
+      "flos": 26685793918080.0,
+      "grad_norm": 1.7466585883977308,
+      "language_loss": 0.6753599,
+      "learning_rate": 1.3373940456048152e-06,
+      "loss": 0.69751543,
+      "num_input_tokens_seen": 111022990,
+      "step": 5150,
+      "time_per_iteration": 2.7393763065338135
+    },
+    {
+      "auxiliary_loss_clip": 0.01174408,
+      "auxiliary_loss_mlp": 0.0102665,
+      "balance_loss_clip": 1.05140138,
+      "balance_loss_mlp": 1.01922023,
+      "epoch": 0.6193711296819575,
+      "flos": 36722036090880.0,
+      "grad_norm": 1.6344703864940175,
+      "language_loss": 0.58785444,
+      "learning_rate": 1.3366591171075299e-06,
+      "loss": 0.60986507,
+      "num_input_tokens_seen": 111046495,
+      "step": 5151,
+      "time_per_iteration": 2.6933345794677734
+    },
+    {
+      "auxiliary_loss_clip": 0.01192424,
+      "auxiliary_loss_mlp": 0.0102285,
+      "balance_loss_clip": 1.04845548,
+      "balance_loss_mlp": 1.01503563,
+      "epoch": 0.6194913725725967,
+      "flos": 25192556697600.0,
+      "grad_norm": 1.873256592268319,
+      "language_loss": 0.90886879,
+      "learning_rate": 1.335924289238529e-06,
+      "loss": 0.93102151,
+      "num_input_tokens_seen": 111065705,
+      "step": 5152,
+      "time_per_iteration": 2.722119092941284
+    },
+    {
+      "auxiliary_loss_clip": 0.01183082,
+      "auxiliary_loss_mlp": 0.01378737,
+      "balance_loss_clip": 1.05117917,
+      "balance_loss_mlp": 1.0001359,
+      "epoch": 0.6196116154632357,
+      "flos": 21178821196800.0,
+      "grad_norm": 1.7591285928085951,
+      "language_loss": 0.76943398,
+      "learning_rate": 1.3351895621092859e-06,
+      "loss": 0.79505217,
+      "num_input_tokens_seen": 111086050,
+      "step": 5153,
+      "time_per_iteration": 2.6320583820343018
+    },
+    {
+      "auxiliary_loss_clip": 0.01218142,
+      "auxiliary_loss_mlp": 0.01021889,
+      "balance_loss_clip": 1.03419352,
+      "balance_loss_mlp": 1.01490951,
+      "epoch": 0.6197318583538748,
+      "flos": 16253744803200.0,
+      "grad_norm": 1.8313105254160977,
+      "language_loss": 0.76173019,
+      "learning_rate": 1.3344549358312567e-06,
+      "loss": 0.78413051,
+      "num_input_tokens_seen": 111104450,
+      "step": 5154,
+      "time_per_iteration": 3.093158721923828
+    },
+    {
+      "auxiliary_loss_clip": 0.01187607,
+      "auxiliary_loss_mlp": 0.01029085,
+      "balance_loss_clip": 1.04987204,
+      "balance_loss_mlp": 1.02124131,
+      "epoch": 0.619852101244514,
+      "flos": 24425612478720.0,
+      "grad_norm": 1.857187501535294,
+      "language_loss": 0.77948499,
+      "learning_rate": 1.3337204105158852e-06,
+      "loss": 0.80165195,
+      "num_input_tokens_seen": 111123320,
+      "step": 5155,
+      "time_per_iteration": 3.27028489112854
+    },
+    {
+      "auxiliary_loss_clip": 0.01179333,
+      "auxiliary_loss_mlp": 0.010215,
+      "balance_loss_clip": 1.03657222,
+      "balance_loss_mlp": 1.01401925,
+      "epoch": 0.619972344135153,
+      "flos": 16727298733440.0,
+      "grad_norm": 2.3906227007750567,
+      "language_loss": 0.73070669,
+      "learning_rate": 1.332985986274597e-06,
+      "loss": 0.75271499,
+      "num_input_tokens_seen": 111140950,
+      "step": 5156,
+      "time_per_iteration": 3.6972100734710693
+    },
+    {
+      "auxiliary_loss_clip": 0.01209803,
+      "auxiliary_loss_mlp": 0.01378241,
+      "balance_loss_clip": 1.04413402,
+      "balance_loss_mlp": 1.00015473,
+      "epoch": 0.6200925870257921,
+      "flos": 12495190498560.0,
+      "grad_norm": 2.053960528551534,
+      "language_loss": 0.75364745,
+      "learning_rate": 1.3322516632188047e-06,
+      "loss": 0.7795279,
+      "num_input_tokens_seen": 111157845,
+      "step": 5157,
+      "time_per_iteration": 3.922154188156128
+    },
+    {
+      "auxiliary_loss_clip": 0.01197501,
+      "auxiliary_loss_mlp": 0.0102687,
+      "balance_loss_clip": 1.04558218,
+      "balance_loss_mlp": 1.01906204,
+      "epoch": 0.6202128299164312,
+      "flos": 26539350168960.0,
+      "grad_norm": 1.7170512008698409,
+      "language_loss": 0.67091703,
+      "learning_rate": 1.3315174414599045e-06,
+      "loss": 0.69316071,
+      "num_input_tokens_seen": 111179165,
+      "step": 5158,
+      "time_per_iteration": 2.8378539085388184
+    },
+    {
+      "auxiliary_loss_clip": 0.0117546,
+      "auxiliary_loss_mlp": 0.01025464,
+      "balance_loss_clip": 1.04557014,
+      "balance_loss_mlp": 1.01751304,
+      "epoch": 0.6203330728070703,
+      "flos": 18770508069120.0,
+      "grad_norm": 2.1327102046170885,
+      "language_loss": 0.75260139,
+      "learning_rate": 1.3307833211092768e-06,
+      "loss": 0.77461064,
+      "num_input_tokens_seen": 111197830,
+      "step": 5159,
+      "time_per_iteration": 3.532038450241089
+    },
+    {
+      "auxiliary_loss_clip": 0.01178551,
+      "auxiliary_loss_mlp": 0.01029812,
+      "balance_loss_clip": 1.05437493,
+      "balance_loss_mlp": 1.02231646,
+      "epoch": 0.6204533156977093,
+      "flos": 20629782835200.0,
+      "grad_norm": 1.606107493120828,
+      "language_loss": 0.7534138,
+      "learning_rate": 1.3300493022782873e-06,
+      "loss": 0.7754975,
+      "num_input_tokens_seen": 111218400,
+      "step": 5160,
+      "time_per_iteration": 2.656130313873291
+    },
+    {
+      "auxiliary_loss_clip": 0.01200157,
+      "auxiliary_loss_mlp": 0.01379021,
+      "balance_loss_clip": 1.0446316,
+      "balance_loss_mlp": 1.00017333,
+      "epoch": 0.6205735585883485,
+      "flos": 17348050598400.0,
+      "grad_norm": 1.7482775670459496,
+      "language_loss": 0.72476745,
+      "learning_rate": 1.3293153850782855e-06,
+      "loss": 0.75055921,
+      "num_input_tokens_seen": 111236720,
+      "step": 5161,
+      "time_per_iteration": 2.683941602706909
+    },
+    {
+      "auxiliary_loss_clip": 0.01189932,
+      "auxiliary_loss_mlp": 0.01034588,
+      "balance_loss_clip": 1.04538894,
+      "balance_loss_mlp": 1.02539706,
+      "epoch": 0.6206938014789876,
+      "flos": 22965017742720.0,
+      "grad_norm": 1.871623836354955,
+      "language_loss": 0.716039,
+      "learning_rate": 1.3285815696206069e-06,
+      "loss": 0.73828423,
+      "num_input_tokens_seen": 111258265,
+      "step": 5162,
+      "time_per_iteration": 3.624229907989502
+    },
+    {
+      "auxiliary_loss_clip": 0.01203156,
+      "auxiliary_loss_mlp": 0.01029716,
+      "balance_loss_clip": 1.04465699,
+      "balance_loss_mlp": 1.02172875,
+      "epoch": 0.6208140443696266,
+      "flos": 23983192661760.0,
+      "grad_norm": 1.9810709675658753,
+      "language_loss": 0.77086061,
+      "learning_rate": 1.32784785601657e-06,
+      "loss": 0.79318935,
+      "num_input_tokens_seen": 111277675,
+      "step": 5163,
+      "time_per_iteration": 2.721118927001953
+    },
+    {
+      "auxiliary_loss_clip": 0.01192453,
+      "auxiliary_loss_mlp": 0.01023874,
+      "balance_loss_clip": 1.04518294,
+      "balance_loss_mlp": 1.01620817,
+      "epoch": 0.6209342872602658,
+      "flos": 35077291303680.0,
+      "grad_norm": 1.6445764700620409,
+      "language_loss": 0.73640537,
+      "learning_rate": 1.3271142443774798e-06,
+      "loss": 0.75856864,
+      "num_input_tokens_seen": 111299910,
+      "step": 5164,
+      "time_per_iteration": 2.7459115982055664
+    },
+    {
+      "auxiliary_loss_clip": 0.01190551,
+      "auxiliary_loss_mlp": 0.01029867,
+      "balance_loss_clip": 1.04888606,
+      "balance_loss_mlp": 1.02274442,
+      "epoch": 0.6210545301509048,
+      "flos": 26979327861120.0,
+      "grad_norm": 1.7754650799714409,
+      "language_loss": 0.81347287,
+      "learning_rate": 1.3263807348146228e-06,
+      "loss": 0.83567703,
+      "num_input_tokens_seen": 111319765,
+      "step": 5165,
+      "time_per_iteration": 2.6507978439331055
+    },
+    {
+      "auxiliary_loss_clip": 0.01186997,
+      "auxiliary_loss_mlp": 0.01027378,
+      "balance_loss_clip": 1.044402,
+      "balance_loss_mlp": 1.01944411,
+      "epoch": 0.6211747730415439,
+      "flos": 33618240852480.0,
+      "grad_norm": 2.246210434146957,
+      "language_loss": 0.73284334,
+      "learning_rate": 1.3256473274392733e-06,
+      "loss": 0.75498712,
+      "num_input_tokens_seen": 111341110,
+      "step": 5166,
+      "time_per_iteration": 2.775635004043579
+    },
+    {
+      "auxiliary_loss_clip": 0.01172637,
+      "auxiliary_loss_mlp": 0.01027741,
+      "balance_loss_clip": 1.05037594,
+      "balance_loss_mlp": 1.01976633,
+      "epoch": 0.6212950159321831,
+      "flos": 34167099646080.0,
+      "grad_norm": 1.7690717092257633,
+      "language_loss": 0.70183599,
+      "learning_rate": 1.3249140223626873e-06,
+      "loss": 0.72383976,
+      "num_input_tokens_seen": 111362730,
+      "step": 5167,
+      "time_per_iteration": 2.7139203548431396
+    },
+    {
+      "auxiliary_loss_clip": 0.01181559,
+      "auxiliary_loss_mlp": 0.01025169,
+      "balance_loss_clip": 1.05069375,
+      "balance_loss_mlp": 1.01753712,
+      "epoch": 0.6214152588228221,
+      "flos": 27965758135680.0,
+      "grad_norm": 14.189811161771084,
+      "language_loss": 0.75460219,
+      "learning_rate": 1.3241808196961077e-06,
+      "loss": 0.77666944,
+      "num_input_tokens_seen": 111383855,
+      "step": 5168,
+      "time_per_iteration": 2.641932964324951
+    },
+    {
+      "auxiliary_loss_clip": 0.01175226,
+      "auxiliary_loss_mlp": 0.0102021,
+      "balance_loss_clip": 1.04381752,
+      "balance_loss_mlp": 1.01290822,
+      "epoch": 0.6215355017134612,
+      "flos": 20230204965120.0,
+      "grad_norm": 1.7335162285496482,
+      "language_loss": 0.70615673,
+      "learning_rate": 1.3234477195507608e-06,
+      "loss": 0.72811103,
+      "num_input_tokens_seen": 111402685,
+      "step": 5169,
+      "time_per_iteration": 2.7155826091766357
+    },
+    {
+      "auxiliary_loss_clip": 0.01199086,
+      "auxiliary_loss_mlp": 0.01028219,
+      "balance_loss_clip": 1.04601896,
+      "balance_loss_mlp": 1.02049994,
+      "epoch": 0.6216557446041003,
+      "flos": 41428129219200.0,
+      "grad_norm": 1.9112270000440486,
+      "language_loss": 0.62692326,
+      "learning_rate": 1.322714722037857e-06,
+      "loss": 0.64919627,
+      "num_input_tokens_seen": 111424130,
+      "step": 5170,
+      "time_per_iteration": 2.8688580989837646
+    },
+    {
+      "auxiliary_loss_clip": 0.01207077,
+      "auxiliary_loss_mlp": 0.01026324,
+      "balance_loss_clip": 1.04547358,
+      "balance_loss_mlp": 1.01822925,
+      "epoch": 0.6217759874947394,
+      "flos": 27928770105600.0,
+      "grad_norm": 2.177324950345139,
+      "language_loss": 0.77388656,
+      "learning_rate": 1.321981827268591e-06,
+      "loss": 0.79622054,
+      "num_input_tokens_seen": 111444785,
+      "step": 5171,
+      "time_per_iteration": 2.8007876873016357
+    },
+    {
+      "auxiliary_loss_clip": 0.01194714,
+      "auxiliary_loss_mlp": 0.01031608,
+      "balance_loss_clip": 1.04769838,
+      "balance_loss_mlp": 1.02379417,
+      "epoch": 0.6218962303853784,
+      "flos": 21765673601280.0,
+      "grad_norm": 2.05100687237423,
+      "language_loss": 0.81313097,
+      "learning_rate": 1.3212490353541426e-06,
+      "loss": 0.8353942,
+      "num_input_tokens_seen": 111467045,
+      "step": 5172,
+      "time_per_iteration": 2.716766119003296
+    },
+    {
+      "auxiliary_loss_clip": 0.01175151,
+      "auxiliary_loss_mlp": 0.01023962,
+      "balance_loss_clip": 1.04966474,
+      "balance_loss_mlp": 1.0157547,
+      "epoch": 0.6220164732760175,
+      "flos": 21246260981760.0,
+      "grad_norm": 2.2553390646870306,
+      "language_loss": 0.80363452,
+      "learning_rate": 1.3205163464056762e-06,
+      "loss": 0.82562566,
+      "num_input_tokens_seen": 111483650,
+      "step": 5173,
+      "time_per_iteration": 2.6251816749572754
+    },
+    {
+      "auxiliary_loss_clip": 0.01182079,
+      "auxiliary_loss_mlp": 0.01025501,
+      "balance_loss_clip": 1.04955494,
+      "balance_loss_mlp": 1.01776385,
+      "epoch": 0.6221367161666567,
+      "flos": 26136360506880.0,
+      "grad_norm": 1.799223625794307,
+      "language_loss": 0.72932655,
+      "learning_rate": 1.319783760534339e-06,
+      "loss": 0.75140238,
+      "num_input_tokens_seen": 111502895,
+      "step": 5174,
+      "time_per_iteration": 2.733595848083496
+    },
+    {
+      "auxiliary_loss_clip": 0.0118531,
+      "auxiliary_loss_mlp": 0.010264,
+      "balance_loss_clip": 1.0507524,
+      "balance_loss_mlp": 1.01909876,
+      "epoch": 0.6222569590572957,
+      "flos": 16284196558080.0,
+      "grad_norm": 2.0977272967125553,
+      "language_loss": 0.75665259,
+      "learning_rate": 1.319051277851266e-06,
+      "loss": 0.77876967,
+      "num_input_tokens_seen": 111519180,
+      "step": 5175,
+      "time_per_iteration": 2.5563876628875732
+    },
+    {
+      "auxiliary_loss_clip": 0.01185664,
+      "auxiliary_loss_mlp": 0.01025376,
+      "balance_loss_clip": 1.04924834,
+      "balance_loss_mlp": 1.01806867,
+      "epoch": 0.6223772019479348,
+      "flos": 18223840005120.0,
+      "grad_norm": 1.931753746510616,
+      "language_loss": 0.84059846,
+      "learning_rate": 1.3183188984675716e-06,
+      "loss": 0.86270893,
+      "num_input_tokens_seen": 111537545,
+      "step": 5176,
+      "time_per_iteration": 2.7044737339019775
+    },
+    {
+      "auxiliary_loss_clip": 0.0119309,
+      "auxiliary_loss_mlp": 0.0102706,
+      "balance_loss_clip": 1.05030107,
+      "balance_loss_mlp": 1.01933527,
+      "epoch": 0.6224974448385739,
+      "flos": 27489797994240.0,
+      "grad_norm": 2.274730646338194,
+      "language_loss": 0.7163294,
+      "learning_rate": 1.3175866224943586e-06,
+      "loss": 0.73853087,
+      "num_input_tokens_seen": 111556265,
+      "step": 5177,
+      "time_per_iteration": 2.7190818786621094
+    },
+    {
+      "auxiliary_loss_clip": 0.01198101,
+      "auxiliary_loss_mlp": 0.01020959,
+      "balance_loss_clip": 1.04938269,
+      "balance_loss_mlp": 1.01315033,
+      "epoch": 0.622617687729213,
+      "flos": 19791951125760.0,
+      "grad_norm": 2.3423198459202483,
+      "language_loss": 0.73369193,
+      "learning_rate": 1.316854450042712e-06,
+      "loss": 0.75588256,
+      "num_input_tokens_seen": 111574205,
+      "step": 5178,
+      "time_per_iteration": 2.7750589847564697
+    },
+    {
+      "auxiliary_loss_clip": 0.01188876,
+      "auxiliary_loss_mlp": 0.01025939,
+      "balance_loss_clip": 1.05075741,
+      "balance_loss_mlp": 1.01834512,
+      "epoch": 0.622737930619852,
+      "flos": 23038886062080.0,
+      "grad_norm": 1.8655015478362436,
+      "language_loss": 0.74369597,
+      "learning_rate": 1.3161223812237024e-06,
+      "loss": 0.76584411,
+      "num_input_tokens_seen": 111593560,
+      "step": 5179,
+      "time_per_iteration": 2.641402244567871
+    },
+    {
+      "auxiliary_loss_clip": 0.01176557,
+      "auxiliary_loss_mlp": 0.01026862,
+      "balance_loss_clip": 1.05145407,
+      "balance_loss_mlp": 1.01925039,
+      "epoch": 0.6228581735104912,
+      "flos": 12634271959680.0,
+      "grad_norm": 2.717351238897899,
+      "language_loss": 0.85055584,
+      "learning_rate": 1.3153904161483842e-06,
+      "loss": 0.87259007,
+      "num_input_tokens_seen": 111608860,
+      "step": 5180,
+      "time_per_iteration": 2.603398561477661
+    },
+    {
+      "auxiliary_loss_clip": 0.0119375,
+      "auxiliary_loss_mlp": 0.01031454,
+      "balance_loss_clip": 1.04445195,
+      "balance_loss_mlp": 1.02345526,
+      "epoch": 0.6229784164011303,
+      "flos": 23802813538560.0,
+      "grad_norm": 2.1550715086965626,
+      "language_loss": 0.85427809,
+      "learning_rate": 1.3146585549277953e-06,
+      "loss": 0.87653011,
+      "num_input_tokens_seen": 111627500,
+      "step": 5181,
+      "time_per_iteration": 2.6604533195495605
+    },
+    {
+      "auxiliary_loss_clip": 0.01204973,
+      "auxiliary_loss_mlp": 0.01031619,
+      "balance_loss_clip": 1.05243194,
+      "balance_loss_mlp": 1.02398944,
+      "epoch": 0.6230986592917693,
+      "flos": 22414219614720.0,
+      "grad_norm": 17.822400485630958,
+      "language_loss": 0.78122318,
+      "learning_rate": 1.3139267976729591e-06,
+      "loss": 0.80358911,
+      "num_input_tokens_seen": 111647690,
+      "step": 5182,
+      "time_per_iteration": 3.6542258262634277
+    },
+    {
+      "auxiliary_loss_clip": 0.01185941,
+      "auxiliary_loss_mlp": 0.01029884,
+      "balance_loss_clip": 1.04966617,
+      "balance_loss_mlp": 1.02230263,
+      "epoch": 0.6232189021824085,
+      "flos": 34528217028480.0,
+      "grad_norm": 2.1047327354044354,
+      "language_loss": 0.72056055,
+      "learning_rate": 1.3131951444948815e-06,
+      "loss": 0.74271882,
+      "num_input_tokens_seen": 111667090,
+      "step": 5183,
+      "time_per_iteration": 3.6328723430633545
+    },
+    {
+      "auxiliary_loss_clip": 0.01200132,
+      "auxiliary_loss_mlp": 0.01027381,
+      "balance_loss_clip": 1.05231929,
+      "balance_loss_mlp": 1.01970959,
+      "epoch": 0.6233391450730476,
+      "flos": 22237000888320.0,
+      "grad_norm": 1.7986483899863934,
+      "language_loss": 0.76188529,
+      "learning_rate": 1.3124635955045546e-06,
+      "loss": 0.78416038,
+      "num_input_tokens_seen": 111686905,
+      "step": 5184,
+      "time_per_iteration": 2.602656126022339
+    },
+    {
+      "auxiliary_loss_clip": 0.01194384,
+      "auxiliary_loss_mlp": 0.01378342,
+      "balance_loss_clip": 1.04065526,
+      "balance_loss_mlp": 1.00018692,
+      "epoch": 0.6234593879636866,
+      "flos": 20332693445760.0,
+      "grad_norm": 2.7685266920510916,
+      "language_loss": 0.84358108,
+      "learning_rate": 1.3117321508129537e-06,
+      "loss": 0.86930829,
+      "num_input_tokens_seen": 111704985,
+      "step": 5185,
+      "time_per_iteration": 3.5603275299072266
+    },
+    {
+      "auxiliary_loss_clip": 0.01193786,
+      "auxiliary_loss_mlp": 0.01026878,
+      "balance_loss_clip": 1.04833984,
+      "balance_loss_mlp": 1.01906967,
+      "epoch": 0.6235796308543258,
+      "flos": 20664903358080.0,
+      "grad_norm": 1.5460819619228225,
+      "language_loss": 0.76508683,
+      "learning_rate": 1.3110008105310388e-06,
+      "loss": 0.78729349,
+      "num_input_tokens_seen": 111724805,
+      "step": 5186,
+      "time_per_iteration": 2.6464807987213135
+    },
+    {
+      "auxiliary_loss_clip": 0.01175365,
+      "auxiliary_loss_mlp": 0.01027489,
+      "balance_loss_clip": 1.04893923,
+      "balance_loss_mlp": 1.0196147,
+      "epoch": 0.6236998737449648,
+      "flos": 26618641441920.0,
+      "grad_norm": 1.6218849120885381,
+      "language_loss": 0.78060567,
+      "learning_rate": 1.3102695747697526e-06,
+      "loss": 0.80263424,
+      "num_input_tokens_seen": 111747675,
+      "step": 5187,
+      "time_per_iteration": 2.570676803588867
+    },
+    {
+      "auxiliary_loss_clip": 0.01224286,
+      "auxiliary_loss_mlp": 0.01024131,
+      "balance_loss_clip": 1.04968584,
+      "balance_loss_mlp": 1.01633501,
+      "epoch": 0.6238201166356039,
+      "flos": 12674599954560.0,
+      "grad_norm": 2.237321086382213,
+      "language_loss": 0.90538764,
+      "learning_rate": 1.3095384436400237e-06,
+      "loss": 0.92787182,
+      "num_input_tokens_seen": 111759205,
+      "step": 5188,
+      "time_per_iteration": 3.5215935707092285
+    },
+    {
+      "auxiliary_loss_clip": 0.01197792,
+      "auxiliary_loss_mlp": 0.01026844,
+      "balance_loss_clip": 1.04695964,
+      "balance_loss_mlp": 1.01930368,
+      "epoch": 0.623940359526243,
+      "flos": 10452160730880.0,
+      "grad_norm": 3.5238443679630764,
+      "language_loss": 0.82209003,
+      "learning_rate": 1.3088074172527633e-06,
+      "loss": 0.84433639,
+      "num_input_tokens_seen": 111776335,
+      "step": 5189,
+      "time_per_iteration": 2.580531120300293
+    },
+    {
+      "auxiliary_loss_clip": 0.01199,
+      "auxiliary_loss_mlp": 0.01022363,
+      "balance_loss_clip": 1.04784381,
+      "balance_loss_mlp": 1.01411963,
+      "epoch": 0.6240606024168821,
+      "flos": 29059525226880.0,
+      "grad_norm": 1.859160386219143,
+      "language_loss": 0.71456736,
+      "learning_rate": 1.3080764957188684e-06,
+      "loss": 0.73678094,
+      "num_input_tokens_seen": 111796580,
+      "step": 5190,
+      "time_per_iteration": 2.676900863647461
+    },
+    {
+      "auxiliary_loss_clip": 0.01210852,
+      "auxiliary_loss_mlp": 0.0102784,
+      "balance_loss_clip": 1.04462934,
+      "balance_loss_mlp": 1.01999617,
+      "epoch": 0.6241808453075212,
+      "flos": 22018089450240.0,
+      "grad_norm": 1.7933605074613987,
+      "language_loss": 0.70936644,
+      "learning_rate": 1.3073456791492192e-06,
+      "loss": 0.73175341,
+      "num_input_tokens_seen": 111816290,
+      "step": 5191,
+      "time_per_iteration": 2.66233491897583
+    },
+    {
+      "auxiliary_loss_clip": 0.01195736,
+      "auxiliary_loss_mlp": 0.01023097,
+      "balance_loss_clip": 1.04792356,
+      "balance_loss_mlp": 1.01563191,
+      "epoch": 0.6243010881981603,
+      "flos": 21138708683520.0,
+      "grad_norm": 1.787011191256065,
+      "language_loss": 0.78299779,
+      "learning_rate": 1.3066149676546801e-06,
+      "loss": 0.80518615,
+      "num_input_tokens_seen": 111834470,
+      "step": 5192,
+      "time_per_iteration": 2.6589744091033936
+    },
+    {
+      "auxiliary_loss_clip": 0.01190414,
+      "auxiliary_loss_mlp": 0.01032573,
+      "balance_loss_clip": 1.05000281,
+      "balance_loss_mlp": 1.02535796,
+      "epoch": 0.6244213310887994,
+      "flos": 22344948236160.0,
+      "grad_norm": 1.9453009224763758,
+      "language_loss": 0.66107112,
+      "learning_rate": 1.3058843613460985e-06,
+      "loss": 0.68330097,
+      "num_input_tokens_seen": 111852410,
+      "step": 5193,
+      "time_per_iteration": 2.6189026832580566
+    },
+    {
+      "auxiliary_loss_clip": 0.01210876,
+      "auxiliary_loss_mlp": 0.01026154,
+      "balance_loss_clip": 1.04737639,
+      "balance_loss_mlp": 1.01834321,
+      "epoch": 0.6245415739794384,
+      "flos": 15231978524160.0,
+      "grad_norm": 1.9334768949370842,
+      "language_loss": 0.74269152,
+      "learning_rate": 1.3051538603343075e-06,
+      "loss": 0.7650618,
+      "num_input_tokens_seen": 111870340,
+      "step": 5194,
+      "time_per_iteration": 2.6424880027770996
+    },
+    {
+      "auxiliary_loss_clip": 0.01184181,
+      "auxiliary_loss_mlp": 0.01030759,
+      "balance_loss_clip": 1.05226433,
+      "balance_loss_mlp": 1.02349281,
+      "epoch": 0.6246618168700776,
+      "flos": 18879891960960.0,
+      "grad_norm": 1.9523630052985472,
+      "language_loss": 0.68003649,
+      "learning_rate": 1.3044234647301235e-06,
+      "loss": 0.70218587,
+      "num_input_tokens_seen": 111888365,
+      "step": 5195,
+      "time_per_iteration": 2.6482582092285156
+    },
+    {
+      "auxiliary_loss_clip": 0.01178951,
+      "auxiliary_loss_mlp": 0.01024313,
+      "balance_loss_clip": 1.04938483,
+      "balance_loss_mlp": 1.01696646,
+      "epoch": 0.6247820597607167,
+      "flos": 14319201087360.0,
+      "grad_norm": 1.8420048679204608,
+      "language_loss": 0.7254191,
+      "learning_rate": 1.303693174644347e-06,
+      "loss": 0.74745178,
+      "num_input_tokens_seen": 111905840,
+      "step": 5196,
+      "time_per_iteration": 2.6276485919952393
+    },
+    {
+      "auxiliary_loss_clip": 0.01186019,
+      "auxiliary_loss_mlp": 0.01024923,
+      "balance_loss_clip": 1.046525,
+      "balance_loss_mlp": 1.01705527,
+      "epoch": 0.6249023026513557,
+      "flos": 22637979388800.0,
+      "grad_norm": 1.7603601711883163,
+      "language_loss": 0.79999119,
+      "learning_rate": 1.3029629901877625e-06,
+      "loss": 0.82210058,
+      "num_input_tokens_seen": 111925215,
+      "step": 5197,
+      "time_per_iteration": 2.7743136882781982
+    },
+    {
+      "auxiliary_loss_clip": 0.0119417,
+      "auxiliary_loss_mlp": 0.01024615,
+      "balance_loss_clip": 1.05329609,
+      "balance_loss_mlp": 1.01742685,
+      "epoch": 0.6250225455419949,
+      "flos": 20266690204800.0,
+      "grad_norm": 2.677956067413912,
+      "language_loss": 0.77425593,
+      "learning_rate": 1.3022329114711376e-06,
+      "loss": 0.79644382,
+      "num_input_tokens_seen": 111943925,
+      "step": 5198,
+      "time_per_iteration": 2.6022119522094727
+    },
+    {
+      "auxiliary_loss_clip": 0.01188468,
+      "auxiliary_loss_mlp": 0.01027721,
+      "balance_loss_clip": 1.04908204,
+      "balance_loss_mlp": 1.02043104,
+      "epoch": 0.6251427884326339,
+      "flos": 23437853400960.0,
+      "grad_norm": 2.2302355584691487,
+      "language_loss": 0.69640309,
+      "learning_rate": 1.3015029386052256e-06,
+      "loss": 0.71856499,
+      "num_input_tokens_seen": 111964095,
+      "step": 5199,
+      "time_per_iteration": 2.7267584800720215
+    },
+    {
+      "auxiliary_loss_clip": 0.01211824,
+      "auxiliary_loss_mlp": 0.01031489,
+      "balance_loss_clip": 1.04810405,
+      "balance_loss_mlp": 1.02426791,
+      "epoch": 0.625263031323273,
+      "flos": 31723055464320.0,
+      "grad_norm": 1.8547933402021912,
+      "language_loss": 0.72554135,
+      "learning_rate": 1.3007730717007622e-06,
+      "loss": 0.74797451,
+      "num_input_tokens_seen": 111984910,
+      "step": 5200,
+      "time_per_iteration": 2.7580761909484863
+    },
+    {
+      "auxiliary_loss_clip": 0.0117779,
+      "auxiliary_loss_mlp": 0.01030065,
+      "balance_loss_clip": 1.05242145,
+      "balance_loss_mlp": 1.02238822,
+      "epoch": 0.6253832742139122,
+      "flos": 24134341092480.0,
+      "grad_norm": 1.7187213176409764,
+      "language_loss": 0.75735426,
+      "learning_rate": 1.3000433108684676e-06,
+      "loss": 0.77943277,
+      "num_input_tokens_seen": 112005410,
+      "step": 5201,
+      "time_per_iteration": 2.6829733848571777
+    },
+    {
+      "auxiliary_loss_clip": 0.01183581,
+      "auxiliary_loss_mlp": 0.01024806,
+      "balance_loss_clip": 1.05144346,
+      "balance_loss_mlp": 1.0168364,
+      "epoch": 0.6255035171045512,
+      "flos": 27668812400640.0,
+      "grad_norm": 2.2985251975666325,
+      "language_loss": 0.80076706,
+      "learning_rate": 1.2993136562190467e-06,
+      "loss": 0.82285094,
+      "num_input_tokens_seen": 112024530,
+      "step": 5202,
+      "time_per_iteration": 2.7327799797058105
+    },
+    {
+      "auxiliary_loss_clip": 0.01194635,
+      "auxiliary_loss_mlp": 0.01026734,
+      "balance_loss_clip": 1.04819882,
+      "balance_loss_mlp": 1.01904488,
+      "epoch": 0.6256237599951903,
+      "flos": 20227798753920.0,
+      "grad_norm": 2.2973649722354557,
+      "language_loss": 0.70094371,
+      "learning_rate": 1.2985841078631871e-06,
+      "loss": 0.72315741,
+      "num_input_tokens_seen": 112043850,
+      "step": 5203,
+      "time_per_iteration": 2.6752755641937256
+    },
+    {
+      "auxiliary_loss_clip": 0.01214558,
+      "auxiliary_loss_mlp": 0.01028932,
+      "balance_loss_clip": 1.04062879,
+      "balance_loss_mlp": 1.02058744,
+      "epoch": 0.6257440028858293,
+      "flos": 24170574936960.0,
+      "grad_norm": 1.7556020973165924,
+      "language_loss": 0.781057,
+      "learning_rate": 1.2978546659115608e-06,
+      "loss": 0.80349195,
+      "num_input_tokens_seen": 112061930,
+      "step": 5204,
+      "time_per_iteration": 2.8483471870422363
+    },
+    {
+      "auxiliary_loss_clip": 0.01195533,
+      "auxiliary_loss_mlp": 0.01034097,
+      "balance_loss_clip": 1.04852903,
+      "balance_loss_mlp": 1.02656317,
+      "epoch": 0.6258642457764685,
+      "flos": 15851940289920.0,
+      "grad_norm": 2.2293772114026744,
+      "language_loss": 0.8529973,
+      "learning_rate": 1.2971253304748228e-06,
+      "loss": 0.87529361,
+      "num_input_tokens_seen": 112079645,
+      "step": 5205,
+      "time_per_iteration": 2.888129711151123
+    },
+    {
+      "auxiliary_loss_clip": 0.01190338,
+      "auxiliary_loss_mlp": 0.01028062,
+      "balance_loss_clip": 1.05316925,
+      "balance_loss_mlp": 1.0198667,
+      "epoch": 0.6259844886671075,
+      "flos": 11911354836480.0,
+      "grad_norm": 1.7848197169600022,
+      "language_loss": 0.74884683,
+      "learning_rate": 1.296396101663614e-06,
+      "loss": 0.77103084,
+      "num_input_tokens_seen": 112096205,
+      "step": 5206,
+      "time_per_iteration": 2.5765061378479004
+    },
+    {
+      "auxiliary_loss_clip": 0.01187573,
+      "auxiliary_loss_mlp": 0.01029572,
+      "balance_loss_clip": 1.05134749,
+      "balance_loss_mlp": 1.02152562,
+      "epoch": 0.6261047315577466,
+      "flos": 15887958652800.0,
+      "grad_norm": 2.6245928539674988,
+      "language_loss": 0.8397162,
+      "learning_rate": 1.2956669795885565e-06,
+      "loss": 0.86188763,
+      "num_input_tokens_seen": 112112835,
+      "step": 5207,
+      "time_per_iteration": 2.6679093837738037
+    },
+    {
+      "auxiliary_loss_clip": 0.01196041,
+      "auxiliary_loss_mlp": 0.01031685,
+      "balance_loss_clip": 1.0484457,
+      "balance_loss_mlp": 1.0235846,
+      "epoch": 0.6262249744483858,
+      "flos": 31248926916480.0,
+      "grad_norm": 3.16115317425259,
+      "language_loss": 0.68343937,
+      "learning_rate": 1.294937964360259e-06,
+      "loss": 0.70571667,
+      "num_input_tokens_seen": 112133105,
+      "step": 5208,
+      "time_per_iteration": 3.6471636295318604
+    },
+    {
+      "auxiliary_loss_clip": 0.01198255,
+      "auxiliary_loss_mlp": 0.01022848,
+      "balance_loss_clip": 1.04716349,
+      "balance_loss_mlp": 1.01441979,
+      "epoch": 0.6263452173390248,
+      "flos": 27198598435200.0,
+      "grad_norm": 9.594449243970365,
+      "language_loss": 0.71669996,
+      "learning_rate": 1.2942090560893108e-06,
+      "loss": 0.73891097,
+      "num_input_tokens_seen": 112152510,
+      "step": 5209,
+      "time_per_iteration": 3.773629665374756
+    },
+    {
+      "auxiliary_loss_clip": 0.01174403,
+      "auxiliary_loss_mlp": 0.01025565,
+      "balance_loss_clip": 1.0507462,
+      "balance_loss_mlp": 1.01776886,
+      "epoch": 0.6264654602296639,
+      "flos": 37342069683840.0,
+      "grad_norm": 1.804119281523766,
+      "language_loss": 0.60095525,
+      "learning_rate": 1.2934802548862882e-06,
+      "loss": 0.62295491,
+      "num_input_tokens_seen": 112175295,
+      "step": 5210,
+      "time_per_iteration": 2.7485411167144775
+    },
+    {
+      "auxiliary_loss_clip": 0.01189164,
+      "auxiliary_loss_mlp": 0.01024766,
+      "balance_loss_clip": 1.0463903,
+      "balance_loss_mlp": 1.01683831,
+      "epoch": 0.626585703120303,
+      "flos": 14756952136320.0,
+      "grad_norm": 2.714803492539972,
+      "language_loss": 0.82322013,
+      "learning_rate": 1.292751560861749e-06,
+      "loss": 0.84535944,
+      "num_input_tokens_seen": 112190200,
+      "step": 5211,
+      "time_per_iteration": 3.6306817531585693
+    },
+    {
+      "auxiliary_loss_clip": 0.01177932,
+      "auxiliary_loss_mlp": 0.0102782,
+      "balance_loss_clip": 1.05149674,
+      "balance_loss_mlp": 1.02016115,
+      "epoch": 0.6267059460109421,
+      "flos": 22347318533760.0,
+      "grad_norm": 1.8845679625306966,
+      "language_loss": 0.79570138,
+      "learning_rate": 1.2920229741262354e-06,
+      "loss": 0.81775892,
+      "num_input_tokens_seen": 112208205,
+      "step": 5212,
+      "time_per_iteration": 2.6618897914886475
+    },
+    {
+      "auxiliary_loss_clip": 0.0119196,
+      "auxiliary_loss_mlp": 0.01026118,
+      "balance_loss_clip": 1.04713237,
+      "balance_loss_mlp": 1.01800036,
+      "epoch": 0.6268261889015811,
+      "flos": 17748813617280.0,
+      "grad_norm": 1.9664641541270476,
+      "language_loss": 0.75089943,
+      "learning_rate": 1.2912944947902739e-06,
+      "loss": 0.77308017,
+      "num_input_tokens_seen": 112224690,
+      "step": 5213,
+      "time_per_iteration": 2.637284278869629
+    },
+    {
+      "auxiliary_loss_clip": 0.01199272,
+      "auxiliary_loss_mlp": 0.01023972,
+      "balance_loss_clip": 1.04864931,
+      "balance_loss_mlp": 1.01625896,
+      "epoch": 0.6269464317922203,
+      "flos": 32846484211200.0,
+      "grad_norm": 2.423772201567775,
+      "language_loss": 0.71645081,
+      "learning_rate": 1.2905661229643742e-06,
+      "loss": 0.73868322,
+      "num_input_tokens_seen": 112244450,
+      "step": 5214,
+      "time_per_iteration": 3.668069362640381
+    },
+    {
+      "auxiliary_loss_clip": 0.01174676,
+      "auxiliary_loss_mlp": 0.01026638,
+      "balance_loss_clip": 1.05062973,
+      "balance_loss_mlp": 1.01900864,
+      "epoch": 0.6270666746828594,
+      "flos": 17929192740480.0,
+      "grad_norm": 2.1319582147196967,
+      "language_loss": 0.84274971,
+      "learning_rate": 1.2898378587590299e-06,
+      "loss": 0.86476284,
+      "num_input_tokens_seen": 112261050,
+      "step": 5215,
+      "time_per_iteration": 2.5558433532714844
+    },
+    {
+      "auxiliary_loss_clip": 0.01183443,
+      "auxiliary_loss_mlp": 0.01026942,
+      "balance_loss_clip": 1.05195498,
+      "balance_loss_mlp": 1.01966166,
+      "epoch": 0.6271869175734984,
+      "flos": 17457326749440.0,
+      "grad_norm": 2.319534103326048,
+      "language_loss": 0.87284625,
+      "learning_rate": 1.2891097022847173e-06,
+      "loss": 0.89495003,
+      "num_input_tokens_seen": 112278395,
+      "step": 5216,
+      "time_per_iteration": 2.5950443744659424
+    },
+    {
+      "auxiliary_loss_clip": 0.01191773,
+      "auxiliary_loss_mlp": 0.01027601,
+      "balance_loss_clip": 1.04829979,
+      "balance_loss_mlp": 1.01943541,
+      "epoch": 0.6273071604641376,
+      "flos": 26868615166080.0,
+      "grad_norm": 4.780721583652035,
+      "language_loss": 0.6647585,
+      "learning_rate": 1.2883816536518978e-06,
+      "loss": 0.68695223,
+      "num_input_tokens_seen": 112299535,
+      "step": 5217,
+      "time_per_iteration": 2.718841314315796
+    },
+    {
+      "auxiliary_loss_clip": 0.01181951,
+      "auxiliary_loss_mlp": 0.01026681,
+      "balance_loss_clip": 1.04878342,
+      "balance_loss_mlp": 1.01905179,
+      "epoch": 0.6274274033547766,
+      "flos": 26062384446720.0,
+      "grad_norm": 1.7913910980914034,
+      "language_loss": 0.81637353,
+      "learning_rate": 1.2876537129710155e-06,
+      "loss": 0.83845985,
+      "num_input_tokens_seen": 112317265,
+      "step": 5218,
+      "time_per_iteration": 2.671882390975952
+    },
+    {
+      "auxiliary_loss_clip": 0.01189638,
+      "auxiliary_loss_mlp": 0.01030143,
+      "balance_loss_clip": 1.05079174,
+      "balance_loss_mlp": 1.02167344,
+      "epoch": 0.6275476462454157,
+      "flos": 20266259241600.0,
+      "grad_norm": 3.5565950519794254,
+      "language_loss": 0.75822079,
+      "learning_rate": 1.286925880352499e-06,
+      "loss": 0.78041863,
+      "num_input_tokens_seen": 112336125,
+      "step": 5219,
+      "time_per_iteration": 2.6275365352630615
+    },
+    {
+      "auxiliary_loss_clip": 0.01187227,
+      "auxiliary_loss_mlp": 0.01029503,
+      "balance_loss_clip": 1.04638481,
+      "balance_loss_mlp": 1.02174568,
+      "epoch": 0.6276678891360549,
+      "flos": 26320402817280.0,
+      "grad_norm": 1.8083750231953937,
+      "language_loss": 0.71250379,
+      "learning_rate": 1.2861981559067592e-06,
+      "loss": 0.73467106,
+      "num_input_tokens_seen": 112356730,
+      "step": 5220,
+      "time_per_iteration": 2.671520709991455
+    },
+    {
+      "auxiliary_loss_clip": 0.01200077,
+      "auxiliary_loss_mlp": 0.01028048,
+      "balance_loss_clip": 1.04391587,
+      "balance_loss_mlp": 1.02031755,
+      "epoch": 0.6277881320266939,
+      "flos": 13912512324480.0,
+      "grad_norm": 1.9776296439537944,
+      "language_loss": 0.80180728,
+      "learning_rate": 1.2854705397441917e-06,
+      "loss": 0.82408857,
+      "num_input_tokens_seen": 112372270,
+      "step": 5221,
+      "time_per_iteration": 2.6732237339019775
+    },
+    {
+      "auxiliary_loss_clip": 0.01193315,
+      "auxiliary_loss_mlp": 0.0102986,
+      "balance_loss_clip": 1.04338717,
+      "balance_loss_mlp": 1.02203989,
+      "epoch": 0.627908374917333,
+      "flos": 27048922462080.0,
+      "grad_norm": 2.0206576685329978,
+      "language_loss": 0.7764473,
+      "learning_rate": 1.2847430319751747e-06,
+      "loss": 0.79867899,
+      "num_input_tokens_seen": 112390365,
+      "step": 5222,
+      "time_per_iteration": 2.7684319019317627
+    },
+    {
+      "auxiliary_loss_clip": 0.01180856,
+      "auxiliary_loss_mlp": 0.0102549,
+      "balance_loss_clip": 1.05174387,
+      "balance_loss_mlp": 1.01838505,
+      "epoch": 0.6280286178079721,
+      "flos": 23769201386880.0,
+      "grad_norm": 3.267504995476446,
+      "language_loss": 0.67120755,
+      "learning_rate": 1.2840156327100712e-06,
+      "loss": 0.69327104,
+      "num_input_tokens_seen": 112407490,
+      "step": 5223,
+      "time_per_iteration": 2.585726261138916
+    },
+    {
+      "auxiliary_loss_clip": 0.0117481,
+      "auxiliary_loss_mlp": 0.01023279,
+      "balance_loss_clip": 1.05207133,
+      "balance_loss_mlp": 1.01576853,
+      "epoch": 0.6281488606986112,
+      "flos": 26359150613760.0,
+      "grad_norm": 1.84927735936292,
+      "language_loss": 0.72329426,
+      "learning_rate": 1.2832883420592272e-06,
+      "loss": 0.74527514,
+      "num_input_tokens_seen": 112426385,
+      "step": 5224,
+      "time_per_iteration": 2.6814112663269043
+    },
+    {
+      "auxiliary_loss_clip": 0.01186497,
+      "auxiliary_loss_mlp": 0.01020041,
+      "balance_loss_clip": 1.04705739,
+      "balance_loss_mlp": 1.01241183,
+      "epoch": 0.6282691035892503,
+      "flos": 36137194848000.0,
+      "grad_norm": 2.873557242121126,
+      "language_loss": 0.64185631,
+      "learning_rate": 1.282561160132972e-06,
+      "loss": 0.66392171,
+      "num_input_tokens_seen": 112446905,
+      "step": 5225,
+      "time_per_iteration": 2.838843584060669
+    },
+    {
+      "auxiliary_loss_clip": 0.01196668,
+      "auxiliary_loss_mlp": 0.01025757,
+      "balance_loss_clip": 1.0458535,
+      "balance_loss_mlp": 1.01748991,
+      "epoch": 0.6283893464798894,
+      "flos": 26537231266560.0,
+      "grad_norm": 1.5351272938603788,
+      "language_loss": 0.80726308,
+      "learning_rate": 1.2818340870416186e-06,
+      "loss": 0.82948732,
+      "num_input_tokens_seen": 112468040,
+      "step": 5226,
+      "time_per_iteration": 2.6960091590881348
+    },
+    {
+      "auxiliary_loss_clip": 0.01206683,
+      "auxiliary_loss_mlp": 0.01025222,
+      "balance_loss_clip": 1.04453111,
+      "balance_loss_mlp": 1.0171994,
+      "epoch": 0.6285095893705285,
+      "flos": 22237216369920.0,
+      "grad_norm": 3.1699929443424195,
+      "language_loss": 0.75851351,
+      "learning_rate": 1.2811071228954626e-06,
+      "loss": 0.78083259,
+      "num_input_tokens_seen": 112486675,
+      "step": 5227,
+      "time_per_iteration": 2.6798179149627686
+    },
+    {
+      "auxiliary_loss_clip": 0.01194983,
+      "auxiliary_loss_mlp": 0.01027021,
+      "balance_loss_clip": 1.05142117,
+      "balance_loss_mlp": 1.01916194,
+      "epoch": 0.6286298322611675,
+      "flos": 26542259170560.0,
+      "grad_norm": 1.7346392453074337,
+      "language_loss": 0.80684215,
+      "learning_rate": 1.2803802678047846e-06,
+      "loss": 0.82906216,
+      "num_input_tokens_seen": 112506825,
+      "step": 5228,
+      "time_per_iteration": 2.7128710746765137
+    },
+    {
+      "auxiliary_loss_clip": 0.01199905,
+      "auxiliary_loss_mlp": 0.0102415,
+      "balance_loss_clip": 1.05092406,
+      "balance_loss_mlp": 1.01523292,
+      "epoch": 0.6287500751518067,
+      "flos": 21795227516160.0,
+      "grad_norm": 2.3819512473310405,
+      "language_loss": 0.74326026,
+      "learning_rate": 1.279653521879848e-06,
+      "loss": 0.76550078,
+      "num_input_tokens_seen": 112526890,
+      "step": 5229,
+      "time_per_iteration": 2.711638927459717
+    },
+    {
+      "auxiliary_loss_clip": 0.01215899,
+      "auxiliary_loss_mlp": 0.01027877,
+      "balance_loss_clip": 1.03936076,
+      "balance_loss_mlp": 1.01987791,
+      "epoch": 0.6288703180424458,
+      "flos": 20009605587840.0,
+      "grad_norm": 2.491449873046776,
+      "language_loss": 0.83759749,
+      "learning_rate": 1.2789268852308997e-06,
+      "loss": 0.8600353,
+      "num_input_tokens_seen": 112542100,
+      "step": 5230,
+      "time_per_iteration": 2.789515733718872
+    },
+    {
+      "auxiliary_loss_clip": 0.01174347,
+      "auxiliary_loss_mlp": 0.01032596,
+      "balance_loss_clip": 1.04839206,
+      "balance_loss_mlp": 1.0249728,
+      "epoch": 0.6289905609330848,
+      "flos": 22124923476480.0,
+      "grad_norm": 3.102059553412775,
+      "language_loss": 0.70540017,
+      "learning_rate": 1.2782003579681688e-06,
+      "loss": 0.72746962,
+      "num_input_tokens_seen": 112561630,
+      "step": 5231,
+      "time_per_iteration": 2.6834094524383545
+    },
+    {
+      "auxiliary_loss_clip": 0.01175954,
+      "auxiliary_loss_mlp": 0.01028526,
+      "balance_loss_clip": 1.05126405,
+      "balance_loss_mlp": 1.02095056,
+      "epoch": 0.629110803823724,
+      "flos": 25518481729920.0,
+      "grad_norm": 2.239492700438655,
+      "language_loss": 0.74351835,
+      "learning_rate": 1.2774739402018701e-06,
+      "loss": 0.76556313,
+      "num_input_tokens_seen": 112582465,
+      "step": 5232,
+      "time_per_iteration": 2.630434513092041
+    },
+    {
+      "auxiliary_loss_clip": 0.01182376,
+      "auxiliary_loss_mlp": 0.01031859,
+      "balance_loss_clip": 1.05079699,
+      "balance_loss_mlp": 1.02368093,
+      "epoch": 0.629231046714363,
+      "flos": 20886616056960.0,
+      "grad_norm": 1.9652417044297072,
+      "language_loss": 0.73021257,
+      "learning_rate": 1.2767476320422002e-06,
+      "loss": 0.75235492,
+      "num_input_tokens_seen": 112602390,
+      "step": 5233,
+      "time_per_iteration": 2.6282200813293457
+    },
+    {
+      "auxiliary_loss_clip": 0.01110328,
+      "auxiliary_loss_mlp": 0.00999397,
+      "balance_loss_clip": 1.01531541,
+      "balance_loss_mlp": 0.99830067,
+      "epoch": 0.6293512896050021,
+      "flos": 65050027908480.0,
+      "grad_norm": 0.6796573117933139,
+      "language_loss": 0.57214415,
+      "learning_rate": 1.2760214335993392e-06,
+      "loss": 0.59324133,
+      "num_input_tokens_seen": 112669035,
+      "step": 5234,
+      "time_per_iteration": 3.5691967010498047
+    },
+    {
+      "auxiliary_loss_clip": 0.01175631,
+      "auxiliary_loss_mlp": 0.01024866,
+      "balance_loss_clip": 1.04811561,
+      "balance_loss_mlp": 1.01771343,
+      "epoch": 0.6294715324956413,
+      "flos": 34677857088000.0,
+      "grad_norm": 1.941558897594646,
+      "language_loss": 0.5868625,
+      "learning_rate": 1.2752953449834514e-06,
+      "loss": 0.60886741,
+      "num_input_tokens_seen": 112691485,
+      "step": 5235,
+      "time_per_iteration": 4.5291852951049805
+    },
+    {
+      "auxiliary_loss_clip": 0.0117529,
+      "auxiliary_loss_mlp": 0.01024349,
+      "balance_loss_clip": 1.05172896,
+      "balance_loss_mlp": 1.01728272,
+      "epoch": 0.6295917753862803,
+      "flos": 22784207656320.0,
+      "grad_norm": 1.6353051584327638,
+      "language_loss": 0.8015188,
+      "learning_rate": 1.2745693663046836e-06,
+      "loss": 0.82351518,
+      "num_input_tokens_seen": 112710555,
+      "step": 5236,
+      "time_per_iteration": 2.8477895259857178
+    },
+    {
+      "auxiliary_loss_clip": 0.01178391,
+      "auxiliary_loss_mlp": 0.01026578,
+      "balance_loss_clip": 1.04824233,
+      "balance_loss_mlp": 1.01914549,
+      "epoch": 0.6297120182769194,
+      "flos": 20850454039680.0,
+      "grad_norm": 1.7504889033561648,
+      "language_loss": 0.80701262,
+      "learning_rate": 1.2738434976731662e-06,
+      "loss": 0.82906234,
+      "num_input_tokens_seen": 112728740,
+      "step": 5237,
+      "time_per_iteration": 3.5197744369506836
+    },
+    {
+      "auxiliary_loss_clip": 0.01195837,
+      "auxiliary_loss_mlp": 0.01024633,
+      "balance_loss_clip": 1.05125952,
+      "balance_loss_mlp": 1.01747191,
+      "epoch": 0.6298322611675584,
+      "flos": 19497662997120.0,
+      "grad_norm": 1.7083109952854607,
+      "language_loss": 0.75011986,
+      "learning_rate": 1.2731177391990125e-06,
+      "loss": 0.77232456,
+      "num_input_tokens_seen": 112748665,
+      "step": 5238,
+      "time_per_iteration": 2.7034072875976562
+    },
+    {
+      "auxiliary_loss_clip": 0.01194337,
+      "auxiliary_loss_mlp": 0.01025807,
+      "balance_loss_clip": 1.04759741,
+      "balance_loss_mlp": 1.01796556,
+      "epoch": 0.6299525040581976,
+      "flos": 12604466649600.0,
+      "grad_norm": 1.9009694331324856,
+      "language_loss": 0.81891727,
+      "learning_rate": 1.2723920909923203e-06,
+      "loss": 0.84111869,
+      "num_input_tokens_seen": 112764410,
+      "step": 5239,
+      "time_per_iteration": 2.6733415126800537
+    },
+    {
+      "auxiliary_loss_clip": 0.01068363,
+      "auxiliary_loss_mlp": 0.01000628,
+      "balance_loss_clip": 1.01398683,
+      "balance_loss_mlp": 0.99950153,
+      "epoch": 0.6300727469488366,
+      "flos": 57725685636480.0,
+      "grad_norm": 0.8700967936053101,
+      "language_loss": 0.6041742,
+      "learning_rate": 1.2716665531631688e-06,
+      "loss": 0.62486416,
+      "num_input_tokens_seen": 112818695,
+      "step": 5240,
+      "time_per_iteration": 3.99774432182312
+    },
+    {
+      "auxiliary_loss_clip": 0.01188758,
+      "auxiliary_loss_mlp": 0.01027236,
+      "balance_loss_clip": 1.04853678,
+      "balance_loss_mlp": 1.01964855,
+      "epoch": 0.6301929898394757,
+      "flos": 22527302607360.0,
+      "grad_norm": 1.6603753100139327,
+      "language_loss": 0.77469206,
+      "learning_rate": 1.270941125821623e-06,
+      "loss": 0.79685199,
+      "num_input_tokens_seen": 112839120,
+      "step": 5241,
+      "time_per_iteration": 2.7057433128356934
+    },
+    {
+      "auxiliary_loss_clip": 0.01180239,
+      "auxiliary_loss_mlp": 0.01023225,
+      "balance_loss_clip": 1.0497067,
+      "balance_loss_mlp": 1.01572073,
+      "epoch": 0.6303132327301149,
+      "flos": 28293550675200.0,
+      "grad_norm": 1.6933089570470707,
+      "language_loss": 0.75557345,
+      "learning_rate": 1.2702158090777278e-06,
+      "loss": 0.7776081,
+      "num_input_tokens_seen": 112860210,
+      "step": 5242,
+      "time_per_iteration": 2.7533934116363525
+    },
+    {
+      "auxiliary_loss_clip": 0.01195677,
+      "auxiliary_loss_mlp": 0.01024216,
+      "balance_loss_clip": 1.045331,
+      "balance_loss_mlp": 1.01655686,
+      "epoch": 0.6304334756207539,
+      "flos": 25264521596160.0,
+      "grad_norm": 1.832292071353379,
+      "language_loss": 0.75058043,
+      "learning_rate": 1.2694906030415148e-06,
+      "loss": 0.77277935,
+      "num_input_tokens_seen": 112877955,
+      "step": 5243,
+      "time_per_iteration": 2.7125484943389893
+    },
+    {
+      "auxiliary_loss_clip": 0.01199128,
+      "auxiliary_loss_mlp": 0.01026432,
+      "balance_loss_clip": 1.0472976,
+      "balance_loss_mlp": 1.01876652,
+      "epoch": 0.630553718511393,
+      "flos": 18033548728320.0,
+      "grad_norm": 4.812230994766702,
+      "language_loss": 0.82612967,
+      "learning_rate": 1.2687655078229958e-06,
+      "loss": 0.84838533,
+      "num_input_tokens_seen": 112892285,
+      "step": 5244,
+      "time_per_iteration": 2.697072744369507
+    },
+    {
+      "auxiliary_loss_clip": 0.01190694,
+      "auxiliary_loss_mlp": 0.0102832,
+      "balance_loss_clip": 1.05006123,
+      "balance_loss_mlp": 1.02070892,
+      "epoch": 0.6306739614020321,
+      "flos": 27304103658240.0,
+      "grad_norm": 2.946990116592498,
+      "language_loss": 0.69303536,
+      "learning_rate": 1.2680405235321678e-06,
+      "loss": 0.71522546,
+      "num_input_tokens_seen": 112913620,
+      "step": 5245,
+      "time_per_iteration": 2.7466259002685547
+    },
+    {
+      "auxiliary_loss_clip": 0.0119476,
+      "auxiliary_loss_mlp": 0.01379099,
+      "balance_loss_clip": 1.04967093,
+      "balance_loss_mlp": 1.00035024,
+      "epoch": 0.6307942042926712,
+      "flos": 15341434243200.0,
+      "grad_norm": 2.2635775823616506,
+      "language_loss": 0.78926164,
+      "learning_rate": 1.267315650279011e-06,
+      "loss": 0.81500024,
+      "num_input_tokens_seen": 112932090,
+      "step": 5246,
+      "time_per_iteration": 2.6566109657287598
+    },
+    {
+      "auxiliary_loss_clip": 0.01198841,
+      "auxiliary_loss_mlp": 0.01032029,
+      "balance_loss_clip": 1.05173302,
+      "balance_loss_mlp": 1.02338076,
+      "epoch": 0.6309144471833102,
+      "flos": 19606400444160.0,
+      "grad_norm": 1.7773836245317374,
+      "language_loss": 0.73722935,
+      "learning_rate": 1.2665908881734874e-06,
+      "loss": 0.75953805,
+      "num_input_tokens_seen": 112950925,
+      "step": 5247,
+      "time_per_iteration": 2.68058705329895
+    },
+    {
+      "auxiliary_loss_clip": 0.0118556,
+      "auxiliary_loss_mlp": 0.01025437,
+      "balance_loss_clip": 1.05120444,
+      "balance_loss_mlp": 1.01792336,
+      "epoch": 0.6310346900739494,
+      "flos": 17493345112320.0,
+      "grad_norm": 2.4404995291581,
+      "language_loss": 0.84848762,
+      "learning_rate": 1.2658662373255432e-06,
+      "loss": 0.87059754,
+      "num_input_tokens_seen": 112969315,
+      "step": 5248,
+      "time_per_iteration": 2.619981288909912
+    },
+    {
+      "auxiliary_loss_clip": 0.01092679,
+      "auxiliary_loss_mlp": 0.01003066,
+      "balance_loss_clip": 1.01297379,
+      "balance_loss_mlp": 1.00189805,
+      "epoch": 0.6311549329645885,
+      "flos": 55070164131840.0,
+      "grad_norm": 0.7108715051783111,
+      "language_loss": 0.52261031,
+      "learning_rate": 1.2651416978451063e-06,
+      "loss": 0.54356778,
+      "num_input_tokens_seen": 113034700,
+      "step": 5249,
+      "time_per_iteration": 3.3262863159179688
+    },
+    {
+      "auxiliary_loss_clip": 0.01178351,
+      "auxiliary_loss_mlp": 0.01025881,
+      "balance_loss_clip": 1.05306745,
+      "balance_loss_mlp": 1.01767361,
+      "epoch": 0.6312751758552275,
+      "flos": 41902545075840.0,
+      "grad_norm": 1.7439119545012343,
+      "language_loss": 0.64994943,
+      "learning_rate": 1.2644172698420903e-06,
+      "loss": 0.67199177,
+      "num_input_tokens_seen": 113056805,
+      "step": 5250,
+      "time_per_iteration": 2.757988929748535
+    },
+    {
+      "auxiliary_loss_clip": 0.01202699,
+      "auxiliary_loss_mlp": 0.01020641,
+      "balance_loss_clip": 1.04718578,
+      "balance_loss_mlp": 1.01328266,
+      "epoch": 0.6313954187458667,
+      "flos": 19646800266240.0,
+      "grad_norm": 1.896831373979289,
+      "language_loss": 0.84618258,
+      "learning_rate": 1.2636929534263892e-06,
+      "loss": 0.86841595,
+      "num_input_tokens_seen": 113075790,
+      "step": 5251,
+      "time_per_iteration": 2.684751033782959
+    },
+    {
+      "auxiliary_loss_clip": 0.01201182,
+      "auxiliary_loss_mlp": 0.01022045,
+      "balance_loss_clip": 1.04337549,
+      "balance_loss_mlp": 1.01435566,
+      "epoch": 0.6315156616365057,
+      "flos": 22894273906560.0,
+      "grad_norm": 2.2826256815939128,
+      "language_loss": 0.77557421,
+      "learning_rate": 1.2629687487078821e-06,
+      "loss": 0.79780644,
+      "num_input_tokens_seen": 113094600,
+      "step": 5252,
+      "time_per_iteration": 2.643815279006958
+    },
+    {
+      "auxiliary_loss_clip": 0.01185889,
+      "auxiliary_loss_mlp": 0.01026406,
+      "balance_loss_clip": 1.047876,
+      "balance_loss_mlp": 1.01853216,
+      "epoch": 0.6316359045271448,
+      "flos": 23726251699200.0,
+      "grad_norm": 1.9697329358185358,
+      "language_loss": 0.76259315,
+      "learning_rate": 1.2622446557964293e-06,
+      "loss": 0.78471613,
+      "num_input_tokens_seen": 113112605,
+      "step": 5253,
+      "time_per_iteration": 2.6635849475860596
+    },
+    {
+      "auxiliary_loss_clip": 0.01187102,
+      "auxiliary_loss_mlp": 0.01026271,
+      "balance_loss_clip": 1.04218197,
+      "balance_loss_mlp": 1.01876712,
+      "epoch": 0.631756147417784,
+      "flos": 33108417164160.0,
+      "grad_norm": 2.026198022500904,
+      "language_loss": 0.7132163,
+      "learning_rate": 1.261520674801876e-06,
+      "loss": 0.73535007,
+      "num_input_tokens_seen": 113133200,
+      "step": 5254,
+      "time_per_iteration": 2.76004695892334
+    },
+    {
+      "auxiliary_loss_clip": 0.01191297,
+      "auxiliary_loss_mlp": 0.01030961,
+      "balance_loss_clip": 1.04982948,
+      "balance_loss_mlp": 1.02241671,
+      "epoch": 0.631876390308423,
+      "flos": 31248424126080.0,
+      "grad_norm": 1.915763955561821,
+      "language_loss": 0.72041833,
+      "learning_rate": 1.2607968058340488e-06,
+      "loss": 0.74264097,
+      "num_input_tokens_seen": 113152895,
+      "step": 5255,
+      "time_per_iteration": 2.736048698425293
+    },
+    {
+      "auxiliary_loss_clip": 0.0118949,
+      "auxiliary_loss_mlp": 0.010259,
+      "balance_loss_clip": 1.04778504,
+      "balance_loss_mlp": 1.0183717,
+      "epoch": 0.6319966331990621,
+      "flos": 24681152810880.0,
+      "grad_norm": 1.8070813094592593,
+      "language_loss": 0.72717857,
+      "learning_rate": 1.2600730490027583e-06,
+      "loss": 0.74933243,
+      "num_input_tokens_seen": 113173135,
+      "step": 5256,
+      "time_per_iteration": 2.7469472885131836
+    },
+    {
+      "auxiliary_loss_clip": 0.01197168,
+      "auxiliary_loss_mlp": 0.01030182,
+      "balance_loss_clip": 1.04644322,
+      "balance_loss_mlp": 1.02264833,
+      "epoch": 0.6321168760897012,
+      "flos": 17491764913920.0,
+      "grad_norm": 1.6996683750363715,
+      "language_loss": 0.8065241,
+      "learning_rate": 1.2593494044177984e-06,
+      "loss": 0.82879758,
+      "num_input_tokens_seen": 113191440,
+      "step": 5257,
+      "time_per_iteration": 2.7246220111846924
+    },
+    {
+      "auxiliary_loss_clip": 0.01177728,
+      "auxiliary_loss_mlp": 0.01025679,
+      "balance_loss_clip": 1.04938459,
+      "balance_loss_mlp": 1.01762009,
+      "epoch": 0.6322371189803403,
+      "flos": 18295373940480.0,
+      "grad_norm": 2.7791596335526085,
+      "language_loss": 0.80648124,
+      "learning_rate": 1.2586258721889448e-06,
+      "loss": 0.82851529,
+      "num_input_tokens_seen": 113208790,
+      "step": 5258,
+      "time_per_iteration": 2.6089677810668945
+    },
+    {
+      "auxiliary_loss_clip": 0.01200391,
+      "auxiliary_loss_mlp": 0.01029957,
+      "balance_loss_clip": 1.04395008,
+      "balance_loss_mlp": 1.02179098,
+      "epoch": 0.6323573618709794,
+      "flos": 20157270399360.0,
+      "grad_norm": 4.7765935083941855,
+      "language_loss": 0.81635988,
+      "learning_rate": 1.2579024524259573e-06,
+      "loss": 0.83866334,
+      "num_input_tokens_seen": 113225050,
+      "step": 5259,
+      "time_per_iteration": 2.742880344390869
+    },
+    {
+      "auxiliary_loss_clip": 0.01183726,
+      "auxiliary_loss_mlp": 0.01027327,
+      "balance_loss_clip": 1.04320073,
+      "balance_loss_mlp": 1.01941776,
+      "epoch": 0.6324776047616185,
+      "flos": 20042391726720.0,
+      "grad_norm": 1.9678340105510368,
+      "language_loss": 0.91648245,
+      "learning_rate": 1.2571791452385768e-06,
+      "loss": 0.93859303,
+      "num_input_tokens_seen": 113242315,
+      "step": 5260,
+      "time_per_iteration": 3.588127613067627
+    },
+    {
+      "auxiliary_loss_clip": 0.01193587,
+      "auxiliary_loss_mlp": 0.01022039,
+      "balance_loss_clip": 1.04873824,
+      "balance_loss_mlp": 1.01512444,
+      "epoch": 0.6325978476522576,
+      "flos": 30848235724800.0,
+      "grad_norm": 1.5750775662120349,
+      "language_loss": 0.77138144,
+      "learning_rate": 1.2564559507365301e-06,
+      "loss": 0.79353774,
+      "num_input_tokens_seen": 113264720,
+      "step": 5261,
+      "time_per_iteration": 3.6525862216949463
+    },
+    {
+      "auxiliary_loss_clip": 0.01194025,
+      "auxiliary_loss_mlp": 0.01025183,
+      "balance_loss_clip": 1.04898834,
+      "balance_loss_mlp": 1.01732075,
+      "epoch": 0.6327180905428966,
+      "flos": 24535104111360.0,
+      "grad_norm": 2.163877498082616,
+      "language_loss": 0.78876448,
+      "learning_rate": 1.2557328690295244e-06,
+      "loss": 0.8109566,
+      "num_input_tokens_seen": 113282910,
+      "step": 5262,
+      "time_per_iteration": 2.670412063598633
+    },
+    {
+      "auxiliary_loss_clip": 0.01205386,
+      "auxiliary_loss_mlp": 0.01023567,
+      "balance_loss_clip": 1.04698873,
+      "balance_loss_mlp": 1.01639962,
+      "epoch": 0.6328383334335358,
+      "flos": 21575274583680.0,
+      "grad_norm": 1.7186080467249263,
+      "language_loss": 0.764741,
+      "learning_rate": 1.255009900227251e-06,
+      "loss": 0.78703058,
+      "num_input_tokens_seen": 113301935,
+      "step": 5263,
+      "time_per_iteration": 3.6137402057647705
+    },
+    {
+      "auxiliary_loss_clip": 0.01173406,
+      "auxiliary_loss_mlp": 0.01023182,
+      "balance_loss_clip": 1.05158925,
+      "balance_loss_mlp": 1.01545179,
+      "epoch": 0.6329585763241748,
+      "flos": 22929861306240.0,
+      "grad_norm": 1.9597862880127688,
+      "language_loss": 0.79477894,
+      "learning_rate": 1.254287044439383e-06,
+      "loss": 0.81674486,
+      "num_input_tokens_seen": 113321540,
+      "step": 5264,
+      "time_per_iteration": 2.5936357975006104
+    },
+    {
+      "auxiliary_loss_clip": 0.01067587,
+      "auxiliary_loss_mlp": 0.01003762,
+      "balance_loss_clip": 1.01347232,
+      "balance_loss_mlp": 1.00254059,
+      "epoch": 0.6330788192148139,
+      "flos": 70936897847040.0,
+      "grad_norm": 0.7791702498377467,
+      "language_loss": 0.54518688,
+      "learning_rate": 1.2535643017755776e-06,
+      "loss": 0.56590033,
+      "num_input_tokens_seen": 113383730,
+      "step": 5265,
+      "time_per_iteration": 3.277998208999634
+    },
+    {
+      "auxiliary_loss_clip": 0.01199229,
+      "auxiliary_loss_mlp": 0.0102762,
+      "balance_loss_clip": 1.04451168,
+      "balance_loss_mlp": 1.02022862,
+      "epoch": 0.6331990621054531,
+      "flos": 21244501215360.0,
+      "grad_norm": 9.019002788504187,
+      "language_loss": 0.71793878,
+      "learning_rate": 1.2528416723454737e-06,
+      "loss": 0.74020725,
+      "num_input_tokens_seen": 113400400,
+      "step": 5266,
+      "time_per_iteration": 3.6407382488250732
+    },
+    {
+      "auxiliary_loss_clip": 0.01174039,
+      "auxiliary_loss_mlp": 0.01022766,
+      "balance_loss_clip": 1.05163133,
+      "balance_loss_mlp": 1.01547289,
+      "epoch": 0.6333193049960921,
+      "flos": 34459412526720.0,
+      "grad_norm": 1.5052942845521424,
+      "language_loss": 0.71318066,
+      "learning_rate": 1.2521191562586945e-06,
+      "loss": 0.73514867,
+      "num_input_tokens_seen": 113424050,
+      "step": 5267,
+      "time_per_iteration": 2.765407085418701
+    },
+    {
+      "auxiliary_loss_clip": 0.01172808,
+      "auxiliary_loss_mlp": 0.01379092,
+      "balance_loss_clip": 1.04959488,
+      "balance_loss_mlp": 1.00027418,
+      "epoch": 0.6334395478867312,
+      "flos": 18329883932160.0,
+      "grad_norm": 2.210920622494314,
+      "language_loss": 0.76636273,
+      "learning_rate": 1.2513967536248445e-06,
+      "loss": 0.79188174,
+      "num_input_tokens_seen": 113440370,
+      "step": 5268,
+      "time_per_iteration": 2.730957269668579
+    },
+    {
+      "auxiliary_loss_clip": 0.01178789,
+      "auxiliary_loss_mlp": 0.01024553,
+      "balance_loss_clip": 1.04939616,
+      "balance_loss_mlp": 1.01681948,
+      "epoch": 0.6335597907773702,
+      "flos": 23623152687360.0,
+      "grad_norm": 1.683531439775821,
+      "language_loss": 0.81014198,
+      "learning_rate": 1.2506744645535117e-06,
+      "loss": 0.83217537,
+      "num_input_tokens_seen": 113460800,
+      "step": 5269,
+      "time_per_iteration": 2.6948628425598145
+    },
+    {
+      "auxiliary_loss_clip": 0.01181155,
+      "auxiliary_loss_mlp": 0.0102791,
+      "balance_loss_clip": 1.0417949,
+      "balance_loss_mlp": 1.02063835,
+      "epoch": 0.6336800336680094,
+      "flos": 22710913954560.0,
+      "grad_norm": 2.133861377302028,
+      "language_loss": 0.60302025,
+      "learning_rate": 1.249952289154267e-06,
+      "loss": 0.62511092,
+      "num_input_tokens_seen": 113480840,
+      "step": 5270,
+      "time_per_iteration": 2.702754497528076
+    },
+    {
+      "auxiliary_loss_clip": 0.01202718,
+      "auxiliary_loss_mlp": 0.0102196,
+      "balance_loss_clip": 1.04097152,
+      "balance_loss_mlp": 1.01494193,
+      "epoch": 0.6338002765586485,
+      "flos": 23622757637760.0,
+      "grad_norm": 1.9330067188788154,
+      "language_loss": 0.76580369,
+      "learning_rate": 1.2492302275366635e-06,
+      "loss": 0.78805047,
+      "num_input_tokens_seen": 113500515,
+      "step": 5271,
+      "time_per_iteration": 2.786928176879883
+    },
+    {
+      "auxiliary_loss_clip": 0.01173549,
+      "auxiliary_loss_mlp": 0.0102498,
+      "balance_loss_clip": 1.04648364,
+      "balance_loss_mlp": 1.01640844,
+      "epoch": 0.6339205194492875,
+      "flos": 26505450708480.0,
+      "grad_norm": 5.327338705332072,
+      "language_loss": 0.65472931,
+      "learning_rate": 1.2485082798102377e-06,
+      "loss": 0.67671454,
+      "num_input_tokens_seen": 113520930,
+      "step": 5272,
+      "time_per_iteration": 2.7182321548461914
+    },
+    {
+      "auxiliary_loss_clip": 0.01205198,
+      "auxiliary_loss_mlp": 0.0102591,
+      "balance_loss_clip": 1.04622817,
+      "balance_loss_mlp": 1.01811421,
+      "epoch": 0.6340407623399267,
+      "flos": 18544306170240.0,
+      "grad_norm": 2.5449322194665838,
+      "language_loss": 0.6844402,
+      "learning_rate": 1.2477864460845084e-06,
+      "loss": 0.70675129,
+      "num_input_tokens_seen": 113537330,
+      "step": 5273,
+      "time_per_iteration": 2.7378101348876953
+    },
+    {
+      "auxiliary_loss_clip": 0.01192099,
+      "auxiliary_loss_mlp": 0.01027966,
+      "balance_loss_clip": 1.04770088,
+      "balance_loss_mlp": 1.01976991,
+      "epoch": 0.6341610052305657,
+      "flos": 17712579772800.0,
+      "grad_norm": 2.387730921757119,
+      "language_loss": 0.73475933,
+      "learning_rate": 1.2470647264689776e-06,
+      "loss": 0.75695992,
+      "num_input_tokens_seen": 113555810,
+      "step": 5274,
+      "time_per_iteration": 2.642979145050049
+    },
+    {
+      "auxiliary_loss_clip": 0.01220664,
+      "auxiliary_loss_mlp": 0.01024378,
+      "balance_loss_clip": 1.03952312,
+      "balance_loss_mlp": 1.01677561,
+      "epoch": 0.6342812481212048,
+      "flos": 23587026583680.0,
+      "grad_norm": 1.9986070677480094,
+      "language_loss": 0.71120882,
+      "learning_rate": 1.2463431210731282e-06,
+      "loss": 0.73365921,
+      "num_input_tokens_seen": 113575395,
+      "step": 5275,
+      "time_per_iteration": 2.7756834030151367
+    },
+    {
+      "auxiliary_loss_clip": 0.01217066,
+      "auxiliary_loss_mlp": 0.01029298,
+      "balance_loss_clip": 1.04295254,
+      "balance_loss_mlp": 1.02153754,
+      "epoch": 0.634401491011844,
+      "flos": 17821927751040.0,
+      "grad_norm": 2.4061428186142413,
+      "language_loss": 0.75904155,
+      "learning_rate": 1.2456216300064289e-06,
+      "loss": 0.78150523,
+      "num_input_tokens_seen": 113592945,
+      "step": 5276,
+      "time_per_iteration": 2.6909091472625732
+    },
+    {
+      "auxiliary_loss_clip": 0.01180963,
+      "auxiliary_loss_mlp": 0.01029077,
+      "balance_loss_clip": 1.044191,
+      "balance_loss_mlp": 1.02193964,
+      "epoch": 0.634521733902483,
+      "flos": 21358158825600.0,
+      "grad_norm": 2.2110802715808613,
+      "language_loss": 0.78229147,
+      "learning_rate": 1.244900253378328e-06,
+      "loss": 0.80439186,
+      "num_input_tokens_seen": 113613000,
+      "step": 5277,
+      "time_per_iteration": 2.716265916824341
+    },
+    {
+      "auxiliary_loss_clip": 0.01240382,
+      "auxiliary_loss_mlp": 0.0102616,
+      "balance_loss_clip": 1.04273844,
+      "balance_loss_mlp": 1.01895928,
+      "epoch": 0.6346419767931221,
+      "flos": 16545052103040.0,
+      "grad_norm": 5.407665675156493,
+      "language_loss": 0.69419897,
+      "learning_rate": 1.2441789912982583e-06,
+      "loss": 0.71686441,
+      "num_input_tokens_seen": 113630085,
+      "step": 5278,
+      "time_per_iteration": 3.0332131385803223
+    },
+    {
+      "auxiliary_loss_clip": 0.01187311,
+      "auxiliary_loss_mlp": 0.01029949,
+      "balance_loss_clip": 1.05040455,
+      "balance_loss_mlp": 1.02164006,
+      "epoch": 0.6347622196837612,
+      "flos": 24350989973760.0,
+      "grad_norm": 1.8989400394387241,
+      "language_loss": 0.65220857,
+      "learning_rate": 1.2434578438756346e-06,
+      "loss": 0.67438114,
+      "num_input_tokens_seen": 113650515,
+      "step": 5279,
+      "time_per_iteration": 2.9554216861724854
+    },
+    {
+      "auxiliary_loss_clip": 0.01185027,
+      "auxiliary_loss_mlp": 0.01022863,
+      "balance_loss_clip": 1.04785383,
+      "balance_loss_mlp": 1.01578224,
+      "epoch": 0.6348824625744003,
+      "flos": 64523178195840.0,
+      "grad_norm": 1.862380743477723,
+      "language_loss": 0.78120762,
+      "learning_rate": 1.242736811219855e-06,
+      "loss": 0.80328655,
+      "num_input_tokens_seen": 113676475,
+      "step": 5280,
+      "time_per_iteration": 3.0194127559661865
+    },
+    {
+      "auxiliary_loss_clip": 0.0117575,
+      "auxiliary_loss_mlp": 0.01028011,
+      "balance_loss_clip": 1.04779196,
+      "balance_loss_mlp": 1.02010119,
+      "epoch": 0.6350027054650393,
+      "flos": 28622133313920.0,
+      "grad_norm": 2.1518039196765373,
+      "language_loss": 0.81623095,
+      "learning_rate": 1.2420158934402988e-06,
+      "loss": 0.83826858,
+      "num_input_tokens_seen": 113697090,
+      "step": 5281,
+      "time_per_iteration": 2.7493693828582764
+    },
+    {
+      "auxiliary_loss_clip": 0.01181874,
+      "auxiliary_loss_mlp": 0.01027397,
+      "balance_loss_clip": 1.04150271,
+      "balance_loss_mlp": 1.01917791,
+      "epoch": 0.6351229483556785,
+      "flos": 23002544476800.0,
+      "grad_norm": 2.1619106405056647,
+      "language_loss": 0.8467865,
+      "learning_rate": 1.2412950906463286e-06,
+      "loss": 0.8688792,
+      "num_input_tokens_seen": 113714395,
+      "step": 5282,
+      "time_per_iteration": 2.6764707565307617
+    },
+    {
+      "auxiliary_loss_clip": 0.01208027,
+      "auxiliary_loss_mlp": 0.01022977,
+      "balance_loss_clip": 1.04534411,
+      "balance_loss_mlp": 1.01589322,
+      "epoch": 0.6352431912463176,
+      "flos": 21939300967680.0,
+      "grad_norm": 1.8917392767267216,
+      "language_loss": 0.90051627,
+      "learning_rate": 1.2405744029472902e-06,
+      "loss": 0.92282629,
+      "num_input_tokens_seen": 113733880,
+      "step": 5283,
+      "time_per_iteration": 2.7372095584869385
+    },
+    {
+      "auxiliary_loss_clip": 0.01187286,
+      "auxiliary_loss_mlp": 0.01025565,
+      "balance_loss_clip": 1.04582,
+      "balance_loss_mlp": 1.01811385,
+      "epoch": 0.6353634341369566,
+      "flos": 13735257684480.0,
+      "grad_norm": 1.9466309562900124,
+      "language_loss": 0.76432031,
+      "learning_rate": 1.2398538304525108e-06,
+      "loss": 0.78644878,
+      "num_input_tokens_seen": 113752505,
+      "step": 5284,
+      "time_per_iteration": 2.693690538406372
+    },
+    {
+      "auxiliary_loss_clip": 0.01195419,
+      "auxiliary_loss_mlp": 0.01029779,
+      "balance_loss_clip": 1.04622865,
+      "balance_loss_mlp": 1.02185142,
+      "epoch": 0.6354836770275958,
+      "flos": 19316170552320.0,
+      "grad_norm": 4.7562670583759425,
+      "language_loss": 0.75513452,
+      "learning_rate": 1.2391333732713016e-06,
+      "loss": 0.77738643,
+      "num_input_tokens_seen": 113770310,
+      "step": 5285,
+      "time_per_iteration": 2.6976752281188965
+    },
+    {
+      "auxiliary_loss_clip": 0.0119588,
+      "auxiliary_loss_mlp": 0.01028791,
+      "balance_loss_clip": 1.04310441,
+      "balance_loss_mlp": 1.02089357,
+      "epoch": 0.6356039199182348,
+      "flos": 21613375935360.0,
+      "grad_norm": 2.7071846160504465,
+      "language_loss": 0.78447342,
+      "learning_rate": 1.2384130315129543e-06,
+      "loss": 0.80672014,
+      "num_input_tokens_seen": 113788635,
+      "step": 5286,
+      "time_per_iteration": 3.829841375350952
+    },
+    {
+      "auxiliary_loss_clip": 0.01250316,
+      "auxiliary_loss_mlp": 0.01025683,
+      "balance_loss_clip": 1.03716516,
+      "balance_loss_mlp": 1.01802421,
+      "epoch": 0.6357241628088739,
+      "flos": 18111978074880.0,
+      "grad_norm": 3.0743002689566308,
+      "language_loss": 0.73759902,
+      "learning_rate": 1.2376928052867447e-06,
+      "loss": 0.76035905,
+      "num_input_tokens_seen": 113807755,
+      "step": 5287,
+      "time_per_iteration": 3.2647528648376465
+    },
+    {
+      "auxiliary_loss_clip": 0.01192722,
+      "auxiliary_loss_mlp": 0.01025932,
+      "balance_loss_clip": 1.04990292,
+      "balance_loss_mlp": 1.0184989,
+      "epoch": 0.6358444056995131,
+      "flos": 24935256599040.0,
+      "grad_norm": 1.822362586545449,
+      "language_loss": 0.77233934,
+      "learning_rate": 1.2369726947019299e-06,
+      "loss": 0.79452586,
+      "num_input_tokens_seen": 113828230,
+      "step": 5288,
+      "time_per_iteration": 4.316404581069946
+    },
+    {
+      "auxiliary_loss_clip": 0.01182782,
+      "auxiliary_loss_mlp": 0.01027268,
+      "balance_loss_clip": 1.04837894,
+      "balance_loss_mlp": 1.02002037,
+      "epoch": 0.6359646485901521,
+      "flos": 23293348986240.0,
+      "grad_norm": 2.2256675316141634,
+      "language_loss": 0.6754663,
+      "learning_rate": 1.2362526998677511e-06,
+      "loss": 0.69756681,
+      "num_input_tokens_seen": 113844595,
+      "step": 5289,
+      "time_per_iteration": 3.5212745666503906
+    },
+    {
+      "auxiliary_loss_clip": 0.01194451,
+      "auxiliary_loss_mlp": 0.01023462,
+      "balance_loss_clip": 1.04669356,
+      "balance_loss_mlp": 1.01636934,
+      "epoch": 0.6360848914807912,
+      "flos": 20887442069760.0,
+      "grad_norm": 1.7604840940071287,
+      "language_loss": 0.84304678,
+      "learning_rate": 1.2355328208934301e-06,
+      "loss": 0.86522591,
+      "num_input_tokens_seen": 113863470,
+      "step": 5290,
+      "time_per_iteration": 2.7610628604888916
+    },
+    {
+      "auxiliary_loss_clip": 0.0118199,
+      "auxiliary_loss_mlp": 0.01378784,
+      "balance_loss_clip": 1.04671049,
+      "balance_loss_mlp": 1.00027323,
+      "epoch": 0.6362051343714303,
+      "flos": 18479775386880.0,
+      "grad_norm": 2.833532704744228,
+      "language_loss": 0.72279185,
+      "learning_rate": 1.2348130578881728e-06,
+      "loss": 0.74839956,
+      "num_input_tokens_seen": 113881690,
+      "step": 5291,
+      "time_per_iteration": 2.6070947647094727
+    },
+    {
+      "auxiliary_loss_clip": 0.01177689,
+      "auxiliary_loss_mlp": 0.01025369,
+      "balance_loss_clip": 1.05157697,
+      "balance_loss_mlp": 1.01727486,
+      "epoch": 0.6363253772620694,
+      "flos": 24389594115840.0,
+      "grad_norm": 4.3983563854846475,
+      "language_loss": 0.76348996,
+      "learning_rate": 1.2340934109611664e-06,
+      "loss": 0.78552043,
+      "num_input_tokens_seen": 113902450,
+      "step": 5292,
+      "time_per_iteration": 3.5424880981445312
+    },
+    {
+      "auxiliary_loss_clip": 0.01196382,
+      "auxiliary_loss_mlp": 0.01027617,
+      "balance_loss_clip": 1.0483216,
+      "balance_loss_mlp": 1.01914144,
+      "epoch": 0.6364456201527084,
+      "flos": 25958243940480.0,
+      "grad_norm": 2.5771734190291635,
+      "language_loss": 0.68653524,
+      "learning_rate": 1.2333738802215798e-06,
+      "loss": 0.70877516,
+      "num_input_tokens_seen": 113922670,
+      "step": 5293,
+      "time_per_iteration": 2.733104705810547
+    },
+    {
+      "auxiliary_loss_clip": 0.01199155,
+      "auxiliary_loss_mlp": 0.01025012,
+      "balance_loss_clip": 1.04120207,
+      "balance_loss_mlp": 1.01749289,
+      "epoch": 0.6365658630433476,
+      "flos": 20740711011840.0,
+      "grad_norm": 1.8853573074570666,
+      "language_loss": 0.81277531,
+      "learning_rate": 1.2326544657785668e-06,
+      "loss": 0.83501697,
+      "num_input_tokens_seen": 113942360,
+      "step": 5294,
+      "time_per_iteration": 2.7577762603759766
+    },
+    {
+      "auxiliary_loss_clip": 0.01188998,
+      "auxiliary_loss_mlp": 0.01028931,
+      "balance_loss_clip": 1.04493654,
+      "balance_loss_mlp": 1.02056289,
+      "epoch": 0.6366861059339867,
+      "flos": 21434146047360.0,
+      "grad_norm": 2.411912599672922,
+      "language_loss": 0.74551666,
+      "learning_rate": 1.2319351677412608e-06,
+      "loss": 0.7676959,
+      "num_input_tokens_seen": 113959405,
+      "step": 5295,
+      "time_per_iteration": 2.674002170562744
+    },
+    {
+      "auxiliary_loss_clip": 0.01208937,
+      "auxiliary_loss_mlp": 0.01027351,
+      "balance_loss_clip": 1.04677725,
+      "balance_loss_mlp": 1.01946509,
+      "epoch": 0.6368063488246257,
+      "flos": 22267093507200.0,
+      "grad_norm": 1.8115194676976345,
+      "language_loss": 0.74264807,
+      "learning_rate": 1.2312159862187796e-06,
+      "loss": 0.76501095,
+      "num_input_tokens_seen": 113977815,
+      "step": 5296,
+      "time_per_iteration": 2.7461979389190674
+    },
+    {
+      "auxiliary_loss_clip": 0.01180511,
+      "auxiliary_loss_mlp": 0.01022651,
+      "balance_loss_clip": 1.05445397,
+      "balance_loss_mlp": 1.01476586,
+      "epoch": 0.6369265917152649,
+      "flos": 22420719976320.0,
+      "grad_norm": 1.5999601838208424,
+      "language_loss": 0.75721276,
+      "learning_rate": 1.2304969213202217e-06,
+      "loss": 0.77924442,
+      "num_input_tokens_seen": 113999075,
+      "step": 5297,
+      "time_per_iteration": 2.6086137294769287
+    },
+    {
+      "auxiliary_loss_clip": 0.01184211,
+      "auxiliary_loss_mlp": 0.0102447,
+      "balance_loss_clip": 1.04431009,
+      "balance_loss_mlp": 1.01704311,
+      "epoch": 0.6370468346059039,
+      "flos": 24718176754560.0,
+      "grad_norm": 3.187234603572375,
+      "language_loss": 0.79452491,
+      "learning_rate": 1.2297779731546692e-06,
+      "loss": 0.81661171,
+      "num_input_tokens_seen": 114018170,
+      "step": 5298,
+      "time_per_iteration": 2.675943613052368
+    },
+    {
+      "auxiliary_loss_clip": 0.01190024,
+      "auxiliary_loss_mlp": 0.01028157,
+      "balance_loss_clip": 1.04900146,
+      "balance_loss_mlp": 1.02072418,
+      "epoch": 0.637167077496543,
+      "flos": 25296589463040.0,
+      "grad_norm": 2.108797043272583,
+      "language_loss": 0.77853853,
+      "learning_rate": 1.2290591418311853e-06,
+      "loss": 0.80072033,
+      "num_input_tokens_seen": 114035565,
+      "step": 5299,
+      "time_per_iteration": 2.688466787338257
+    },
+    {
+      "auxiliary_loss_clip": 0.01183908,
+      "auxiliary_loss_mlp": 0.01033029,
+      "balance_loss_clip": 1.05135763,
+      "balance_loss_mlp": 1.02537608,
+      "epoch": 0.637287320387182,
+      "flos": 27671110871040.0,
+      "grad_norm": 1.5668518954260162,
+      "language_loss": 0.7216121,
+      "learning_rate": 1.2283404274588172e-06,
+      "loss": 0.74378145,
+      "num_input_tokens_seen": 114054510,
+      "step": 5300,
+      "time_per_iteration": 2.6834282875061035
+    },
+    {
+      "auxiliary_loss_clip": 0.01132664,
+      "auxiliary_loss_mlp": 0.01002085,
+      "balance_loss_clip": 1.01656449,
+      "balance_loss_mlp": 1.00109565,
+      "epoch": 0.6374075632778212,
+      "flos": 63173406873600.0,
+      "grad_norm": 0.7387893525840555,
+      "language_loss": 0.52706158,
+      "learning_rate": 1.227621830146592e-06,
+      "loss": 0.54840904,
+      "num_input_tokens_seen": 114109875,
+      "step": 5301,
+      "time_per_iteration": 3.376912832260132
+    },
+    {
+      "auxiliary_loss_clip": 0.01202617,
+      "auxiliary_loss_mlp": 0.01024858,
+      "balance_loss_clip": 1.04692209,
+      "balance_loss_mlp": 1.01687717,
+      "epoch": 0.6375278061684603,
+      "flos": 25558127366400.0,
+      "grad_norm": 1.7898388186142675,
+      "language_loss": 0.79084444,
+      "learning_rate": 1.2269033500035217e-06,
+      "loss": 0.81311917,
+      "num_input_tokens_seen": 114130010,
+      "step": 5302,
+      "time_per_iteration": 3.3973031044006348
+    },
+    {
+      "auxiliary_loss_clip": 0.0119948,
+      "auxiliary_loss_mlp": 0.01032745,
+      "balance_loss_clip": 1.04567373,
+      "balance_loss_mlp": 1.0250566,
+      "epoch": 0.6376480490590993,
+      "flos": 25666362023040.0,
+      "grad_norm": 1.9475795923013468,
+      "language_loss": 0.73446941,
+      "learning_rate": 1.2261849871385988e-06,
+      "loss": 0.75679165,
+      "num_input_tokens_seen": 114151115,
+      "step": 5303,
+      "time_per_iteration": 2.749156951904297
+    },
+    {
+      "auxiliary_loss_clip": 0.01177322,
+      "auxiliary_loss_mlp": 0.01028252,
+      "balance_loss_clip": 1.05033088,
+      "balance_loss_mlp": 1.020432,
+      "epoch": 0.6377682919497385,
+      "flos": 31537684350720.0,
+      "grad_norm": 2.091273706361628,
+      "language_loss": 0.62565553,
+      "learning_rate": 1.2254667416607972e-06,
+      "loss": 0.64771128,
+      "num_input_tokens_seen": 114172715,
+      "step": 5304,
+      "time_per_iteration": 2.672736883163452
+    },
+    {
+      "auxiliary_loss_clip": 0.01181269,
+      "auxiliary_loss_mlp": 0.01025162,
+      "balance_loss_clip": 1.04881454,
+      "balance_loss_mlp": 1.01732385,
+      "epoch": 0.6378885348403776,
+      "flos": 23039209284480.0,
+      "grad_norm": 1.8713841227004695,
+      "language_loss": 0.83069366,
+      "learning_rate": 1.2247486136790756e-06,
+      "loss": 0.85275793,
+      "num_input_tokens_seen": 114192195,
+      "step": 5305,
+      "time_per_iteration": 2.7589657306671143
+    },
+    {
+      "auxiliary_loss_clip": 0.01186175,
+      "auxiliary_loss_mlp": 0.01027736,
+      "balance_loss_clip": 1.04971492,
+      "balance_loss_mlp": 1.02034461,
+      "epoch": 0.6380087777310166,
+      "flos": 18697070712960.0,
+      "grad_norm": 2.2378087226870584,
+      "language_loss": 0.81020838,
+      "learning_rate": 1.2240306033023726e-06,
+      "loss": 0.83234751,
+      "num_input_tokens_seen": 114210020,
+      "step": 5306,
+      "time_per_iteration": 2.7308366298675537
+    },
+    {
+      "auxiliary_loss_clip": 0.01198827,
+      "auxiliary_loss_mlp": 0.01026122,
+      "balance_loss_clip": 1.04226053,
+      "balance_loss_mlp": 1.01885283,
+      "epoch": 0.6381290206216558,
+      "flos": 23331558078720.0,
+      "grad_norm": 2.20199244944394,
+      "language_loss": 0.72088039,
+      "learning_rate": 1.223312710639611e-06,
+      "loss": 0.74312985,
+      "num_input_tokens_seen": 114228740,
+      "step": 5307,
+      "time_per_iteration": 2.7348899841308594
+    },
+    {
+      "auxiliary_loss_clip": 0.0118989,
+      "auxiliary_loss_mlp": 0.0102635,
+      "balance_loss_clip": 1.04831696,
+      "balance_loss_mlp": 1.0184648,
+      "epoch": 0.6382492635122948,
+      "flos": 18880466578560.0,
+      "grad_norm": 2.0810818627553918,
+      "language_loss": 0.86773109,
+      "learning_rate": 1.2225949357996928e-06,
+      "loss": 0.88989353,
+      "num_input_tokens_seen": 114246865,
+      "step": 5308,
+      "time_per_iteration": 2.6815268993377686
+    },
+    {
+      "auxiliary_loss_clip": 0.01182114,
+      "auxiliary_loss_mlp": 0.01028997,
+      "balance_loss_clip": 1.05066419,
+      "balance_loss_mlp": 1.02062237,
+      "epoch": 0.6383695064029339,
+      "flos": 27819134818560.0,
+      "grad_norm": 1.5586616396752928,
+      "language_loss": 0.80370688,
+      "learning_rate": 1.221877278891505e-06,
+      "loss": 0.82581806,
+      "num_input_tokens_seen": 114266120,
+      "step": 5309,
+      "time_per_iteration": 2.7091662883758545
+    },
+    {
+      "auxiliary_loss_clip": 0.01190749,
+      "auxiliary_loss_mlp": 0.01025518,
+      "balance_loss_clip": 1.05077481,
+      "balance_loss_mlp": 1.01748288,
+      "epoch": 0.638489749293573,
+      "flos": 26395635853440.0,
+      "grad_norm": 3.343262368146808,
+      "language_loss": 0.71505255,
+      "learning_rate": 1.221159740023915e-06,
+      "loss": 0.73721522,
+      "num_input_tokens_seen": 114285950,
+      "step": 5310,
+      "time_per_iteration": 2.718517780303955
+    },
+    {
+      "auxiliary_loss_clip": 0.0120997,
+      "auxiliary_loss_mlp": 0.01379117,
+      "balance_loss_clip": 1.04674625,
+      "balance_loss_mlp": 1.00029194,
+      "epoch": 0.6386099921842121,
+      "flos": 23988328306560.0,
+      "grad_norm": 1.8954719492483905,
+      "language_loss": 0.72751081,
+      "learning_rate": 1.2204423193057735e-06,
+      "loss": 0.75340164,
+      "num_input_tokens_seen": 114304780,
+      "step": 5311,
+      "time_per_iteration": 2.723850727081299
+    },
+    {
+      "auxiliary_loss_clip": 0.01095525,
+      "auxiliary_loss_mlp": 0.01006193,
+      "balance_loss_clip": 1.01514995,
+      "balance_loss_mlp": 1.00491202,
+      "epoch": 0.6387302350748512,
+      "flos": 71731169337600.0,
+      "grad_norm": 0.8484274659590749,
+      "language_loss": 0.63353091,
+      "learning_rate": 1.2197250168459122e-06,
+      "loss": 0.65454811,
+      "num_input_tokens_seen": 114361180,
+      "step": 5312,
+      "time_per_iteration": 4.086288690567017
+    },
+    {
+      "auxiliary_loss_clip": 0.0118678,
+      "auxiliary_loss_mlp": 0.01024551,
+      "balance_loss_clip": 1.05048585,
+      "balance_loss_mlp": 1.0166775,
+      "epoch": 0.6388504779654903,
+      "flos": 14535778141440.0,
+      "grad_norm": 1.883911228491466,
+      "language_loss": 0.74626064,
+      "learning_rate": 1.2190078327531454e-06,
+      "loss": 0.76837391,
+      "num_input_tokens_seen": 114377425,
+      "step": 5313,
+      "time_per_iteration": 3.621591806411743
+    },
+    {
+      "auxiliary_loss_clip": 0.01182646,
+      "auxiliary_loss_mlp": 0.01025431,
+      "balance_loss_clip": 1.04772735,
+      "balance_loss_mlp": 1.01782894,
+      "epoch": 0.6389707208561294,
+      "flos": 22346133384960.0,
+      "grad_norm": 1.4565705877509292,
+      "language_loss": 0.72935581,
+      "learning_rate": 1.2182907671362697e-06,
+      "loss": 0.75143659,
+      "num_input_tokens_seen": 114398120,
+      "step": 5314,
+      "time_per_iteration": 3.6017024517059326
+    },
+    {
+      "auxiliary_loss_clip": 0.01182223,
+      "auxiliary_loss_mlp": 0.01030428,
+      "balance_loss_clip": 1.04970658,
+      "balance_loss_mlp": 1.02253628,
+      "epoch": 0.6390909637467684,
+      "flos": 19426883247360.0,
+      "grad_norm": 2.0051314280154817,
+      "language_loss": 0.78588116,
+      "learning_rate": 1.2175738201040626e-06,
+      "loss": 0.80800772,
+      "num_input_tokens_seen": 114415160,
+      "step": 5315,
+      "time_per_iteration": 2.6185858249664307
+    },
+    {
+      "auxiliary_loss_clip": 0.01183818,
+      "auxiliary_loss_mlp": 0.01027321,
+      "balance_loss_clip": 1.0486939,
+      "balance_loss_mlp": 1.01900077,
+      "epoch": 0.6392112066374076,
+      "flos": 24090852700800.0,
+      "grad_norm": 1.8544076912309808,
+      "language_loss": 0.78557122,
+      "learning_rate": 1.2168569917652855e-06,
+      "loss": 0.80768263,
+      "num_input_tokens_seen": 114435015,
+      "step": 5316,
+      "time_per_iteration": 2.7246432304382324
+    },
+    {
+      "auxiliary_loss_clip": 0.01185868,
+      "auxiliary_loss_mlp": 0.01023127,
+      "balance_loss_clip": 1.05247951,
+      "balance_loss_mlp": 1.01526499,
+      "epoch": 0.6393314495280467,
+      "flos": 26795141896320.0,
+      "grad_norm": 1.7429363776189954,
+      "language_loss": 0.64179099,
+      "learning_rate": 1.2161402822286797e-06,
+      "loss": 0.66388094,
+      "num_input_tokens_seen": 114455700,
+      "step": 5317,
+      "time_per_iteration": 2.6723439693450928
+    },
+    {
+      "auxiliary_loss_clip": 0.01199578,
+      "auxiliary_loss_mlp": 0.01022435,
+      "balance_loss_clip": 1.04504859,
+      "balance_loss_mlp": 1.01502347,
+      "epoch": 0.6394516924186857,
+      "flos": 20260692633600.0,
+      "grad_norm": 2.2202337967586043,
+      "language_loss": 0.78915352,
+      "learning_rate": 1.2154236916029703e-06,
+      "loss": 0.81137365,
+      "num_input_tokens_seen": 114473675,
+      "step": 5318,
+      "time_per_iteration": 2.668628454208374
+    },
+    {
+      "auxiliary_loss_clip": 0.01207585,
+      "auxiliary_loss_mlp": 0.01029805,
+      "balance_loss_clip": 1.04107177,
+      "balance_loss_mlp": 1.02251554,
+      "epoch": 0.6395719353093249,
+      "flos": 18368847210240.0,
+      "grad_norm": 8.09865896689444,
+      "language_loss": 0.73863113,
+      "learning_rate": 1.2147072199968627e-06,
+      "loss": 0.76100504,
+      "num_input_tokens_seen": 114492310,
+      "step": 5319,
+      "time_per_iteration": 3.6776607036590576
+    },
+    {
+      "auxiliary_loss_clip": 0.011829,
+      "auxiliary_loss_mlp": 0.01028319,
+      "balance_loss_clip": 1.04966855,
+      "balance_loss_mlp": 1.02073193,
+      "epoch": 0.6396921781999639,
+      "flos": 17566315591680.0,
+      "grad_norm": 33.67213877538318,
+      "language_loss": 0.72001672,
+      "learning_rate": 1.2139908675190454e-06,
+      "loss": 0.74212891,
+      "num_input_tokens_seen": 114511520,
+      "step": 5320,
+      "time_per_iteration": 2.6262474060058594
+    },
+    {
+      "auxiliary_loss_clip": 0.01203047,
+      "auxiliary_loss_mlp": 0.01023517,
+      "balance_loss_clip": 1.03820372,
+      "balance_loss_mlp": 1.01570916,
+      "epoch": 0.639812421090603,
+      "flos": 21251252972160.0,
+      "grad_norm": 2.154039758107581,
+      "language_loss": 0.75156248,
+      "learning_rate": 1.2132746342781883e-06,
+      "loss": 0.77382809,
+      "num_input_tokens_seen": 114532680,
+      "step": 5321,
+      "time_per_iteration": 2.8586244583129883
+    },
+    {
+      "auxiliary_loss_clip": 0.01177993,
+      "auxiliary_loss_mlp": 0.01026565,
+      "balance_loss_clip": 1.05211198,
+      "balance_loss_mlp": 1.01861978,
+      "epoch": 0.6399326639812422,
+      "flos": 11180967684480.0,
+      "grad_norm": 2.8123930847423653,
+      "language_loss": 0.80293703,
+      "learning_rate": 1.2125585203829442e-06,
+      "loss": 0.82498264,
+      "num_input_tokens_seen": 114548320,
+      "step": 5322,
+      "time_per_iteration": 2.59918475151062
+    },
+    {
+      "auxiliary_loss_clip": 0.0118608,
+      "auxiliary_loss_mlp": 0.01025265,
+      "balance_loss_clip": 1.0451405,
+      "balance_loss_mlp": 1.01715851,
+      "epoch": 0.6400529068718812,
+      "flos": 23911048195200.0,
+      "grad_norm": 2.1932879883184553,
+      "language_loss": 0.74015057,
+      "learning_rate": 1.211842525941946e-06,
+      "loss": 0.76226395,
+      "num_input_tokens_seen": 114568115,
+      "step": 5323,
+      "time_per_iteration": 2.743218183517456
+    },
+    {
+      "auxiliary_loss_clip": 0.01207338,
+      "auxiliary_loss_mlp": 0.0102799,
+      "balance_loss_clip": 1.0451299,
+      "balance_loss_mlp": 1.0207566,
+      "epoch": 0.6401731497625203,
+      "flos": 44018724890880.0,
+      "grad_norm": 1.9511217621894243,
+      "language_loss": 0.78835857,
+      "learning_rate": 1.2111266510638105e-06,
+      "loss": 0.81071186,
+      "num_input_tokens_seen": 114591040,
+      "step": 5324,
+      "time_per_iteration": 2.980823516845703
+    },
+    {
+      "auxiliary_loss_clip": 0.01208906,
+      "auxiliary_loss_mlp": 0.01026649,
+      "balance_loss_clip": 1.04159474,
+      "balance_loss_mlp": 1.01907277,
+      "epoch": 0.6402933926531594,
+      "flos": 20662209838080.0,
+      "grad_norm": 1.6637537051508895,
+      "language_loss": 0.79886037,
+      "learning_rate": 1.2104108958571346e-06,
+      "loss": 0.82121587,
+      "num_input_tokens_seen": 114609310,
+      "step": 5325,
+      "time_per_iteration": 2.802079677581787
+    },
+    {
+      "auxiliary_loss_clip": 0.01181045,
+      "auxiliary_loss_mlp": 0.01023256,
+      "balance_loss_clip": 1.05021286,
+      "balance_loss_mlp": 1.01613021,
+      "epoch": 0.6404136355437985,
+      "flos": 24863327614080.0,
+      "grad_norm": 1.5928456526495098,
+      "language_loss": 0.75779605,
+      "learning_rate": 1.2096952604304975e-06,
+      "loss": 0.77983904,
+      "num_input_tokens_seen": 114629740,
+      "step": 5326,
+      "time_per_iteration": 2.604534387588501
+    },
+    {
+      "auxiliary_loss_clip": 0.0118732,
+      "auxiliary_loss_mlp": 0.01029467,
+      "balance_loss_clip": 1.05078578,
+      "balance_loss_mlp": 1.02121198,
+      "epoch": 0.6405338784344375,
+      "flos": 40479548901120.0,
+      "grad_norm": 1.9442083258071174,
+      "language_loss": 0.70195639,
+      "learning_rate": 1.2089797448924616e-06,
+      "loss": 0.72412431,
+      "num_input_tokens_seen": 114653615,
+      "step": 5327,
+      "time_per_iteration": 2.76841402053833
+    },
+    {
+      "auxiliary_loss_clip": 0.01210477,
+      "auxiliary_loss_mlp": 0.01024948,
+      "balance_loss_clip": 1.04039788,
+      "balance_loss_mlp": 1.01718175,
+      "epoch": 0.6406541213250767,
+      "flos": 20886041439360.0,
+      "grad_norm": 1.9751310791989418,
+      "language_loss": 0.65549695,
+      "learning_rate": 1.2082643493515692e-06,
+      "loss": 0.6778512,
+      "num_input_tokens_seen": 114671935,
+      "step": 5328,
+      "time_per_iteration": 2.6944363117218018
+    },
+    {
+      "auxiliary_loss_clip": 0.01182975,
+      "auxiliary_loss_mlp": 0.01032919,
+      "balance_loss_clip": 1.04927576,
+      "balance_loss_mlp": 1.02531362,
+      "epoch": 0.6407743642157158,
+      "flos": 23295970679040.0,
+      "grad_norm": 1.7789195349267057,
+      "language_loss": 0.81832874,
+      "learning_rate": 1.207549073916346e-06,
+      "loss": 0.84048772,
+      "num_input_tokens_seen": 114692870,
+      "step": 5329,
+      "time_per_iteration": 2.6471006870269775
+    },
+    {
+      "auxiliary_loss_clip": 0.01183787,
+      "auxiliary_loss_mlp": 0.01030467,
+      "balance_loss_clip": 1.04891372,
+      "balance_loss_mlp": 1.02265882,
+      "epoch": 0.6408946071063548,
+      "flos": 15012636122880.0,
+      "grad_norm": 2.8400294423906978,
+      "language_loss": 0.7754041,
+      "learning_rate": 1.2068339186952976e-06,
+      "loss": 0.79754663,
+      "num_input_tokens_seen": 114710410,
+      "step": 5330,
+      "time_per_iteration": 2.5959901809692383
+    },
+    {
+      "auxiliary_loss_clip": 0.01188071,
+      "auxiliary_loss_mlp": 0.01030419,
+      "balance_loss_clip": 1.0509057,
+      "balance_loss_mlp": 1.02239645,
+      "epoch": 0.6410148499969939,
+      "flos": 22528595496960.0,
+      "grad_norm": 1.7828501102082634,
+      "language_loss": 0.7285794,
+      "learning_rate": 1.2061188837969136e-06,
+      "loss": 0.75076425,
+      "num_input_tokens_seen": 114730020,
+      "step": 5331,
+      "time_per_iteration": 2.738797903060913
+    },
+    {
+      "auxiliary_loss_clip": 0.01192178,
+      "auxiliary_loss_mlp": 0.01024093,
+      "balance_loss_clip": 1.04244351,
+      "balance_loss_mlp": 1.01539087,
+      "epoch": 0.641135092887633,
+      "flos": 12422004537600.0,
+      "grad_norm": 2.3531321325854977,
+      "language_loss": 0.84263057,
+      "learning_rate": 1.2054039693296631e-06,
+      "loss": 0.8647933,
+      "num_input_tokens_seen": 114748015,
+      "step": 5332,
+      "time_per_iteration": 2.739168882369995
+    },
+    {
+      "auxiliary_loss_clip": 0.01192448,
+      "auxiliary_loss_mlp": 0.01025949,
+      "balance_loss_clip": 1.04460001,
+      "balance_loss_mlp": 1.0185523,
+      "epoch": 0.6412553357782721,
+      "flos": 22127329687680.0,
+      "grad_norm": 1.6806448739188513,
+      "language_loss": 0.8140049,
+      "learning_rate": 1.2046891754019992e-06,
+      "loss": 0.83618891,
+      "num_input_tokens_seen": 114768625,
+      "step": 5333,
+      "time_per_iteration": 2.687939405441284
+    },
+    {
+      "auxiliary_loss_clip": 0.01186862,
+      "auxiliary_loss_mlp": 0.01024908,
+      "balance_loss_clip": 1.05096149,
+      "balance_loss_mlp": 1.01703441,
+      "epoch": 0.6413755786689112,
+      "flos": 15888605097600.0,
+      "grad_norm": 1.989286982671974,
+      "language_loss": 0.82686973,
+      "learning_rate": 1.2039745021223548e-06,
+      "loss": 0.8489874,
+      "num_input_tokens_seen": 114786045,
+      "step": 5334,
+      "time_per_iteration": 2.5680856704711914
+    },
+    {
+      "auxiliary_loss_clip": 0.01116153,
+      "auxiliary_loss_mlp": 0.01000955,
+      "balance_loss_clip": 1.0157795,
+      "balance_loss_mlp": 0.99967939,
+      "epoch": 0.6414958215595503,
+      "flos": 68039159955840.0,
+      "grad_norm": 0.7975217037206958,
+      "language_loss": 0.57078469,
+      "learning_rate": 1.2032599495991456e-06,
+      "loss": 0.59195566,
+      "num_input_tokens_seen": 114850785,
+      "step": 5335,
+      "time_per_iteration": 3.374798059463501
+    },
+    {
+      "auxiliary_loss_clip": 0.01182216,
+      "auxiliary_loss_mlp": 0.01021781,
+      "balance_loss_clip": 1.04921627,
+      "balance_loss_mlp": 1.01430047,
+      "epoch": 0.6416160644501894,
+      "flos": 44091300320640.0,
+      "grad_norm": 2.2318157129227987,
+      "language_loss": 0.69679034,
+      "learning_rate": 1.2025455179407685e-06,
+      "loss": 0.71883029,
+      "num_input_tokens_seen": 114871945,
+      "step": 5336,
+      "time_per_iteration": 2.800156593322754
+    },
+    {
+      "auxiliary_loss_clip": 0.011838,
+      "auxiliary_loss_mlp": 0.01379238,
+      "balance_loss_clip": 1.05113566,
+      "balance_loss_mlp": 1.0002346,
+      "epoch": 0.6417363073408284,
+      "flos": 20959837931520.0,
+      "grad_norm": 2.029960066680311,
+      "language_loss": 0.73614794,
+      "learning_rate": 1.2018312072556022e-06,
+      "loss": 0.76177835,
+      "num_input_tokens_seen": 114890445,
+      "step": 5337,
+      "time_per_iteration": 3.5316884517669678
+    },
+    {
+      "auxiliary_loss_clip": 0.01171685,
+      "auxiliary_loss_mlp": 0.0137903,
+      "balance_loss_clip": 1.04924703,
+      "balance_loss_mlp": 1.0002439,
+      "epoch": 0.6418565502314676,
+      "flos": 22455122227200.0,
+      "grad_norm": 1.8622936062213762,
+      "language_loss": 0.74392962,
+      "learning_rate": 1.2011170176520077e-06,
+      "loss": 0.76943678,
+      "num_input_tokens_seen": 114911360,
+      "step": 5338,
+      "time_per_iteration": 2.582526922225952
+    },
+    {
+      "auxiliary_loss_clip": 0.01197022,
+      "auxiliary_loss_mlp": 0.01024482,
+      "balance_loss_clip": 1.04007936,
+      "balance_loss_mlp": 1.01656997,
+      "epoch": 0.6419767931221066,
+      "flos": 25045502417280.0,
+      "grad_norm": 1.5073817521834019,
+      "language_loss": 0.81098616,
+      "learning_rate": 1.2004029492383256e-06,
+      "loss": 0.83320123,
+      "num_input_tokens_seen": 114932700,
+      "step": 5339,
+      "time_per_iteration": 3.705080032348633
+    },
+    {
+      "auxiliary_loss_clip": 0.01185002,
+      "auxiliary_loss_mlp": 0.01035678,
+      "balance_loss_clip": 1.05227923,
+      "balance_loss_mlp": 1.02760744,
+      "epoch": 0.6420970360127457,
+      "flos": 19463691709440.0,
+      "grad_norm": 2.246079159345773,
+      "language_loss": 0.73318994,
+      "learning_rate": 1.1996890021228814e-06,
+      "loss": 0.75539672,
+      "num_input_tokens_seen": 114949475,
+      "step": 5340,
+      "time_per_iteration": 2.5857019424438477
+    },
+    {
+      "auxiliary_loss_clip": 0.01187682,
+      "auxiliary_loss_mlp": 0.01022213,
+      "balance_loss_clip": 1.04535556,
+      "balance_loss_mlp": 1.01457119,
+      "epoch": 0.6422172789033849,
+      "flos": 40406147458560.0,
+      "grad_norm": 1.4502617852365927,
+      "language_loss": 0.70118469,
+      "learning_rate": 1.1989751764139785e-06,
+      "loss": 0.72328365,
+      "num_input_tokens_seen": 114973125,
+      "step": 5341,
+      "time_per_iteration": 3.7818703651428223
+    },
+    {
+      "auxiliary_loss_clip": 0.01202464,
+      "auxiliary_loss_mlp": 0.01023204,
+      "balance_loss_clip": 1.03887606,
+      "balance_loss_mlp": 1.01551509,
+      "epoch": 0.6423375217940239,
+      "flos": 27672870637440.0,
+      "grad_norm": 1.5332772770068088,
+      "language_loss": 0.83138645,
+      "learning_rate": 1.1982614722199044e-06,
+      "loss": 0.85364318,
+      "num_input_tokens_seen": 114994300,
+      "step": 5342,
+      "time_per_iteration": 2.849902868270874
+    },
+    {
+      "auxiliary_loss_clip": 0.01193353,
+      "auxiliary_loss_mlp": 0.01026297,
+      "balance_loss_clip": 1.04442036,
+      "balance_loss_mlp": 1.01848328,
+      "epoch": 0.642457764684663,
+      "flos": 18369242259840.0,
+      "grad_norm": 2.2513755475607975,
+      "language_loss": 0.78121227,
+      "learning_rate": 1.1975478896489276e-06,
+      "loss": 0.8034088,
+      "num_input_tokens_seen": 115012135,
+      "step": 5343,
+      "time_per_iteration": 2.6611039638519287
+    },
+    {
+      "auxiliary_loss_clip": 0.01169806,
+      "auxiliary_loss_mlp": 0.01023493,
+      "balance_loss_clip": 1.04743874,
+      "balance_loss_mlp": 1.01589954,
+      "epoch": 0.6425780075753021,
+      "flos": 19750509809280.0,
+      "grad_norm": 1.9253192279630007,
+      "language_loss": 0.76476365,
+      "learning_rate": 1.1968344288092981e-06,
+      "loss": 0.78669661,
+      "num_input_tokens_seen": 115028715,
+      "step": 5344,
+      "time_per_iteration": 2.656059503555298
+    },
+    {
+      "auxiliary_loss_clip": 0.01183539,
+      "auxiliary_loss_mlp": 0.01378935,
+      "balance_loss_clip": 1.04929876,
+      "balance_loss_mlp": 1.00020885,
+      "epoch": 0.6426982504659412,
+      "flos": 20558536208640.0,
+      "grad_norm": 1.6862650602471991,
+      "language_loss": 0.64549869,
+      "learning_rate": 1.1961210898092468e-06,
+      "loss": 0.67112345,
+      "num_input_tokens_seen": 115047665,
+      "step": 5345,
+      "time_per_iteration": 3.55251145362854
+    },
+    {
+      "auxiliary_loss_clip": 0.01197646,
+      "auxiliary_loss_mlp": 0.01030892,
+      "balance_loss_clip": 1.04795039,
+      "balance_loss_mlp": 1.02263045,
+      "epoch": 0.6428184933565803,
+      "flos": 17851984456320.0,
+      "grad_norm": 2.1315348136779884,
+      "language_loss": 0.79331446,
+      "learning_rate": 1.1954078727569874e-06,
+      "loss": 0.8155998,
+      "num_input_tokens_seen": 115064965,
+      "step": 5346,
+      "time_per_iteration": 2.6762149333953857
+    },
+    {
+      "auxiliary_loss_clip": 0.01206956,
+      "auxiliary_loss_mlp": 0.01379293,
+      "balance_loss_clip": 1.04709435,
+      "balance_loss_mlp": 1.00023639,
+      "epoch": 0.6429387362472194,
+      "flos": 22456953820800.0,
+      "grad_norm": 1.6510837083640886,
+      "language_loss": 0.7801435,
+      "learning_rate": 1.1946947777607141e-06,
+      "loss": 0.80600601,
+      "num_input_tokens_seen": 115086100,
+      "step": 5347,
+      "time_per_iteration": 2.6968560218811035
+    },
+    {
+      "auxiliary_loss_clip": 0.01199355,
+      "auxiliary_loss_mlp": 0.01028809,
+      "balance_loss_clip": 1.04392385,
+      "balance_loss_mlp": 1.02100706,
+      "epoch": 0.6430589791378585,
+      "flos": 24752579005440.0,
+      "grad_norm": 1.8940570163634587,
+      "language_loss": 0.80083907,
+      "learning_rate": 1.1939818049286024e-06,
+      "loss": 0.82312065,
+      "num_input_tokens_seen": 115104260,
+      "step": 5348,
+      "time_per_iteration": 2.73938250541687
+    },
+    {
+      "auxiliary_loss_clip": 0.0120013,
+      "auxiliary_loss_mlp": 0.0102906,
+      "balance_loss_clip": 1.04021621,
+      "balance_loss_mlp": 1.02147841,
+      "epoch": 0.6431792220284975,
+      "flos": 24901249397760.0,
+      "grad_norm": 1.7522352318267247,
+      "language_loss": 0.76009762,
+      "learning_rate": 1.1932689543688101e-06,
+      "loss": 0.78238952,
+      "num_input_tokens_seen": 115125365,
+      "step": 5349,
+      "time_per_iteration": 2.883500337600708
+    },
+    {
+      "auxiliary_loss_clip": 0.01192913,
+      "auxiliary_loss_mlp": 0.01031178,
+      "balance_loss_clip": 1.04991722,
+      "balance_loss_mlp": 1.02265429,
+      "epoch": 0.6432994649191367,
+      "flos": 21032305620480.0,
+      "grad_norm": 2.3032532969338724,
+      "language_loss": 0.72510731,
+      "learning_rate": 1.1925562261894756e-06,
+      "loss": 0.74734819,
+      "num_input_tokens_seen": 115144445,
+      "step": 5350,
+      "time_per_iteration": 2.7375645637512207
+    },
+    {
+      "auxiliary_loss_clip": 0.01188253,
+      "auxiliary_loss_mlp": 0.01024597,
+      "balance_loss_clip": 1.04718804,
+      "balance_loss_mlp": 1.01746547,
+      "epoch": 0.6434197078097758,
+      "flos": 30884433655680.0,
+      "grad_norm": 1.6268199961224952,
+      "language_loss": 0.77506828,
+      "learning_rate": 1.1918436204987207e-06,
+      "loss": 0.79719687,
+      "num_input_tokens_seen": 115166305,
+      "step": 5351,
+      "time_per_iteration": 2.7946066856384277
+    },
+    {
+      "auxiliary_loss_clip": 0.01177983,
+      "auxiliary_loss_mlp": 0.01029277,
+      "balance_loss_clip": 1.04806447,
+      "balance_loss_mlp": 1.02185655,
+      "epoch": 0.6435399507004148,
+      "flos": 15012492468480.0,
+      "grad_norm": 2.0723624907925764,
+      "language_loss": 0.81428921,
+      "learning_rate": 1.191131137404645e-06,
+      "loss": 0.83636183,
+      "num_input_tokens_seen": 115183045,
+      "step": 5352,
+      "time_per_iteration": 2.5423028469085693
+    },
+    {
+      "auxiliary_loss_clip": 0.01184594,
+      "auxiliary_loss_mlp": 0.01032027,
+      "balance_loss_clip": 1.04314613,
+      "balance_loss_mlp": 1.02394462,
+      "epoch": 0.643660193591054,
+      "flos": 19901981462400.0,
+      "grad_norm": 1.824049373855697,
+      "language_loss": 0.77494901,
+      "learning_rate": 1.190418777015333e-06,
+      "loss": 0.79711521,
+      "num_input_tokens_seen": 115201955,
+      "step": 5353,
+      "time_per_iteration": 2.7405130863189697
+    },
+    {
+      "auxiliary_loss_clip": 0.0119218,
+      "auxiliary_loss_mlp": 0.0102265,
+      "balance_loss_clip": 1.04897606,
+      "balance_loss_mlp": 1.01534891,
+      "epoch": 0.643780436481693,
+      "flos": 24133622820480.0,
+      "grad_norm": 1.4338343538215497,
+      "language_loss": 0.73407823,
+      "learning_rate": 1.1897065394388487e-06,
+      "loss": 0.75622654,
+      "num_input_tokens_seen": 115222395,
+      "step": 5354,
+      "time_per_iteration": 2.6182034015655518
+    },
+    {
+      "auxiliary_loss_clip": 0.01194609,
+      "auxiliary_loss_mlp": 0.01035769,
+      "balance_loss_clip": 1.05232608,
+      "balance_loss_mlp": 1.02812195,
+      "epoch": 0.6439006793723321,
+      "flos": 23148808657920.0,
+      "grad_norm": 1.6711960179770495,
+      "language_loss": 0.76704973,
+      "learning_rate": 1.1889944247832385e-06,
+      "loss": 0.78935349,
+      "num_input_tokens_seen": 115242635,
+      "step": 5355,
+      "time_per_iteration": 2.693814277648926
+    },
+    {
+      "auxiliary_loss_clip": 0.01184171,
+      "auxiliary_loss_mlp": 0.01027524,
+      "balance_loss_clip": 1.04770756,
+      "balance_loss_mlp": 1.01997852,
+      "epoch": 0.6440209222629713,
+      "flos": 23617909301760.0,
+      "grad_norm": 1.9054362636618705,
+      "language_loss": 0.70930493,
+      "learning_rate": 1.1882824331565283e-06,
+      "loss": 0.73142195,
+      "num_input_tokens_seen": 115262095,
+      "step": 5356,
+      "time_per_iteration": 2.6282436847686768
+    },
+    {
+      "auxiliary_loss_clip": 0.01192257,
+      "auxiliary_loss_mlp": 0.01024052,
+      "balance_loss_clip": 1.04268527,
+      "balance_loss_mlp": 1.01685762,
+      "epoch": 0.6441411651536103,
+      "flos": 16544872535040.0,
+      "grad_norm": 3.75031056306803,
+      "language_loss": 0.8920083,
+      "learning_rate": 1.1875705646667287e-06,
+      "loss": 0.91417146,
+      "num_input_tokens_seen": 115279985,
+      "step": 5357,
+      "time_per_iteration": 2.719318151473999
+    },
+    {
+      "auxiliary_loss_clip": 0.01176763,
+      "auxiliary_loss_mlp": 0.01028775,
+      "balance_loss_clip": 1.04576373,
+      "balance_loss_mlp": 1.02099657,
+      "epoch": 0.6442614080442494,
+      "flos": 25410965345280.0,
+      "grad_norm": 2.6517252362404276,
+      "language_loss": 0.75510103,
+      "learning_rate": 1.1868588194218282e-06,
+      "loss": 0.77715647,
+      "num_input_tokens_seen": 115300365,
+      "step": 5358,
+      "time_per_iteration": 2.6392414569854736
+    },
+    {
+      "auxiliary_loss_clip": 0.01196123,
+      "auxiliary_loss_mlp": 0.01028609,
+      "balance_loss_clip": 1.04632509,
+      "balance_loss_mlp": 1.02058053,
+      "epoch": 0.6443816509348885,
+      "flos": 28294017552000.0,
+      "grad_norm": 1.733164862899651,
+      "language_loss": 0.7403394,
+      "learning_rate": 1.1861471975297979e-06,
+      "loss": 0.76258671,
+      "num_input_tokens_seen": 115322060,
+      "step": 5359,
+      "time_per_iteration": 2.7512435913085938
+    },
+    {
+      "auxiliary_loss_clip": 0.01195915,
+      "auxiliary_loss_mlp": 0.01029914,
+      "balance_loss_clip": 1.04623437,
+      "balance_loss_mlp": 1.02200413,
+      "epoch": 0.6445018938255276,
+      "flos": 36690075964800.0,
+      "grad_norm": 2.1227910332703503,
+      "language_loss": 0.70992243,
+      "learning_rate": 1.185435699098591e-06,
+      "loss": 0.73218071,
+      "num_input_tokens_seen": 115348255,
+      "step": 5360,
+      "time_per_iteration": 2.844221353530884
+    },
+    {
+      "auxiliary_loss_clip": 0.01195365,
+      "auxiliary_loss_mlp": 0.01030099,
+      "balance_loss_clip": 1.04823732,
+      "balance_loss_mlp": 1.02222228,
+      "epoch": 0.6446221367161666,
+      "flos": 14501411804160.0,
+      "grad_norm": 2.354377603308917,
+      "language_loss": 0.78088623,
+      "learning_rate": 1.1847243242361403e-06,
+      "loss": 0.80314088,
+      "num_input_tokens_seen": 115366845,
+      "step": 5361,
+      "time_per_iteration": 2.6490111351013184
+    },
+    {
+      "auxiliary_loss_clip": 0.01192321,
+      "auxiliary_loss_mlp": 0.0102611,
+      "balance_loss_clip": 1.046826,
+      "balance_loss_mlp": 1.01848686,
+      "epoch": 0.6447423796068057,
+      "flos": 24609367480320.0,
+      "grad_norm": 2.1616617325028544,
+      "language_loss": 0.78128409,
+      "learning_rate": 1.1840130730503624e-06,
+      "loss": 0.80346847,
+      "num_input_tokens_seen": 115388125,
+      "step": 5362,
+      "time_per_iteration": 2.7627203464508057
+    },
+    {
+      "auxiliary_loss_clip": 0.01173974,
+      "auxiliary_loss_mlp": 0.01024005,
+      "balance_loss_clip": 1.04975533,
+      "balance_loss_mlp": 1.01591063,
+      "epoch": 0.6448626224974449,
+      "flos": 25047298097280.0,
+      "grad_norm": 1.996935039899444,
+      "language_loss": 0.7456702,
+      "learning_rate": 1.1833019456491518e-06,
+      "loss": 0.76765001,
+      "num_input_tokens_seen": 115409655,
+      "step": 5363,
+      "time_per_iteration": 3.5349667072296143
+    },
+    {
+      "auxiliary_loss_clip": 0.0118574,
+      "auxiliary_loss_mlp": 0.01024868,
+      "balance_loss_clip": 1.05019212,
+      "balance_loss_mlp": 1.01739311,
+      "epoch": 0.6449828653880839,
+      "flos": 22530355263360.0,
+      "grad_norm": 1.8712880331888193,
+      "language_loss": 0.78727365,
+      "learning_rate": 1.1825909421403871e-06,
+      "loss": 0.80937976,
+      "num_input_tokens_seen": 115428750,
+      "step": 5364,
+      "time_per_iteration": 2.6814587116241455
+    },
+    {
+      "auxiliary_loss_clip": 0.01184928,
+      "auxiliary_loss_mlp": 0.01024279,
+      "balance_loss_clip": 1.04891539,
+      "balance_loss_mlp": 1.01676857,
+      "epoch": 0.645103108278723,
+      "flos": 25695736369920.0,
+      "grad_norm": 1.859583082781644,
+      "language_loss": 0.76351678,
+      "learning_rate": 1.181880062631926e-06,
+      "loss": 0.78560889,
+      "num_input_tokens_seen": 115448085,
+      "step": 5365,
+      "time_per_iteration": 3.557772397994995
+    },
+    {
+      "auxiliary_loss_clip": 0.01185445,
+      "auxiliary_loss_mlp": 0.01029155,
+      "balance_loss_clip": 1.04703331,
+      "balance_loss_mlp": 1.02101326,
+      "epoch": 0.6452233511693621,
+      "flos": 27450331925760.0,
+      "grad_norm": 1.9625456843134053,
+      "language_loss": 0.84411156,
+      "learning_rate": 1.1811693072316093e-06,
+      "loss": 0.86625755,
+      "num_input_tokens_seen": 115465765,
+      "step": 5366,
+      "time_per_iteration": 3.5982508659362793
+    },
+    {
+      "auxiliary_loss_clip": 0.01173962,
+      "auxiliary_loss_mlp": 0.01378924,
+      "balance_loss_clip": 1.04890037,
+      "balance_loss_mlp": 1.00017571,
+      "epoch": 0.6453435940600012,
+      "flos": 19208618254080.0,
+      "grad_norm": 3.919188179171582,
+      "language_loss": 0.83542645,
+      "learning_rate": 1.1804586760472574e-06,
+      "loss": 0.86095524,
+      "num_input_tokens_seen": 115482230,
+      "step": 5367,
+      "time_per_iteration": 2.66928768157959
+    },
+    {
+      "auxiliary_loss_clip": 0.01198724,
+      "auxiliary_loss_mlp": 0.0102581,
+      "balance_loss_clip": 1.04432917,
+      "balance_loss_mlp": 1.01804972,
+      "epoch": 0.6454638369506402,
+      "flos": 25737680476800.0,
+      "grad_norm": 2.078639503492047,
+      "language_loss": 0.80288881,
+      "learning_rate": 1.1797481691866736e-06,
+      "loss": 0.82513422,
+      "num_input_tokens_seen": 115499455,
+      "step": 5368,
+      "time_per_iteration": 2.72037672996521
+    },
+    {
+      "auxiliary_loss_clip": 0.01180178,
+      "auxiliary_loss_mlp": 0.01029747,
+      "balance_loss_clip": 1.04482818,
+      "balance_loss_mlp": 1.02244532,
+      "epoch": 0.6455840798412794,
+      "flos": 20989176364800.0,
+      "grad_norm": 2.2379748378128044,
+      "language_loss": 0.83023602,
+      "learning_rate": 1.1790377867576393e-06,
+      "loss": 0.85233527,
+      "num_input_tokens_seen": 115517205,
+      "step": 5369,
+      "time_per_iteration": 2.6844935417175293
+    },
+    {
+      "auxiliary_loss_clip": 0.01193686,
+      "auxiliary_loss_mlp": 0.0102879,
+      "balance_loss_clip": 1.04582202,
+      "balance_loss_mlp": 1.02158976,
+      "epoch": 0.6457043227319185,
+      "flos": 26067556005120.0,
+      "grad_norm": 1.7298031489629502,
+      "language_loss": 0.76900846,
+      "learning_rate": 1.1783275288679203e-06,
+      "loss": 0.79123318,
+      "num_input_tokens_seen": 115534370,
+      "step": 5370,
+      "time_per_iteration": 2.7405805587768555
+    },
+    {
+      "auxiliary_loss_clip": 0.01081283,
+      "auxiliary_loss_mlp": 0.01003965,
+      "balance_loss_clip": 1.01309156,
+      "balance_loss_mlp": 1.0026778,
+      "epoch": 0.6458245656225575,
+      "flos": 60370831088640.0,
+      "grad_norm": 0.8415691516497723,
+      "language_loss": 0.57132554,
+      "learning_rate": 1.177617395625262e-06,
+      "loss": 0.59217799,
+      "num_input_tokens_seen": 115592345,
+      "step": 5371,
+      "time_per_iteration": 4.076406955718994
+    },
+    {
+      "auxiliary_loss_clip": 0.01185586,
+      "auxiliary_loss_mlp": 0.01031065,
+      "balance_loss_clip": 1.0517478,
+      "balance_loss_mlp": 1.02367115,
+      "epoch": 0.6459448085131967,
+      "flos": 23076771932160.0,
+      "grad_norm": 2.047884881029733,
+      "language_loss": 0.75253183,
+      "learning_rate": 1.1769073871373908e-06,
+      "loss": 0.77469832,
+      "num_input_tokens_seen": 115612550,
+      "step": 5372,
+      "time_per_iteration": 2.6703603267669678
+    },
+    {
+      "auxiliary_loss_clip": 0.01195458,
+      "auxiliary_loss_mlp": 0.01026385,
+      "balance_loss_clip": 1.04296207,
+      "balance_loss_mlp": 1.01816583,
+      "epoch": 0.6460650514038357,
+      "flos": 22598190097920.0,
+      "grad_norm": 1.5516702644135376,
+      "language_loss": 0.83858752,
+      "learning_rate": 1.176197503512015e-06,
+      "loss": 0.86080599,
+      "num_input_tokens_seen": 115632265,
+      "step": 5373,
+      "time_per_iteration": 2.7072906494140625
+    },
+    {
+      "auxiliary_loss_clip": 0.01184623,
+      "auxiliary_loss_mlp": 0.01029281,
+      "balance_loss_clip": 1.04613984,
+      "balance_loss_mlp": 1.02198195,
+      "epoch": 0.6461852942944748,
+      "flos": 20266726118400.0,
+      "grad_norm": 2.1661698021090636,
+      "language_loss": 0.82229936,
+      "learning_rate": 1.1754877448568223e-06,
+      "loss": 0.84443843,
+      "num_input_tokens_seen": 115651720,
+      "step": 5374,
+      "time_per_iteration": 2.6560397148132324
+    },
+    {
+      "auxiliary_loss_clip": 0.01190906,
+      "auxiliary_loss_mlp": 0.01022983,
+      "balance_loss_clip": 1.04734087,
+      "balance_loss_mlp": 1.01558638,
+      "epoch": 0.646305537185114,
+      "flos": 23367109564800.0,
+      "grad_norm": 2.224126308577742,
+      "language_loss": 0.89741987,
+      "learning_rate": 1.1747781112794837e-06,
+      "loss": 0.91955876,
+      "num_input_tokens_seen": 115668215,
+      "step": 5375,
+      "time_per_iteration": 2.7088968753814697
+    },
+    {
+      "auxiliary_loss_clip": 0.01194378,
+      "auxiliary_loss_mlp": 0.010288,
+      "balance_loss_clip": 1.04565859,
+      "balance_loss_mlp": 1.02151,
+      "epoch": 0.646425780075753,
+      "flos": 24277480790400.0,
+      "grad_norm": 1.605006437924,
+      "language_loss": 0.83261341,
+      "learning_rate": 1.1740686028876487e-06,
+      "loss": 0.85484517,
+      "num_input_tokens_seen": 115687080,
+      "step": 5376,
+      "time_per_iteration": 2.7672383785247803
+    },
+    {
+      "auxiliary_loss_clip": 0.01177395,
+      "auxiliary_loss_mlp": 0.01028824,
+      "balance_loss_clip": 1.04850316,
+      "balance_loss_mlp": 1.02109909,
+      "epoch": 0.6465460229663921,
+      "flos": 20813968800000.0,
+      "grad_norm": 2.4123293740199765,
+      "language_loss": 0.75314546,
+      "learning_rate": 1.1733592197889507e-06,
+      "loss": 0.7752077,
+      "num_input_tokens_seen": 115703990,
+      "step": 5377,
+      "time_per_iteration": 2.655881881713867
+    },
+    {
+      "auxiliary_loss_clip": 0.01177181,
+      "auxiliary_loss_mlp": 0.01024613,
+      "balance_loss_clip": 1.04931855,
+      "balance_loss_mlp": 1.0173831,
+      "epoch": 0.6466662658570312,
+      "flos": 22853299466880.0,
+      "grad_norm": 3.04119184331384,
+      "language_loss": 0.72662181,
+      "learning_rate": 1.1726499620910014e-06,
+      "loss": 0.74863976,
+      "num_input_tokens_seen": 115724270,
+      "step": 5378,
+      "time_per_iteration": 2.7216594219207764
+    },
+    {
+      "auxiliary_loss_clip": 0.01182084,
+      "auxiliary_loss_mlp": 0.01027606,
+      "balance_loss_clip": 1.04949784,
+      "balance_loss_mlp": 1.01964259,
+      "epoch": 0.6467865087476703,
+      "flos": 15304553953920.0,
+      "grad_norm": 1.9941392707845311,
+      "language_loss": 0.78191572,
+      "learning_rate": 1.1719408299013955e-06,
+      "loss": 0.80401266,
+      "num_input_tokens_seen": 115742995,
+      "step": 5379,
+      "time_per_iteration": 2.8024027347564697
+    },
+    {
+      "auxiliary_loss_clip": 0.0117248,
+      "auxiliary_loss_mlp": 0.01024908,
+      "balance_loss_clip": 1.05089521,
+      "balance_loss_mlp": 1.01777935,
+      "epoch": 0.6469067516383094,
+      "flos": 19573650218880.0,
+      "grad_norm": 2.467780495652918,
+      "language_loss": 0.75518256,
+      "learning_rate": 1.1712318233277067e-06,
+      "loss": 0.77715647,
+      "num_input_tokens_seen": 115762015,
+      "step": 5380,
+      "time_per_iteration": 2.842061758041382
+    },
+    {
+      "auxiliary_loss_clip": 0.01081186,
+      "auxiliary_loss_mlp": 0.01001589,
+      "balance_loss_clip": 1.01370168,
+      "balance_loss_mlp": 1.00025415,
+      "epoch": 0.6470269945289485,
+      "flos": 65098002522240.0,
+      "grad_norm": 0.7513433001531942,
+      "language_loss": 0.57832134,
+      "learning_rate": 1.1705229424774916e-06,
+      "loss": 0.59914911,
+      "num_input_tokens_seen": 115816285,
+      "step": 5381,
+      "time_per_iteration": 3.2180826663970947
+    },
+    {
+      "auxiliary_loss_clip": 0.01185492,
+      "auxiliary_loss_mlp": 0.01025373,
+      "balance_loss_clip": 1.04427183,
+      "balance_loss_mlp": 1.01751757,
+      "epoch": 0.6471472374195876,
+      "flos": 30696943639680.0,
+      "grad_norm": 1.63903769949151,
+      "language_loss": 0.63982445,
+      "learning_rate": 1.1698141874582867e-06,
+      "loss": 0.66193306,
+      "num_input_tokens_seen": 115837330,
+      "step": 5382,
+      "time_per_iteration": 2.72243595123291
+    },
+    {
+      "auxiliary_loss_clip": 0.01172309,
+      "auxiliary_loss_mlp": 0.01028583,
+      "balance_loss_clip": 1.05219507,
+      "balance_loss_mlp": 1.02162969,
+      "epoch": 0.6472674803102266,
+      "flos": 20521835487360.0,
+      "grad_norm": 1.8090754279799022,
+      "language_loss": 0.7184397,
+      "learning_rate": 1.169105558377609e-06,
+      "loss": 0.74044859,
+      "num_input_tokens_seen": 115857420,
+      "step": 5383,
+      "time_per_iteration": 2.60947585105896
+    },
+    {
+      "auxiliary_loss_clip": 0.01207642,
+      "auxiliary_loss_mlp": 0.01379033,
+      "balance_loss_clip": 1.04764962,
+      "balance_loss_mlp": 1.00021577,
+      "epoch": 0.6473877232008658,
+      "flos": 24715447320960.0,
+      "grad_norm": 1.8994640887858685,
+      "language_loss": 0.78175926,
+      "learning_rate": 1.1683970553429587e-06,
+      "loss": 0.80762601,
+      "num_input_tokens_seen": 115878875,
+      "step": 5384,
+      "time_per_iteration": 2.8854024410247803
+    },
+    {
+      "auxiliary_loss_clip": 0.01202516,
+      "auxiliary_loss_mlp": 0.01025386,
+      "balance_loss_clip": 1.04680419,
+      "balance_loss_mlp": 1.01768196,
+      "epoch": 0.6475079660915048,
+      "flos": 15885552441600.0,
+      "grad_norm": 1.7980729788131886,
+      "language_loss": 0.82021618,
+      "learning_rate": 1.1676886784618128e-06,
+      "loss": 0.8424952,
+      "num_input_tokens_seen": 115895540,
+      "step": 5385,
+      "time_per_iteration": 2.7353415489196777
+    },
+    {
+      "auxiliary_loss_clip": 0.01182835,
+      "auxiliary_loss_mlp": 0.01024132,
+      "balance_loss_clip": 1.05006337,
+      "balance_loss_mlp": 1.01613939,
+      "epoch": 0.6476282089821439,
+      "flos": 17381590922880.0,
+      "grad_norm": 2.8415089574406696,
+      "language_loss": 0.83447564,
+      "learning_rate": 1.1669804278416332e-06,
+      "loss": 0.85654533,
+      "num_input_tokens_seen": 115910265,
+      "step": 5386,
+      "time_per_iteration": 2.6857125759124756
+    },
+    {
+      "auxiliary_loss_clip": 0.01196418,
+      "auxiliary_loss_mlp": 0.01023353,
+      "balance_loss_clip": 1.04798639,
+      "balance_loss_mlp": 1.01564646,
+      "epoch": 0.6477484518727831,
+      "flos": 20194078861440.0,
+      "grad_norm": 2.4002569073397213,
+      "language_loss": 0.71682751,
+      "learning_rate": 1.1662723035898602e-06,
+      "loss": 0.73902524,
+      "num_input_tokens_seen": 115930025,
+      "step": 5387,
+      "time_per_iteration": 2.7391953468322754
+    },
+    {
+      "auxiliary_loss_clip": 0.01180523,
+      "auxiliary_loss_mlp": 0.01024877,
+      "balance_loss_clip": 1.0485189,
+      "balance_loss_mlp": 1.01693738,
+      "epoch": 0.6478686947634221,
+      "flos": 25410426641280.0,
+      "grad_norm": 2.166442588788713,
+      "language_loss": 0.82018346,
+      "learning_rate": 1.165564305813915e-06,
+      "loss": 0.84223747,
+      "num_input_tokens_seen": 115949025,
+      "step": 5388,
+      "time_per_iteration": 2.7289533615112305
+    },
+    {
+      "auxiliary_loss_clip": 0.01181822,
+      "auxiliary_loss_mlp": 0.01028699,
+      "balance_loss_clip": 1.04869449,
+      "balance_loss_mlp": 1.02139783,
+      "epoch": 0.6479889376540612,
+      "flos": 20083581648000.0,
+      "grad_norm": 1.7038386008099409,
+      "language_loss": 0.81029791,
+      "learning_rate": 1.1648564346212019e-06,
+      "loss": 0.83240312,
+      "num_input_tokens_seen": 115968145,
+      "step": 5389,
+      "time_per_iteration": 3.58335542678833
+    },
+    {
+      "auxiliary_loss_clip": 0.01178889,
+      "auxiliary_loss_mlp": 0.01027866,
+      "balance_loss_clip": 1.05003643,
+      "balance_loss_mlp": 1.02096367,
+      "epoch": 0.6481091805447003,
+      "flos": 26758082039040.0,
+      "grad_norm": 2.2017402786962608,
+      "language_loss": 0.76165903,
+      "learning_rate": 1.164148690119104e-06,
+      "loss": 0.78372657,
+      "num_input_tokens_seen": 115989425,
+      "step": 5390,
+      "time_per_iteration": 2.697908878326416
+    },
+    {
+      "auxiliary_loss_clip": 0.01168595,
+      "auxiliary_loss_mlp": 0.01025293,
+      "balance_loss_clip": 1.04828072,
+      "balance_loss_mlp": 1.01812816,
+      "epoch": 0.6482294234353394,
+      "flos": 23952094462080.0,
+      "grad_norm": 2.134545590757931,
+      "language_loss": 0.74165601,
+      "learning_rate": 1.163441072414985e-06,
+      "loss": 0.76359487,
+      "num_input_tokens_seen": 116009630,
+      "step": 5391,
+      "time_per_iteration": 3.6698496341705322
+    },
+    {
+      "auxiliary_loss_clip": 0.01179737,
+      "auxiliary_loss_mlp": 0.01031493,
+      "balance_loss_clip": 1.04952204,
+      "balance_loss_mlp": 1.02406645,
+      "epoch": 0.6483496663259785,
+      "flos": 26209833776640.0,
+      "grad_norm": 1.8602467452204223,
+      "language_loss": 0.69893128,
+      "learning_rate": 1.16273358161619e-06,
+      "loss": 0.72104359,
+      "num_input_tokens_seen": 116029965,
+      "step": 5392,
+      "time_per_iteration": 3.7255969047546387
+    },
+    {
+      "auxiliary_loss_clip": 0.0119892,
+      "auxiliary_loss_mlp": 0.01024944,
+      "balance_loss_clip": 1.04847968,
+      "balance_loss_mlp": 1.01760936,
+      "epoch": 0.6484699092166175,
+      "flos": 20922239370240.0,
+      "grad_norm": 5.395989410321068,
+      "language_loss": 0.83872503,
+      "learning_rate": 1.1620262178300446e-06,
+      "loss": 0.86096364,
+      "num_input_tokens_seen": 116048580,
+      "step": 5393,
+      "time_per_iteration": 2.7280709743499756
+    },
+    {
+      "auxiliary_loss_clip": 0.0119866,
+      "auxiliary_loss_mlp": 0.01022579,
+      "balance_loss_clip": 1.04430676,
+      "balance_loss_mlp": 1.01503611,
+      "epoch": 0.6485901521072567,
+      "flos": 33072865678080.0,
+      "grad_norm": 1.717566353235211,
+      "language_loss": 0.75771344,
+      "learning_rate": 1.1613189811638563e-06,
+      "loss": 0.77992576,
+      "num_input_tokens_seen": 116070305,
+      "step": 5394,
+      "time_per_iteration": 2.8294577598571777
+    },
+    {
+      "auxiliary_loss_clip": 0.01183029,
+      "auxiliary_loss_mlp": 0.01024149,
+      "balance_loss_clip": 1.04967368,
+      "balance_loss_mlp": 1.01702023,
+      "epoch": 0.6487103949978957,
+      "flos": 22274060745600.0,
+      "grad_norm": 1.8173614014638535,
+      "language_loss": 0.7795704,
+      "learning_rate": 1.1606118717249117e-06,
+      "loss": 0.80164218,
+      "num_input_tokens_seen": 116090405,
+      "step": 5395,
+      "time_per_iteration": 2.727219581604004
+    },
+    {
+      "auxiliary_loss_clip": 0.01173853,
+      "auxiliary_loss_mlp": 0.01027363,
+      "balance_loss_clip": 1.04760146,
+      "balance_loss_mlp": 1.01979899,
+      "epoch": 0.6488306378885348,
+      "flos": 22930400010240.0,
+      "grad_norm": 2.0282269997268196,
+      "language_loss": 0.67838836,
+      "learning_rate": 1.1599048896204787e-06,
+      "loss": 0.70040059,
+      "num_input_tokens_seen": 116110285,
+      "step": 5396,
+      "time_per_iteration": 2.665961980819702
+    },
+    {
+      "auxiliary_loss_clip": 0.0120054,
+      "auxiliary_loss_mlp": 0.01026534,
+      "balance_loss_clip": 1.04428852,
+      "balance_loss_mlp": 1.01875603,
+      "epoch": 0.648950880779174,
+      "flos": 20376110010240.0,
+      "grad_norm": 1.7108037424617328,
+      "language_loss": 0.805884,
+      "learning_rate": 1.1591980349578061e-06,
+      "loss": 0.82815468,
+      "num_input_tokens_seen": 116128955,
+      "step": 5397,
+      "time_per_iteration": 3.6467080116271973
+    },
+    {
+      "auxiliary_loss_clip": 0.01101513,
+      "auxiliary_loss_mlp": 0.0100143,
+      "balance_loss_clip": 1.01016688,
+      "balance_loss_mlp": 1.0000596,
+      "epoch": 0.649071123669813,
+      "flos": 59930889310080.0,
+      "grad_norm": 0.7387573372324544,
+      "language_loss": 0.54230285,
+      "learning_rate": 1.158491307844123e-06,
+      "loss": 0.5633322,
+      "num_input_tokens_seen": 116188875,
+      "step": 5398,
+      "time_per_iteration": 3.270744800567627
+    },
+    {
+      "auxiliary_loss_clip": 0.01190816,
+      "auxiliary_loss_mlp": 0.01028518,
+      "balance_loss_clip": 1.04936135,
+      "balance_loss_mlp": 1.02109122,
+      "epoch": 0.6491913665604521,
+      "flos": 20446566537600.0,
+      "grad_norm": 1.6503886623685728,
+      "language_loss": 0.83503163,
+      "learning_rate": 1.1577847083866387e-06,
+      "loss": 0.85722494,
+      "num_input_tokens_seen": 116207910,
+      "step": 5399,
+      "time_per_iteration": 2.7999844551086426
+    },
+    {
+      "auxiliary_loss_clip": 0.0117669,
+      "auxiliary_loss_mlp": 0.0102681,
+      "balance_loss_clip": 1.0445559,
+      "balance_loss_mlp": 1.01906753,
+      "epoch": 0.6493116094510912,
+      "flos": 16946820702720.0,
+      "grad_norm": 1.9587305685215959,
+      "language_loss": 0.72230136,
+      "learning_rate": 1.1570782366925453e-06,
+      "loss": 0.74433637,
+      "num_input_tokens_seen": 116226425,
+      "step": 5400,
+      "time_per_iteration": 2.6425514221191406
+    },
+    {
+      "auxiliary_loss_clip": 0.01190786,
+      "auxiliary_loss_mlp": 0.01029107,
+      "balance_loss_clip": 1.04467177,
+      "balance_loss_mlp": 1.0214119,
+      "epoch": 0.6494318523417303,
+      "flos": 18802935072000.0,
+      "grad_norm": 1.6537624208969344,
+      "language_loss": 0.7538197,
+      "learning_rate": 1.1563718928690132e-06,
+      "loss": 0.77601862,
+      "num_input_tokens_seen": 116243860,
+      "step": 5401,
+      "time_per_iteration": 2.642829418182373
+    },
+    {
+      "auxiliary_loss_clip": 0.0119889,
+      "auxiliary_loss_mlp": 0.0103056,
+      "balance_loss_clip": 1.04722881,
+      "balance_loss_mlp": 1.023139,
+      "epoch": 0.6495520952323693,
+      "flos": 18982847318400.0,
+      "grad_norm": 2.8853240190959544,
+      "language_loss": 0.7100395,
+      "learning_rate": 1.1556656770231942e-06,
+      "loss": 0.73233396,
+      "num_input_tokens_seen": 116260055,
+      "step": 5402,
+      "time_per_iteration": 2.653926372528076
+    },
+    {
+      "auxiliary_loss_clip": 0.01179173,
+      "auxiliary_loss_mlp": 0.01026797,
+      "balance_loss_clip": 1.04575288,
+      "balance_loss_mlp": 1.01976943,
+      "epoch": 0.6496723381230085,
+      "flos": 22745388032640.0,
+      "grad_norm": 1.5425201019754873,
+      "language_loss": 0.75970042,
+      "learning_rate": 1.1549595892622207e-06,
+      "loss": 0.7817601,
+      "num_input_tokens_seen": 116278825,
+      "step": 5403,
+      "time_per_iteration": 2.6561717987060547
+    },
+    {
+      "auxiliary_loss_clip": 0.01113622,
+      "auxiliary_loss_mlp": 0.01000861,
+      "balance_loss_clip": 1.01474857,
+      "balance_loss_mlp": 0.99956763,
+      "epoch": 0.6497925810136476,
+      "flos": 62145283887360.0,
+      "grad_norm": 0.8214946898225934,
+      "language_loss": 0.5904336,
+      "learning_rate": 1.1542536296932047e-06,
+      "loss": 0.61157846,
+      "num_input_tokens_seen": 116342360,
+      "step": 5404,
+      "time_per_iteration": 3.2172324657440186
+    },
+    {
+      "auxiliary_loss_clip": 0.01204866,
+      "auxiliary_loss_mlp": 0.01026628,
+      "balance_loss_clip": 1.04466653,
+      "balance_loss_mlp": 1.01794958,
+      "epoch": 0.6499128239042866,
+      "flos": 20156731695360.0,
+      "grad_norm": 1.7268927948806507,
+      "language_loss": 0.70197845,
+      "learning_rate": 1.1535477984232414e-06,
+      "loss": 0.72429335,
+      "num_input_tokens_seen": 116362235,
+      "step": 5405,
+      "time_per_iteration": 2.7211709022521973
+    },
+    {
+      "auxiliary_loss_clip": 0.01208124,
+      "auxiliary_loss_mlp": 0.01029553,
+      "balance_loss_clip": 1.04086661,
+      "balance_loss_mlp": 1.02219141,
+      "epoch": 0.6500330667949258,
+      "flos": 24462420940800.0,
+      "grad_norm": 1.971768965948585,
+      "language_loss": 0.76447004,
+      "learning_rate": 1.152842095559404e-06,
+      "loss": 0.78684682,
+      "num_input_tokens_seen": 116382895,
+      "step": 5406,
+      "time_per_iteration": 2.7210352420806885
+    },
+    {
+      "auxiliary_loss_clip": 0.01194412,
+      "auxiliary_loss_mlp": 0.01020198,
+      "balance_loss_clip": 1.04611206,
+      "balance_loss_mlp": 1.01327491,
+      "epoch": 0.6501533096855648,
+      "flos": 25477399549440.0,
+      "grad_norm": 1.6527032920024687,
+      "language_loss": 0.76815099,
+      "learning_rate": 1.1521365212087474e-06,
+      "loss": 0.79029709,
+      "num_input_tokens_seen": 116402880,
+      "step": 5407,
+      "time_per_iteration": 2.730943202972412
+    },
+    {
+      "auxiliary_loss_clip": 0.01182627,
+      "auxiliary_loss_mlp": 0.01025249,
+      "balance_loss_clip": 1.04743695,
+      "balance_loss_mlp": 1.01711345,
+      "epoch": 0.6502735525762039,
+      "flos": 44819245347840.0,
+      "grad_norm": 1.6608805327096103,
+      "language_loss": 0.70600367,
+      "learning_rate": 1.1514310754783062e-06,
+      "loss": 0.72808242,
+      "num_input_tokens_seen": 116425830,
+      "step": 5408,
+      "time_per_iteration": 2.895686388015747
+    },
+    {
+      "auxiliary_loss_clip": 0.01193855,
+      "auxiliary_loss_mlp": 0.01028343,
+      "balance_loss_clip": 1.04800737,
+      "balance_loss_mlp": 1.02096117,
+      "epoch": 0.6503937954668431,
+      "flos": 28658546726400.0,
+      "grad_norm": 2.249244046018649,
+      "language_loss": 0.73161781,
+      "learning_rate": 1.1507257584750964e-06,
+      "loss": 0.75383973,
+      "num_input_tokens_seen": 116446010,
+      "step": 5409,
+      "time_per_iteration": 2.721442937850952
+    },
+    {
+      "auxiliary_loss_clip": 0.01174873,
+      "auxiliary_loss_mlp": 0.01027295,
+      "balance_loss_clip": 1.0521996,
+      "balance_loss_mlp": 1.01958179,
+      "epoch": 0.6505140383574821,
+      "flos": 20922562592640.0,
+      "grad_norm": 1.8314584761578063,
+      "language_loss": 0.77295184,
+      "learning_rate": 1.150020570306113e-06,
+      "loss": 0.79497349,
+      "num_input_tokens_seen": 116465150,
+      "step": 5410,
+      "time_per_iteration": 2.576352834701538
+    },
+    {
+      "auxiliary_loss_clip": 0.01179875,
+      "auxiliary_loss_mlp": 0.01031319,
+      "balance_loss_clip": 1.04209447,
+      "balance_loss_mlp": 1.02327847,
+      "epoch": 0.6506342812481212,
+      "flos": 20595236929920.0,
+      "grad_norm": 1.8165308130747249,
+      "language_loss": 0.74878114,
+      "learning_rate": 1.1493155110783338e-06,
+      "loss": 0.7708931,
+      "num_input_tokens_seen": 116483675,
+      "step": 5411,
+      "time_per_iteration": 2.6208078861236572
+    },
+    {
+      "auxiliary_loss_clip": 0.01182637,
+      "auxiliary_loss_mlp": 0.01027201,
+      "balance_loss_clip": 1.04964876,
+      "balance_loss_mlp": 1.01961291,
+      "epoch": 0.6507545241387603,
+      "flos": 30226478279040.0,
+      "grad_norm": 1.7994654287467176,
+      "language_loss": 0.70507681,
+      "learning_rate": 1.1486105808987155e-06,
+      "loss": 0.72717512,
+      "num_input_tokens_seen": 116505165,
+      "step": 5412,
+      "time_per_iteration": 2.710911750793457
+    },
+    {
+      "auxiliary_loss_clip": 0.01185535,
+      "auxiliary_loss_mlp": 0.01023654,
+      "balance_loss_clip": 1.05076313,
+      "balance_loss_mlp": 1.01547015,
+      "epoch": 0.6508747670293994,
+      "flos": 17128241320320.0,
+      "grad_norm": 2.0252154480151403,
+      "language_loss": 0.81195951,
+      "learning_rate": 1.1479057798741947e-06,
+      "loss": 0.83405143,
+      "num_input_tokens_seen": 116523220,
+      "step": 5413,
+      "time_per_iteration": 2.596022367477417
+    },
+    {
+      "auxiliary_loss_clip": 0.01089891,
+      "auxiliary_loss_mlp": 0.01002956,
+      "balance_loss_clip": 1.01600957,
+      "balance_loss_mlp": 1.00190735,
+      "epoch": 0.6509950099200384,
+      "flos": 68559826573440.0,
+      "grad_norm": 0.7901042256692048,
+      "language_loss": 0.5331881,
+      "learning_rate": 1.14720110811169e-06,
+      "loss": 0.55411661,
+      "num_input_tokens_seen": 116580450,
+      "step": 5414,
+      "time_per_iteration": 3.253159999847412
+    },
+    {
+      "auxiliary_loss_clip": 0.01187067,
+      "auxiliary_loss_mlp": 0.01025498,
+      "balance_loss_clip": 1.05158293,
+      "balance_loss_mlp": 1.0174036,
+      "epoch": 0.6511152528106776,
+      "flos": 22347462188160.0,
+      "grad_norm": 2.366500921497808,
+      "language_loss": 0.76484263,
+      "learning_rate": 1.146496565718098e-06,
+      "loss": 0.78696823,
+      "num_input_tokens_seen": 116601020,
+      "step": 5415,
+      "time_per_iteration": 3.5411922931671143
+    },
+    {
+      "auxiliary_loss_clip": 0.01189665,
+      "auxiliary_loss_mlp": 0.01018896,
+      "balance_loss_clip": 1.04787433,
+      "balance_loss_mlp": 1.01165438,
+      "epoch": 0.6512354957013167,
+      "flos": 20522158709760.0,
+      "grad_norm": 3.0409287680159958,
+      "language_loss": 0.75958955,
+      "learning_rate": 1.1457921528002996e-06,
+      "loss": 0.78167516,
+      "num_input_tokens_seen": 116619455,
+      "step": 5416,
+      "time_per_iteration": 2.643118381500244
+    },
+    {
+      "auxiliary_loss_clip": 0.01172102,
+      "auxiliary_loss_mlp": 0.01378725,
+      "balance_loss_clip": 1.04935384,
+      "balance_loss_mlp": 1.00016868,
+      "epoch": 0.6513557385919557,
+      "flos": 32337342881280.0,
+      "grad_norm": 2.507627764503028,
+      "language_loss": 0.72113788,
+      "learning_rate": 1.1450878694651522e-06,
+      "loss": 0.74664611,
+      "num_input_tokens_seen": 116640020,
+      "step": 5417,
+      "time_per_iteration": 3.5611321926116943
+    },
+    {
+      "auxiliary_loss_clip": 0.01208028,
+      "auxiliary_loss_mlp": 0.0102582,
+      "balance_loss_clip": 1.04224288,
+      "balance_loss_mlp": 1.01827383,
+      "epoch": 0.6514759814825949,
+      "flos": 12093206417280.0,
+      "grad_norm": 2.3965509206479942,
+      "language_loss": 0.63758707,
+      "learning_rate": 1.1443837158194954e-06,
+      "loss": 0.65992558,
+      "num_input_tokens_seen": 116655165,
+      "step": 5418,
+      "time_per_iteration": 2.6105048656463623
+    },
+    {
+      "auxiliary_loss_clip": 0.01200362,
+      "auxiliary_loss_mlp": 0.01022223,
+      "balance_loss_clip": 1.04859376,
+      "balance_loss_mlp": 1.01465333,
+      "epoch": 0.651596224373234,
+      "flos": 22526907557760.0,
+      "grad_norm": 1.6081219981507633,
+      "language_loss": 0.74242854,
+      "learning_rate": 1.1436796919701484e-06,
+      "loss": 0.7646544,
+      "num_input_tokens_seen": 116673880,
+      "step": 5419,
+      "time_per_iteration": 3.6956496238708496
+    },
+    {
+      "auxiliary_loss_clip": 0.0119021,
+      "auxiliary_loss_mlp": 0.01026959,
+      "balance_loss_clip": 1.04746473,
+      "balance_loss_mlp": 1.01932931,
+      "epoch": 0.651716467263873,
+      "flos": 27818955250560.0,
+      "grad_norm": 2.076957208918215,
+      "language_loss": 0.61947632,
+      "learning_rate": 1.1429757980239115e-06,
+      "loss": 0.64164799,
+      "num_input_tokens_seen": 116694305,
+      "step": 5420,
+      "time_per_iteration": 2.7299818992614746
+    },
+    {
+      "auxiliary_loss_clip": 0.01174049,
+      "auxiliary_loss_mlp": 0.01031183,
+      "balance_loss_clip": 1.04944897,
+      "balance_loss_mlp": 1.02268314,
+      "epoch": 0.6518367101545122,
+      "flos": 24316300414080.0,
+      "grad_norm": 2.3359042561971193,
+      "language_loss": 0.81254995,
+      "learning_rate": 1.1422720340875636e-06,
+      "loss": 0.83460224,
+      "num_input_tokens_seen": 116713055,
+      "step": 5421,
+      "time_per_iteration": 2.5948848724365234
+    },
+    {
+      "auxiliary_loss_clip": 0.01186024,
+      "auxiliary_loss_mlp": 0.01027234,
+      "balance_loss_clip": 1.04856539,
+      "balance_loss_mlp": 1.01970017,
+      "epoch": 0.6519569530451512,
+      "flos": 20011939971840.0,
+      "grad_norm": 3.4211058863963792,
+      "language_loss": 0.78994656,
+      "learning_rate": 1.1415684002678671e-06,
+      "loss": 0.81207919,
+      "num_input_tokens_seen": 116731815,
+      "step": 5422,
+      "time_per_iteration": 2.6277806758880615
+    },
+    {
+      "auxiliary_loss_clip": 0.01192445,
+      "auxiliary_loss_mlp": 0.01024483,
+      "balance_loss_clip": 1.04637861,
+      "balance_loss_mlp": 1.01632285,
+      "epoch": 0.6520771959357903,
+      "flos": 21576064682880.0,
+      "grad_norm": 2.3761010479037403,
+      "language_loss": 0.77662086,
+      "learning_rate": 1.1408648966715617e-06,
+      "loss": 0.7987901,
+      "num_input_tokens_seen": 116749335,
+      "step": 5423,
+      "time_per_iteration": 3.566775321960449
+    },
+    {
+      "auxiliary_loss_clip": 0.01188972,
+      "auxiliary_loss_mlp": 0.01029984,
+      "balance_loss_clip": 1.04381573,
+      "balance_loss_mlp": 1.02180636,
+      "epoch": 0.6521974388264293,
+      "flos": 22711021695360.0,
+      "grad_norm": 1.8089787966110364,
+      "language_loss": 0.72496557,
+      "learning_rate": 1.1401615234053683e-06,
+      "loss": 0.74715513,
+      "num_input_tokens_seen": 116768155,
+      "step": 5424,
+      "time_per_iteration": 2.698035478591919
+    },
+    {
+      "auxiliary_loss_clip": 0.0119054,
+      "auxiliary_loss_mlp": 0.01029816,
+      "balance_loss_clip": 1.04544044,
+      "balance_loss_mlp": 1.02191281,
+      "epoch": 0.6523176817170685,
+      "flos": 23002939526400.0,
+      "grad_norm": 2.02555910557439,
+      "language_loss": 0.75496566,
+      "learning_rate": 1.1394582805759885e-06,
+      "loss": 0.77716923,
+      "num_input_tokens_seen": 116787435,
+      "step": 5425,
+      "time_per_iteration": 2.633366584777832
+    },
+    {
+      "auxiliary_loss_clip": 0.01179099,
+      "auxiliary_loss_mlp": 0.01023786,
+      "balance_loss_clip": 1.0480783,
+      "balance_loss_mlp": 1.0153873,
+      "epoch": 0.6524379246077076,
+      "flos": 21688249835520.0,
+      "grad_norm": 1.9460779457336144,
+      "language_loss": 0.75835812,
+      "learning_rate": 1.1387551682901022e-06,
+      "loss": 0.78038698,
+      "num_input_tokens_seen": 116808040,
+      "step": 5426,
+      "time_per_iteration": 2.636065721511841
+    },
+    {
+      "auxiliary_loss_clip": 0.01194832,
+      "auxiliary_loss_mlp": 0.01030508,
+      "balance_loss_clip": 1.04468632,
+      "balance_loss_mlp": 1.02247906,
+      "epoch": 0.6525581674983466,
+      "flos": 19390936711680.0,
+      "grad_norm": 2.004017003958974,
+      "language_loss": 0.70593548,
+      "learning_rate": 1.138052186654373e-06,
+      "loss": 0.72818887,
+      "num_input_tokens_seen": 116825510,
+      "step": 5427,
+      "time_per_iteration": 2.6560378074645996
+    },
+    {
+      "auxiliary_loss_clip": 0.01190725,
+      "auxiliary_loss_mlp": 0.01033343,
+      "balance_loss_clip": 1.04627967,
+      "balance_loss_mlp": 1.02551103,
+      "epoch": 0.6526784103889858,
+      "flos": 17165444832000.0,
+      "grad_norm": 2.5049162624030843,
+      "language_loss": 0.88022763,
+      "learning_rate": 1.1373493357754417e-06,
+      "loss": 0.90246832,
+      "num_input_tokens_seen": 116844415,
+      "step": 5428,
+      "time_per_iteration": 2.6660566329956055
+    },
+    {
+      "auxiliary_loss_clip": 0.01170368,
+      "auxiliary_loss_mlp": 0.0102535,
+      "balance_loss_clip": 1.04666352,
+      "balance_loss_mlp": 1.01792586,
+      "epoch": 0.6527986532796248,
+      "flos": 18989168112000.0,
+      "grad_norm": 2.0871784779588483,
+      "language_loss": 0.77509093,
+      "learning_rate": 1.1366466157599303e-06,
+      "loss": 0.79704821,
+      "num_input_tokens_seen": 116863690,
+      "step": 5429,
+      "time_per_iteration": 2.5707809925079346
+    },
+    {
+      "auxiliary_loss_clip": 0.01203162,
+      "auxiliary_loss_mlp": 0.01378875,
+      "balance_loss_clip": 1.0421766,
+      "balance_loss_mlp": 1.00024629,
+      "epoch": 0.6529188961702639,
+      "flos": 14238581011200.0,
+      "grad_norm": 2.5154091109959738,
+      "language_loss": 0.75939143,
+      "learning_rate": 1.1359440267144412e-06,
+      "loss": 0.7852118,
+      "num_input_tokens_seen": 116881145,
+      "step": 5430,
+      "time_per_iteration": 2.8525893688201904
+    },
+    {
+      "auxiliary_loss_clip": 0.01184516,
+      "auxiliary_loss_mlp": 0.0102959,
+      "balance_loss_clip": 1.04949141,
+      "balance_loss_mlp": 1.02191842,
+      "epoch": 0.653039139060903,
+      "flos": 36682929158400.0,
+      "grad_norm": 2.626020123659012,
+      "language_loss": 0.74177217,
+      "learning_rate": 1.1352415687455556e-06,
+      "loss": 0.76391327,
+      "num_input_tokens_seen": 116902405,
+      "step": 5431,
+      "time_per_iteration": 2.8218746185302734
+    },
+    {
+      "auxiliary_loss_clip": 0.01183187,
+      "auxiliary_loss_mlp": 0.01026734,
+      "balance_loss_clip": 1.04952693,
+      "balance_loss_mlp": 1.01862788,
+      "epoch": 0.6531593819515421,
+      "flos": 25376275785600.0,
+      "grad_norm": 2.4762394340446807,
+      "language_loss": 0.63969755,
+      "learning_rate": 1.1345392419598362e-06,
+      "loss": 0.66179681,
+      "num_input_tokens_seen": 116921285,
+      "step": 5432,
+      "time_per_iteration": 2.676400661468506
+    },
+    {
+      "auxiliary_loss_clip": 0.01174112,
+      "auxiliary_loss_mlp": 0.0103146,
+      "balance_loss_clip": 1.04602814,
+      "balance_loss_mlp": 1.02373552,
+      "epoch": 0.6532796248421812,
+      "flos": 21178533888000.0,
+      "grad_norm": 1.842889480426148,
+      "language_loss": 0.72366321,
+      "learning_rate": 1.1338370464638263e-06,
+      "loss": 0.74571896,
+      "num_input_tokens_seen": 116940685,
+      "step": 5433,
+      "time_per_iteration": 2.6400399208068848
+    },
+    {
+      "auxiliary_loss_clip": 0.01173506,
+      "auxiliary_loss_mlp": 0.01023494,
+      "balance_loss_clip": 1.048944,
+      "balance_loss_mlp": 1.01606178,
+      "epoch": 0.6533998677328203,
+      "flos": 17675950878720.0,
+      "grad_norm": 2.649405537559041,
+      "language_loss": 0.64052808,
+      "learning_rate": 1.1331349823640474e-06,
+      "loss": 0.66249806,
+      "num_input_tokens_seen": 116958115,
+      "step": 5434,
+      "time_per_iteration": 2.6273081302642822
+    },
+    {
+      "auxiliary_loss_clip": 0.01180154,
+      "auxiliary_loss_mlp": 0.01378383,
+      "balance_loss_clip": 1.04729056,
+      "balance_loss_mlp": 1.0002228,
+      "epoch": 0.6535201106234594,
+      "flos": 28400384701440.0,
+      "grad_norm": 2.7012870356305116,
+      "language_loss": 0.77971828,
+      "learning_rate": 1.132433049767003e-06,
+      "loss": 0.80530369,
+      "num_input_tokens_seen": 116976030,
+      "step": 5435,
+      "time_per_iteration": 2.726398468017578
+    },
+    {
+      "auxiliary_loss_clip": 0.01189538,
+      "auxiliary_loss_mlp": 0.01019054,
+      "balance_loss_clip": 1.04789758,
+      "balance_loss_mlp": 1.01196671,
+      "epoch": 0.6536403535140984,
+      "flos": 23586667447680.0,
+      "grad_norm": 1.5269881874507516,
+      "language_loss": 0.80997062,
+      "learning_rate": 1.1317312487791748e-06,
+      "loss": 0.83205652,
+      "num_input_tokens_seen": 116997680,
+      "step": 5436,
+      "time_per_iteration": 2.7141425609588623
+    },
+    {
+      "auxiliary_loss_clip": 0.01174041,
+      "auxiliary_loss_mlp": 0.01025006,
+      "balance_loss_clip": 1.04602051,
+      "balance_loss_mlp": 1.01729298,
+      "epoch": 0.6537605964047376,
+      "flos": 21579476474880.0,
+      "grad_norm": 9.326610582061123,
+      "language_loss": 0.73362225,
+      "learning_rate": 1.1310295795070253e-06,
+      "loss": 0.75561267,
+      "num_input_tokens_seen": 117017620,
+      "step": 5437,
+      "time_per_iteration": 2.7387421131134033
+    },
+    {
+      "auxiliary_loss_clip": 0.01211123,
+      "auxiliary_loss_mlp": 0.01022164,
+      "balance_loss_clip": 1.04365253,
+      "balance_loss_mlp": 1.01448727,
+      "epoch": 0.6538808392953767,
+      "flos": 26833997433600.0,
+      "grad_norm": 1.842631738040884,
+      "language_loss": 0.81084371,
+      "learning_rate": 1.1303280420569982e-06,
+      "loss": 0.83317661,
+      "num_input_tokens_seen": 117039505,
+      "step": 5438,
+      "time_per_iteration": 2.782607316970825
+    },
+    {
+      "auxiliary_loss_clip": 0.01174339,
+      "auxiliary_loss_mlp": 0.01028309,
+      "balance_loss_clip": 1.0463326,
+      "balance_loss_mlp": 1.02078652,
+      "epoch": 0.6540010821860157,
+      "flos": 30738241301760.0,
+      "grad_norm": 1.6811922804630992,
+      "language_loss": 0.77331412,
+      "learning_rate": 1.1296266365355158e-06,
+      "loss": 0.7953406,
+      "num_input_tokens_seen": 117062890,
+      "step": 5439,
+      "time_per_iteration": 2.702214002609253
+    },
+    {
+      "auxiliary_loss_clip": 0.01204619,
+      "auxiliary_loss_mlp": 0.0102748,
+      "balance_loss_clip": 1.04721451,
+      "balance_loss_mlp": 1.01958883,
+      "epoch": 0.6541213250766549,
+      "flos": 26907147480960.0,
+      "grad_norm": 1.96699760559037,
+      "language_loss": 0.73761636,
+      "learning_rate": 1.1289253630489806e-06,
+      "loss": 0.75993735,
+      "num_input_tokens_seen": 117083940,
+      "step": 5440,
+      "time_per_iteration": 2.681300401687622
+    },
+    {
+      "auxiliary_loss_clip": 0.01186841,
+      "auxiliary_loss_mlp": 0.01029288,
+      "balance_loss_clip": 1.04841924,
+      "balance_loss_mlp": 1.02105045,
+      "epoch": 0.6542415679672939,
+      "flos": 19172384409600.0,
+      "grad_norm": 2.0374017291045985,
+      "language_loss": 0.7207725,
+      "learning_rate": 1.1282242217037753e-06,
+      "loss": 0.74293375,
+      "num_input_tokens_seen": 117101440,
+      "step": 5441,
+      "time_per_iteration": 3.552530288696289
+    },
+    {
+      "auxiliary_loss_clip": 0.01197638,
+      "auxiliary_loss_mlp": 0.0103101,
+      "balance_loss_clip": 1.03814244,
+      "balance_loss_mlp": 1.02314258,
+      "epoch": 0.654361810857933,
+      "flos": 48173517100800.0,
+      "grad_norm": 1.93215412017445,
+      "language_loss": 0.62318116,
+      "learning_rate": 1.127523212606262e-06,
+      "loss": 0.64546764,
+      "num_input_tokens_seen": 117124265,
+      "step": 5442,
+      "time_per_iteration": 2.9870705604553223
+    },
+    {
+      "auxiliary_loss_clip": 0.0117817,
+      "auxiliary_loss_mlp": 0.01027364,
+      "balance_loss_clip": 1.04633737,
+      "balance_loss_mlp": 1.01948476,
+      "epoch": 0.6544820537485722,
+      "flos": 26943165843840.0,
+      "grad_norm": 1.5784819513982715,
+      "language_loss": 0.72948968,
+      "learning_rate": 1.1268223358627835e-06,
+      "loss": 0.75154495,
+      "num_input_tokens_seen": 117146755,
+      "step": 5443,
+      "time_per_iteration": 3.494569778442383
+    },
+    {
+      "auxiliary_loss_clip": 0.01173204,
+      "auxiliary_loss_mlp": 0.01026564,
+      "balance_loss_clip": 1.04939187,
+      "balance_loss_mlp": 1.0188539,
+      "epoch": 0.6546022966392112,
+      "flos": 20886328748160.0,
+      "grad_norm": 1.8507597334800001,
+      "language_loss": 0.72148281,
+      "learning_rate": 1.126121591579663e-06,
+      "loss": 0.74348044,
+      "num_input_tokens_seen": 117165960,
+      "step": 5444,
+      "time_per_iteration": 3.5095598697662354
+    },
+    {
+      "auxiliary_loss_clip": 0.01178697,
+      "auxiliary_loss_mlp": 0.01025331,
+      "balance_loss_clip": 1.04878497,
+      "balance_loss_mlp": 1.01789236,
+      "epoch": 0.6547225395298503,
+      "flos": 24936693143040.0,
+      "grad_norm": 1.6564998311811796,
+      "language_loss": 0.69004714,
+      "learning_rate": 1.1254209798632018e-06,
+      "loss": 0.71208739,
+      "num_input_tokens_seen": 117186980,
+      "step": 5445,
+      "time_per_iteration": 2.6961288452148438
+    },
+    {
+      "auxiliary_loss_clip": 0.01201744,
+      "auxiliary_loss_mlp": 0.01023194,
+      "balance_loss_clip": 1.03938961,
+      "balance_loss_mlp": 1.01553512,
+      "epoch": 0.6548427824204894,
+      "flos": 22565942663040.0,
+      "grad_norm": 1.7076456875356212,
+      "language_loss": 0.84690517,
+      "learning_rate": 1.124720500819683e-06,
+      "loss": 0.86915457,
+      "num_input_tokens_seen": 117205135,
+      "step": 5446,
+      "time_per_iteration": 2.717576026916504
+    },
+    {
+      "auxiliary_loss_clip": 0.01173222,
+      "auxiliary_loss_mlp": 0.01026352,
+      "balance_loss_clip": 1.04935455,
+      "balance_loss_mlp": 1.01853168,
+      "epoch": 0.6549630253111285,
+      "flos": 18442500048000.0,
+      "grad_norm": 2.2110817502115427,
+      "language_loss": 0.82298803,
+      "learning_rate": 1.1240201545553682e-06,
+      "loss": 0.84498382,
+      "num_input_tokens_seen": 117222935,
+      "step": 5447,
+      "time_per_iteration": 2.5877528190612793
+    },
+    {
+      "auxiliary_loss_clip": 0.01198386,
+      "auxiliary_loss_mlp": 0.01026834,
+      "balance_loss_clip": 1.04627335,
+      "balance_loss_mlp": 1.01880193,
+      "epoch": 0.6550832682017675,
+      "flos": 25187313312000.0,
+      "grad_norm": 1.9260976311656293,
+      "language_loss": 0.73342371,
+      "learning_rate": 1.1233199411764987e-06,
+      "loss": 0.75567585,
+      "num_input_tokens_seen": 117242370,
+      "step": 5448,
+      "time_per_iteration": 2.734208583831787
+    },
+    {
+      "auxiliary_loss_clip": 0.01184155,
+      "auxiliary_loss_mlp": 0.01028584,
+      "balance_loss_clip": 1.04193103,
+      "balance_loss_mlp": 1.02072179,
+      "epoch": 0.6552035110924067,
+      "flos": 22748153379840.0,
+      "grad_norm": 1.7176198334647896,
+      "language_loss": 0.68905151,
+      "learning_rate": 1.1226198607892978e-06,
+      "loss": 0.7111789,
+      "num_input_tokens_seen": 117262930,
+      "step": 5449,
+      "time_per_iteration": 3.598304033279419
+    },
+    {
+      "auxiliary_loss_clip": 0.01211709,
+      "auxiliary_loss_mlp": 0.01031116,
+      "balance_loss_clip": 1.04703844,
+      "balance_loss_mlp": 1.02344513,
+      "epoch": 0.6553237539830458,
+      "flos": 21799178012160.0,
+      "grad_norm": 3.2455517099084292,
+      "language_loss": 0.80019492,
+      "learning_rate": 1.1219199134999664e-06,
+      "loss": 0.82262313,
+      "num_input_tokens_seen": 117281430,
+      "step": 5450,
+      "time_per_iteration": 2.8103978633880615
+    },
+    {
+      "auxiliary_loss_clip": 0.01192153,
+      "auxiliary_loss_mlp": 0.01027373,
+      "balance_loss_clip": 1.04713202,
+      "balance_loss_mlp": 1.01933217,
+      "epoch": 0.6554439968736848,
+      "flos": 20887226588160.0,
+      "grad_norm": 2.089938460230114,
+      "language_loss": 0.7849021,
+      "learning_rate": 1.1212200994146863e-06,
+      "loss": 0.80709732,
+      "num_input_tokens_seen": 117299185,
+      "step": 5451,
+      "time_per_iteration": 2.656121253967285
+    },
+    {
+      "auxiliary_loss_clip": 0.01192771,
+      "auxiliary_loss_mlp": 0.01031131,
+      "balance_loss_clip": 1.03899562,
+      "balance_loss_mlp": 1.02332234,
+      "epoch": 0.655564239764324,
+      "flos": 16139045698560.0,
+      "grad_norm": 1.9389421928802228,
+      "language_loss": 0.75747788,
+      "learning_rate": 1.120520418639618e-06,
+      "loss": 0.77971691,
+      "num_input_tokens_seen": 117317720,
+      "step": 5452,
+      "time_per_iteration": 2.7524914741516113
+    },
+    {
+      "auxiliary_loss_clip": 0.01183699,
+      "auxiliary_loss_mlp": 0.01027776,
+      "balance_loss_clip": 1.05047321,
+      "balance_loss_mlp": 1.02022409,
+      "epoch": 0.655684482654963,
+      "flos": 29570354496000.0,
+      "grad_norm": 6.214552861638131,
+      "language_loss": 0.83272016,
+      "learning_rate": 1.119820871280903e-06,
+      "loss": 0.85483491,
+      "num_input_tokens_seen": 117338795,
+      "step": 5453,
+      "time_per_iteration": 2.6760146617889404
+    },
+    {
+      "auxiliary_loss_clip": 0.01180355,
+      "auxiliary_loss_mlp": 0.01028438,
+      "balance_loss_clip": 1.04832768,
+      "balance_loss_mlp": 1.02025437,
+      "epoch": 0.6558047255456021,
+      "flos": 29789409588480.0,
+      "grad_norm": 2.6481168548383685,
+      "language_loss": 0.73901677,
+      "learning_rate": 1.1191214574446614e-06,
+      "loss": 0.7611047,
+      "num_input_tokens_seen": 117359040,
+      "step": 5454,
+      "time_per_iteration": 2.686100721359253
+    },
+    {
+      "auxiliary_loss_clip": 0.01183202,
+      "auxiliary_loss_mlp": 0.01026634,
+      "balance_loss_clip": 1.04527545,
+      "balance_loss_mlp": 1.0187782,
+      "epoch": 0.6559249684362413,
+      "flos": 29059166090880.0,
+      "grad_norm": 1.5455310842617695,
+      "language_loss": 0.8009994,
+      "learning_rate": 1.118422177236995e-06,
+      "loss": 0.82309777,
+      "num_input_tokens_seen": 117380865,
+      "step": 5455,
+      "time_per_iteration": 2.741837739944458
+    },
+    {
+      "auxiliary_loss_clip": 0.0119116,
+      "auxiliary_loss_mlp": 0.01031436,
+      "balance_loss_clip": 1.04665029,
+      "balance_loss_mlp": 1.02366316,
+      "epoch": 0.6560452113268803,
+      "flos": 20225464369920.0,
+      "grad_norm": 1.952781535387301,
+      "language_loss": 0.85610479,
+      "learning_rate": 1.1177230307639835e-06,
+      "loss": 0.87833071,
+      "num_input_tokens_seen": 117398405,
+      "step": 5456,
+      "time_per_iteration": 2.685612678527832
+    },
+    {
+      "auxiliary_loss_clip": 0.01196129,
+      "auxiliary_loss_mlp": 0.01022151,
+      "balance_loss_clip": 1.04490924,
+      "balance_loss_mlp": 1.01471543,
+      "epoch": 0.6561654542175194,
+      "flos": 25045538330880.0,
+      "grad_norm": 1.6783494037134383,
+      "language_loss": 0.78837311,
+      "learning_rate": 1.1170240181316865e-06,
+      "loss": 0.81055593,
+      "num_input_tokens_seen": 117419850,
+      "step": 5457,
+      "time_per_iteration": 2.6994621753692627
+    },
+    {
+      "auxiliary_loss_clip": 0.01190767,
+      "auxiliary_loss_mlp": 0.01025204,
+      "balance_loss_clip": 1.04143119,
+      "balance_loss_mlp": 1.01765788,
+      "epoch": 0.6562856971081584,
+      "flos": 22856711258880.0,
+      "grad_norm": 2.130496461231111,
+      "language_loss": 0.79261708,
+      "learning_rate": 1.1163251394461442e-06,
+      "loss": 0.81477684,
+      "num_input_tokens_seen": 117438330,
+      "step": 5458,
+      "time_per_iteration": 2.791262149810791
+    },
+    {
+      "auxiliary_loss_clip": 0.01177004,
+      "auxiliary_loss_mlp": 0.0102428,
+      "balance_loss_clip": 1.04644394,
+      "balance_loss_mlp": 1.0167942,
+      "epoch": 0.6564059399987976,
+      "flos": 18872565586560.0,
+      "grad_norm": 2.1052055773073977,
+      "language_loss": 0.82161522,
+      "learning_rate": 1.1156263948133746e-06,
+      "loss": 0.84362805,
+      "num_input_tokens_seen": 117454985,
+      "step": 5459,
+      "time_per_iteration": 2.6147706508636475
+    },
+    {
+      "auxiliary_loss_clip": 0.01196216,
+      "auxiliary_loss_mlp": 0.01378995,
+      "balance_loss_clip": 1.04268622,
+      "balance_loss_mlp": 1.00023341,
+      "epoch": 0.6565261828894366,
+      "flos": 25484187219840.0,
+      "grad_norm": 1.7275216015008015,
+      "language_loss": 0.7758832,
+      "learning_rate": 1.1149277843393787e-06,
+      "loss": 0.80163532,
+      "num_input_tokens_seen": 117476145,
+      "step": 5460,
+      "time_per_iteration": 2.7401113510131836
+    },
+    {
+      "auxiliary_loss_clip": 0.01207593,
+      "auxiliary_loss_mlp": 0.01378774,
+      "balance_loss_clip": 1.03780222,
+      "balance_loss_mlp": 1.00020146,
+      "epoch": 0.6566464257800757,
+      "flos": 19683500987520.0,
+      "grad_norm": 2.552209470122296,
+      "language_loss": 0.63417125,
+      "learning_rate": 1.1142293081301342e-06,
+      "loss": 0.66003489,
+      "num_input_tokens_seen": 117494025,
+      "step": 5461,
+      "time_per_iteration": 2.8092641830444336
+    },
+    {
+      "auxiliary_loss_clip": 0.01187376,
+      "auxiliary_loss_mlp": 0.010211,
+      "balance_loss_clip": 1.04766417,
+      "balance_loss_mlp": 1.0138998,
+      "epoch": 0.6567666686707149,
+      "flos": 23514127931520.0,
+      "grad_norm": 1.6012606276308419,
+      "language_loss": 0.67834008,
+      "learning_rate": 1.1135309662915995e-06,
+      "loss": 0.70042479,
+      "num_input_tokens_seen": 117514190,
+      "step": 5462,
+      "time_per_iteration": 2.761206865310669
+    },
+    {
+      "auxiliary_loss_clip": 0.01211734,
+      "auxiliary_loss_mlp": 0.01021311,
+      "balance_loss_clip": 1.04113817,
+      "balance_loss_mlp": 1.01340747,
+      "epoch": 0.6568869115613539,
+      "flos": 32781342896640.0,
+      "grad_norm": 2.2635145912768198,
+      "language_loss": 0.60597241,
+      "learning_rate": 1.112832758929712e-06,
+      "loss": 0.62830287,
+      "num_input_tokens_seen": 117536800,
+      "step": 5463,
+      "time_per_iteration": 2.8574702739715576
+    },
+    {
+      "auxiliary_loss_clip": 0.01179878,
+      "auxiliary_loss_mlp": 0.010293,
+      "balance_loss_clip": 1.04911637,
+      "balance_loss_mlp": 1.02127147,
+      "epoch": 0.657007154451993,
+      "flos": 18442428220800.0,
+      "grad_norm": 2.615514964998461,
+      "language_loss": 0.74846554,
+      "learning_rate": 1.11213468615039e-06,
+      "loss": 0.77055728,
+      "num_input_tokens_seen": 117556230,
+      "step": 5464,
+      "time_per_iteration": 2.649663209915161
+    },
+    {
+      "auxiliary_loss_clip": 0.01210751,
+      "auxiliary_loss_mlp": 0.01021146,
+      "balance_loss_clip": 1.03923893,
+      "balance_loss_mlp": 1.01360941,
+      "epoch": 0.6571273973426321,
+      "flos": 25156717902720.0,
+      "grad_norm": 1.590347505351862,
+      "language_loss": 0.75183594,
+      "learning_rate": 1.1114367480595292e-06,
+      "loss": 0.7741549,
+      "num_input_tokens_seen": 117577310,
+      "step": 5465,
+      "time_per_iteration": 2.8114919662475586
+    },
+    {
+      "auxiliary_loss_clip": 0.0121479,
+      "auxiliary_loss_mlp": 0.01026011,
+      "balance_loss_clip": 1.04221129,
+      "balance_loss_mlp": 1.0169332,
+      "epoch": 0.6572476402332712,
+      "flos": 17529830352000.0,
+      "grad_norm": 1.8825456053584273,
+      "language_loss": 0.81380725,
+      "learning_rate": 1.1107389447630086e-06,
+      "loss": 0.83621526,
+      "num_input_tokens_seen": 117596010,
+      "step": 5466,
+      "time_per_iteration": 2.7108876705169678
+    },
+    {
+      "auxiliary_loss_clip": 0.01182698,
+      "auxiliary_loss_mlp": 0.01378555,
+      "balance_loss_clip": 1.04321921,
+      "balance_loss_mlp": 1.00017047,
+      "epoch": 0.6573678831239103,
+      "flos": 17014260487680.0,
+      "grad_norm": 2.2551953764470514,
+      "language_loss": 0.78166765,
+      "learning_rate": 1.1100412763666818e-06,
+      "loss": 0.80728018,
+      "num_input_tokens_seen": 117611270,
+      "step": 5467,
+      "time_per_iteration": 3.683776378631592
+    },
+    {
+      "auxiliary_loss_clip": 0.0119304,
+      "auxiliary_loss_mlp": 0.01024009,
+      "balance_loss_clip": 1.04822516,
+      "balance_loss_mlp": 1.01668358,
+      "epoch": 0.6574881260145494,
+      "flos": 23910078528000.0,
+      "grad_norm": 2.401831570390094,
+      "language_loss": 0.80115378,
+      "learning_rate": 1.1093437429763865e-06,
+      "loss": 0.82332432,
+      "num_input_tokens_seen": 117631535,
+      "step": 5468,
+      "time_per_iteration": 3.530486822128296
+    },
+    {
+      "auxiliary_loss_clip": 0.01180594,
+      "auxiliary_loss_mlp": 0.0102663,
+      "balance_loss_clip": 1.04727757,
+      "balance_loss_mlp": 1.01942086,
+      "epoch": 0.6576083689051885,
+      "flos": 11218458504960.0,
+      "grad_norm": 1.9952258422789133,
+      "language_loss": 0.7359606,
+      "learning_rate": 1.1086463446979361e-06,
+      "loss": 0.7580328,
+      "num_input_tokens_seen": 117649885,
+      "step": 5469,
+      "time_per_iteration": 2.5653040409088135
+    },
+    {
+      "auxiliary_loss_clip": 0.01184533,
+      "auxiliary_loss_mlp": 0.01027554,
+      "balance_loss_clip": 1.05024886,
+      "balance_loss_mlp": 1.01921487,
+      "epoch": 0.6577286117958275,
+      "flos": 22455553190400.0,
+      "grad_norm": 1.9601870192669129,
+      "language_loss": 0.77582896,
+      "learning_rate": 1.1079490816371277e-06,
+      "loss": 0.79794985,
+      "num_input_tokens_seen": 117669650,
+      "step": 5470,
+      "time_per_iteration": 2.640389919281006
+    },
+    {
+      "auxiliary_loss_clip": 0.01181466,
+      "auxiliary_loss_mlp": 0.01379024,
+      "balance_loss_clip": 1.04759228,
+      "balance_loss_mlp": 1.0001657,
+      "epoch": 0.6578488546864667,
+      "flos": 21872184405120.0,
+      "grad_norm": 2.1486738187691374,
+      "language_loss": 0.74587703,
+      "learning_rate": 1.1072519538997352e-06,
+      "loss": 0.77148187,
+      "num_input_tokens_seen": 117688790,
+      "step": 5471,
+      "time_per_iteration": 3.56889009475708
+    },
+    {
+      "auxiliary_loss_clip": 0.01191577,
+      "auxiliary_loss_mlp": 0.01026862,
+      "balance_loss_clip": 1.04404497,
+      "balance_loss_mlp": 1.0190717,
+      "epoch": 0.6579690975771058,
+      "flos": 23543753673600.0,
+      "grad_norm": 1.7587335565438564,
+      "language_loss": 0.82282346,
+      "learning_rate": 1.1065549615915095e-06,
+      "loss": 0.84500784,
+      "num_input_tokens_seen": 117708620,
+      "step": 5472,
+      "time_per_iteration": 2.6895265579223633
+    },
+    {
+      "auxiliary_loss_clip": 0.01184183,
+      "auxiliary_loss_mlp": 0.01031134,
+      "balance_loss_clip": 1.05285609,
+      "balance_loss_mlp": 1.02306914,
+      "epoch": 0.6580893404677448,
+      "flos": 32743995730560.0,
+      "grad_norm": 3.0037491904279072,
+      "language_loss": 0.78420812,
+      "learning_rate": 1.105858104818187e-06,
+      "loss": 0.8063612,
+      "num_input_tokens_seen": 117729775,
+      "step": 5473,
+      "time_per_iteration": 2.7206971645355225
+    },
+    {
+      "auxiliary_loss_clip": 0.01185777,
+      "auxiliary_loss_mlp": 0.01026646,
+      "balance_loss_clip": 1.04851985,
+      "balance_loss_mlp": 1.01856971,
+      "epoch": 0.658209583358384,
+      "flos": 15888138220800.0,
+      "grad_norm": 2.43776280206725,
+      "language_loss": 0.7515322,
+      "learning_rate": 1.105161383685478e-06,
+      "loss": 0.77365649,
+      "num_input_tokens_seen": 117746160,
+      "step": 5474,
+      "time_per_iteration": 3.5353760719299316
+    },
+    {
+      "auxiliary_loss_clip": 0.01104643,
+      "auxiliary_loss_mlp": 0.0100203,
+      "balance_loss_clip": 1.01331365,
+      "balance_loss_mlp": 1.00074291,
+      "epoch": 0.658329826249023,
+      "flos": 62695902447360.0,
+      "grad_norm": 0.7271054230891241,
+      "language_loss": 0.5634498,
+      "learning_rate": 1.1044647982990771e-06,
+      "loss": 0.58451653,
+      "num_input_tokens_seen": 117808045,
+      "step": 5475,
+      "time_per_iteration": 3.2078685760498047
+    },
+    {
+      "auxiliary_loss_clip": 0.01192184,
+      "auxiliary_loss_mlp": 0.01027084,
+      "balance_loss_clip": 1.04739881,
+      "balance_loss_mlp": 1.01845312,
+      "epoch": 0.6584500691396621,
+      "flos": 31722624501120.0,
+      "grad_norm": 2.2937727402492767,
+      "language_loss": 0.64572388,
+      "learning_rate": 1.1037683487646536e-06,
+      "loss": 0.66791654,
+      "num_input_tokens_seen": 117828330,
+      "step": 5476,
+      "time_per_iteration": 2.7580296993255615
+    },
+    {
+      "auxiliary_loss_clip": 0.01187751,
+      "auxiliary_loss_mlp": 0.01378847,
+      "balance_loss_clip": 1.04782701,
+      "balance_loss_mlp": 1.00014412,
+      "epoch": 0.6585703120303013,
+      "flos": 18406086635520.0,
+      "grad_norm": 2.4701921502218913,
+      "language_loss": 0.76813495,
+      "learning_rate": 1.1030720351878583e-06,
+      "loss": 0.79380095,
+      "num_input_tokens_seen": 117846450,
+      "step": 5477,
+      "time_per_iteration": 2.6711387634277344
+    },
+    {
+      "auxiliary_loss_clip": 0.01092585,
+      "auxiliary_loss_mlp": 0.01005494,
+      "balance_loss_clip": 1.01134181,
+      "balance_loss_mlp": 1.00420082,
+      "epoch": 0.6586905549209403,
+      "flos": 58309880434560.0,
+      "grad_norm": 0.8056159742080125,
+      "language_loss": 0.57636547,
+      "learning_rate": 1.102375857674323e-06,
+      "loss": 0.59734619,
+      "num_input_tokens_seen": 117908365,
+      "step": 5478,
+      "time_per_iteration": 3.243305206298828
+    },
+    {
+      "auxiliary_loss_clip": 0.0118581,
+      "auxiliary_loss_mlp": 0.01029122,
+      "balance_loss_clip": 1.04329097,
+      "balance_loss_mlp": 1.02211869,
+      "epoch": 0.6588107978115794,
+      "flos": 22782627457920.0,
+      "grad_norm": 1.700295160186772,
+      "language_loss": 0.90396345,
+      "learning_rate": 1.1016798163296561e-06,
+      "loss": 0.92611271,
+      "num_input_tokens_seen": 117927565,
+      "step": 5479,
+      "time_per_iteration": 2.648953676223755
+    },
+    {
+      "auxiliary_loss_clip": 0.01184388,
+      "auxiliary_loss_mlp": 0.01024073,
+      "balance_loss_clip": 1.04810059,
+      "balance_loss_mlp": 1.01618135,
+      "epoch": 0.6589310407022185,
+      "flos": 20667525050880.0,
+      "grad_norm": 2.1205164775162437,
+      "language_loss": 0.66061902,
+      "learning_rate": 1.1009839112594471e-06,
+      "loss": 0.68270373,
+      "num_input_tokens_seen": 117945590,
+      "step": 5480,
+      "time_per_iteration": 2.6581740379333496
+    },
+    {
+      "auxiliary_loss_clip": 0.01182644,
+      "auxiliary_loss_mlp": 0.01028275,
+      "balance_loss_clip": 1.04722738,
+      "balance_loss_mlp": 1.02025533,
+      "epoch": 0.6590512835928576,
+      "flos": 25630595055360.0,
+      "grad_norm": 2.0886662215040848,
+      "language_loss": 0.71852285,
+      "learning_rate": 1.1002881425692638e-06,
+      "loss": 0.74063206,
+      "num_input_tokens_seen": 117966020,
+      "step": 5481,
+      "time_per_iteration": 2.709667921066284
+    },
+    {
+      "auxiliary_loss_clip": 0.01175321,
+      "auxiliary_loss_mlp": 0.0102572,
+      "balance_loss_clip": 1.046556,
+      "balance_loss_mlp": 1.01804316,
+      "epoch": 0.6591715264834966,
+      "flos": 23726108044800.0,
+      "grad_norm": 1.8724404460943624,
+      "language_loss": 0.75586152,
+      "learning_rate": 1.0995925103646532e-06,
+      "loss": 0.77787197,
+      "num_input_tokens_seen": 117984620,
+      "step": 5482,
+      "time_per_iteration": 2.6206629276275635
+    },
+    {
+      "auxiliary_loss_clip": 0.01192598,
+      "auxiliary_loss_mlp": 0.0102577,
+      "balance_loss_clip": 1.04505467,
+      "balance_loss_mlp": 1.01888573,
+      "epoch": 0.6592917693741358,
+      "flos": 35773850822400.0,
+      "grad_norm": 1.442011814989223,
+      "language_loss": 0.66408372,
+      "learning_rate": 1.0988970147511437e-06,
+      "loss": 0.68626738,
+      "num_input_tokens_seen": 118006500,
+      "step": 5483,
+      "time_per_iteration": 2.8196098804473877
+    },
+    {
+      "auxiliary_loss_clip": 0.01190761,
+      "auxiliary_loss_mlp": 0.01024521,
+      "balance_loss_clip": 1.04802513,
+      "balance_loss_mlp": 1.01629543,
+      "epoch": 0.6594120122647749,
+      "flos": 21396834794880.0,
+      "grad_norm": 3.3703502823146794,
+      "language_loss": 0.8051635,
+      "learning_rate": 1.0982016558342405e-06,
+      "loss": 0.82731628,
+      "num_input_tokens_seen": 118025470,
+      "step": 5484,
+      "time_per_iteration": 2.7161011695861816
+    },
+    {
+      "auxiliary_loss_clip": 0.01172505,
+      "auxiliary_loss_mlp": 0.01032277,
+      "balance_loss_clip": 1.04879904,
+      "balance_loss_mlp": 1.02464795,
+      "epoch": 0.6595322551554139,
+      "flos": 19351829779200.0,
+      "grad_norm": 1.8695344821352566,
+      "language_loss": 0.71016455,
+      "learning_rate": 1.0975064337194291e-06,
+      "loss": 0.73221231,
+      "num_input_tokens_seen": 118043515,
+      "step": 5485,
+      "time_per_iteration": 2.6657278537750244
+    },
+    {
+      "auxiliary_loss_clip": 0.01190653,
+      "auxiliary_loss_mlp": 0.01025685,
+      "balance_loss_clip": 1.04315507,
+      "balance_loss_mlp": 1.01800501,
+      "epoch": 0.6596524980460531,
+      "flos": 16837113588480.0,
+      "grad_norm": 1.4217932510798572,
+      "language_loss": 0.70712054,
+      "learning_rate": 1.0968113485121743e-06,
+      "loss": 0.72928393,
+      "num_input_tokens_seen": 118063105,
+      "step": 5486,
+      "time_per_iteration": 2.734748601913452
+    },
+    {
+      "auxiliary_loss_clip": 0.01180991,
+      "auxiliary_loss_mlp": 0.01378976,
+      "balance_loss_clip": 1.04582667,
+      "balance_loss_mlp": 1.00012863,
+      "epoch": 0.6597727409366921,
+      "flos": 21798567480960.0,
+      "grad_norm": 1.9066775982915378,
+      "language_loss": 0.80443132,
+      "learning_rate": 1.0961164003179185e-06,
+      "loss": 0.83003092,
+      "num_input_tokens_seen": 118081615,
+      "step": 5487,
+      "time_per_iteration": 2.670727014541626
+    },
+    {
+      "auxiliary_loss_clip": 0.01194173,
+      "auxiliary_loss_mlp": 0.01024714,
+      "balance_loss_clip": 1.04311645,
+      "balance_loss_mlp": 1.01726365,
+      "epoch": 0.6598929838273312,
+      "flos": 23730704985600.0,
+      "grad_norm": 2.045562061774251,
+      "language_loss": 0.84085035,
+      "learning_rate": 1.0954215892420884e-06,
+      "loss": 0.86303926,
+      "num_input_tokens_seen": 118102315,
+      "step": 5488,
+      "time_per_iteration": 2.7016162872314453
+    },
+    {
+      "auxiliary_loss_clip": 0.01202453,
+      "auxiliary_loss_mlp": 0.01031479,
+      "balance_loss_clip": 1.04730284,
+      "balance_loss_mlp": 1.02341461,
+      "epoch": 0.6600132267179702,
+      "flos": 19974520978560.0,
+      "grad_norm": 1.9846904853606142,
+      "language_loss": 0.70643085,
+      "learning_rate": 1.094726915390082e-06,
+      "loss": 0.7287702,
+      "num_input_tokens_seen": 118120650,
+      "step": 5489,
+      "time_per_iteration": 2.7126033306121826
+    },
+    {
+      "auxiliary_loss_clip": 0.01182459,
+      "auxiliary_loss_mlp": 0.0102825,
+      "balance_loss_clip": 1.04858303,
+      "balance_loss_mlp": 1.02025723,
+      "epoch": 0.6601334696086094,
+      "flos": 22342649765760.0,
+      "grad_norm": 1.920783632597329,
+      "language_loss": 0.69420683,
+      "learning_rate": 1.0940323788672836e-06,
+      "loss": 0.71631396,
+      "num_input_tokens_seen": 118139825,
+      "step": 5490,
+      "time_per_iteration": 2.5979909896850586
+    },
+    {
+      "auxiliary_loss_clip": 0.01180092,
+      "auxiliary_loss_mlp": 0.01025827,
+      "balance_loss_clip": 1.04919434,
+      "balance_loss_mlp": 1.01858532,
+      "epoch": 0.6602537124992485,
+      "flos": 25703098657920.0,
+      "grad_norm": 1.7269715592089296,
+      "language_loss": 0.73603153,
+      "learning_rate": 1.0933379797790522e-06,
+      "loss": 0.75809073,
+      "num_input_tokens_seen": 118159240,
+      "step": 5491,
+      "time_per_iteration": 2.708857774734497
+    },
+    {
+      "auxiliary_loss_clip": 0.01172917,
+      "auxiliary_loss_mlp": 0.01028961,
+      "balance_loss_clip": 1.04944968,
+      "balance_loss_mlp": 1.02116787,
+      "epoch": 0.6603739553898875,
+      "flos": 25848572739840.0,
+      "grad_norm": 2.4603300180926526,
+      "language_loss": 0.71697378,
+      "learning_rate": 1.0926437182307293e-06,
+      "loss": 0.73899257,
+      "num_input_tokens_seen": 118178050,
+      "step": 5492,
+      "time_per_iteration": 2.632115125656128
+    },
+    {
+      "auxiliary_loss_clip": 0.0119428,
+      "auxiliary_loss_mlp": 0.01023058,
+      "balance_loss_clip": 1.04500985,
+      "balance_loss_mlp": 1.01563692,
+      "epoch": 0.6604941982805267,
+      "flos": 24570296461440.0,
+      "grad_norm": 1.8155557963237636,
+      "language_loss": 0.77874815,
+      "learning_rate": 1.0919495943276338e-06,
+      "loss": 0.80092156,
+      "num_input_tokens_seen": 118199070,
+      "step": 5493,
+      "time_per_iteration": 3.686401128768921
+    },
+    {
+      "auxiliary_loss_clip": 0.01196792,
+      "auxiliary_loss_mlp": 0.01033129,
+      "balance_loss_clip": 1.04094827,
+      "balance_loss_mlp": 1.0252552,
+      "epoch": 0.6606144411711657,
+      "flos": 13261775581440.0,
+      "grad_norm": 4.42978491386882,
+      "language_loss": 0.76267219,
+      "learning_rate": 1.0912556081750611e-06,
+      "loss": 0.78497136,
+      "num_input_tokens_seen": 118217000,
+      "step": 5494,
+      "time_per_iteration": 3.6307425498962402
+    },
+    {
+      "auxiliary_loss_clip": 0.01185992,
+      "auxiliary_loss_mlp": 0.01029571,
+      "balance_loss_clip": 1.04605913,
+      "balance_loss_mlp": 1.02178049,
+      "epoch": 0.6607346840618048,
+      "flos": 25155281358720.0,
+      "grad_norm": 2.0383894790585115,
+      "language_loss": 0.76409835,
+      "learning_rate": 1.0905617598782909e-06,
+      "loss": 0.78625393,
+      "num_input_tokens_seen": 118237205,
+      "step": 5495,
+      "time_per_iteration": 2.6771562099456787
+    },
+    {
+      "auxiliary_loss_clip": 0.01198245,
+      "auxiliary_loss_mlp": 0.01027407,
+      "balance_loss_clip": 1.04342628,
+      "balance_loss_mlp": 1.01992631,
+      "epoch": 0.660854926952444,
+      "flos": 17638029095040.0,
+      "grad_norm": 2.508484579529935,
+      "language_loss": 0.81688905,
+      "learning_rate": 1.0898680495425775e-06,
+      "loss": 0.8391456,
+      "num_input_tokens_seen": 118255495,
+      "step": 5496,
+      "time_per_iteration": 2.8771986961364746
+    },
+    {
+      "auxiliary_loss_clip": 0.01192437,
+      "auxiliary_loss_mlp": 0.01024005,
+      "balance_loss_clip": 1.04711938,
+      "balance_loss_mlp": 1.01641178,
+      "epoch": 0.660975169843083,
+      "flos": 16836000266880.0,
+      "grad_norm": 1.7399581429238427,
+      "language_loss": 0.80351788,
+      "learning_rate": 1.0891744772731594e-06,
+      "loss": 0.82568228,
+      "num_input_tokens_seen": 118273310,
+      "step": 5497,
+      "time_per_iteration": 3.495831251144409
+    },
+    {
+      "auxiliary_loss_clip": 0.01181068,
+      "auxiliary_loss_mlp": 0.01024535,
+      "balance_loss_clip": 1.04609764,
+      "balance_loss_mlp": 1.01750124,
+      "epoch": 0.6610954127337221,
+      "flos": 26870410846080.0,
+      "grad_norm": 1.6241064194233474,
+      "language_loss": 0.65761685,
+      "learning_rate": 1.088481043175248e-06,
+      "loss": 0.67967284,
+      "num_input_tokens_seen": 118293880,
+      "step": 5498,
+      "time_per_iteration": 2.660104513168335
+    },
+    {
+      "auxiliary_loss_clip": 0.01178212,
+      "auxiliary_loss_mlp": 0.0102536,
+      "balance_loss_clip": 1.0445118,
+      "balance_loss_mlp": 1.01815355,
+      "epoch": 0.6612156556243612,
+      "flos": 26465697331200.0,
+      "grad_norm": 2.1783534616864086,
+      "language_loss": 0.75496113,
+      "learning_rate": 1.0877877473540368e-06,
+      "loss": 0.77699685,
+      "num_input_tokens_seen": 118314465,
+      "step": 5499,
+      "time_per_iteration": 2.74314546585083
+    },
+    {
+      "auxiliary_loss_clip": 0.01173889,
+      "auxiliary_loss_mlp": 0.01026653,
+      "balance_loss_clip": 1.04964352,
+      "balance_loss_mlp": 1.01941109,
+      "epoch": 0.6613358985150003,
+      "flos": 19791915212160.0,
+      "grad_norm": 1.8087442917014325,
+      "language_loss": 0.72499287,
+      "learning_rate": 1.0870945899147002e-06,
+      "loss": 0.74699831,
+      "num_input_tokens_seen": 118331110,
+      "step": 5500,
+      "time_per_iteration": 3.4458203315734863
+    },
+    {
+      "auxiliary_loss_clip": 0.01181293,
+      "auxiliary_loss_mlp": 0.01027968,
+      "balance_loss_clip": 1.04934311,
+      "balance_loss_mlp": 1.02088404,
+      "epoch": 0.6614561414056394,
+      "flos": 26831627136000.0,
+      "grad_norm": 1.8086673361479098,
+      "language_loss": 0.76335663,
+      "learning_rate": 1.0864015709623879e-06,
+      "loss": 0.78544921,
+      "num_input_tokens_seen": 118351980,
+      "step": 5501,
+      "time_per_iteration": 2.7052218914031982
+    },
+    {
+      "auxiliary_loss_clip": 0.01184851,
+      "auxiliary_loss_mlp": 0.01021228,
+      "balance_loss_clip": 1.04782939,
+      "balance_loss_mlp": 1.01387548,
+      "epoch": 0.6615763842962785,
+      "flos": 22894597128960.0,
+      "grad_norm": 2.657721596580447,
+      "language_loss": 0.79920608,
+      "learning_rate": 1.0857086906022313e-06,
+      "loss": 0.82126689,
+      "num_input_tokens_seen": 118370315,
+      "step": 5502,
+      "time_per_iteration": 2.631204605102539
+    },
+    {
+      "auxiliary_loss_clip": 0.01207042,
+      "auxiliary_loss_mlp": 0.01026683,
+      "balance_loss_clip": 1.04390228,
+      "balance_loss_mlp": 1.01907158,
+      "epoch": 0.6616966271869176,
+      "flos": 24790321221120.0,
+      "grad_norm": 1.8922869443985,
+      "language_loss": 0.73366094,
+      "learning_rate": 1.0850159489393388e-06,
+      "loss": 0.75599825,
+      "num_input_tokens_seen": 118389575,
+      "step": 5503,
+      "time_per_iteration": 2.8517208099365234
+    },
+    {
+      "auxiliary_loss_clip": 0.01187346,
+      "auxiliary_loss_mlp": 0.01025632,
+      "balance_loss_clip": 1.03906369,
+      "balance_loss_mlp": 1.01810706,
+      "epoch": 0.6618168700775566,
+      "flos": 17202109639680.0,
+      "grad_norm": 1.789844901137012,
+      "language_loss": 0.8230471,
+      "learning_rate": 1.0843233460787992e-06,
+      "loss": 0.84517682,
+      "num_input_tokens_seen": 118406790,
+      "step": 5504,
+      "time_per_iteration": 2.651590585708618
+    },
+    {
+      "auxiliary_loss_clip": 0.01188048,
+      "auxiliary_loss_mlp": 0.01029965,
+      "balance_loss_clip": 1.04613829,
+      "balance_loss_mlp": 1.02185845,
+      "epoch": 0.6619371129681958,
+      "flos": 25447091448960.0,
+      "grad_norm": 1.7469000851552505,
+      "language_loss": 0.77941239,
+      "learning_rate": 1.0836308821256805e-06,
+      "loss": 0.80159253,
+      "num_input_tokens_seen": 118427590,
+      "step": 5505,
+      "time_per_iteration": 2.7676830291748047
+    },
+    {
+      "auxiliary_loss_clip": 0.01178571,
+      "auxiliary_loss_mlp": 0.01021972,
+      "balance_loss_clip": 1.04858613,
+      "balance_loss_mlp": 1.01469374,
+      "epoch": 0.6620573558588349,
+      "flos": 18040444139520.0,
+      "grad_norm": 2.079434348557534,
+      "language_loss": 0.77799034,
+      "learning_rate": 1.0829385571850282e-06,
+      "loss": 0.79999578,
+      "num_input_tokens_seen": 118444570,
+      "step": 5506,
+      "time_per_iteration": 2.649899959564209
+    },
+    {
+      "auxiliary_loss_clip": 0.01175937,
+      "auxiliary_loss_mlp": 0.01026079,
+      "balance_loss_clip": 1.04958797,
+      "balance_loss_mlp": 1.01698923,
+      "epoch": 0.6621775987494739,
+      "flos": 17785586165760.0,
+      "grad_norm": 2.5610184256469686,
+      "language_loss": 0.83758801,
+      "learning_rate": 1.0822463713618679e-06,
+      "loss": 0.85960817,
+      "num_input_tokens_seen": 118461425,
+      "step": 5507,
+      "time_per_iteration": 2.6528854370117188
+    },
+    {
+      "auxiliary_loss_clip": 0.01200281,
+      "auxiliary_loss_mlp": 0.01028385,
+      "balance_loss_clip": 1.04545724,
+      "balance_loss_mlp": 1.02122331,
+      "epoch": 0.6622978416401131,
+      "flos": 17492590926720.0,
+      "grad_norm": 2.034884225440026,
+      "language_loss": 0.85116619,
+      "learning_rate": 1.0815543247612034e-06,
+      "loss": 0.87345284,
+      "num_input_tokens_seen": 118478495,
+      "step": 5508,
+      "time_per_iteration": 2.695185899734497
+    },
+    {
+      "auxiliary_loss_clip": 0.01186995,
+      "auxiliary_loss_mlp": 0.01027476,
+      "balance_loss_clip": 1.04325211,
+      "balance_loss_mlp": 1.01982832,
+      "epoch": 0.6624180845307521,
+      "flos": 21648352803840.0,
+      "grad_norm": 1.8368209651615952,
+      "language_loss": 0.83221394,
+      "learning_rate": 1.0808624174880168e-06,
+      "loss": 0.85435867,
+      "num_input_tokens_seen": 118499145,
+      "step": 5509,
+      "time_per_iteration": 2.6373324394226074
+    },
+    {
+      "auxiliary_loss_clip": 0.01169282,
+      "auxiliary_loss_mlp": 0.01022534,
+      "balance_loss_clip": 1.04846287,
+      "balance_loss_mlp": 1.01545644,
+      "epoch": 0.6625383274213912,
+      "flos": 23805902108160.0,
+      "grad_norm": 1.855408337150547,
+      "language_loss": 0.79954195,
+      "learning_rate": 1.080170649647272e-06,
+      "loss": 0.82146013,
+      "num_input_tokens_seen": 118518950,
+      "step": 5510,
+      "time_per_iteration": 2.6179730892181396
+    },
+    {
+      "auxiliary_loss_clip": 0.01169956,
+      "auxiliary_loss_mlp": 0.01027069,
+      "balance_loss_clip": 1.04865456,
+      "balance_loss_mlp": 1.02000928,
+      "epoch": 0.6626585703120303,
+      "flos": 33262941473280.0,
+      "grad_norm": 1.869485235429019,
+      "language_loss": 0.67488766,
+      "learning_rate": 1.0794790213439068e-06,
+      "loss": 0.69685793,
+      "num_input_tokens_seen": 118545850,
+      "step": 5511,
+      "time_per_iteration": 2.7011749744415283
+    },
+    {
+      "auxiliary_loss_clip": 0.01207321,
+      "auxiliary_loss_mlp": 0.01025227,
+      "balance_loss_clip": 1.04390538,
+      "balance_loss_mlp": 1.01671517,
+      "epoch": 0.6627788132026694,
+      "flos": 22085780630400.0,
+      "grad_norm": 2.1688734075276597,
+      "language_loss": 0.78181833,
+      "learning_rate": 1.078787532682843e-06,
+      "loss": 0.80414385,
+      "num_input_tokens_seen": 118563325,
+      "step": 5512,
+      "time_per_iteration": 2.789236545562744
+    },
+    {
+      "auxiliary_loss_clip": 0.01178304,
+      "auxiliary_loss_mlp": 0.01026759,
+      "balance_loss_clip": 1.0474925,
+      "balance_loss_mlp": 1.01943934,
+      "epoch": 0.6628990560933085,
+      "flos": 36173608260480.0,
+      "grad_norm": 2.4750995563709495,
+      "language_loss": 0.75869191,
+      "learning_rate": 1.0780961837689773e-06,
+      "loss": 0.78074253,
+      "num_input_tokens_seen": 118582835,
+      "step": 5513,
+      "time_per_iteration": 2.7400693893432617
+    },
+    {
+      "auxiliary_loss_clip": 0.01182267,
+      "auxiliary_loss_mlp": 0.0102755,
+      "balance_loss_clip": 1.0459305,
+      "balance_loss_mlp": 1.02024817,
+      "epoch": 0.6630192989839476,
+      "flos": 18513567106560.0,
+      "grad_norm": 1.6058062061388556,
+      "language_loss": 0.69808507,
+      "learning_rate": 1.0774049747071883e-06,
+      "loss": 0.72018325,
+      "num_input_tokens_seen": 118600715,
+      "step": 5514,
+      "time_per_iteration": 2.7001285552978516
+    },
+    {
+      "auxiliary_loss_clip": 0.01205891,
+      "auxiliary_loss_mlp": 0.01025155,
+      "balance_loss_clip": 1.04647386,
+      "balance_loss_mlp": 1.01771092,
+      "epoch": 0.6631395418745867,
+      "flos": 35809510049280.0,
+      "grad_norm": 1.6416830177864972,
+      "language_loss": 0.68118334,
+      "learning_rate": 1.076713905602332e-06,
+      "loss": 0.70349383,
+      "num_input_tokens_seen": 118621290,
+      "step": 5515,
+      "time_per_iteration": 2.8772714138031006
+    },
+    {
+      "auxiliary_loss_clip": 0.01183015,
+      "auxiliary_loss_mlp": 0.0102744,
+      "balance_loss_clip": 1.04772305,
+      "balance_loss_mlp": 1.02025795,
+      "epoch": 0.6632597847652257,
+      "flos": 20047742853120.0,
+      "grad_norm": 1.8164612152148245,
+      "language_loss": 0.81264418,
+      "learning_rate": 1.07602297655924e-06,
+      "loss": 0.83474869,
+      "num_input_tokens_seen": 118639610,
+      "step": 5516,
+      "time_per_iteration": 2.634650707244873
+    },
+    {
+      "auxiliary_loss_clip": 0.0117655,
+      "auxiliary_loss_mlp": 0.01027038,
+      "balance_loss_clip": 1.05244505,
+      "balance_loss_mlp": 1.01962376,
+      "epoch": 0.6633800276558649,
+      "flos": 21214480423680.0,
+      "grad_norm": 1.7928393465225156,
+      "language_loss": 0.8142879,
+      "learning_rate": 1.0753321876827292e-06,
+      "loss": 0.8363238,
+      "num_input_tokens_seen": 118658895,
+      "step": 5517,
+      "time_per_iteration": 2.6386969089508057
+    },
+    {
+      "auxiliary_loss_clip": 0.01171798,
+      "auxiliary_loss_mlp": 0.01024915,
+      "balance_loss_clip": 1.04842961,
+      "balance_loss_mlp": 1.01770329,
+      "epoch": 0.663500270546504,
+      "flos": 23987753688960.0,
+      "grad_norm": 2.00513347743413,
+      "language_loss": 0.73963088,
+      "learning_rate": 1.0746415390775893e-06,
+      "loss": 0.76159799,
+      "num_input_tokens_seen": 118677025,
+      "step": 5518,
+      "time_per_iteration": 2.673635959625244
+    },
+    {
+      "auxiliary_loss_clip": 0.01175314,
+      "auxiliary_loss_mlp": 0.01024365,
+      "balance_loss_clip": 1.0524286,
+      "balance_loss_mlp": 1.0170157,
+      "epoch": 0.663620513437143,
+      "flos": 17932389050880.0,
+      "grad_norm": 3.823100842962606,
+      "language_loss": 0.76476026,
+      "learning_rate": 1.0739510308485939e-06,
+      "loss": 0.78675699,
+      "num_input_tokens_seen": 118694240,
+      "step": 5519,
+      "time_per_iteration": 3.5111217498779297
+    },
+    {
+      "auxiliary_loss_clip": 0.01107639,
+      "auxiliary_loss_mlp": 0.01000474,
+      "balance_loss_clip": 1.01188815,
+      "balance_loss_mlp": 0.99926978,
+      "epoch": 0.6637407563277821,
+      "flos": 57840241086720.0,
+      "grad_norm": 0.8129811174506838,
+      "language_loss": 0.62526953,
+      "learning_rate": 1.07326066310049e-06,
+      "loss": 0.64635074,
+      "num_input_tokens_seen": 118758365,
+      "step": 5520,
+      "time_per_iteration": 4.3136210441589355
+    },
+    {
+      "auxiliary_loss_clip": 0.01190306,
+      "auxiliary_loss_mlp": 0.01025851,
+      "balance_loss_clip": 1.04304564,
+      "balance_loss_mlp": 1.01797688,
+      "epoch": 0.6638609992184212,
+      "flos": 27306007079040.0,
+      "grad_norm": 4.56677052989168,
+      "language_loss": 0.79665029,
+      "learning_rate": 1.0725704359380059e-06,
+      "loss": 0.81881189,
+      "num_input_tokens_seen": 118778220,
+      "step": 5521,
+      "time_per_iteration": 2.738121509552002
+    },
+    {
+      "auxiliary_loss_clip": 0.01174176,
+      "auxiliary_loss_mlp": 0.01024586,
+      "balance_loss_clip": 1.04961765,
+      "balance_loss_mlp": 1.01722455,
+      "epoch": 0.6639812421090603,
+      "flos": 18624854419200.0,
+      "grad_norm": 1.9906474265288279,
+      "language_loss": 0.71789145,
+      "learning_rate": 1.0718803494658497e-06,
+      "loss": 0.73987901,
+      "num_input_tokens_seen": 118797110,
+      "step": 5522,
+      "time_per_iteration": 2.5792088508605957
+    },
+    {
+      "auxiliary_loss_clip": 0.01225115,
+      "auxiliary_loss_mlp": 0.01027187,
+      "balance_loss_clip": 1.03904772,
+      "balance_loss_mlp": 1.01943254,
+      "epoch": 0.6641014849996993,
+      "flos": 15924479806080.0,
+      "grad_norm": 2.062099604705986,
+      "language_loss": 0.83454704,
+      "learning_rate": 1.071190403788707e-06,
+      "loss": 0.85706997,
+      "num_input_tokens_seen": 118812415,
+      "step": 5523,
+      "time_per_iteration": 3.81178879737854
+    },
+    {
+      "auxiliary_loss_clip": 0.01205297,
+      "auxiliary_loss_mlp": 0.01026032,
+      "balance_loss_clip": 1.04630518,
+      "balance_loss_mlp": 1.01730037,
+      "epoch": 0.6642217278903385,
+      "flos": 26505486622080.0,
+      "grad_norm": 1.8032001815049679,
+      "language_loss": 0.75175422,
+      "learning_rate": 1.0705005990112415e-06,
+      "loss": 0.77406752,
+      "num_input_tokens_seen": 118832195,
+      "step": 5524,
+      "time_per_iteration": 3.4653024673461914
+    },
+    {
+      "auxiliary_loss_clip": 0.01196117,
+      "auxiliary_loss_mlp": 0.01025818,
+      "balance_loss_clip": 1.04599237,
+      "balance_loss_mlp": 1.01817107,
+      "epoch": 0.6643419707809776,
+      "flos": 15377308951680.0,
+      "grad_norm": 9.927841930693235,
+      "language_loss": 0.74319923,
+      "learning_rate": 1.0698109352380957e-06,
+      "loss": 0.76541853,
+      "num_input_tokens_seen": 118849795,
+      "step": 5525,
+      "time_per_iteration": 2.712953805923462
+    },
+    {
+      "auxiliary_loss_clip": 0.01171037,
+      "auxiliary_loss_mlp": 0.01026012,
+      "balance_loss_clip": 1.04930139,
+      "balance_loss_mlp": 1.01862693,
+      "epoch": 0.6644622136716166,
+      "flos": 25117610970240.0,
+      "grad_norm": 2.4189938334141092,
+      "language_loss": 0.77712286,
+      "learning_rate": 1.0691214125738909e-06,
+      "loss": 0.79909331,
+      "num_input_tokens_seen": 118870000,
+      "step": 5526,
+      "time_per_iteration": 3.782078266143799
+    },
+    {
+      "auxiliary_loss_clip": 0.01066275,
+      "auxiliary_loss_mlp": 0.01000133,
+      "balance_loss_clip": 1.01210165,
+      "balance_loss_mlp": 0.99897689,
+      "epoch": 0.6645824565622558,
+      "flos": 66201717680640.0,
+      "grad_norm": 0.797143755540754,
+      "language_loss": 0.57468456,
+      "learning_rate": 1.0684320311232287e-06,
+      "loss": 0.5953486,
+      "num_input_tokens_seen": 118932905,
+      "step": 5527,
+      "time_per_iteration": 3.256420612335205
+    },
+    {
+      "auxiliary_loss_clip": 0.01184095,
+      "auxiliary_loss_mlp": 0.01028822,
+      "balance_loss_clip": 1.0450983,
+      "balance_loss_mlp": 1.02013135,
+      "epoch": 0.6647026994528948,
+      "flos": 25082131311360.0,
+      "grad_norm": 1.9271667203930665,
+      "language_loss": 0.81535506,
+      "learning_rate": 1.0677427909906865e-06,
+      "loss": 0.83748424,
+      "num_input_tokens_seen": 118953355,
+      "step": 5528,
+      "time_per_iteration": 2.7951691150665283
+    },
+    {
+      "auxiliary_loss_clip": 0.01176943,
+      "auxiliary_loss_mlp": 0.01026562,
+      "balance_loss_clip": 1.05096626,
+      "balance_loss_mlp": 1.0192008,
+      "epoch": 0.6648229423435339,
+      "flos": 18222187979520.0,
+      "grad_norm": 1.9870777002832425,
+      "language_loss": 0.72084367,
+      "learning_rate": 1.0670536922808216e-06,
+      "loss": 0.74287874,
+      "num_input_tokens_seen": 118973480,
+      "step": 5529,
+      "time_per_iteration": 2.6109206676483154
+    },
+    {
+      "auxiliary_loss_clip": 0.01191689,
+      "auxiliary_loss_mlp": 0.01025941,
+      "balance_loss_clip": 1.0489881,
+      "balance_loss_mlp": 1.01832652,
+      "epoch": 0.6649431852341731,
+      "flos": 18296882311680.0,
+      "grad_norm": 2.0828237809790484,
+      "language_loss": 0.7156359,
+      "learning_rate": 1.06636473509817e-06,
+      "loss": 0.73781216,
+      "num_input_tokens_seen": 118989860,
+      "step": 5530,
+      "time_per_iteration": 2.6718790531158447
+    },
+    {
+      "auxiliary_loss_clip": 0.01182462,
+      "auxiliary_loss_mlp": 0.01378682,
+      "balance_loss_clip": 1.04392409,
+      "balance_loss_mlp": 1.00017309,
+      "epoch": 0.6650634281248121,
+      "flos": 17019575700480.0,
+      "grad_norm": 2.536214035279983,
+      "language_loss": 0.80426502,
+      "learning_rate": 1.0656759195472447e-06,
+      "loss": 0.82987642,
+      "num_input_tokens_seen": 119007150,
+      "step": 5531,
+      "time_per_iteration": 2.690462589263916
+    },
+    {
+      "auxiliary_loss_clip": 0.01090221,
+      "auxiliary_loss_mlp": 0.00999329,
+      "balance_loss_clip": 1.01235425,
+      "balance_loss_mlp": 0.99810117,
+      "epoch": 0.6651836710154512,
+      "flos": 69294810666240.0,
+      "grad_norm": 0.779017403498313,
+      "language_loss": 0.5971598,
+      "learning_rate": 1.0649872457325414e-06,
+      "loss": 0.61805528,
+      "num_input_tokens_seen": 119068435,
+      "step": 5532,
+      "time_per_iteration": 3.195887804031372
+    },
+    {
+      "auxiliary_loss_clip": 0.01079786,
+      "auxiliary_loss_mlp": 0.00999771,
+      "balance_loss_clip": 1.01194429,
+      "balance_loss_mlp": 0.99851972,
+      "epoch": 0.6653039139060903,
+      "flos": 66883444882560.0,
+      "grad_norm": 0.8581359301233291,
+      "language_loss": 0.55086726,
+      "learning_rate": 1.0642987137585278e-06,
+      "loss": 0.57166284,
+      "num_input_tokens_seen": 119127960,
+      "step": 5533,
+      "time_per_iteration": 3.1650779247283936
+    },
+    {
+      "auxiliary_loss_clip": 0.01188993,
+      "auxiliary_loss_mlp": 0.0103014,
+      "balance_loss_clip": 1.04704893,
+      "balance_loss_mlp": 1.02286839,
+      "epoch": 0.6654241567967294,
+      "flos": 21470056669440.0,
+      "grad_norm": 1.7354365457583634,
+      "language_loss": 0.82501495,
+      "learning_rate": 1.0636103237296561e-06,
+      "loss": 0.84720629,
+      "num_input_tokens_seen": 119146885,
+      "step": 5534,
+      "time_per_iteration": 2.736976385116577
+    },
+    {
+      "auxiliary_loss_clip": 0.0118177,
+      "auxiliary_loss_mlp": 0.01024549,
+      "balance_loss_clip": 1.05217552,
+      "balance_loss_mlp": 1.01774216,
+      "epoch": 0.6655443996873684,
+      "flos": 25119514391040.0,
+      "grad_norm": 1.7761110293403353,
+      "language_loss": 0.84130621,
+      "learning_rate": 1.062922075750353e-06,
+      "loss": 0.86336946,
+      "num_input_tokens_seen": 119166900,
+      "step": 5535,
+      "time_per_iteration": 2.6242313385009766
+    },
+    {
+      "auxiliary_loss_clip": 0.01202792,
+      "auxiliary_loss_mlp": 0.01023238,
+      "balance_loss_clip": 1.04716825,
+      "balance_loss_mlp": 1.01592422,
+      "epoch": 0.6656646425780076,
+      "flos": 17457326749440.0,
+      "grad_norm": 2.0718274907570224,
+      "language_loss": 0.72080803,
+      "learning_rate": 1.0622339699250267e-06,
+      "loss": 0.7430684,
+      "num_input_tokens_seen": 119184820,
+      "step": 5536,
+      "time_per_iteration": 2.761080741882324
+    },
+    {
+      "auxiliary_loss_clip": 0.01197993,
+      "auxiliary_loss_mlp": 0.01021582,
+      "balance_loss_clip": 1.04417372,
+      "balance_loss_mlp": 1.01406622,
+      "epoch": 0.6657848854686467,
+      "flos": 23434190213760.0,
+      "grad_norm": 1.6419363294907683,
+      "language_loss": 0.79204416,
+      "learning_rate": 1.0615460063580624e-06,
+      "loss": 0.81423986,
+      "num_input_tokens_seen": 119203295,
+      "step": 5537,
+      "time_per_iteration": 2.7824923992156982
+    },
+    {
+      "auxiliary_loss_clip": 0.01192312,
+      "auxiliary_loss_mlp": 0.01024221,
+      "balance_loss_clip": 1.04703045,
+      "balance_loss_mlp": 1.01662779,
+      "epoch": 0.6659051283592857,
+      "flos": 11509909459200.0,
+      "grad_norm": 3.2091240871908977,
+      "language_loss": 0.72503704,
+      "learning_rate": 1.060858185153821e-06,
+      "loss": 0.7472024,
+      "num_input_tokens_seen": 119221395,
+      "step": 5538,
+      "time_per_iteration": 2.6517858505249023
+    },
+    {
+      "auxiliary_loss_clip": 0.01194584,
+      "auxiliary_loss_mlp": 0.01026084,
+      "balance_loss_clip": 1.0467751,
+      "balance_loss_mlp": 1.01799607,
+      "epoch": 0.6660253712499249,
+      "flos": 20594554571520.0,
+      "grad_norm": 5.582406933756351,
+      "language_loss": 0.76506662,
+      "learning_rate": 1.0601705064166474e-06,
+      "loss": 0.78727329,
+      "num_input_tokens_seen": 119239790,
+      "step": 5539,
+      "time_per_iteration": 2.764200210571289
+    },
+    {
+      "auxiliary_loss_clip": 0.01186819,
+      "auxiliary_loss_mlp": 0.01023498,
+      "balance_loss_clip": 1.04691386,
+      "balance_loss_mlp": 1.01619947,
+      "epoch": 0.666145614140564,
+      "flos": 21251504367360.0,
+      "grad_norm": 2.144383080296833,
+      "language_loss": 0.73019457,
+      "learning_rate": 1.0594829702508596e-06,
+      "loss": 0.7522977,
+      "num_input_tokens_seen": 119257505,
+      "step": 5540,
+      "time_per_iteration": 2.715040683746338
+    },
+    {
+      "auxiliary_loss_clip": 0.01199061,
+      "auxiliary_loss_mlp": 0.01025518,
+      "balance_loss_clip": 1.04407144,
+      "balance_loss_mlp": 1.01834142,
+      "epoch": 0.666265857031203,
+      "flos": 33726188200320.0,
+      "grad_norm": 2.5826696956783333,
+      "language_loss": 0.55279791,
+      "learning_rate": 1.0587955767607592e-06,
+      "loss": 0.57504368,
+      "num_input_tokens_seen": 119279365,
+      "step": 5541,
+      "time_per_iteration": 2.869196891784668
+    },
+    {
+      "auxiliary_loss_clip": 0.0117163,
+      "auxiliary_loss_mlp": 0.0102709,
+      "balance_loss_clip": 1.04859507,
+      "balance_loss_mlp": 1.02018762,
+      "epoch": 0.6663860999218422,
+      "flos": 17456644391040.0,
+      "grad_norm": 2.463111190427129,
+      "language_loss": 0.76808262,
+      "learning_rate": 1.0581083260506206e-06,
+      "loss": 0.79006982,
+      "num_input_tokens_seen": 119296150,
+      "step": 5542,
+      "time_per_iteration": 2.5649774074554443
+    },
+    {
+      "auxiliary_loss_clip": 0.01189946,
+      "auxiliary_loss_mlp": 0.01025926,
+      "balance_loss_clip": 1.04669142,
+      "balance_loss_mlp": 1.01894069,
+      "epoch": 0.6665063428124812,
+      "flos": 17676740977920.0,
+      "grad_norm": 2.2598569326922333,
+      "language_loss": 0.77043545,
+      "learning_rate": 1.0574212182246993e-06,
+      "loss": 0.79259419,
+      "num_input_tokens_seen": 119314845,
+      "step": 5543,
+      "time_per_iteration": 2.726135492324829
+    },
+    {
+      "auxiliary_loss_clip": 0.01195418,
+      "auxiliary_loss_mlp": 0.01023943,
+      "balance_loss_clip": 1.04744244,
+      "balance_loss_mlp": 1.01593804,
+      "epoch": 0.6666265857031203,
+      "flos": 27673265687040.0,
+      "grad_norm": 2.7117129015888795,
+      "language_loss": 0.76124132,
+      "learning_rate": 1.0567342533872303e-06,
+      "loss": 0.78343493,
+      "num_input_tokens_seen": 119334875,
+      "step": 5544,
+      "time_per_iteration": 2.6880998611450195
+    },
+    {
+      "auxiliary_loss_clip": 0.01192954,
+      "auxiliary_loss_mlp": 0.01026556,
+      "balance_loss_clip": 1.04843783,
+      "balance_loss_mlp": 1.01907539,
+      "epoch": 0.6667468285937594,
+      "flos": 25046831220480.0,
+      "grad_norm": 1.7127482609064164,
+      "language_loss": 0.80813676,
+      "learning_rate": 1.0560474316424255e-06,
+      "loss": 0.83033192,
+      "num_input_tokens_seen": 119354635,
+      "step": 5545,
+      "time_per_iteration": 3.7004239559173584
+    },
+    {
+      "auxiliary_loss_clip": 0.01187759,
+      "auxiliary_loss_mlp": 0.0102459,
+      "balance_loss_clip": 1.04467607,
+      "balance_loss_mlp": 1.01684117,
+      "epoch": 0.6668670714843985,
+      "flos": 22780472641920.0,
+      "grad_norm": 2.5127884303836265,
+      "language_loss": 0.73646986,
+      "learning_rate": 1.0553607530944746e-06,
+      "loss": 0.75859338,
+      "num_input_tokens_seen": 119372690,
+      "step": 5546,
+      "time_per_iteration": 3.6497256755828857
+    },
+    {
+      "auxiliary_loss_clip": 0.01199141,
+      "auxiliary_loss_mlp": 0.01024384,
+      "balance_loss_clip": 1.04428077,
+      "balance_loss_mlp": 1.01627195,
+      "epoch": 0.6669873143750376,
+      "flos": 22163886754560.0,
+      "grad_norm": 2.0030070783421907,
+      "language_loss": 0.89697999,
+      "learning_rate": 1.0546742178475463e-06,
+      "loss": 0.9192152,
+      "num_input_tokens_seen": 119391685,
+      "step": 5547,
+      "time_per_iteration": 2.712569236755371
+    },
+    {
+      "auxiliary_loss_clip": 0.01212922,
+      "auxiliary_loss_mlp": 0.01022965,
+      "balance_loss_clip": 1.04608238,
+      "balance_loss_mlp": 1.01596773,
+      "epoch": 0.6671075572656767,
+      "flos": 20514832335360.0,
+      "grad_norm": 3.0531770533015594,
+      "language_loss": 0.86720216,
+      "learning_rate": 1.0539878260057868e-06,
+      "loss": 0.889561,
+      "num_input_tokens_seen": 119410725,
+      "step": 5548,
+      "time_per_iteration": 2.7240450382232666
+    },
+    {
+      "auxiliary_loss_clip": 0.01183252,
+      "auxiliary_loss_mlp": 0.01024288,
+      "balance_loss_clip": 1.0498333,
+      "balance_loss_mlp": 1.01569939,
+      "epoch": 0.6672278001563158,
+      "flos": 17931203902080.0,
+      "grad_norm": 3.3877654590020994,
+      "language_loss": 0.68772829,
+      "learning_rate": 1.0533015776733226e-06,
+      "loss": 0.70980364,
+      "num_input_tokens_seen": 119426875,
+      "step": 5549,
+      "time_per_iteration": 3.6101768016815186
+    },
+    {
+      "auxiliary_loss_clip": 0.01191027,
+      "auxiliary_loss_mlp": 0.01026389,
+      "balance_loss_clip": 1.05010319,
+      "balance_loss_mlp": 1.01833093,
+      "epoch": 0.6673480430469548,
+      "flos": 22342146975360.0,
+      "grad_norm": 2.7323653288129464,
+      "language_loss": 0.7850731,
+      "learning_rate": 1.0526154729542566e-06,
+      "loss": 0.80724728,
+      "num_input_tokens_seen": 119446935,
+      "step": 5550,
+      "time_per_iteration": 2.661208152770996
+    },
+    {
+      "auxiliary_loss_clip": 0.0119947,
+      "auxiliary_loss_mlp": 0.01027281,
+      "balance_loss_clip": 1.04612374,
+      "balance_loss_mlp": 1.0195291,
+      "epoch": 0.6674682859375939,
+      "flos": 20703830722560.0,
+      "grad_norm": 2.4316819544627184,
+      "language_loss": 0.80498606,
+      "learning_rate": 1.0519295119526699e-06,
+      "loss": 0.82725364,
+      "num_input_tokens_seen": 119463240,
+      "step": 5551,
+      "time_per_iteration": 2.7199814319610596
+    },
+    {
+      "auxiliary_loss_clip": 0.01193288,
+      "auxiliary_loss_mlp": 0.01028604,
+      "balance_loss_clip": 1.04650199,
+      "balance_loss_mlp": 1.0210197,
+      "epoch": 0.667588528828233,
+      "flos": 26206673379840.0,
+      "grad_norm": 1.7565344813807273,
+      "language_loss": 0.83030176,
+      "learning_rate": 1.0512436947726227e-06,
+      "loss": 0.8525207,
+      "num_input_tokens_seen": 119484655,
+      "step": 5552,
+      "time_per_iteration": 3.612508773803711
+    },
+    {
+      "auxiliary_loss_clip": 0.01199326,
+      "auxiliary_loss_mlp": 0.01027246,
+      "balance_loss_clip": 1.04386675,
+      "balance_loss_mlp": 1.01925921,
+      "epoch": 0.6677087717188721,
+      "flos": 23071025756160.0,
+      "grad_norm": 2.463129836681595,
+      "language_loss": 0.65422463,
+      "learning_rate": 1.0505580215181517e-06,
+      "loss": 0.67649031,
+      "num_input_tokens_seen": 119502895,
+      "step": 5553,
+      "time_per_iteration": 2.734232187271118
+    },
+    {
+      "auxiliary_loss_clip": 0.01097481,
+      "auxiliary_loss_mlp": 0.00998889,
+      "balance_loss_clip": 1.01317525,
+      "balance_loss_mlp": 0.99770337,
+      "epoch": 0.6678290146095112,
+      "flos": 70941315219840.0,
+      "grad_norm": 0.7836142308860142,
+      "language_loss": 0.5662781,
+      "learning_rate": 1.0498724922932753e-06,
+      "loss": 0.58724183,
+      "num_input_tokens_seen": 119561010,
+      "step": 5554,
+      "time_per_iteration": 3.181422472000122
+    },
+    {
+      "auxiliary_loss_clip": 0.01177134,
+      "auxiliary_loss_mlp": 0.01026236,
+      "balance_loss_clip": 1.05076075,
+      "balance_loss_mlp": 1.01810014,
+      "epoch": 0.6679492575001503,
+      "flos": 18661088263680.0,
+      "grad_norm": 2.665619658190276,
+      "language_loss": 0.86174983,
+      "learning_rate": 1.0491871072019851e-06,
+      "loss": 0.88378352,
+      "num_input_tokens_seen": 119578900,
+      "step": 5555,
+      "time_per_iteration": 2.528498411178589
+    },
+    {
+      "auxiliary_loss_clip": 0.01200178,
+      "auxiliary_loss_mlp": 0.01027122,
+      "balance_loss_clip": 1.04203868,
+      "balance_loss_mlp": 1.01947486,
+      "epoch": 0.6680695003907894,
+      "flos": 29711985822720.0,
+      "grad_norm": 1.888657203256423,
+      "language_loss": 0.63742924,
+      "learning_rate": 1.0485018663482555e-06,
+      "loss": 0.6597023,
+      "num_input_tokens_seen": 119598920,
+      "step": 5556,
+      "time_per_iteration": 2.77152419090271
+    },
+    {
+      "auxiliary_loss_clip": 0.01174837,
+      "auxiliary_loss_mlp": 0.01021794,
+      "balance_loss_clip": 1.04646826,
+      "balance_loss_mlp": 1.01457596,
+      "epoch": 0.6681897432814284,
+      "flos": 28218964083840.0,
+      "grad_norm": 2.7317238075577017,
+      "language_loss": 0.70453131,
+      "learning_rate": 1.0478167698360354e-06,
+      "loss": 0.72649765,
+      "num_input_tokens_seen": 119618220,
+      "step": 5557,
+      "time_per_iteration": 2.622169256210327
+    },
+    {
+      "auxiliary_loss_clip": 0.01172151,
+      "auxiliary_loss_mlp": 0.01033606,
+      "balance_loss_clip": 1.04479718,
+      "balance_loss_mlp": 1.02617371,
+      "epoch": 0.6683099861720676,
+      "flos": 25046543911680.0,
+      "grad_norm": 2.119206128655778,
+      "language_loss": 0.70038342,
+      "learning_rate": 1.0471318177692556e-06,
+      "loss": 0.72244102,
+      "num_input_tokens_seen": 119638520,
+      "step": 5558,
+      "time_per_iteration": 2.624345064163208
+    },
+    {
+      "auxiliary_loss_clip": 0.01210168,
+      "auxiliary_loss_mlp": 0.01025582,
+      "balance_loss_clip": 1.04319406,
+      "balance_loss_mlp": 1.01811028,
+      "epoch": 0.6684302290627067,
+      "flos": 22996977868800.0,
+      "grad_norm": 2.7477209037551225,
+      "language_loss": 0.7593224,
+      "learning_rate": 1.046447010251821e-06,
+      "loss": 0.78167987,
+      "num_input_tokens_seen": 119655850,
+      "step": 5559,
+      "time_per_iteration": 2.7228550910949707
+    },
+    {
+      "auxiliary_loss_clip": 0.01188572,
+      "auxiliary_loss_mlp": 0.01025017,
+      "balance_loss_clip": 1.0483402,
+      "balance_loss_mlp": 1.01754308,
+      "epoch": 0.6685504719533457,
+      "flos": 26573824247040.0,
+      "grad_norm": 1.951003385069968,
+      "language_loss": 0.76250947,
+      "learning_rate": 1.0457623473876157e-06,
+      "loss": 0.78464532,
+      "num_input_tokens_seen": 119675355,
+      "step": 5560,
+      "time_per_iteration": 2.7367959022521973
+    },
+    {
+      "auxiliary_loss_clip": 0.01170359,
+      "auxiliary_loss_mlp": 0.01023325,
+      "balance_loss_clip": 1.0488193,
+      "balance_loss_mlp": 1.01608932,
+      "epoch": 0.6686707148439849,
+      "flos": 28986087870720.0,
+      "grad_norm": 5.219191265617622,
+      "language_loss": 0.70999479,
+      "learning_rate": 1.0450778292805046e-06,
+      "loss": 0.73193157,
+      "num_input_tokens_seen": 119695340,
+      "step": 5561,
+      "time_per_iteration": 2.6345856189727783
+    },
+    {
+      "auxiliary_loss_clip": 0.01184461,
+      "auxiliary_loss_mlp": 0.010254,
+      "balance_loss_clip": 1.04752374,
+      "balance_loss_mlp": 1.01768088,
+      "epoch": 0.6687909577346239,
+      "flos": 23623152687360.0,
+      "grad_norm": 1.5321869339086618,
+      "language_loss": 0.78418672,
+      "learning_rate": 1.0443934560343267e-06,
+      "loss": 0.80628532,
+      "num_input_tokens_seen": 119716750,
+      "step": 5562,
+      "time_per_iteration": 2.7633841037750244
+    },
+    {
+      "auxiliary_loss_clip": 0.01185363,
+      "auxiliary_loss_mlp": 0.01025643,
+      "balance_loss_clip": 1.04313922,
+      "balance_loss_mlp": 1.01776314,
+      "epoch": 0.668911200625263,
+      "flos": 23148593176320.0,
+      "grad_norm": 1.8955204491670072,
+      "language_loss": 0.78222251,
+      "learning_rate": 1.0437092277529034e-06,
+      "loss": 0.80433255,
+      "num_input_tokens_seen": 119736005,
+      "step": 5563,
+      "time_per_iteration": 2.6834521293640137
+    },
+    {
+      "auxiliary_loss_clip": 0.01182837,
+      "auxiliary_loss_mlp": 0.01029164,
+      "balance_loss_clip": 1.04353237,
+      "balance_loss_mlp": 1.02186227,
+      "epoch": 0.6690314435159022,
+      "flos": 18551919853440.0,
+      "grad_norm": 2.0637614087494556,
+      "language_loss": 0.73639089,
+      "learning_rate": 1.0430251445400292e-06,
+      "loss": 0.75851095,
+      "num_input_tokens_seen": 119754050,
+      "step": 5564,
+      "time_per_iteration": 2.626030683517456
+    },
+    {
+      "auxiliary_loss_clip": 0.01235539,
+      "auxiliary_loss_mlp": 0.01024145,
+      "balance_loss_clip": 1.04293358,
+      "balance_loss_mlp": 1.01686072,
+      "epoch": 0.6691516864065412,
+      "flos": 31759540704000.0,
+      "grad_norm": 2.198022173550645,
+      "language_loss": 0.62760866,
+      "learning_rate": 1.0423412064994787e-06,
+      "loss": 0.65020543,
+      "num_input_tokens_seen": 119774820,
+      "step": 5565,
+      "time_per_iteration": 3.1318984031677246
+    },
+    {
+      "auxiliary_loss_clip": 0.01196885,
+      "auxiliary_loss_mlp": 0.01022121,
+      "balance_loss_clip": 1.04309964,
+      "balance_loss_mlp": 1.01530194,
+      "epoch": 0.6692719292971803,
+      "flos": 34933864296960.0,
+      "grad_norm": 1.9955950345049358,
+      "language_loss": 0.74180257,
+      "learning_rate": 1.0416574137350064e-06,
+      "loss": 0.76399261,
+      "num_input_tokens_seen": 119795525,
+      "step": 5566,
+      "time_per_iteration": 2.9387149810791016
+    },
+    {
+      "auxiliary_loss_clip": 0.01171026,
+      "auxiliary_loss_mlp": 0.01022268,
+      "balance_loss_clip": 1.0462327,
+      "balance_loss_mlp": 1.01431048,
+      "epoch": 0.6693921721878194,
+      "flos": 20449188230400.0,
+      "grad_norm": 2.596383643685039,
+      "language_loss": 0.81054711,
+      "learning_rate": 1.0409737663503428e-06,
+      "loss": 0.83248007,
+      "num_input_tokens_seen": 119813905,
+      "step": 5567,
+      "time_per_iteration": 2.637279987335205
+    },
+    {
+      "auxiliary_loss_clip": 0.01174561,
+      "auxiliary_loss_mlp": 0.01027641,
+      "balance_loss_clip": 1.0436132,
+      "balance_loss_mlp": 1.0199821,
+      "epoch": 0.6695124150784585,
+      "flos": 16614538963200.0,
+      "grad_norm": 2.0897102457668484,
+      "language_loss": 0.82366216,
+      "learning_rate": 1.040290264449196e-06,
+      "loss": 0.84568417,
+      "num_input_tokens_seen": 119832010,
+      "step": 5568,
+      "time_per_iteration": 2.6136553287506104
+    },
+    {
+      "auxiliary_loss_clip": 0.01176388,
+      "auxiliary_loss_mlp": 0.01026406,
+      "balance_loss_clip": 1.0481267,
+      "balance_loss_mlp": 1.01873183,
+      "epoch": 0.6696326579690975,
+      "flos": 26652145852800.0,
+      "grad_norm": 4.586968086456213,
+      "language_loss": 0.64154518,
+      "learning_rate": 1.0396069081352532e-06,
+      "loss": 0.66357315,
+      "num_input_tokens_seen": 119851165,
+      "step": 5569,
+      "time_per_iteration": 2.666175127029419
+    },
+    {
+      "auxiliary_loss_clip": 0.01065899,
+      "auxiliary_loss_mlp": 0.01001904,
+      "balance_loss_clip": 1.01141119,
+      "balance_loss_mlp": 1.00062835,
+      "epoch": 0.6697529008597367,
+      "flos": 66964603662720.0,
+      "grad_norm": 0.8251658152294253,
+      "language_loss": 0.56059819,
+      "learning_rate": 1.0389236975121782e-06,
+      "loss": 0.58127618,
+      "num_input_tokens_seen": 119906015,
+      "step": 5570,
+      "time_per_iteration": 3.1064677238464355
+    },
+    {
+      "auxiliary_loss_clip": 0.01175599,
+      "auxiliary_loss_mlp": 0.0103095,
+      "balance_loss_clip": 1.0501225,
+      "balance_loss_mlp": 1.02333903,
+      "epoch": 0.6698731437503758,
+      "flos": 20886939279360.0,
+      "grad_norm": 1.8177651926391007,
+      "language_loss": 0.7145946,
+      "learning_rate": 1.0382406326836147e-06,
+      "loss": 0.73666006,
+      "num_input_tokens_seen": 119925160,
+      "step": 5571,
+      "time_per_iteration": 3.492668390274048
+    },
+    {
+      "auxiliary_loss_clip": 0.01186201,
+      "auxiliary_loss_mlp": 0.01025305,
+      "balance_loss_clip": 1.04887772,
+      "balance_loss_mlp": 1.01756823,
+      "epoch": 0.6699933866410148,
+      "flos": 20409470766720.0,
+      "grad_norm": 2.1761029560279606,
+      "language_loss": 0.76199281,
+      "learning_rate": 1.0375577137531828e-06,
+      "loss": 0.78410786,
+      "num_input_tokens_seen": 119943720,
+      "step": 5572,
+      "time_per_iteration": 3.8412294387817383
+    },
+    {
+      "auxiliary_loss_clip": 0.0119148,
+      "auxiliary_loss_mlp": 0.01026116,
+      "balance_loss_clip": 1.04496562,
+      "balance_loss_mlp": 1.01856995,
+      "epoch": 0.670113629531654,
+      "flos": 29023075900800.0,
+      "grad_norm": 1.555834679731226,
+      "language_loss": 0.72185576,
+      "learning_rate": 1.0368749408244802e-06,
+      "loss": 0.74403173,
+      "num_input_tokens_seen": 119966640,
+      "step": 5573,
+      "time_per_iteration": 2.76656436920166
+    },
+    {
+      "auxiliary_loss_clip": 0.01174413,
+      "auxiliary_loss_mlp": 0.01027253,
+      "balance_loss_clip": 1.04739094,
+      "balance_loss_mlp": 1.02026772,
+      "epoch": 0.670233872422293,
+      "flos": 19791699730560.0,
+      "grad_norm": 3.5545350674031004,
+      "language_loss": 0.785074,
+      "learning_rate": 1.0361923140010836e-06,
+      "loss": 0.80709076,
+      "num_input_tokens_seen": 119985125,
+      "step": 5574,
+      "time_per_iteration": 2.6852643489837646
+    },
+    {
+      "auxiliary_loss_clip": 0.01184473,
+      "auxiliary_loss_mlp": 0.0102392,
+      "balance_loss_clip": 1.04719758,
+      "balance_loss_mlp": 1.0161413,
+      "epoch": 0.6703541153129321,
+      "flos": 24243689070720.0,
+      "grad_norm": 1.9897281302181422,
+      "language_loss": 0.63437188,
+      "learning_rate": 1.0355098333865455e-06,
+      "loss": 0.65645576,
+      "num_input_tokens_seen": 120004355,
+      "step": 5575,
+      "time_per_iteration": 3.579127311706543
+    },
+    {
+      "auxiliary_loss_clip": 0.01178089,
+      "auxiliary_loss_mlp": 0.01031818,
+      "balance_loss_clip": 1.05032325,
+      "balance_loss_mlp": 1.02481484,
+      "epoch": 0.6704743582035713,
+      "flos": 26688523351680.0,
+      "grad_norm": 1.8021596604303993,
+      "language_loss": 0.6925295,
+      "learning_rate": 1.0348274990844006e-06,
+      "loss": 0.71462858,
+      "num_input_tokens_seen": 120027115,
+      "step": 5576,
+      "time_per_iteration": 2.687769651412964
+    },
+    {
+      "auxiliary_loss_clip": 0.01178353,
+      "auxiliary_loss_mlp": 0.01030618,
+      "balance_loss_clip": 1.04774737,
+      "balance_loss_mlp": 1.02337313,
+      "epoch": 0.6705946010942103,
+      "flos": 23514379326720.0,
+      "grad_norm": 2.0486063128710352,
+      "language_loss": 0.7262696,
+      "learning_rate": 1.034145311198155e-06,
+      "loss": 0.74835938,
+      "num_input_tokens_seen": 120047130,
+      "step": 5577,
+      "time_per_iteration": 2.658998489379883
+    },
+    {
+      "auxiliary_loss_clip": 0.01170257,
+      "auxiliary_loss_mlp": 0.01025998,
+      "balance_loss_clip": 1.04835379,
+      "balance_loss_mlp": 1.0188818,
+      "epoch": 0.6707148439848494,
+      "flos": 24061011477120.0,
+      "grad_norm": 1.64783926408295,
+      "language_loss": 0.6365521,
+      "learning_rate": 1.0334632698312989e-06,
+      "loss": 0.65851462,
+      "num_input_tokens_seen": 120067925,
+      "step": 5578,
+      "time_per_iteration": 3.4854607582092285
+    },
+    {
+      "auxiliary_loss_clip": 0.01181501,
+      "auxiliary_loss_mlp": 0.01025437,
+      "balance_loss_clip": 1.04462862,
+      "balance_loss_mlp": 1.01707458,
+      "epoch": 0.6708350868754885,
+      "flos": 22528667324160.0,
+      "grad_norm": 1.8060363543716682,
+      "language_loss": 0.75584817,
+      "learning_rate": 1.032781375087295e-06,
+      "loss": 0.7779175,
+      "num_input_tokens_seen": 120087825,
+      "step": 5579,
+      "time_per_iteration": 2.692117691040039
+    },
+    {
+      "auxiliary_loss_clip": 0.01192097,
+      "auxiliary_loss_mlp": 0.01027292,
+      "balance_loss_clip": 1.04857361,
+      "balance_loss_mlp": 1.02038085,
+      "epoch": 0.6709553297661276,
+      "flos": 25227749047680.0,
+      "grad_norm": 1.5169941795730495,
+      "language_loss": 0.67571032,
+      "learning_rate": 1.0320996270695891e-06,
+      "loss": 0.69790423,
+      "num_input_tokens_seen": 120108895,
+      "step": 5580,
+      "time_per_iteration": 2.6927592754364014
+    },
+    {
+      "auxiliary_loss_clip": 0.0119472,
+      "auxiliary_loss_mlp": 0.01024869,
+      "balance_loss_clip": 1.04217052,
+      "balance_loss_mlp": 1.01780009,
+      "epoch": 0.6710755726567667,
+      "flos": 20448757267200.0,
+      "grad_norm": 1.8569095436034129,
+      "language_loss": 0.732952,
+      "learning_rate": 1.0314180258815998e-06,
+      "loss": 0.75514787,
+      "num_input_tokens_seen": 120127535,
+      "step": 5581,
+      "time_per_iteration": 2.666337013244629
+    },
+    {
+      "auxiliary_loss_clip": 0.01185918,
+      "auxiliary_loss_mlp": 0.01024605,
+      "balance_loss_clip": 1.04188943,
+      "balance_loss_mlp": 1.01761937,
+      "epoch": 0.6711958155474057,
+      "flos": 25995411538560.0,
+      "grad_norm": 1.695431761635086,
+      "language_loss": 0.74382782,
+      "learning_rate": 1.0307365716267247e-06,
+      "loss": 0.76593304,
+      "num_input_tokens_seen": 120147980,
+      "step": 5582,
+      "time_per_iteration": 2.8066248893737793
+    },
+    {
+      "auxiliary_loss_clip": 0.01177999,
+      "auxiliary_loss_mlp": 0.01028816,
+      "balance_loss_clip": 1.04581261,
+      "balance_loss_mlp": 1.02117467,
+      "epoch": 0.6713160584380449,
+      "flos": 19937712516480.0,
+      "grad_norm": 2.277474640601085,
+      "language_loss": 0.77933586,
+      "learning_rate": 1.0300552644083423e-06,
+      "loss": 0.801404,
+      "num_input_tokens_seen": 120166905,
+      "step": 5583,
+      "time_per_iteration": 2.559889554977417
+    },
+    {
+      "auxiliary_loss_clip": 0.01205047,
+      "auxiliary_loss_mlp": 0.01031522,
+      "balance_loss_clip": 1.04769206,
+      "balance_loss_mlp": 1.02231264,
+      "epoch": 0.6714363013286839,
+      "flos": 18223373128320.0,
+      "grad_norm": 2.822177333879381,
+      "language_loss": 0.73072326,
+      "learning_rate": 1.0293741043298036e-06,
+      "loss": 0.75308895,
+      "num_input_tokens_seen": 120185255,
+      "step": 5584,
+      "time_per_iteration": 2.693446397781372
+    },
+    {
+      "auxiliary_loss_clip": 0.01203731,
+      "auxiliary_loss_mlp": 0.01023633,
+      "balance_loss_clip": 1.04979968,
+      "balance_loss_mlp": 1.01615262,
+      "epoch": 0.671556544219323,
+      "flos": 25812374808960.0,
+      "grad_norm": 3.206656554731369,
+      "language_loss": 0.71609461,
+      "learning_rate": 1.0286930914944436e-06,
+      "loss": 0.73836827,
+      "num_input_tokens_seen": 120205070,
+      "step": 5585,
+      "time_per_iteration": 2.7310967445373535
+    },
+    {
+      "auxiliary_loss_clip": 0.01170752,
+      "auxiliary_loss_mlp": 0.01025564,
+      "balance_loss_clip": 1.04684305,
+      "balance_loss_mlp": 1.01750517,
+      "epoch": 0.6716767871099621,
+      "flos": 15850431918720.0,
+      "grad_norm": 2.305730622299003,
+      "language_loss": 0.77195525,
+      "learning_rate": 1.0280122260055684e-06,
+      "loss": 0.79391837,
+      "num_input_tokens_seen": 120220780,
+      "step": 5586,
+      "time_per_iteration": 2.708860397338867
+    },
+    {
+      "auxiliary_loss_clip": 0.01172695,
+      "auxiliary_loss_mlp": 0.01026191,
+      "balance_loss_clip": 1.04902363,
+      "balance_loss_mlp": 1.01872289,
+      "epoch": 0.6717970300006012,
+      "flos": 19756112330880.0,
+      "grad_norm": 2.196955983375942,
+      "language_loss": 0.82103348,
+      "learning_rate": 1.0273315079664652e-06,
+      "loss": 0.84302229,
+      "num_input_tokens_seen": 120238735,
+      "step": 5587,
+      "time_per_iteration": 2.676482677459717
+    },
+    {
+      "auxiliary_loss_clip": 0.01183904,
+      "auxiliary_loss_mlp": 0.01024777,
+      "balance_loss_clip": 1.04856491,
+      "balance_loss_mlp": 1.0171566,
+      "epoch": 0.6719172728912403,
+      "flos": 25485049146240.0,
+      "grad_norm": 2.152106442332462,
+      "language_loss": 0.74278969,
+      "learning_rate": 1.0266509374803992e-06,
+      "loss": 0.76487648,
+      "num_input_tokens_seen": 120259895,
+      "step": 5588,
+      "time_per_iteration": 2.746321439743042
+    },
+    {
+      "auxiliary_loss_clip": 0.0117343,
+      "auxiliary_loss_mlp": 0.01378819,
+      "balance_loss_clip": 1.04964817,
+      "balance_loss_mlp": 1.00027394,
+      "epoch": 0.6720375157818794,
+      "flos": 15880344969600.0,
+      "grad_norm": 2.694539096164984,
+      "language_loss": 0.8436985,
+      "learning_rate": 1.0259705146506123e-06,
+      "loss": 0.86922097,
+      "num_input_tokens_seen": 120274790,
+      "step": 5589,
+      "time_per_iteration": 2.7270188331604004
+    },
+    {
+      "auxiliary_loss_clip": 0.01183482,
+      "auxiliary_loss_mlp": 0.01027776,
+      "balance_loss_clip": 1.04782462,
+      "balance_loss_mlp": 1.02073383,
+      "epoch": 0.6721577586725185,
+      "flos": 32010843231360.0,
+      "grad_norm": 3.3593688636181667,
+      "language_loss": 0.7741673,
+      "learning_rate": 1.025290239580324e-06,
+      "loss": 0.79627991,
+      "num_input_tokens_seen": 120295460,
+      "step": 5590,
+      "time_per_iteration": 2.783212184906006
+    },
+    {
+      "auxiliary_loss_clip": 0.01204893,
+      "auxiliary_loss_mlp": 0.01021698,
+      "balance_loss_clip": 1.04113674,
+      "balance_loss_mlp": 1.01402688,
+      "epoch": 0.6722780015631575,
+      "flos": 20737873837440.0,
+      "grad_norm": 1.7587613524092616,
+      "language_loss": 0.75551313,
+      "learning_rate": 1.0246101123727313e-06,
+      "loss": 0.7777791,
+      "num_input_tokens_seen": 120314440,
+      "step": 5591,
+      "time_per_iteration": 2.7405056953430176
+    },
+    {
+      "auxiliary_loss_clip": 0.01180596,
+      "auxiliary_loss_mlp": 0.01023194,
+      "balance_loss_clip": 1.04638743,
+      "balance_loss_mlp": 1.01585388,
+      "epoch": 0.6723982444537967,
+      "flos": 16909617191040.0,
+      "grad_norm": 1.8055249032342693,
+      "language_loss": 0.78591752,
+      "learning_rate": 1.0239301331310085e-06,
+      "loss": 0.80795544,
+      "num_input_tokens_seen": 120332060,
+      "step": 5592,
+      "time_per_iteration": 2.5893120765686035
+    },
+    {
+      "auxiliary_loss_clip": 0.01179831,
+      "auxiliary_loss_mlp": 0.0102412,
+      "balance_loss_clip": 1.04778016,
+      "balance_loss_mlp": 1.01720333,
+      "epoch": 0.6725184873444358,
+      "flos": 20667812359680.0,
+      "grad_norm": 2.1255144951640235,
+      "language_loss": 0.88489014,
+      "learning_rate": 1.0232503019583088e-06,
+      "loss": 0.90692961,
+      "num_input_tokens_seen": 120351670,
+      "step": 5593,
+      "time_per_iteration": 2.6749589443206787
+    },
+    {
+      "auxiliary_loss_clip": 0.01181901,
+      "auxiliary_loss_mlp": 0.01024694,
+      "balance_loss_clip": 1.05232191,
+      "balance_loss_mlp": 1.01735711,
+      "epoch": 0.6726387302350748,
+      "flos": 23727616416000.0,
+      "grad_norm": 1.8054142266255746,
+      "language_loss": 0.69997627,
+      "learning_rate": 1.0225706189577619e-06,
+      "loss": 0.7220422,
+      "num_input_tokens_seen": 120370195,
+      "step": 5594,
+      "time_per_iteration": 2.6319074630737305
+    },
+    {
+      "auxiliary_loss_clip": 0.0118388,
+      "auxiliary_loss_mlp": 0.01024049,
+      "balance_loss_clip": 1.04960966,
+      "balance_loss_mlp": 1.01630688,
+      "epoch": 0.672758973125714,
+      "flos": 15188274650880.0,
+      "grad_norm": 2.129833206721924,
+      "language_loss": 0.74818385,
+      "learning_rate": 1.021891084232475e-06,
+      "loss": 0.77026308,
+      "num_input_tokens_seen": 120388130,
+      "step": 5595,
+      "time_per_iteration": 2.5849056243896484
+    },
+    {
+      "auxiliary_loss_clip": 0.01178966,
+      "auxiliary_loss_mlp": 0.01026079,
+      "balance_loss_clip": 1.04557419,
+      "balance_loss_mlp": 1.01831889,
+      "epoch": 0.672879216016353,
+      "flos": 18077252601600.0,
+      "grad_norm": 3.128850320777895,
+      "language_loss": 0.80216169,
+      "learning_rate": 1.0212116978855325e-06,
+      "loss": 0.82421213,
+      "num_input_tokens_seen": 120406145,
+      "step": 5596,
+      "time_per_iteration": 2.5751876831054688
+    },
+    {
+      "auxiliary_loss_clip": 0.01197856,
+      "auxiliary_loss_mlp": 0.01024621,
+      "balance_loss_clip": 1.04514897,
+      "balance_loss_mlp": 1.01727152,
+      "epoch": 0.6729994589069921,
+      "flos": 23476349802240.0,
+      "grad_norm": 1.7021315511836745,
+      "language_loss": 0.79135734,
+      "learning_rate": 1.020532460019997e-06,
+      "loss": 0.81358206,
+      "num_input_tokens_seen": 120425395,
+      "step": 5597,
+      "time_per_iteration": 3.67409348487854
+    },
+    {
+      "auxiliary_loss_clip": 0.0122796,
+      "auxiliary_loss_mlp": 0.01026659,
+      "balance_loss_clip": 1.04097486,
+      "balance_loss_mlp": 1.01941156,
+      "epoch": 0.6731197017976313,
+      "flos": 26322018929280.0,
+      "grad_norm": 1.9420741501957315,
+      "language_loss": 0.71297818,
+      "learning_rate": 1.0198533707389096e-06,
+      "loss": 0.73552436,
+      "num_input_tokens_seen": 120446270,
+      "step": 5598,
+      "time_per_iteration": 4.059406518936157
+    },
+    {
+      "auxiliary_loss_clip": 0.01180507,
+      "auxiliary_loss_mlp": 0.01378772,
+      "balance_loss_clip": 1.04992974,
+      "balance_loss_mlp": 1.00024986,
+      "epoch": 0.6732399446882703,
+      "flos": 21616428591360.0,
+      "grad_norm": 2.7698881287957424,
+      "language_loss": 0.73366904,
+      "learning_rate": 1.0191744301452853e-06,
+      "loss": 0.75926179,
+      "num_input_tokens_seen": 120465570,
+      "step": 5599,
+      "time_per_iteration": 2.788445472717285
+    },
+    {
+      "auxiliary_loss_clip": 0.01168948,
+      "auxiliary_loss_mlp": 0.0102806,
+      "balance_loss_clip": 1.04748893,
+      "balance_loss_mlp": 1.02099705,
+      "epoch": 0.6733601875789094,
+      "flos": 25880173729920.0,
+      "grad_norm": 1.7937728459694735,
+      "language_loss": 0.70470798,
+      "learning_rate": 1.0184956383421208e-06,
+      "loss": 0.72667801,
+      "num_input_tokens_seen": 120484220,
+      "step": 5600,
+      "time_per_iteration": 2.6584348678588867
+    },
+    {
+      "auxiliary_loss_clip": 0.0118538,
+      "auxiliary_loss_mlp": 0.01023746,
+      "balance_loss_clip": 1.04926443,
+      "balance_loss_mlp": 1.01647401,
+      "epoch": 0.6734804304695485,
+      "flos": 22929573997440.0,
+      "grad_norm": 4.985881955781259,
+      "language_loss": 0.65783465,
+      "learning_rate": 1.017816995432387e-06,
+      "loss": 0.67992586,
+      "num_input_tokens_seen": 120503320,
+      "step": 5601,
+      "time_per_iteration": 3.5600199699401855
+    },
+    {
+      "auxiliary_loss_clip": 0.01189254,
+      "auxiliary_loss_mlp": 0.01030776,
+      "balance_loss_clip": 1.04745936,
+      "balance_loss_mlp": 1.02339435,
+      "epoch": 0.6736006733601876,
+      "flos": 18697968552960.0,
+      "grad_norm": 1.858177657441831,
+      "language_loss": 0.74294353,
+      "learning_rate": 1.0171385015190353e-06,
+      "loss": 0.76514375,
+      "num_input_tokens_seen": 120523180,
+      "step": 5602,
+      "time_per_iteration": 2.7216334342956543
+    },
+    {
+      "auxiliary_loss_clip": 0.01183111,
+      "auxiliary_loss_mlp": 0.01378466,
+      "balance_loss_clip": 1.04707932,
+      "balance_loss_mlp": 1.00020933,
+      "epoch": 0.6737209162508266,
+      "flos": 19427745173760.0,
+      "grad_norm": 5.2500026453324145,
+      "language_loss": 0.73343033,
+      "learning_rate": 1.0164601567049908e-06,
+      "loss": 0.75904614,
+      "num_input_tokens_seen": 120541710,
+      "step": 5603,
+      "time_per_iteration": 2.6876463890075684
+    },
+    {
+      "auxiliary_loss_clip": 0.01188464,
+      "auxiliary_loss_mlp": 0.0102442,
+      "balance_loss_clip": 1.0476265,
+      "balance_loss_mlp": 1.01666558,
+      "epoch": 0.6738411591414658,
+      "flos": 20158060498560.0,
+      "grad_norm": 1.7231320659329563,
+      "language_loss": 0.80576038,
+      "learning_rate": 1.015781961093158e-06,
+      "loss": 0.82788926,
+      "num_input_tokens_seen": 120561030,
+      "step": 5604,
+      "time_per_iteration": 4.3676371574401855
+    },
+    {
+      "auxiliary_loss_clip": 0.01191062,
+      "auxiliary_loss_mlp": 0.01024793,
+      "balance_loss_clip": 1.04376531,
+      "balance_loss_mlp": 1.01766741,
+      "epoch": 0.6739614020321049,
+      "flos": 21653847584640.0,
+      "grad_norm": 1.5114377976428666,
+      "language_loss": 0.77398837,
+      "learning_rate": 1.0151039147864197e-06,
+      "loss": 0.79614693,
+      "num_input_tokens_seen": 120581005,
+      "step": 5605,
+      "time_per_iteration": 2.7114672660827637
+    },
+    {
+      "auxiliary_loss_clip": 0.01220387,
+      "auxiliary_loss_mlp": 0.0102493,
+      "balance_loss_clip": 1.04544806,
+      "balance_loss_mlp": 1.0169909,
+      "epoch": 0.6740816449227439,
+      "flos": 19171702051200.0,
+      "grad_norm": 1.9652238327909748,
+      "language_loss": 0.65797502,
+      "learning_rate": 1.0144260178876336e-06,
+      "loss": 0.68042821,
+      "num_input_tokens_seen": 120600350,
+      "step": 5606,
+      "time_per_iteration": 3.0000882148742676
+    },
+    {
+      "auxiliary_loss_clip": 0.01192461,
+      "auxiliary_loss_mlp": 0.01027611,
+      "balance_loss_clip": 1.04496849,
+      "balance_loss_mlp": 1.01979733,
+      "epoch": 0.6742018878133831,
+      "flos": 21097015971840.0,
+      "grad_norm": 2.291158678996028,
+      "language_loss": 0.67298174,
+      "learning_rate": 1.0137482704996388e-06,
+      "loss": 0.69518244,
+      "num_input_tokens_seen": 120614700,
+      "step": 5607,
+      "time_per_iteration": 2.840780735015869
+    },
+    {
+      "auxiliary_loss_clip": 0.01202003,
+      "auxiliary_loss_mlp": 0.0102879,
+      "balance_loss_clip": 1.0460695,
+      "balance_loss_mlp": 1.02097559,
+      "epoch": 0.6743221307040221,
+      "flos": 23549966726400.0,
+      "grad_norm": 3.4533139443698238,
+      "language_loss": 0.78925467,
+      "learning_rate": 1.0130706727252461e-06,
+      "loss": 0.81156254,
+      "num_input_tokens_seen": 120631755,
+      "step": 5608,
+      "time_per_iteration": 2.867241859436035
+    },
+    {
+      "auxiliary_loss_clip": 0.01204372,
+      "auxiliary_loss_mlp": 0.01027066,
+      "balance_loss_clip": 1.04703724,
+      "balance_loss_mlp": 1.01935911,
+      "epoch": 0.6744423735946612,
+      "flos": 16249542912000.0,
+      "grad_norm": 2.376282282328894,
+      "language_loss": 0.67767102,
+      "learning_rate": 1.0123932246672468e-06,
+      "loss": 0.69998538,
+      "num_input_tokens_seen": 120645900,
+      "step": 5609,
+      "time_per_iteration": 2.6337826251983643
+    },
+    {
+      "auxiliary_loss_clip": 0.01114332,
+      "auxiliary_loss_mlp": 0.01373947,
+      "balance_loss_clip": 1.01160479,
+      "balance_loss_mlp": 0.99976122,
+      "epoch": 0.6745626164853004,
+      "flos": 57843257829120.0,
+      "grad_norm": 0.7491991824202496,
+      "language_loss": 0.55818194,
+      "learning_rate": 1.0117159264284114e-06,
+      "loss": 0.58306473,
+      "num_input_tokens_seen": 120709070,
+      "step": 5610,
+      "time_per_iteration": 3.477623701095581
+    },
+    {
+      "auxiliary_loss_clip": 0.01192046,
+      "auxiliary_loss_mlp": 0.01022787,
+      "balance_loss_clip": 1.04689956,
+      "balance_loss_mlp": 1.01519895,
+      "epoch": 0.6746828593759394,
+      "flos": 20485027025280.0,
+      "grad_norm": 1.6294176080168281,
+      "language_loss": 0.76885188,
+      "learning_rate": 1.0110387781114837e-06,
+      "loss": 0.79100025,
+      "num_input_tokens_seen": 120727685,
+      "step": 5611,
+      "time_per_iteration": 2.665667772293091
+    },
+    {
+      "auxiliary_loss_clip": 0.01169451,
+      "auxiliary_loss_mlp": 0.01026338,
+      "balance_loss_clip": 1.04843974,
+      "balance_loss_mlp": 1.01843476,
+      "epoch": 0.6748031022665785,
+      "flos": 19208223204480.0,
+      "grad_norm": 1.9887055686739155,
+      "language_loss": 0.77026135,
+      "learning_rate": 1.0103617798191872e-06,
+      "loss": 0.79221928,
+      "num_input_tokens_seen": 120747160,
+      "step": 5612,
+      "time_per_iteration": 2.6115028858184814
+    },
+    {
+      "auxiliary_loss_clip": 0.01185748,
+      "auxiliary_loss_mlp": 0.01022582,
+      "balance_loss_clip": 1.04514456,
+      "balance_loss_mlp": 1.01508939,
+      "epoch": 0.6749233451572175,
+      "flos": 15195026407680.0,
+      "grad_norm": 2.923734106937653,
+      "language_loss": 0.82790595,
+      "learning_rate": 1.0096849316542217e-06,
+      "loss": 0.84998924,
+      "num_input_tokens_seen": 120763710,
+      "step": 5613,
+      "time_per_iteration": 2.6426401138305664
+    },
+    {
+      "auxiliary_loss_clip": 0.01210767,
+      "auxiliary_loss_mlp": 0.01018993,
+      "balance_loss_clip": 1.0384109,
+      "balance_loss_mlp": 1.01135719,
+      "epoch": 0.6750435880478567,
+      "flos": 26499489050880.0,
+      "grad_norm": 2.06671238932974,
+      "language_loss": 0.74973106,
+      "learning_rate": 1.0090082337192643e-06,
+      "loss": 0.77202857,
+      "num_input_tokens_seen": 120783355,
+      "step": 5614,
+      "time_per_iteration": 2.8398380279541016
+    },
+    {
+      "auxiliary_loss_clip": 0.01206489,
+      "auxiliary_loss_mlp": 0.01023674,
+      "balance_loss_clip": 1.03734267,
+      "balance_loss_mlp": 1.01649785,
+      "epoch": 0.6751638309384957,
+      "flos": 23404313076480.0,
+      "grad_norm": 2.7032546564427187,
+      "language_loss": 0.78901267,
+      "learning_rate": 1.0083316861169705e-06,
+      "loss": 0.81131434,
+      "num_input_tokens_seen": 120802090,
+      "step": 5615,
+      "time_per_iteration": 2.850677013397217
+    },
+    {
+      "auxiliary_loss_clip": 0.01203701,
+      "auxiliary_loss_mlp": 0.01026978,
+      "balance_loss_clip": 1.04452336,
+      "balance_loss_mlp": 1.01868081,
+      "epoch": 0.6752840738291348,
+      "flos": 23441408847360.0,
+      "grad_norm": 1.9787219156260676,
+      "language_loss": 0.7160939,
+      "learning_rate": 1.0076552889499713e-06,
+      "loss": 0.7384007,
+      "num_input_tokens_seen": 120822855,
+      "step": 5616,
+      "time_per_iteration": 2.825817346572876
+    },
+    {
+      "auxiliary_loss_clip": 0.01180328,
+      "auxiliary_loss_mlp": 0.01025027,
+      "balance_loss_clip": 1.04940438,
+      "balance_loss_mlp": 1.01776075,
+      "epoch": 0.675404316719774,
+      "flos": 30335826257280.0,
+      "grad_norm": 1.8785160482728827,
+      "language_loss": 0.73389363,
+      "learning_rate": 1.006979042320876e-06,
+      "loss": 0.75594717,
+      "num_input_tokens_seen": 120843070,
+      "step": 5617,
+      "time_per_iteration": 2.7055158615112305
+    },
+    {
+      "auxiliary_loss_clip": 0.01182891,
+      "auxiliary_loss_mlp": 0.0102244,
+      "balance_loss_clip": 1.04273224,
+      "balance_loss_mlp": 1.01523042,
+      "epoch": 0.675524559610413,
+      "flos": 23622613983360.0,
+      "grad_norm": 2.020052852617401,
+      "language_loss": 0.63028288,
+      "learning_rate": 1.0063029463322702e-06,
+      "loss": 0.65233624,
+      "num_input_tokens_seen": 120863345,
+      "step": 5618,
+      "time_per_iteration": 2.66094708442688
+    },
+    {
+      "auxiliary_loss_clip": 0.01198682,
+      "auxiliary_loss_mlp": 0.01378743,
+      "balance_loss_clip": 1.04075193,
+      "balance_loss_mlp": 1.00020123,
+      "epoch": 0.6756448025010521,
+      "flos": 21248631279360.0,
+      "grad_norm": 2.9728205909375136,
+      "language_loss": 0.75177169,
+      "learning_rate": 1.0056270010867164e-06,
+      "loss": 0.77754593,
+      "num_input_tokens_seen": 120880915,
+      "step": 5619,
+      "time_per_iteration": 2.799128293991089
+    },
+    {
+      "auxiliary_loss_clip": 0.0119071,
+      "auxiliary_loss_mlp": 0.01026333,
+      "balance_loss_clip": 1.04360271,
+      "balance_loss_mlp": 1.01831603,
+      "epoch": 0.6757650453916912,
+      "flos": 21646521210240.0,
+      "grad_norm": 2.6873677722723723,
+      "language_loss": 0.77562982,
+      "learning_rate": 1.004951206686758e-06,
+      "loss": 0.79780018,
+      "num_input_tokens_seen": 120899190,
+      "step": 5620,
+      "time_per_iteration": 2.721615791320801
+    },
+    {
+      "auxiliary_loss_clip": 0.0117326,
+      "auxiliary_loss_mlp": 0.01030043,
+      "balance_loss_clip": 1.04542696,
+      "balance_loss_mlp": 1.02233267,
+      "epoch": 0.6758852882823303,
+      "flos": 21795658479360.0,
+      "grad_norm": 2.088830115200652,
+      "language_loss": 0.71686721,
+      "learning_rate": 1.0042755632349087e-06,
+      "loss": 0.73890018,
+      "num_input_tokens_seen": 120916080,
+      "step": 5621,
+      "time_per_iteration": 2.6302096843719482
+    },
+    {
+      "auxiliary_loss_clip": 0.01201761,
+      "auxiliary_loss_mlp": 0.0102421,
+      "balance_loss_clip": 1.0469017,
+      "balance_loss_mlp": 1.01672363,
+      "epoch": 0.6760055311729694,
+      "flos": 27088783580160.0,
+      "grad_norm": 1.9371161974255546,
+      "language_loss": 0.62955821,
+      "learning_rate": 1.0036000708336653e-06,
+      "loss": 0.65181792,
+      "num_input_tokens_seen": 120935210,
+      "step": 5622,
+      "time_per_iteration": 2.740593671798706
+    },
+    {
+      "auxiliary_loss_clip": 0.01192195,
+      "auxiliary_loss_mlp": 0.01028191,
+      "balance_loss_clip": 1.04671049,
+      "balance_loss_mlp": 1.0208863,
+      "epoch": 0.6761257740636085,
+      "flos": 17999792922240.0,
+      "grad_norm": 2.5021395000283526,
+      "language_loss": 0.79743838,
+      "learning_rate": 1.0029247295854984e-06,
+      "loss": 0.81964225,
+      "num_input_tokens_seen": 120951830,
+      "step": 5623,
+      "time_per_iteration": 3.5861270427703857
+    },
+    {
+      "auxiliary_loss_clip": 0.01205972,
+      "auxiliary_loss_mlp": 0.01027787,
+      "balance_loss_clip": 1.0478344,
+      "balance_loss_mlp": 1.02055073,
+      "epoch": 0.6762460169542476,
+      "flos": 15121912273920.0,
+      "grad_norm": 1.8453471288824141,
+      "language_loss": 0.71549046,
+      "learning_rate": 1.0022495395928588e-06,
+      "loss": 0.73782802,
+      "num_input_tokens_seen": 120970310,
+      "step": 5624,
+      "time_per_iteration": 3.772711992263794
+    },
+    {
+      "auxiliary_loss_clip": 0.01066015,
+      "auxiliary_loss_mlp": 0.01003313,
+      "balance_loss_clip": 1.0117445,
+      "balance_loss_mlp": 1.00210321,
+      "epoch": 0.6763662598448866,
+      "flos": 67886970030720.0,
+      "grad_norm": 0.795883694591083,
+      "language_loss": 0.62359744,
+      "learning_rate": 1.0015745009581697e-06,
+      "loss": 0.64429075,
+      "num_input_tokens_seen": 121031915,
+      "step": 5625,
+      "time_per_iteration": 3.1977176666259766
+    },
+    {
+      "auxiliary_loss_clip": 0.01179485,
+      "auxiliary_loss_mlp": 0.01028216,
+      "balance_loss_clip": 1.04864442,
+      "balance_loss_mlp": 1.02059817,
+      "epoch": 0.6764865027355258,
+      "flos": 20631829910400.0,
+      "grad_norm": 2.018901780196003,
+      "language_loss": 0.66956151,
+      "learning_rate": 1.0008996137838343e-06,
+      "loss": 0.69163859,
+      "num_input_tokens_seen": 121050890,
+      "step": 5626,
+      "time_per_iteration": 2.5882606506347656
+    },
+    {
+      "auxiliary_loss_clip": 0.01175642,
+      "auxiliary_loss_mlp": 0.01028567,
+      "balance_loss_clip": 1.04885232,
+      "balance_loss_mlp": 1.01998997,
+      "epoch": 0.6766067456261649,
+      "flos": 21215809226880.0,
+      "grad_norm": 2.022484675487177,
+      "language_loss": 0.80344957,
+      "learning_rate": 1.000224878172234e-06,
+      "loss": 0.82549167,
+      "num_input_tokens_seen": 121070015,
+      "step": 5627,
+      "time_per_iteration": 3.629523992538452
+    },
+    {
+      "auxiliary_loss_clip": 0.01183834,
+      "auxiliary_loss_mlp": 0.0102351,
+      "balance_loss_clip": 1.04807568,
+      "balance_loss_mlp": 1.01591671,
+      "epoch": 0.6767269885168039,
+      "flos": 19938251220480.0,
+      "grad_norm": 2.3137664600440613,
+      "language_loss": 0.72538018,
+      "learning_rate": 9.99550294225724e-07,
+      "loss": 0.74745363,
+      "num_input_tokens_seen": 121089170,
+      "step": 5628,
+      "time_per_iteration": 2.6127681732177734
+    },
+    {
+      "auxiliary_loss_clip": 0.01206687,
+      "auxiliary_loss_mlp": 0.01031078,
+      "balance_loss_clip": 1.04018283,
+      "balance_loss_mlp": 1.02268577,
+      "epoch": 0.6768472314074431,
+      "flos": 20814076540800.0,
+      "grad_norm": 1.9908274060770514,
+      "language_loss": 0.72339857,
+      "learning_rate": 9.988758620466402e-07,
+      "loss": 0.74577618,
+      "num_input_tokens_seen": 121108040,
+      "step": 5629,
+      "time_per_iteration": 2.7643136978149414
+    },
+    {
+      "auxiliary_loss_clip": 0.01222989,
+      "auxiliary_loss_mlp": 0.01026163,
+      "balance_loss_clip": 1.04267251,
+      "balance_loss_mlp": 1.01890278,
+      "epoch": 0.6769674742980821,
+      "flos": 23186012169600.0,
+      "grad_norm": 1.667149461899024,
+      "language_loss": 0.76265502,
+      "learning_rate": 9.982015817372917e-07,
+      "loss": 0.78514659,
+      "num_input_tokens_seen": 121128480,
+      "step": 5630,
+      "time_per_iteration": 3.7016634941101074
+    },
+    {
+      "auxiliary_loss_clip": 0.01202677,
+      "auxiliary_loss_mlp": 0.01031341,
+      "balance_loss_clip": 1.04099298,
+      "balance_loss_mlp": 1.02363992,
+      "epoch": 0.6770877171887212,
+      "flos": 24242934885120.0,
+      "grad_norm": 1.8786959661570872,
+      "language_loss": 0.82170945,
+      "learning_rate": 9.975274533999657e-07,
+      "loss": 0.84404957,
+      "num_input_tokens_seen": 121148010,
+      "step": 5631,
+      "time_per_iteration": 2.8289647102355957
+    },
+    {
+      "auxiliary_loss_clip": 0.01172935,
+      "auxiliary_loss_mlp": 0.01024466,
+      "balance_loss_clip": 1.04846251,
+      "balance_loss_mlp": 1.01602626,
+      "epoch": 0.6772079600793603,
+      "flos": 18141567903360.0,
+      "grad_norm": 3.2708681892188083,
+      "language_loss": 0.84295332,
+      "learning_rate": 9.96853477136929e-07,
+      "loss": 0.86492741,
+      "num_input_tokens_seen": 121162755,
+      "step": 5632,
+      "time_per_iteration": 2.530921220779419
+    },
+    {
+      "auxiliary_loss_clip": 0.01187809,
+      "auxiliary_loss_mlp": 0.01026464,
+      "balance_loss_clip": 1.04107177,
+      "balance_loss_mlp": 1.01828671,
+      "epoch": 0.6773282029699994,
+      "flos": 22452069571200.0,
+      "grad_norm": 2.030161350782985,
+      "language_loss": 0.75165939,
+      "learning_rate": 9.96179653050422e-07,
+      "loss": 0.7738021,
+      "num_input_tokens_seen": 121182915,
+      "step": 5633,
+      "time_per_iteration": 2.6771397590637207
+    },
+    {
+      "auxiliary_loss_clip": 0.01191895,
+      "auxiliary_loss_mlp": 0.01029752,
+      "balance_loss_clip": 1.04554462,
+      "balance_loss_mlp": 1.02208054,
+      "epoch": 0.6774484458606385,
+      "flos": 18693730748160.0,
+      "grad_norm": 2.587360885812055,
+      "language_loss": 0.74068165,
+      "learning_rate": 9.955059812426635e-07,
+      "loss": 0.76289809,
+      "num_input_tokens_seen": 121200445,
+      "step": 5634,
+      "time_per_iteration": 2.703660011291504
+    },
+    {
+      "auxiliary_loss_clip": 0.01174052,
+      "auxiliary_loss_mlp": 0.01027131,
+      "balance_loss_clip": 1.0517621,
+      "balance_loss_mlp": 1.01924849,
+      "epoch": 0.6775686887512776,
+      "flos": 25994046821760.0,
+      "grad_norm": 2.2597679814614584,
+      "language_loss": 0.82867754,
+      "learning_rate": 9.948324618158493e-07,
+      "loss": 0.85068941,
+      "num_input_tokens_seen": 121220785,
+      "step": 5635,
+      "time_per_iteration": 2.578934907913208
+    },
+    {
+      "auxiliary_loss_clip": 0.01178666,
+      "auxiliary_loss_mlp": 0.01023061,
+      "balance_loss_clip": 1.04419875,
+      "balance_loss_mlp": 1.01540184,
+      "epoch": 0.6776889316419167,
+      "flos": 13587987922560.0,
+      "grad_norm": 5.0420157439473305,
+      "language_loss": 0.77170706,
+      "learning_rate": 9.941590948721502e-07,
+      "loss": 0.79372436,
+      "num_input_tokens_seen": 121237985,
+      "step": 5636,
+      "time_per_iteration": 2.630981683731079
+    },
+    {
+      "auxiliary_loss_clip": 0.01182849,
+      "auxiliary_loss_mlp": 0.01023088,
+      "balance_loss_clip": 1.04558325,
+      "balance_loss_mlp": 1.01600456,
+      "epoch": 0.6778091745325557,
+      "flos": 27601121220480.0,
+      "grad_norm": 1.7663422959899524,
+      "language_loss": 0.76294231,
+      "learning_rate": 9.934858805137188e-07,
+      "loss": 0.78500164,
+      "num_input_tokens_seen": 121258635,
+      "step": 5637,
+      "time_per_iteration": 2.677887201309204
+    },
+    {
+      "auxiliary_loss_clip": 0.01176816,
+      "auxiliary_loss_mlp": 0.01025876,
+      "balance_loss_clip": 1.04853868,
+      "balance_loss_mlp": 1.01869392,
+      "epoch": 0.6779294174231949,
+      "flos": 18734058743040.0,
+      "grad_norm": 1.7881773309549198,
+      "language_loss": 0.81141508,
+      "learning_rate": 9.92812818842677e-07,
+      "loss": 0.83344197,
+      "num_input_tokens_seen": 121277810,
+      "step": 5638,
+      "time_per_iteration": 2.66843318939209
+    },
+    {
+      "auxiliary_loss_clip": 0.01176286,
+      "auxiliary_loss_mlp": 0.01025051,
+      "balance_loss_clip": 1.04523182,
+      "balance_loss_mlp": 1.01741004,
+      "epoch": 0.678049660313834,
+      "flos": 45873797765760.0,
+      "grad_norm": 2.070488386358795,
+      "language_loss": 0.6414367,
+      "learning_rate": 9.921399099611306e-07,
+      "loss": 0.66345006,
+      "num_input_tokens_seen": 121298975,
+      "step": 5639,
+      "time_per_iteration": 2.847949266433716
+    },
+    {
+      "auxiliary_loss_clip": 0.01188994,
+      "auxiliary_loss_mlp": 0.01024028,
+      "balance_loss_clip": 1.04468012,
+      "balance_loss_mlp": 1.01709867,
+      "epoch": 0.678169903204473,
+      "flos": 19974556892160.0,
+      "grad_norm": 1.7357478338867354,
+      "language_loss": 0.68759567,
+      "learning_rate": 9.914671539711588e-07,
+      "loss": 0.70972586,
+      "num_input_tokens_seen": 121318495,
+      "step": 5640,
+      "time_per_iteration": 2.7062883377075195
+    },
+    {
+      "auxiliary_loss_clip": 0.01238076,
+      "auxiliary_loss_mlp": 0.01379158,
+      "balance_loss_clip": 1.04114294,
+      "balance_loss_mlp": 1.00016642,
+      "epoch": 0.6782901460951122,
+      "flos": 21395613732480.0,
+      "grad_norm": 2.043984736508797,
+      "language_loss": 0.78366792,
+      "learning_rate": 9.90794550974817e-07,
+      "loss": 0.80984026,
+      "num_input_tokens_seen": 121338890,
+      "step": 5641,
+      "time_per_iteration": 2.949956178665161
+    },
+    {
+      "auxiliary_loss_clip": 0.01193497,
+      "auxiliary_loss_mlp": 0.01029409,
+      "balance_loss_clip": 1.04503131,
+      "balance_loss_mlp": 1.02132618,
+      "epoch": 0.6784103889857512,
+      "flos": 21434002392960.0,
+      "grad_norm": 2.4479008232618136,
+      "language_loss": 0.81476319,
+      "learning_rate": 9.901221010741407e-07,
+      "loss": 0.83699226,
+      "num_input_tokens_seen": 121358210,
+      "step": 5642,
+      "time_per_iteration": 2.9055862426757812
+    },
+    {
+      "auxiliary_loss_clip": 0.01183557,
+      "auxiliary_loss_mlp": 0.01029976,
+      "balance_loss_clip": 1.04716873,
+      "balance_loss_mlp": 1.02177477,
+      "epoch": 0.6785306318763903,
+      "flos": 32671923091200.0,
+      "grad_norm": 2.274656990748534,
+      "language_loss": 0.75079894,
+      "learning_rate": 9.894498043711375e-07,
+      "loss": 0.7729342,
+      "num_input_tokens_seen": 121379955,
+      "step": 5643,
+      "time_per_iteration": 2.760272741317749
+    },
+    {
+      "auxiliary_loss_clip": 0.01187959,
+      "auxiliary_loss_mlp": 0.01023594,
+      "balance_loss_clip": 1.04496479,
+      "balance_loss_mlp": 1.01634359,
+      "epoch": 0.6786508747670293,
+      "flos": 25632139340160.0,
+      "grad_norm": 2.0040710185298507,
+      "language_loss": 0.68800008,
+      "learning_rate": 9.887776609677962e-07,
+      "loss": 0.71011561,
+      "num_input_tokens_seen": 121401325,
+      "step": 5644,
+      "time_per_iteration": 2.6752638816833496
+    },
+    {
+      "auxiliary_loss_clip": 0.01184626,
+      "auxiliary_loss_mlp": 0.01027395,
+      "balance_loss_clip": 1.03953862,
+      "balance_loss_mlp": 1.02025151,
+      "epoch": 0.6787711176576685,
+      "flos": 19171881619200.0,
+      "grad_norm": 2.1751117654455188,
+      "language_loss": 0.72227848,
+      "learning_rate": 9.88105670966079e-07,
+      "loss": 0.74439871,
+      "num_input_tokens_seen": 121419785,
+      "step": 5645,
+      "time_per_iteration": 2.7266671657562256
+    },
+    {
+      "auxiliary_loss_clip": 0.01194405,
+      "auxiliary_loss_mlp": 0.010272,
+      "balance_loss_clip": 1.04360306,
+      "balance_loss_mlp": 1.01978528,
+      "epoch": 0.6788913605483076,
+      "flos": 13985159581440.0,
+      "grad_norm": 2.0037779594102476,
+      "language_loss": 0.79004174,
+      "learning_rate": 9.874338344679283e-07,
+      "loss": 0.81225783,
+      "num_input_tokens_seen": 121435630,
+      "step": 5646,
+      "time_per_iteration": 2.691558599472046
+    },
+    {
+      "auxiliary_loss_clip": 0.01168964,
+      "auxiliary_loss_mlp": 0.01028042,
+      "balance_loss_clip": 1.04814315,
+      "balance_loss_mlp": 1.02096963,
+      "epoch": 0.6790116034389466,
+      "flos": 22017586659840.0,
+      "grad_norm": 1.8817304165094983,
+      "language_loss": 0.74035633,
+      "learning_rate": 9.86762151575259e-07,
+      "loss": 0.76232642,
+      "num_input_tokens_seen": 121455625,
+      "step": 5647,
+      "time_per_iteration": 2.62451171875
+    },
+    {
+      "auxiliary_loss_clip": 0.01209856,
+      "auxiliary_loss_mlp": 0.01378321,
+      "balance_loss_clip": 1.04583526,
+      "balance_loss_mlp": 1.0001241,
+      "epoch": 0.6791318463295858,
+      "flos": 20922454851840.0,
+      "grad_norm": 1.4818671075585732,
+      "language_loss": 0.80254567,
+      "learning_rate": 9.860906223899651e-07,
+      "loss": 0.82842743,
+      "num_input_tokens_seen": 121475020,
+      "step": 5648,
+      "time_per_iteration": 3.731391668319702
+    },
+    {
+      "auxiliary_loss_clip": 0.01196368,
+      "auxiliary_loss_mlp": 0.01027648,
+      "balance_loss_clip": 1.04752684,
+      "balance_loss_mlp": 1.01997709,
+      "epoch": 0.6792520892202248,
+      "flos": 28512749422080.0,
+      "grad_norm": 1.7128086688868056,
+      "language_loss": 0.75519526,
+      "learning_rate": 9.854192470139184e-07,
+      "loss": 0.77743542,
+      "num_input_tokens_seen": 121496500,
+      "step": 5649,
+      "time_per_iteration": 2.731224775314331
+    },
+    {
+      "auxiliary_loss_clip": 0.01191198,
+      "auxiliary_loss_mlp": 0.01026437,
+      "balance_loss_clip": 1.04966986,
+      "balance_loss_mlp": 1.01882529,
+      "epoch": 0.6793723321108639,
+      "flos": 20011904058240.0,
+      "grad_norm": 2.9773093116063123,
+      "language_loss": 0.71591544,
+      "learning_rate": 9.847480255489645e-07,
+      "loss": 0.73809171,
+      "num_input_tokens_seen": 121515525,
+      "step": 5650,
+      "time_per_iteration": 3.5794694423675537
+    },
+    {
+      "auxiliary_loss_clip": 0.01193591,
+      "auxiliary_loss_mlp": 0.01031278,
+      "balance_loss_clip": 1.0462625,
+      "balance_loss_mlp": 1.02406907,
+      "epoch": 0.6794925750015031,
+      "flos": 26649488246400.0,
+      "grad_norm": 2.197456599322004,
+      "language_loss": 0.69171065,
+      "learning_rate": 9.840769580969295e-07,
+      "loss": 0.71395934,
+      "num_input_tokens_seen": 121535965,
+      "step": 5651,
+      "time_per_iteration": 2.720395565032959
+    },
+    {
+      "auxiliary_loss_clip": 0.01169623,
+      "auxiliary_loss_mlp": 0.01023374,
+      "balance_loss_clip": 1.04439878,
+      "balance_loss_mlp": 1.01568532,
+      "epoch": 0.6796128178921421,
+      "flos": 21580374314880.0,
+      "grad_norm": 1.9051298255235003,
+      "language_loss": 0.79856789,
+      "learning_rate": 9.834060447596114e-07,
+      "loss": 0.82049787,
+      "num_input_tokens_seen": 121555235,
+      "step": 5652,
+      "time_per_iteration": 3.005675792694092
+    },
+    {
+      "auxiliary_loss_clip": 0.01182014,
+      "auxiliary_loss_mlp": 0.01025603,
+      "balance_loss_clip": 1.04635596,
+      "balance_loss_mlp": 1.01794934,
+      "epoch": 0.6797330607827812,
+      "flos": 22492002516480.0,
+      "grad_norm": 2.052999467215616,
+      "language_loss": 0.78408343,
+      "learning_rate": 9.827352856387868e-07,
+      "loss": 0.80615962,
+      "num_input_tokens_seen": 121574945,
+      "step": 5653,
+      "time_per_iteration": 4.031461000442505
+    },
+    {
+      "auxiliary_loss_clip": 0.01118608,
+      "auxiliary_loss_mlp": 0.01004393,
+      "balance_loss_clip": 1.01972222,
+      "balance_loss_mlp": 1.00318897,
+      "epoch": 0.6798533036734203,
+      "flos": 66306648286080.0,
+      "grad_norm": 0.7778884703498197,
+      "language_loss": 0.64243501,
+      "learning_rate": 9.820646808362118e-07,
+      "loss": 0.66366506,
+      "num_input_tokens_seen": 121641200,
+      "step": 5654,
+      "time_per_iteration": 3.396028757095337
+    },
+    {
+      "auxiliary_loss_clip": 0.01188988,
+      "auxiliary_loss_mlp": 0.01024487,
+      "balance_loss_clip": 1.04889679,
+      "balance_loss_mlp": 1.01669431,
+      "epoch": 0.6799735465640594,
+      "flos": 16180163792640.0,
+      "grad_norm": 2.204360519613285,
+      "language_loss": 0.72685945,
+      "learning_rate": 9.813942304536154e-07,
+      "loss": 0.74899423,
+      "num_input_tokens_seen": 121659170,
+      "step": 5655,
+      "time_per_iteration": 2.6354565620422363
+    },
+    {
+      "auxiliary_loss_clip": 0.01189401,
+      "auxiliary_loss_mlp": 0.01021319,
+      "balance_loss_clip": 1.04547191,
+      "balance_loss_mlp": 1.01405907,
+      "epoch": 0.6800937894546984,
+      "flos": 22125749489280.0,
+      "grad_norm": 2.671900831853445,
+      "language_loss": 0.63504839,
+      "learning_rate": 9.807239345927043e-07,
+      "loss": 0.65715563,
+      "num_input_tokens_seen": 121679180,
+      "step": 5656,
+      "time_per_iteration": 3.8331375122070312
+    },
+    {
+      "auxiliary_loss_clip": 0.01190325,
+      "auxiliary_loss_mlp": 0.0102871,
+      "balance_loss_clip": 1.04291761,
+      "balance_loss_mlp": 1.02121139,
+      "epoch": 0.6802140323453376,
+      "flos": 31612953300480.0,
+      "grad_norm": 2.176514057745871,
+      "language_loss": 0.7161237,
+      "learning_rate": 9.80053793355162e-07,
+      "loss": 0.73831403,
+      "num_input_tokens_seen": 121697875,
+      "step": 5657,
+      "time_per_iteration": 2.7112109661102295
+    },
+    {
+      "auxiliary_loss_clip": 0.01198816,
+      "auxiliary_loss_mlp": 0.01034649,
+      "balance_loss_clip": 1.04011595,
+      "balance_loss_mlp": 1.026811,
+      "epoch": 0.6803342752359767,
+      "flos": 17712938908800.0,
+      "grad_norm": 2.5701608326262777,
+      "language_loss": 0.74994212,
+      "learning_rate": 9.793838068426472e-07,
+      "loss": 0.77227676,
+      "num_input_tokens_seen": 121715570,
+      "step": 5658,
+      "time_per_iteration": 2.7659366130828857
+    },
+    {
+      "auxiliary_loss_clip": 0.01172476,
+      "auxiliary_loss_mlp": 0.01025796,
+      "balance_loss_clip": 1.04952621,
+      "balance_loss_mlp": 1.01818168,
+      "epoch": 0.6804545181266157,
+      "flos": 11326800902400.0,
+      "grad_norm": 2.1602872513189832,
+      "language_loss": 0.60939169,
+      "learning_rate": 9.78713975156799e-07,
+      "loss": 0.63137448,
+      "num_input_tokens_seen": 121731435,
+      "step": 5659,
+      "time_per_iteration": 2.5684120655059814
+    },
+    {
+      "auxiliary_loss_clip": 0.01200171,
+      "auxiliary_loss_mlp": 0.0103138,
+      "balance_loss_clip": 1.0473696,
+      "balance_loss_mlp": 1.02294922,
+      "epoch": 0.6805747610172549,
+      "flos": 29350976181120.0,
+      "grad_norm": 1.7318313352729604,
+      "language_loss": 0.72000027,
+      "learning_rate": 9.780442983992273e-07,
+      "loss": 0.74231583,
+      "num_input_tokens_seen": 121749950,
+      "step": 5660,
+      "time_per_iteration": 2.8334004878997803
+    },
+    {
+      "auxiliary_loss_clip": 0.01179205,
+      "auxiliary_loss_mlp": 0.0103059,
+      "balance_loss_clip": 1.04468119,
+      "balance_loss_mlp": 1.0223825,
+      "epoch": 0.680695003907894,
+      "flos": 37631868612480.0,
+      "grad_norm": 1.6342979431084312,
+      "language_loss": 0.71958941,
+      "learning_rate": 9.773747766715238e-07,
+      "loss": 0.74168736,
+      "num_input_tokens_seen": 121770770,
+      "step": 5661,
+      "time_per_iteration": 2.804366111755371
+    },
+    {
+      "auxiliary_loss_clip": 0.01189138,
+      "auxiliary_loss_mlp": 0.01027109,
+      "balance_loss_clip": 1.04364371,
+      "balance_loss_mlp": 1.01935482,
+      "epoch": 0.680815246798533,
+      "flos": 22127365601280.0,
+      "grad_norm": 1.673823114762803,
+      "language_loss": 0.8045814,
+      "learning_rate": 9.767054100752536e-07,
+      "loss": 0.82674384,
+      "num_input_tokens_seen": 121790720,
+      "step": 5662,
+      "time_per_iteration": 2.6647353172302246
+    },
+    {
+      "auxiliary_loss_clip": 0.01200289,
+      "auxiliary_loss_mlp": 0.01032278,
+      "balance_loss_clip": 1.04499805,
+      "balance_loss_mlp": 1.02419519,
+      "epoch": 0.6809354896891722,
+      "flos": 17201822330880.0,
+      "grad_norm": 2.9214747116996893,
+      "language_loss": 0.8192488,
+      "learning_rate": 9.760361987119584e-07,
+      "loss": 0.84157449,
+      "num_input_tokens_seen": 121808455,
+      "step": 5663,
+      "time_per_iteration": 2.721825361251831
+    },
+    {
+      "auxiliary_loss_clip": 0.01191155,
+      "auxiliary_loss_mlp": 0.01029855,
+      "balance_loss_clip": 1.04875624,
+      "balance_loss_mlp": 1.02178431,
+      "epoch": 0.6810557325798112,
+      "flos": 12458166554880.0,
+      "grad_norm": 2.2605061220807707,
+      "language_loss": 0.67418563,
+      "learning_rate": 9.753671426831592e-07,
+      "loss": 0.69639575,
+      "num_input_tokens_seen": 121824470,
+      "step": 5664,
+      "time_per_iteration": 2.6234750747680664
+    },
+    {
+      "auxiliary_loss_clip": 0.01171859,
+      "auxiliary_loss_mlp": 0.01029324,
+      "balance_loss_clip": 1.04368472,
+      "balance_loss_mlp": 1.02161407,
+      "epoch": 0.6811759754704503,
+      "flos": 22156165330560.0,
+      "grad_norm": 1.8509652771449014,
+      "language_loss": 0.79707229,
+      "learning_rate": 9.746982420903483e-07,
+      "loss": 0.81908417,
+      "num_input_tokens_seen": 121842665,
+      "step": 5665,
+      "time_per_iteration": 2.6061785221099854
+    },
+    {
+      "auxiliary_loss_clip": 0.01175832,
+      "auxiliary_loss_mlp": 0.01029982,
+      "balance_loss_clip": 1.0472672,
+      "balance_loss_mlp": 1.02317524,
+      "epoch": 0.6812962183610894,
+      "flos": 17525377065600.0,
+      "grad_norm": 2.4671598014519387,
+      "language_loss": 0.74754417,
+      "learning_rate": 9.740294970349993e-07,
+      "loss": 0.7696023,
+      "num_input_tokens_seen": 121859080,
+      "step": 5666,
+      "time_per_iteration": 2.5614728927612305
+    },
+    {
+      "auxiliary_loss_clip": 0.01089286,
+      "auxiliary_loss_mlp": 0.0099914,
+      "balance_loss_clip": 1.01059842,
+      "balance_loss_mlp": 0.99800169,
+      "epoch": 0.6814164612517285,
+      "flos": 60274480855680.0,
+      "grad_norm": 0.9050246606564024,
+      "language_loss": 0.60935557,
+      "learning_rate": 9.733609076185594e-07,
+      "loss": 0.63023984,
+      "num_input_tokens_seen": 121915485,
+      "step": 5667,
+      "time_per_iteration": 3.1213529109954834
+    },
+    {
+      "auxiliary_loss_clip": 0.01181179,
+      "auxiliary_loss_mlp": 0.01023094,
+      "balance_loss_clip": 1.04890537,
+      "balance_loss_mlp": 1.01562881,
+      "epoch": 0.6815367041423676,
+      "flos": 19317750750720.0,
+      "grad_norm": 1.79764040560632,
+      "language_loss": 0.83935058,
+      "learning_rate": 9.72692473942455e-07,
+      "loss": 0.86139333,
+      "num_input_tokens_seen": 121932710,
+      "step": 5668,
+      "time_per_iteration": 2.568202018737793
+    },
+    {
+      "auxiliary_loss_clip": 0.01212122,
+      "auxiliary_loss_mlp": 0.01030987,
+      "balance_loss_clip": 1.04560232,
+      "balance_loss_mlp": 1.02355456,
+      "epoch": 0.6816569470330067,
+      "flos": 22161696024960.0,
+      "grad_norm": 1.9183397195952057,
+      "language_loss": 0.7746774,
+      "learning_rate": 9.720241961080849e-07,
+      "loss": 0.79710841,
+      "num_input_tokens_seen": 121952025,
+      "step": 5669,
+      "time_per_iteration": 2.742709159851074
+    },
+    {
+      "auxiliary_loss_clip": 0.01170113,
+      "auxiliary_loss_mlp": 0.01027835,
+      "balance_loss_clip": 1.047189,
+      "balance_loss_mlp": 1.02067339,
+      "epoch": 0.6817771899236458,
+      "flos": 41463501137280.0,
+      "grad_norm": 2.5534546118127963,
+      "language_loss": 0.73421633,
+      "learning_rate": 9.713560742168259e-07,
+      "loss": 0.75619578,
+      "num_input_tokens_seen": 121974650,
+      "step": 5670,
+      "time_per_iteration": 2.7021334171295166
+    },
+    {
+      "auxiliary_loss_clip": 0.01194538,
+      "auxiliary_loss_mlp": 0.01023938,
+      "balance_loss_clip": 1.04379928,
+      "balance_loss_mlp": 1.01694345,
+      "epoch": 0.6818974328142848,
+      "flos": 21106138026240.0,
+      "grad_norm": 1.8821846598600183,
+      "language_loss": 0.71095705,
+      "learning_rate": 9.706881083700333e-07,
+      "loss": 0.73314178,
+      "num_input_tokens_seen": 121994335,
+      "step": 5671,
+      "time_per_iteration": 2.6853623390197754
+    },
+    {
+      "auxiliary_loss_clip": 0.0121374,
+      "auxiliary_loss_mlp": 0.01023266,
+      "balance_loss_clip": 1.04357135,
+      "balance_loss_mlp": 1.01526153,
+      "epoch": 0.682017675704924,
+      "flos": 20441897769600.0,
+      "grad_norm": 2.129906351727666,
+      "language_loss": 0.82869422,
+      "learning_rate": 9.700202986690357e-07,
+      "loss": 0.85106432,
+      "num_input_tokens_seen": 122012635,
+      "step": 5672,
+      "time_per_iteration": 2.7425990104675293
+    },
+    {
+      "auxiliary_loss_clip": 0.01178484,
+      "auxiliary_loss_mlp": 0.01379241,
+      "balance_loss_clip": 1.04645884,
+      "balance_loss_mlp": 1.00014305,
+      "epoch": 0.682137918595563,
+      "flos": 20044438801920.0,
+      "grad_norm": 2.7362867301171407,
+      "language_loss": 0.66703153,
+      "learning_rate": 9.693526452151413e-07,
+      "loss": 0.69260877,
+      "num_input_tokens_seen": 122031685,
+      "step": 5673,
+      "time_per_iteration": 2.670016050338745
+    },
+    {
+      "auxiliary_loss_clip": 0.01200532,
+      "auxiliary_loss_mlp": 0.01021849,
+      "balance_loss_clip": 1.0433774,
+      "balance_loss_mlp": 1.01353359,
+      "epoch": 0.6822581614862021,
+      "flos": 31684559063040.0,
+      "grad_norm": 1.7441556769059992,
+      "language_loss": 0.75509107,
+      "learning_rate": 9.686851481096305e-07,
+      "loss": 0.77731484,
+      "num_input_tokens_seen": 122052995,
+      "step": 5674,
+      "time_per_iteration": 3.7243075370788574
+    },
+    {
+      "auxiliary_loss_clip": 0.01211087,
+      "auxiliary_loss_mlp": 0.01033037,
+      "balance_loss_clip": 1.03996789,
+      "balance_loss_mlp": 1.0249784,
+      "epoch": 0.6823784043768413,
+      "flos": 23477570864640.0,
+      "grad_norm": 2.572684733096164,
+      "language_loss": 0.7204985,
+      "learning_rate": 9.68017807453762e-07,
+      "loss": 0.74293971,
+      "num_input_tokens_seen": 122071740,
+      "step": 5675,
+      "time_per_iteration": 2.8292689323425293
+    },
+    {
+      "auxiliary_loss_clip": 0.01196801,
+      "auxiliary_loss_mlp": 0.01378753,
+      "balance_loss_clip": 1.05058527,
+      "balance_loss_mlp": 1.00018406,
+      "epoch": 0.6824986472674803,
+      "flos": 14137134024960.0,
+      "grad_norm": 1.780159112677392,
+      "language_loss": 0.73301399,
+      "learning_rate": 9.673506233487721e-07,
+      "loss": 0.75876945,
+      "num_input_tokens_seen": 122089705,
+      "step": 5676,
+      "time_per_iteration": 3.507559061050415
+    },
+    {
+      "auxiliary_loss_clip": 0.01188606,
+      "auxiliary_loss_mlp": 0.01378374,
+      "balance_loss_clip": 1.04487741,
+      "balance_loss_mlp": 1.00014949,
+      "epoch": 0.6826188901581194,
+      "flos": 21504997624320.0,
+      "grad_norm": 1.6574001416063688,
+      "language_loss": 0.86066175,
+      "learning_rate": 9.666835958958717e-07,
+      "loss": 0.88633156,
+      "num_input_tokens_seen": 122109025,
+      "step": 5677,
+      "time_per_iteration": 2.578153610229492
+    },
+    {
+      "auxiliary_loss_clip": 0.01170001,
+      "auxiliary_loss_mlp": 0.01028199,
+      "balance_loss_clip": 1.04842103,
+      "balance_loss_mlp": 1.02113259,
+      "epoch": 0.6827391330487584,
+      "flos": 20810126044800.0,
+      "grad_norm": 1.9974928689125453,
+      "language_loss": 0.80584323,
+      "learning_rate": 9.660167251962484e-07,
+      "loss": 0.82782519,
+      "num_input_tokens_seen": 122127385,
+      "step": 5678,
+      "time_per_iteration": 2.456603527069092
+    },
+    {
+      "auxiliary_loss_clip": 0.01199441,
+      "auxiliary_loss_mlp": 0.01027569,
+      "balance_loss_clip": 1.04288268,
+      "balance_loss_mlp": 1.0202018,
+      "epoch": 0.6828593759393976,
+      "flos": 21688788539520.0,
+      "grad_norm": 2.0041682051493908,
+      "language_loss": 0.77721983,
+      "learning_rate": 9.653500113510654e-07,
+      "loss": 0.79948992,
+      "num_input_tokens_seen": 122146500,
+      "step": 5679,
+      "time_per_iteration": 3.523585319519043
+    },
+    {
+      "auxiliary_loss_clip": 0.0118452,
+      "auxiliary_loss_mlp": 0.01023605,
+      "balance_loss_clip": 1.04560137,
+      "balance_loss_mlp": 1.01504564,
+      "epoch": 0.6829796188300367,
+      "flos": 25337707557120.0,
+      "grad_norm": 2.3704380913258793,
+      "language_loss": 0.6700809,
+      "learning_rate": 9.646834544614627e-07,
+      "loss": 0.69216216,
+      "num_input_tokens_seen": 122167000,
+      "step": 5680,
+      "time_per_iteration": 2.6643495559692383
+    },
+    {
+      "auxiliary_loss_clip": 0.0117766,
+      "auxiliary_loss_mlp": 0.01025395,
+      "balance_loss_clip": 1.04469788,
+      "balance_loss_mlp": 1.01768851,
+      "epoch": 0.6830998617206757,
+      "flos": 20704800389760.0,
+      "grad_norm": 1.8243971503692027,
+      "language_loss": 0.76362336,
+      "learning_rate": 9.64017054628558e-07,
+      "loss": 0.78565395,
+      "num_input_tokens_seen": 122185825,
+      "step": 5681,
+      "time_per_iteration": 3.561070442199707
+    },
+    {
+      "auxiliary_loss_clip": 0.01209557,
+      "auxiliary_loss_mlp": 0.01028955,
+      "balance_loss_clip": 1.04190636,
+      "balance_loss_mlp": 1.02132821,
+      "epoch": 0.6832201046113149,
+      "flos": 21726638496000.0,
+      "grad_norm": 1.6170475042346932,
+      "language_loss": 0.79013467,
+      "learning_rate": 9.63350811953441e-07,
+      "loss": 0.81251979,
+      "num_input_tokens_seen": 122206200,
+      "step": 5682,
+      "time_per_iteration": 2.829533338546753
+    },
+    {
+      "auxiliary_loss_clip": 0.01198804,
+      "auxiliary_loss_mlp": 0.01027887,
+      "balance_loss_clip": 1.04478359,
+      "balance_loss_mlp": 1.02020383,
+      "epoch": 0.6833403475019539,
+      "flos": 19536554448000.0,
+      "grad_norm": 1.9229895967030401,
+      "language_loss": 0.70497751,
+      "learning_rate": 9.626847265371826e-07,
+      "loss": 0.72724444,
+      "num_input_tokens_seen": 122225520,
+      "step": 5683,
+      "time_per_iteration": 2.7012014389038086
+    },
+    {
+      "auxiliary_loss_clip": 0.01179501,
+      "auxiliary_loss_mlp": 0.01026352,
+      "balance_loss_clip": 1.04473329,
+      "balance_loss_mlp": 1.01915741,
+      "epoch": 0.683460590392593,
+      "flos": 19352153001600.0,
+      "grad_norm": 1.9378986226323447,
+      "language_loss": 0.78250492,
+      "learning_rate": 9.620187984808262e-07,
+      "loss": 0.8045634,
+      "num_input_tokens_seen": 122244320,
+      "step": 5684,
+      "time_per_iteration": 2.7122719287872314
+    },
+    {
+      "auxiliary_loss_clip": 0.01189966,
+      "auxiliary_loss_mlp": 0.01378668,
+      "balance_loss_clip": 1.04747689,
+      "balance_loss_mlp": 1.00009727,
+      "epoch": 0.6835808332832322,
+      "flos": 23288500650240.0,
+      "grad_norm": 2.43991343643253,
+      "language_loss": 0.8588227,
+      "learning_rate": 9.613530278853919e-07,
+      "loss": 0.88450909,
+      "num_input_tokens_seen": 122264295,
+      "step": 5685,
+      "time_per_iteration": 2.710033416748047
+    },
+    {
+      "auxiliary_loss_clip": 0.01178643,
+      "auxiliary_loss_mlp": 0.01028269,
+      "balance_loss_clip": 1.04708433,
+      "balance_loss_mlp": 1.02088344,
+      "epoch": 0.6837010761738712,
+      "flos": 21653416621440.0,
+      "grad_norm": 1.7246528245212438,
+      "language_loss": 0.73924369,
+      "learning_rate": 9.60687414851879e-07,
+      "loss": 0.76131284,
+      "num_input_tokens_seen": 122285300,
+      "step": 5686,
+      "time_per_iteration": 2.6502525806427
+    },
+    {
+      "auxiliary_loss_clip": 0.01190075,
+      "auxiliary_loss_mlp": 0.01023983,
+      "balance_loss_clip": 1.04576886,
+      "balance_loss_mlp": 1.0163238,
+      "epoch": 0.6838213190645103,
+      "flos": 17566387418880.0,
+      "grad_norm": 2.188345058362768,
+      "language_loss": 0.77480447,
+      "learning_rate": 9.600219594812575e-07,
+      "loss": 0.7969451,
+      "num_input_tokens_seen": 122303240,
+      "step": 5687,
+      "time_per_iteration": 2.6003479957580566
+    },
+    {
+      "auxiliary_loss_clip": 0.01170937,
+      "auxiliary_loss_mlp": 0.01028163,
+      "balance_loss_clip": 1.04935706,
+      "balance_loss_mlp": 1.02104592,
+      "epoch": 0.6839415619551494,
+      "flos": 23112538899840.0,
+      "grad_norm": 1.8196535040653237,
+      "language_loss": 0.72760618,
+      "learning_rate": 9.593566618744786e-07,
+      "loss": 0.74959719,
+      "num_input_tokens_seen": 122323390,
+      "step": 5688,
+      "time_per_iteration": 2.6870498657226562
+    },
+    {
+      "auxiliary_loss_clip": 0.0116955,
+      "auxiliary_loss_mlp": 0.01025144,
+      "balance_loss_clip": 1.04678047,
+      "balance_loss_mlp": 1.01782751,
+      "epoch": 0.6840618048457885,
+      "flos": 22127868391680.0,
+      "grad_norm": 1.6949699495023673,
+      "language_loss": 0.73700321,
+      "learning_rate": 9.58691522132466e-07,
+      "loss": 0.75895011,
+      "num_input_tokens_seen": 122342200,
+      "step": 5689,
+      "time_per_iteration": 2.6390819549560547
+    },
+    {
+      "auxiliary_loss_clip": 0.01192224,
+      "auxiliary_loss_mlp": 0.01028196,
+      "balance_loss_clip": 1.04736388,
+      "balance_loss_mlp": 1.02046549,
+      "epoch": 0.6841820477364275,
+      "flos": 22015898720640.0,
+      "grad_norm": 3.0827856369926843,
+      "language_loss": 0.85154283,
+      "learning_rate": 9.58026540356123e-07,
+      "loss": 0.87374699,
+      "num_input_tokens_seen": 122360465,
+      "step": 5690,
+      "time_per_iteration": 2.702817678451538
+    },
+    {
+      "auxiliary_loss_clip": 0.01179553,
+      "auxiliary_loss_mlp": 0.01027179,
+      "balance_loss_clip": 1.04515386,
+      "balance_loss_mlp": 1.0192697,
+      "epoch": 0.6843022906270667,
+      "flos": 24900531125760.0,
+      "grad_norm": 1.687209327866327,
+      "language_loss": 0.8683821,
+      "learning_rate": 9.573617166463246e-07,
+      "loss": 0.89044946,
+      "num_input_tokens_seen": 122381680,
+      "step": 5691,
+      "time_per_iteration": 2.6715734004974365
+    },
+    {
+      "auxiliary_loss_clip": 0.01189156,
+      "auxiliary_loss_mlp": 0.01021727,
+      "balance_loss_clip": 1.04382706,
+      "balance_loss_mlp": 1.01356161,
+      "epoch": 0.6844225335177058,
+      "flos": 19969924037760.0,
+      "grad_norm": 2.973184951077291,
+      "language_loss": 0.6059677,
+      "learning_rate": 9.56697051103924e-07,
+      "loss": 0.62807655,
+      "num_input_tokens_seen": 122399120,
+      "step": 5692,
+      "time_per_iteration": 2.6924171447753906
+    },
+    {
+      "auxiliary_loss_clip": 0.011884,
+      "auxiliary_loss_mlp": 0.01020819,
+      "balance_loss_clip": 1.04636681,
+      "balance_loss_mlp": 1.01331449,
+      "epoch": 0.6845427764083448,
+      "flos": 25883334126720.0,
+      "grad_norm": 2.0709265763280733,
+      "language_loss": 0.80984712,
+      "learning_rate": 9.560325438297522e-07,
+      "loss": 0.83193928,
+      "num_input_tokens_seen": 122417430,
+      "step": 5693,
+      "time_per_iteration": 2.655802011489868
+    },
+    {
+      "auxiliary_loss_clip": 0.01192393,
+      "auxiliary_loss_mlp": 0.01030139,
+      "balance_loss_clip": 1.05019164,
+      "balance_loss_mlp": 1.02261353,
+      "epoch": 0.684663019298984,
+      "flos": 18880143356160.0,
+      "grad_norm": 1.8378541014810494,
+      "language_loss": 0.86702615,
+      "learning_rate": 9.553681949246127e-07,
+      "loss": 0.88925147,
+      "num_input_tokens_seen": 122435055,
+      "step": 5694,
+      "time_per_iteration": 2.791532516479492
+    },
+    {
+      "auxiliary_loss_clip": 0.012019,
+      "auxiliary_loss_mlp": 0.01032073,
+      "balance_loss_clip": 1.04512167,
+      "balance_loss_mlp": 1.02397847,
+      "epoch": 0.684783262189623,
+      "flos": 54193725302400.0,
+      "grad_norm": 2.1351210719981917,
+      "language_loss": 0.75485903,
+      "learning_rate": 9.547040044892886e-07,
+      "loss": 0.77719879,
+      "num_input_tokens_seen": 122462570,
+      "step": 5695,
+      "time_per_iteration": 3.002687931060791
+    },
+    {
+      "auxiliary_loss_clip": 0.01078891,
+      "auxiliary_loss_mlp": 0.0099884,
+      "balance_loss_clip": 1.01123548,
+      "balance_loss_mlp": 0.99767178,
+      "epoch": 0.6849035050802621,
+      "flos": 63970264143360.0,
+      "grad_norm": 0.861034203804743,
+      "language_loss": 0.60088289,
+      "learning_rate": 9.540399726245354e-07,
+      "loss": 0.62166023,
+      "num_input_tokens_seen": 122519275,
+      "step": 5696,
+      "time_per_iteration": 3.0937912464141846
+    },
+    {
+      "auxiliary_loss_clip": 0.01182704,
+      "auxiliary_loss_mlp": 0.0102569,
+      "balance_loss_clip": 1.04444361,
+      "balance_loss_mlp": 1.01716661,
+      "epoch": 0.6850237479709013,
+      "flos": 25224121774080.0,
+      "grad_norm": 1.836203375420767,
+      "language_loss": 0.6895265,
+      "learning_rate": 9.533760994310859e-07,
+      "loss": 0.71161044,
+      "num_input_tokens_seen": 122539675,
+      "step": 5697,
+      "time_per_iteration": 2.692432165145874
+    },
+    {
+      "auxiliary_loss_clip": 0.01174017,
+      "auxiliary_loss_mlp": 0.01025601,
+      "balance_loss_clip": 1.05044782,
+      "balance_loss_mlp": 1.01782846,
+      "epoch": 0.6851439908615403,
+      "flos": 19354128249600.0,
+      "grad_norm": 2.61676903460205,
+      "language_loss": 0.75479221,
+      "learning_rate": 9.527123850096508e-07,
+      "loss": 0.77678835,
+      "num_input_tokens_seen": 122558035,
+      "step": 5698,
+      "time_per_iteration": 2.5872292518615723
+    },
+    {
+      "auxiliary_loss_clip": 0.01182972,
+      "auxiliary_loss_mlp": 0.01027212,
+      "balance_loss_clip": 1.04563308,
+      "balance_loss_mlp": 1.01969028,
+      "epoch": 0.6852642337521794,
+      "flos": 23182133500800.0,
+      "grad_norm": 1.7684914174305917,
+      "language_loss": 0.71753931,
+      "learning_rate": 9.520488294609142e-07,
+      "loss": 0.73964113,
+      "num_input_tokens_seen": 122576815,
+      "step": 5699,
+      "time_per_iteration": 2.637726306915283
+    },
+    {
+      "auxiliary_loss_clip": 0.01113733,
+      "auxiliary_loss_mlp": 0.01002988,
+      "balance_loss_clip": 1.0107131,
+      "balance_loss_mlp": 1.00165296,
+      "epoch": 0.6853844766428185,
+      "flos": 62647206583680.0,
+      "grad_norm": 0.7384018187385505,
+      "language_loss": 0.53826606,
+      "learning_rate": 9.513854328855368e-07,
+      "loss": 0.55943334,
+      "num_input_tokens_seen": 122634690,
+      "step": 5700,
+      "time_per_iteration": 4.109625577926636
+    },
+    {
+      "auxiliary_loss_clip": 0.01167979,
+      "auxiliary_loss_mlp": 0.01023278,
+      "balance_loss_clip": 1.04767168,
+      "balance_loss_mlp": 1.01594102,
+      "epoch": 0.6855047195334576,
+      "flos": 23437242869760.0,
+      "grad_norm": 1.8632541675522185,
+      "language_loss": 0.80995226,
+      "learning_rate": 9.507221953841558e-07,
+      "loss": 0.83186483,
+      "num_input_tokens_seen": 122652320,
+      "step": 5701,
+      "time_per_iteration": 2.546649217605591
+    },
+    {
+      "auxiliary_loss_clip": 0.01183053,
+      "auxiliary_loss_mlp": 0.01026344,
+      "balance_loss_clip": 1.05039644,
+      "balance_loss_mlp": 1.01862502,
+      "epoch": 0.6856249624240967,
+      "flos": 20664831530880.0,
+      "grad_norm": 1.6309085640816559,
+      "language_loss": 0.77804375,
+      "learning_rate": 9.500591170573824e-07,
+      "loss": 0.80013776,
+      "num_input_tokens_seen": 122672340,
+      "step": 5702,
+      "time_per_iteration": 3.540978193283081
+    },
+    {
+      "auxiliary_loss_clip": 0.01199801,
+      "auxiliary_loss_mlp": 0.01027532,
+      "balance_loss_clip": 1.04095531,
+      "balance_loss_mlp": 1.01963758,
+      "epoch": 0.6857452053147358,
+      "flos": 17087302794240.0,
+      "grad_norm": 1.9476649960391723,
+      "language_loss": 0.74249828,
+      "learning_rate": 9.493961980058078e-07,
+      "loss": 0.76477164,
+      "num_input_tokens_seen": 122689935,
+      "step": 5703,
+      "time_per_iteration": 2.632645606994629
+    },
+    {
+      "auxiliary_loss_clip": 0.01194927,
+      "auxiliary_loss_mlp": 0.01022089,
+      "balance_loss_clip": 1.03728437,
+      "balance_loss_mlp": 1.01507902,
+      "epoch": 0.6858654482053749,
+      "flos": 30847266057600.0,
+      "grad_norm": 2.3232697400526616,
+      "language_loss": 0.67391694,
+      "learning_rate": 9.48733438329993e-07,
+      "loss": 0.69608712,
+      "num_input_tokens_seen": 122710200,
+      "step": 5704,
+      "time_per_iteration": 3.7317075729370117
+    },
+    {
+      "auxiliary_loss_clip": 0.01169308,
+      "auxiliary_loss_mlp": 0.01378589,
+      "balance_loss_clip": 1.04909849,
+      "balance_loss_mlp": 1.00014043,
+      "epoch": 0.6859856910960139,
+      "flos": 28877314510080.0,
+      "grad_norm": 1.700537111962925,
+      "language_loss": 0.74265802,
+      "learning_rate": 9.480708381304807e-07,
+      "loss": 0.76813698,
+      "num_input_tokens_seen": 122731495,
+      "step": 5705,
+      "time_per_iteration": 2.7203681468963623
+    },
+    {
+      "auxiliary_loss_clip": 0.0120726,
+      "auxiliary_loss_mlp": 0.01035077,
+      "balance_loss_clip": 1.04821396,
+      "balance_loss_mlp": 1.02715564,
+      "epoch": 0.6861059339866531,
+      "flos": 19354523299200.0,
+      "grad_norm": 2.2713993074131054,
+      "language_loss": 0.83573669,
+      "learning_rate": 9.474083975077858e-07,
+      "loss": 0.85816014,
+      "num_input_tokens_seen": 122748620,
+      "step": 5706,
+      "time_per_iteration": 2.7254772186279297
+    },
+    {
+      "auxiliary_loss_clip": 0.01170232,
+      "auxiliary_loss_mlp": 0.01027529,
+      "balance_loss_clip": 1.04522848,
+      "balance_loss_mlp": 1.01983976,
+      "epoch": 0.6862261768772921,
+      "flos": 22199976944640.0,
+      "grad_norm": 2.0261393104504863,
+      "language_loss": 0.80243552,
+      "learning_rate": 9.467461165623994e-07,
+      "loss": 0.82441312,
+      "num_input_tokens_seen": 122767670,
+      "step": 5707,
+      "time_per_iteration": 3.5256028175354004
+    },
+    {
+      "auxiliary_loss_clip": 0.01178255,
+      "auxiliary_loss_mlp": 0.01025269,
+      "balance_loss_clip": 1.04410291,
+      "balance_loss_mlp": 1.01757431,
+      "epoch": 0.6863464197679312,
+      "flos": 26285677344000.0,
+      "grad_norm": 2.072763047212287,
+      "language_loss": 0.7925747,
+      "learning_rate": 9.46083995394791e-07,
+      "loss": 0.81460989,
+      "num_input_tokens_seen": 122785480,
+      "step": 5708,
+      "time_per_iteration": 2.6110570430755615
+    },
+    {
+      "auxiliary_loss_clip": 0.0118046,
+      "auxiliary_loss_mlp": 0.01378544,
+      "balance_loss_clip": 1.04682136,
+      "balance_loss_mlp": 1.00019979,
+      "epoch": 0.6864666626585703,
+      "flos": 37815228564480.0,
+      "grad_norm": 1.8022198386680013,
+      "language_loss": 0.63549936,
+      "learning_rate": 9.454220341054012e-07,
+      "loss": 0.66108936,
+      "num_input_tokens_seen": 122810265,
+      "step": 5709,
+      "time_per_iteration": 2.7650554180145264
+    },
+    {
+      "auxiliary_loss_clip": 0.01196088,
+      "auxiliary_loss_mlp": 0.01027492,
+      "balance_loss_clip": 1.04425621,
+      "balance_loss_mlp": 1.02009475,
+      "epoch": 0.6865869055492094,
+      "flos": 19391152193280.0,
+      "grad_norm": 1.95714707006156,
+      "language_loss": 0.80403721,
+      "learning_rate": 9.447602327946512e-07,
+      "loss": 0.82627296,
+      "num_input_tokens_seen": 122828905,
+      "step": 5710,
+      "time_per_iteration": 2.686561107635498
+    },
+    {
+      "auxiliary_loss_clip": 0.01182076,
+      "auxiliary_loss_mlp": 0.01029402,
+      "balance_loss_clip": 1.04251909,
+      "balance_loss_mlp": 1.02136707,
+      "epoch": 0.6867071484398485,
+      "flos": 20375966355840.0,
+      "grad_norm": 1.826732407800208,
+      "language_loss": 0.76586604,
+      "learning_rate": 9.440985915629338e-07,
+      "loss": 0.78798079,
+      "num_input_tokens_seen": 122846235,
+      "step": 5711,
+      "time_per_iteration": 2.5920748710632324
+    },
+    {
+      "auxiliary_loss_clip": 0.01170458,
+      "auxiliary_loss_mlp": 0.01022867,
+      "balance_loss_clip": 1.04958272,
+      "balance_loss_mlp": 1.01578057,
+      "epoch": 0.6868273913304875,
+      "flos": 15889143801600.0,
+      "grad_norm": 1.8851790497831475,
+      "language_loss": 0.73444676,
+      "learning_rate": 9.434371105106223e-07,
+      "loss": 0.75638002,
+      "num_input_tokens_seen": 122863835,
+      "step": 5712,
+      "time_per_iteration": 2.5633957386016846
+    },
+    {
+      "auxiliary_loss_clip": 0.01193291,
+      "auxiliary_loss_mlp": 0.01027092,
+      "balance_loss_clip": 1.04401755,
+      "balance_loss_mlp": 1.01892042,
+      "epoch": 0.6869476342211267,
+      "flos": 24462492768000.0,
+      "grad_norm": 1.7519207683049849,
+      "language_loss": 0.70440555,
+      "learning_rate": 9.427757897380602e-07,
+      "loss": 0.72660941,
+      "num_input_tokens_seen": 122883235,
+      "step": 5713,
+      "time_per_iteration": 2.6927850246429443
+    },
+    {
+      "auxiliary_loss_clip": 0.01194953,
+      "auxiliary_loss_mlp": 0.01027625,
+      "balance_loss_clip": 1.04665661,
+      "balance_loss_mlp": 1.0196259,
+      "epoch": 0.6870678771117658,
+      "flos": 18442571875200.0,
+      "grad_norm": 2.6082536886808207,
+      "language_loss": 0.84665304,
+      "learning_rate": 9.421146293455695e-07,
+      "loss": 0.86887872,
+      "num_input_tokens_seen": 122898975,
+      "step": 5714,
+      "time_per_iteration": 2.6909732818603516
+    },
+    {
+      "auxiliary_loss_clip": 0.01184278,
+      "auxiliary_loss_mlp": 0.01025315,
+      "balance_loss_clip": 1.04461432,
+      "balance_loss_mlp": 1.01776862,
+      "epoch": 0.6871881200024048,
+      "flos": 22200371994240.0,
+      "grad_norm": 1.9528578736281508,
+      "language_loss": 0.68500078,
+      "learning_rate": 9.414536294334489e-07,
+      "loss": 0.7070967,
+      "num_input_tokens_seen": 122918995,
+      "step": 5715,
+      "time_per_iteration": 2.6483559608459473
+    },
+    {
+      "auxiliary_loss_clip": 0.0118772,
+      "auxiliary_loss_mlp": 0.01021177,
+      "balance_loss_clip": 1.04169989,
+      "balance_loss_mlp": 1.01417971,
+      "epoch": 0.687308362893044,
+      "flos": 22127724737280.0,
+      "grad_norm": 1.8261449489125843,
+      "language_loss": 0.69387746,
+      "learning_rate": 9.407927901019708e-07,
+      "loss": 0.71596646,
+      "num_input_tokens_seen": 122938125,
+      "step": 5716,
+      "time_per_iteration": 2.7323191165924072
+    },
+    {
+      "auxiliary_loss_clip": 0.01180475,
+      "auxiliary_loss_mlp": 0.01028341,
+      "balance_loss_clip": 1.04729939,
+      "balance_loss_mlp": 1.02061057,
+      "epoch": 0.687428605783683,
+      "flos": 25040546340480.0,
+      "grad_norm": 2.0732564885357734,
+      "language_loss": 0.77033514,
+      "learning_rate": 9.401321114513854e-07,
+      "loss": 0.79242331,
+      "num_input_tokens_seen": 122957020,
+      "step": 5717,
+      "time_per_iteration": 2.625098943710327
+    },
+    {
+      "auxiliary_loss_clip": 0.0117209,
+      "auxiliary_loss_mlp": 0.01022667,
+      "balance_loss_clip": 1.04919338,
+      "balance_loss_mlp": 1.01509714,
+      "epoch": 0.6875488486743221,
+      "flos": 23770063313280.0,
+      "grad_norm": 1.7446377041015344,
+      "language_loss": 0.75401717,
+      "learning_rate": 9.394715935819155e-07,
+      "loss": 0.77596474,
+      "num_input_tokens_seen": 122977410,
+      "step": 5718,
+      "time_per_iteration": 2.599289655685425
+    },
+    {
+      "auxiliary_loss_clip": 0.01181486,
+      "auxiliary_loss_mlp": 0.01021442,
+      "balance_loss_clip": 1.04602599,
+      "balance_loss_mlp": 1.01398563,
+      "epoch": 0.6876690915649613,
+      "flos": 25516937445120.0,
+      "grad_norm": 2.06266252778582,
+      "language_loss": 0.63024241,
+      "learning_rate": 9.388112365937608e-07,
+      "loss": 0.65227163,
+      "num_input_tokens_seen": 122996875,
+      "step": 5719,
+      "time_per_iteration": 2.6135599613189697
+    },
+    {
+      "auxiliary_loss_clip": 0.01196949,
+      "auxiliary_loss_mlp": 0.01029016,
+      "balance_loss_clip": 1.04447806,
+      "balance_loss_mlp": 1.02124333,
+      "epoch": 0.6877893344556003,
+      "flos": 19427996568960.0,
+      "grad_norm": 1.9788420286175696,
+      "language_loss": 0.82500345,
+      "learning_rate": 9.381510405870985e-07,
+      "loss": 0.8472631,
+      "num_input_tokens_seen": 123015890,
+      "step": 5720,
+      "time_per_iteration": 2.667630672454834
+    },
+    {
+      "auxiliary_loss_clip": 0.01177875,
+      "auxiliary_loss_mlp": 0.01022016,
+      "balance_loss_clip": 1.04711056,
+      "balance_loss_mlp": 1.01386774,
+      "epoch": 0.6879095773462394,
+      "flos": 18661303745280.0,
+      "grad_norm": 2.4526119399585915,
+      "language_loss": 0.77178776,
+      "learning_rate": 9.374910056620791e-07,
+      "loss": 0.7937867,
+      "num_input_tokens_seen": 123034955,
+      "step": 5721,
+      "time_per_iteration": 2.5569186210632324
+    },
+    {
+      "auxiliary_loss_clip": 0.01183462,
+      "auxiliary_loss_mlp": 0.01024415,
+      "balance_loss_clip": 1.04891658,
+      "balance_loss_mlp": 1.01693487,
+      "epoch": 0.6880298202368785,
+      "flos": 20883132437760.0,
+      "grad_norm": 1.670627821304979,
+      "language_loss": 0.8103615,
+      "learning_rate": 9.368311319188293e-07,
+      "loss": 0.83244026,
+      "num_input_tokens_seen": 123052770,
+      "step": 5722,
+      "time_per_iteration": 2.6061151027679443
+    },
+    {
+      "auxiliary_loss_clip": 0.01196143,
+      "auxiliary_loss_mlp": 0.01026967,
+      "balance_loss_clip": 1.04377973,
+      "balance_loss_mlp": 1.01906395,
+      "epoch": 0.6881500631275176,
+      "flos": 30153292318080.0,
+      "grad_norm": 1.8250052794499394,
+      "language_loss": 0.79083502,
+      "learning_rate": 9.361714194574515e-07,
+      "loss": 0.81306612,
+      "num_input_tokens_seen": 123075105,
+      "step": 5723,
+      "time_per_iteration": 2.70670223236084
+    },
+    {
+      "auxiliary_loss_clip": 0.01064787,
+      "auxiliary_loss_mlp": 0.01004008,
+      "balance_loss_clip": 1.01131916,
+      "balance_loss_mlp": 1.00284004,
+      "epoch": 0.6882703060181566,
+      "flos": 66181537215360.0,
+      "grad_norm": 0.7305798246510726,
+      "language_loss": 0.58207345,
+      "learning_rate": 9.355118683780228e-07,
+      "loss": 0.60276139,
+      "num_input_tokens_seen": 123145175,
+      "step": 5724,
+      "time_per_iteration": 3.264754295349121
+    },
+    {
+      "auxiliary_loss_clip": 0.01169889,
+      "auxiliary_loss_mlp": 0.01023588,
+      "balance_loss_clip": 1.04674363,
+      "balance_loss_mlp": 1.01619685,
+      "epoch": 0.6883905489087958,
+      "flos": 18214646123520.0,
+      "grad_norm": 2.1785104789898595,
+      "language_loss": 0.79218936,
+      "learning_rate": 9.348524787805987e-07,
+      "loss": 0.81412411,
+      "num_input_tokens_seen": 123160365,
+      "step": 5725,
+      "time_per_iteration": 2.524766445159912
+    },
+    {
+      "auxiliary_loss_clip": 0.01196215,
+      "auxiliary_loss_mlp": 0.01027732,
+      "balance_loss_clip": 1.0405314,
+      "balance_loss_mlp": 1.0204308,
+      "epoch": 0.6885107917994349,
+      "flos": 14056262553600.0,
+      "grad_norm": 2.4281336384013907,
+      "language_loss": 0.85218906,
+      "learning_rate": 9.341932507652053e-07,
+      "loss": 0.87442851,
+      "num_input_tokens_seen": 123174855,
+      "step": 5726,
+      "time_per_iteration": 3.5504300594329834
+    },
+    {
+      "auxiliary_loss_clip": 0.01181771,
+      "auxiliary_loss_mlp": 0.0102878,
+      "balance_loss_clip": 1.04065788,
+      "balance_loss_mlp": 1.02048349,
+      "epoch": 0.6886310346900739,
+      "flos": 28690722334080.0,
+      "grad_norm": 1.6754545777837662,
+      "language_loss": 0.78588796,
+      "learning_rate": 9.335341844318489e-07,
+      "loss": 0.80799347,
+      "num_input_tokens_seen": 123194995,
+      "step": 5727,
+      "time_per_iteration": 2.7311415672302246
+    },
+    {
+      "auxiliary_loss_clip": 0.01188403,
+      "auxiliary_loss_mlp": 0.01025864,
+      "balance_loss_clip": 1.04551864,
+      "balance_loss_mlp": 1.01853275,
+      "epoch": 0.6887512775807131,
+      "flos": 24535319592960.0,
+      "grad_norm": 1.815577523349892,
+      "language_loss": 0.73470396,
+      "learning_rate": 9.328752798805091e-07,
+      "loss": 0.75684661,
+      "num_input_tokens_seen": 123213465,
+      "step": 5728,
+      "time_per_iteration": 3.7468831539154053
+    },
+    {
+      "auxiliary_loss_clip": 0.01181814,
+      "auxiliary_loss_mlp": 0.01024361,
+      "balance_loss_clip": 1.04788446,
+      "balance_loss_mlp": 1.01660037,
+      "epoch": 0.6888715204713521,
+      "flos": 22414363269120.0,
+      "grad_norm": 4.786339328351845,
+      "language_loss": 0.75835133,
+      "learning_rate": 9.322165372111399e-07,
+      "loss": 0.78041309,
+      "num_input_tokens_seen": 123231610,
+      "step": 5729,
+      "time_per_iteration": 2.611288547515869
+    },
+    {
+      "auxiliary_loss_clip": 0.0119263,
+      "auxiliary_loss_mlp": 0.01031199,
+      "balance_loss_clip": 1.04562044,
+      "balance_loss_mlp": 1.02413535,
+      "epoch": 0.6889917633619912,
+      "flos": 22054323294720.0,
+      "grad_norm": 1.83247959734845,
+      "language_loss": 0.75543666,
+      "learning_rate": 9.315579565236747e-07,
+      "loss": 0.77767491,
+      "num_input_tokens_seen": 123250715,
+      "step": 5730,
+      "time_per_iteration": 3.473548412322998
+    },
+    {
+      "auxiliary_loss_clip": 0.01186973,
+      "auxiliary_loss_mlp": 0.01024943,
+      "balance_loss_clip": 1.04861093,
+      "balance_loss_mlp": 1.0165565,
+      "epoch": 0.6891120062526304,
+      "flos": 23949724164480.0,
+      "grad_norm": 1.88210726520132,
+      "language_loss": 0.74394381,
+      "learning_rate": 9.308995379180162e-07,
+      "loss": 0.76606297,
+      "num_input_tokens_seen": 123270270,
+      "step": 5731,
+      "time_per_iteration": 2.657813310623169
+    },
+    {
+      "auxiliary_loss_clip": 0.0107955,
+      "auxiliary_loss_mlp": 0.01005776,
+      "balance_loss_clip": 1.01203465,
+      "balance_loss_mlp": 1.00458419,
+      "epoch": 0.6892322491432694,
+      "flos": 64117354337280.0,
+      "grad_norm": 0.7410989810455061,
+      "language_loss": 0.5953449,
+      "learning_rate": 9.302412814940488e-07,
+      "loss": 0.61619806,
+      "num_input_tokens_seen": 123333045,
+      "step": 5732,
+      "time_per_iteration": 3.242539405822754
+    },
+    {
+      "auxiliary_loss_clip": 0.0118474,
+      "auxiliary_loss_mlp": 0.01030209,
+      "balance_loss_clip": 1.04254413,
+      "balance_loss_mlp": 1.02225137,
+      "epoch": 0.6893524920339085,
+      "flos": 23002436736000.0,
+      "grad_norm": 2.1079435946033893,
+      "language_loss": 0.71052039,
+      "learning_rate": 9.295831873516276e-07,
+      "loss": 0.73266983,
+      "num_input_tokens_seen": 123352320,
+      "step": 5733,
+      "time_per_iteration": 3.6245498657226562
+    },
+    {
+      "auxiliary_loss_clip": 0.01170488,
+      "auxiliary_loss_mlp": 0.01028987,
+      "balance_loss_clip": 1.04981565,
+      "balance_loss_mlp": 1.02163196,
+      "epoch": 0.6894727349245476,
+      "flos": 21396260177280.0,
+      "grad_norm": 1.6466807911877341,
+      "language_loss": 0.76102841,
+      "learning_rate": 9.289252555905873e-07,
+      "loss": 0.78302318,
+      "num_input_tokens_seen": 123372400,
+      "step": 5734,
+      "time_per_iteration": 2.6088390350341797
+    },
+    {
+      "auxiliary_loss_clip": 0.01183023,
+      "auxiliary_loss_mlp": 0.01033491,
+      "balance_loss_clip": 1.0505085,
+      "balance_loss_mlp": 1.02547967,
+      "epoch": 0.6895929778151867,
+      "flos": 19865316654720.0,
+      "grad_norm": 2.2303068904062036,
+      "language_loss": 0.75880301,
+      "learning_rate": 9.282674863107334e-07,
+      "loss": 0.78096819,
+      "num_input_tokens_seen": 123390215,
+      "step": 5735,
+      "time_per_iteration": 2.62056565284729
+    },
+    {
+      "auxiliary_loss_clip": 0.01174854,
+      "auxiliary_loss_mlp": 0.01026487,
+      "balance_loss_clip": 1.04644787,
+      "balance_loss_mlp": 1.01905465,
+      "epoch": 0.6897132207058257,
+      "flos": 18179166464640.0,
+      "grad_norm": 2.2161672087688014,
+      "language_loss": 0.75742221,
+      "learning_rate": 9.276098796118488e-07,
+      "loss": 0.77943563,
+      "num_input_tokens_seen": 123406700,
+      "step": 5736,
+      "time_per_iteration": 2.5496363639831543
+    },
+    {
+      "auxiliary_loss_clip": 0.011882,
+      "auxiliary_loss_mlp": 0.01023965,
+      "balance_loss_clip": 1.04648006,
+      "balance_loss_mlp": 1.01701486,
+      "epoch": 0.6898334635964649,
+      "flos": 32561641359360.0,
+      "grad_norm": 1.8763745296721877,
+      "language_loss": 0.66359198,
+      "learning_rate": 9.269524355936938e-07,
+      "loss": 0.68571365,
+      "num_input_tokens_seen": 123429880,
+      "step": 5737,
+      "time_per_iteration": 2.746918201446533
+    },
+    {
+      "auxiliary_loss_clip": 0.01180366,
+      "auxiliary_loss_mlp": 0.01028784,
+      "balance_loss_clip": 1.04233468,
+      "balance_loss_mlp": 1.02145267,
+      "epoch": 0.689953706487104,
+      "flos": 22819004956800.0,
+      "grad_norm": 1.6496893977998177,
+      "language_loss": 0.85060632,
+      "learning_rate": 9.262951543560002e-07,
+      "loss": 0.87269789,
+      "num_input_tokens_seen": 123449105,
+      "step": 5738,
+      "time_per_iteration": 2.618983507156372
+    },
+    {
+      "auxiliary_loss_clip": 0.01188882,
+      "auxiliary_loss_mlp": 0.01022855,
+      "balance_loss_clip": 1.04817975,
+      "balance_loss_mlp": 1.01515388,
+      "epoch": 0.690073949377743,
+      "flos": 18515362786560.0,
+      "grad_norm": 2.3786742607855893,
+      "language_loss": 0.86058468,
+      "learning_rate": 9.256380359984795e-07,
+      "loss": 0.88270205,
+      "num_input_tokens_seen": 123466215,
+      "step": 5739,
+      "time_per_iteration": 2.590975046157837
+    },
+    {
+      "auxiliary_loss_clip": 0.01206922,
+      "auxiliary_loss_mlp": 0.01028723,
+      "balance_loss_clip": 1.0380497,
+      "balance_loss_mlp": 1.02120709,
+      "epoch": 0.6901941922683821,
+      "flos": 34857194716800.0,
+      "grad_norm": 1.8786773907821521,
+      "language_loss": 0.74964428,
+      "learning_rate": 9.249810806208139e-07,
+      "loss": 0.77200067,
+      "num_input_tokens_seen": 123485480,
+      "step": 5740,
+      "time_per_iteration": 2.774841547012329
+    },
+    {
+      "auxiliary_loss_clip": 0.01201482,
+      "auxiliary_loss_mlp": 0.01378453,
+      "balance_loss_clip": 1.03991151,
+      "balance_loss_mlp": 1.00013518,
+      "epoch": 0.6903144351590212,
+      "flos": 16253672976000.0,
+      "grad_norm": 1.8741823662647268,
+      "language_loss": 0.80480647,
+      "learning_rate": 9.243242883226627e-07,
+      "loss": 0.83060586,
+      "num_input_tokens_seen": 123504575,
+      "step": 5741,
+      "time_per_iteration": 2.7203221321105957
+    },
+    {
+      "auxiliary_loss_clip": 0.0118049,
+      "auxiliary_loss_mlp": 0.01029213,
+      "balance_loss_clip": 1.04302585,
+      "balance_loss_mlp": 1.0212853,
+      "epoch": 0.6904346780496603,
+      "flos": 28035137255040.0,
+      "grad_norm": 2.354885146253267,
+      "language_loss": 0.69753921,
+      "learning_rate": 9.236676592036628e-07,
+      "loss": 0.7196362,
+      "num_input_tokens_seen": 123524250,
+      "step": 5742,
+      "time_per_iteration": 2.648561477661133
+    },
+    {
+      "auxiliary_loss_clip": 0.01188307,
+      "auxiliary_loss_mlp": 0.01030361,
+      "balance_loss_clip": 1.05070567,
+      "balance_loss_mlp": 1.02266645,
+      "epoch": 0.6905549209402994,
+      "flos": 23624266008960.0,
+      "grad_norm": 1.6500231533608334,
+      "language_loss": 0.73500693,
+      "learning_rate": 9.230111933634228e-07,
+      "loss": 0.75719362,
+      "num_input_tokens_seen": 123545845,
+      "step": 5743,
+      "time_per_iteration": 2.701848268508911
+    },
+    {
+      "auxiliary_loss_clip": 0.01185135,
+      "auxiliary_loss_mlp": 0.01025751,
+      "balance_loss_clip": 1.05044615,
+      "balance_loss_mlp": 1.01807356,
+      "epoch": 0.6906751638309385,
+      "flos": 23114945111040.0,
+      "grad_norm": 1.597770163811172,
+      "language_loss": 0.80738366,
+      "learning_rate": 9.223548909015288e-07,
+      "loss": 0.82949257,
+      "num_input_tokens_seen": 123567535,
+      "step": 5744,
+      "time_per_iteration": 2.7558999061584473
+    },
+    {
+      "auxiliary_loss_clip": 0.01198518,
+      "auxiliary_loss_mlp": 0.01025959,
+      "balance_loss_clip": 1.04136109,
+      "balance_loss_mlp": 1.01839793,
+      "epoch": 0.6907954067215776,
+      "flos": 27305468375040.0,
+      "grad_norm": 2.213967606492681,
+      "language_loss": 0.7195276,
+      "learning_rate": 9.216987519175407e-07,
+      "loss": 0.74177241,
+      "num_input_tokens_seen": 123587710,
+      "step": 5745,
+      "time_per_iteration": 2.769428253173828
+    },
+    {
+      "auxiliary_loss_clip": 0.01175161,
+      "auxiliary_loss_mlp": 0.01024924,
+      "balance_loss_clip": 1.04748476,
+      "balance_loss_mlp": 1.01763737,
+      "epoch": 0.6909156496122166,
+      "flos": 21689399070720.0,
+      "grad_norm": 1.7356606257105398,
+      "language_loss": 0.68252426,
+      "learning_rate": 9.210427765109942e-07,
+      "loss": 0.70452511,
+      "num_input_tokens_seen": 123607385,
+      "step": 5746,
+      "time_per_iteration": 2.722115993499756
+    },
+    {
+      "auxiliary_loss_clip": 0.01186735,
+      "auxiliary_loss_mlp": 0.01026831,
+      "balance_loss_clip": 1.04290795,
+      "balance_loss_mlp": 1.01789045,
+      "epoch": 0.6910358925028558,
+      "flos": 22561453463040.0,
+      "grad_norm": 1.874437361263131,
+      "language_loss": 0.81474447,
+      "learning_rate": 9.20386964781402e-07,
+      "loss": 0.83688009,
+      "num_input_tokens_seen": 123625405,
+      "step": 5747,
+      "time_per_iteration": 2.655055046081543
+    },
+    {
+      "auxiliary_loss_clip": 0.01186864,
+      "auxiliary_loss_mlp": 0.01028393,
+      "balance_loss_clip": 1.04532731,
+      "balance_loss_mlp": 1.02121067,
+      "epoch": 0.6911561353934949,
+      "flos": 22054107813120.0,
+      "grad_norm": 2.2432704235780165,
+      "language_loss": 0.84384841,
+      "learning_rate": 9.197313168282472e-07,
+      "loss": 0.86600101,
+      "num_input_tokens_seen": 123642850,
+      "step": 5748,
+      "time_per_iteration": 2.648186445236206
+    },
+    {
+      "auxiliary_loss_clip": 0.01174734,
+      "auxiliary_loss_mlp": 0.01023245,
+      "balance_loss_clip": 1.0447638,
+      "balance_loss_mlp": 1.01553774,
+      "epoch": 0.6912763782841339,
+      "flos": 24206557386240.0,
+      "grad_norm": 2.2221076009068916,
+      "language_loss": 0.71659076,
+      "learning_rate": 9.190758327509935e-07,
+      "loss": 0.73857057,
+      "num_input_tokens_seen": 123661595,
+      "step": 5749,
+      "time_per_iteration": 2.6353273391723633
+    },
+    {
+      "auxiliary_loss_clip": 0.01117744,
+      "auxiliary_loss_mlp": 0.01374086,
+      "balance_loss_clip": 1.01178765,
+      "balance_loss_mlp": 0.99982548,
+      "epoch": 0.6913966211747731,
+      "flos": 52329641091840.0,
+      "grad_norm": 0.9352454430928929,
+      "language_loss": 0.64437699,
+      "learning_rate": 9.184205126490767e-07,
+      "loss": 0.66929525,
+      "num_input_tokens_seen": 123710490,
+      "step": 5750,
+      "time_per_iteration": 3.210223436355591
+    },
+    {
+      "auxiliary_loss_clip": 0.01101792,
+      "auxiliary_loss_mlp": 0.01373922,
+      "balance_loss_clip": 1.01077127,
+      "balance_loss_mlp": 0.99968511,
+      "epoch": 0.6915168640654121,
+      "flos": 66741274851840.0,
+      "grad_norm": 1.1128947688084025,
+      "language_loss": 0.59652418,
+      "learning_rate": 9.177653566219075e-07,
+      "loss": 0.62128133,
+      "num_input_tokens_seen": 123765215,
+      "step": 5751,
+      "time_per_iteration": 4.043115854263306
+    },
+    {
+      "auxiliary_loss_clip": 0.01200743,
+      "auxiliary_loss_mlp": 0.01026256,
+      "balance_loss_clip": 1.04437959,
+      "balance_loss_mlp": 1.01850176,
+      "epoch": 0.6916371069560512,
+      "flos": 18296523175680.0,
+      "grad_norm": 3.9104791313426914,
+      "language_loss": 0.76240742,
+      "learning_rate": 9.171103647688744e-07,
+      "loss": 0.78467739,
+      "num_input_tokens_seen": 123783955,
+      "step": 5752,
+      "time_per_iteration": 2.6262898445129395
+    },
+    {
+      "auxiliary_loss_clip": 0.0121037,
+      "auxiliary_loss_mlp": 0.01030176,
+      "balance_loss_clip": 1.03765678,
+      "balance_loss_mlp": 1.02348542,
+      "epoch": 0.6917573498466904,
+      "flos": 19645794685440.0,
+      "grad_norm": 1.8665647403677148,
+      "language_loss": 0.68946016,
+      "learning_rate": 9.164555371893367e-07,
+      "loss": 0.7118656,
+      "num_input_tokens_seen": 123803885,
+      "step": 5753,
+      "time_per_iteration": 3.699620485305786
+    },
+    {
+      "auxiliary_loss_clip": 0.01182911,
+      "auxiliary_loss_mlp": 0.01378747,
+      "balance_loss_clip": 1.04967546,
+      "balance_loss_mlp": 1.00011528,
+      "epoch": 0.6918775927373294,
+      "flos": 14210319985920.0,
+      "grad_norm": 2.2117776415521044,
+      "language_loss": 0.75121593,
+      "learning_rate": 9.158008739826333e-07,
+      "loss": 0.77683252,
+      "num_input_tokens_seen": 123821485,
+      "step": 5754,
+      "time_per_iteration": 2.5638694763183594
+    },
+    {
+      "auxiliary_loss_clip": 0.01187496,
+      "auxiliary_loss_mlp": 0.01035809,
+      "balance_loss_clip": 1.04849577,
+      "balance_loss_mlp": 1.02850151,
+      "epoch": 0.6919978356279685,
+      "flos": 23985455218560.0,
+      "grad_norm": 1.5669049191065385,
+      "language_loss": 0.86499107,
+      "learning_rate": 9.151463752480744e-07,
+      "loss": 0.88722414,
+      "num_input_tokens_seen": 123840215,
+      "step": 5755,
+      "time_per_iteration": 2.657747745513916
+    },
+    {
+      "auxiliary_loss_clip": 0.01188014,
+      "auxiliary_loss_mlp": 0.01025346,
+      "balance_loss_clip": 1.04418015,
+      "balance_loss_mlp": 1.01809216,
+      "epoch": 0.6921180785186076,
+      "flos": 23622937205760.0,
+      "grad_norm": 1.4343897266492758,
+      "language_loss": 0.80429894,
+      "learning_rate": 9.144920410849493e-07,
+      "loss": 0.82643259,
+      "num_input_tokens_seen": 123861450,
+      "step": 5756,
+      "time_per_iteration": 3.6530935764312744
+    },
+    {
+      "auxiliary_loss_clip": 0.01193061,
+      "auxiliary_loss_mlp": 0.0103082,
+      "balance_loss_clip": 1.04722309,
+      "balance_loss_mlp": 1.02316082,
+      "epoch": 0.6922383214092467,
+      "flos": 21142623265920.0,
+      "grad_norm": 1.805333380095378,
+      "language_loss": 0.8063947,
+      "learning_rate": 9.138378715925176e-07,
+      "loss": 0.82863349,
+      "num_input_tokens_seen": 123880545,
+      "step": 5757,
+      "time_per_iteration": 2.6717095375061035
+    },
+    {
+      "auxiliary_loss_clip": 0.01177082,
+      "auxiliary_loss_mlp": 0.01027655,
+      "balance_loss_clip": 1.04119134,
+      "balance_loss_mlp": 1.0198946,
+      "epoch": 0.6923585642998857,
+      "flos": 21470667200640.0,
+      "grad_norm": 1.5857011633854659,
+      "language_loss": 0.81022245,
+      "learning_rate": 9.131838668700167e-07,
+      "loss": 0.83226979,
+      "num_input_tokens_seen": 123900615,
+      "step": 5758,
+      "time_per_iteration": 2.732893228530884
+    },
+    {
+      "auxiliary_loss_clip": 0.01193567,
+      "auxiliary_loss_mlp": 0.01023619,
+      "balance_loss_clip": 1.04274511,
+      "balance_loss_mlp": 1.01661575,
+      "epoch": 0.6924788071905249,
+      "flos": 21105204272640.0,
+      "grad_norm": 1.724461373608356,
+      "language_loss": 0.86349082,
+      "learning_rate": 9.125300270166598e-07,
+      "loss": 0.88566267,
+      "num_input_tokens_seen": 123921220,
+      "step": 5759,
+      "time_per_iteration": 3.6358234882354736
+    },
+    {
+      "auxiliary_loss_clip": 0.01203167,
+      "auxiliary_loss_mlp": 0.01021791,
+      "balance_loss_clip": 1.04283917,
+      "balance_loss_mlp": 1.01398849,
+      "epoch": 0.692599050081164,
+      "flos": 26250018117120.0,
+      "grad_norm": 1.8085002358804694,
+      "language_loss": 0.85677177,
+      "learning_rate": 9.118763521316324e-07,
+      "loss": 0.87902135,
+      "num_input_tokens_seen": 123941795,
+      "step": 5760,
+      "time_per_iteration": 2.810692548751831
+    },
+    {
+      "auxiliary_loss_clip": 0.01171059,
+      "auxiliary_loss_mlp": 0.01378803,
+      "balance_loss_clip": 1.04832399,
+      "balance_loss_mlp": 1.00016141,
+      "epoch": 0.692719292971803,
+      "flos": 20885215426560.0,
+      "grad_norm": 2.2041964478820697,
+      "language_loss": 0.76356524,
+      "learning_rate": 9.112228423140987e-07,
+      "loss": 0.78906387,
+      "num_input_tokens_seen": 123960715,
+      "step": 5761,
+      "time_per_iteration": 2.6525590419769287
+    },
+    {
+      "auxiliary_loss_clip": 0.01191518,
+      "auxiliary_loss_mlp": 0.01027245,
+      "balance_loss_clip": 1.04534984,
+      "balance_loss_mlp": 1.01970541,
+      "epoch": 0.6928395358624422,
+      "flos": 25921938268800.0,
+      "grad_norm": 2.548571727749434,
+      "language_loss": 0.86084157,
+      "learning_rate": 9.105694976631932e-07,
+      "loss": 0.88302922,
+      "num_input_tokens_seen": 123978625,
+      "step": 5762,
+      "time_per_iteration": 2.666243314743042
+    },
+    {
+      "auxiliary_loss_clip": 0.01181335,
+      "auxiliary_loss_mlp": 0.01026096,
+      "balance_loss_clip": 1.04819989,
+      "balance_loss_mlp": 1.01742363,
+      "epoch": 0.6929597787530812,
+      "flos": 23586559706880.0,
+      "grad_norm": 2.1503963310840524,
+      "language_loss": 0.72468042,
+      "learning_rate": 9.099163182780283e-07,
+      "loss": 0.74675477,
+      "num_input_tokens_seen": 123996780,
+      "step": 5763,
+      "time_per_iteration": 2.6657497882843018
+    },
+    {
+      "auxiliary_loss_clip": 0.01185345,
+      "auxiliary_loss_mlp": 0.01025198,
+      "balance_loss_clip": 1.04637563,
+      "balance_loss_mlp": 1.01700866,
+      "epoch": 0.6930800216437203,
+      "flos": 18255656476800.0,
+      "grad_norm": 3.3945358217414445,
+      "language_loss": 0.48732072,
+      "learning_rate": 9.092633042576916e-07,
+      "loss": 0.50942618,
+      "num_input_tokens_seen": 124014045,
+      "step": 5764,
+      "time_per_iteration": 2.571592330932617
+    },
+    {
+      "auxiliary_loss_clip": 0.01186495,
+      "auxiliary_loss_mlp": 0.01023157,
+      "balance_loss_clip": 1.04826057,
+      "balance_loss_mlp": 1.01567698,
+      "epoch": 0.6932002645343595,
+      "flos": 29168621809920.0,
+      "grad_norm": 2.5736125425694842,
+      "language_loss": 0.55866194,
+      "learning_rate": 9.086104557012446e-07,
+      "loss": 0.58075845,
+      "num_input_tokens_seen": 124034615,
+      "step": 5765,
+      "time_per_iteration": 2.723022222518921
+    },
+    {
+      "auxiliary_loss_clip": 0.01166935,
+      "auxiliary_loss_mlp": 0.01023341,
+      "balance_loss_clip": 1.04425454,
+      "balance_loss_mlp": 1.01553833,
+      "epoch": 0.6933205074249985,
+      "flos": 23842746483840.0,
+      "grad_norm": 1.7391499581035155,
+      "language_loss": 0.65894151,
+      "learning_rate": 9.079577727077239e-07,
+      "loss": 0.68084431,
+      "num_input_tokens_seen": 124053445,
+      "step": 5766,
+      "time_per_iteration": 2.6258625984191895
+    },
+    {
+      "auxiliary_loss_clip": 0.01180307,
+      "auxiliary_loss_mlp": 0.01027549,
+      "balance_loss_clip": 1.04797411,
+      "balance_loss_mlp": 1.02009225,
+      "epoch": 0.6934407503156376,
+      "flos": 24166696268160.0,
+      "grad_norm": 2.6345778703903626,
+      "language_loss": 0.72255719,
+      "learning_rate": 9.073052553761404e-07,
+      "loss": 0.74463576,
+      "num_input_tokens_seen": 124072810,
+      "step": 5767,
+      "time_per_iteration": 2.6911823749542236
+    },
+    {
+      "auxiliary_loss_clip": 0.01203548,
+      "auxiliary_loss_mlp": 0.01027923,
+      "balance_loss_clip": 1.04133177,
+      "balance_loss_mlp": 1.02019787,
+      "epoch": 0.6935609932062767,
+      "flos": 20631327120000.0,
+      "grad_norm": 1.8083069894025845,
+      "language_loss": 0.77970791,
+      "learning_rate": 9.066529038054805e-07,
+      "loss": 0.80202264,
+      "num_input_tokens_seen": 124092875,
+      "step": 5768,
+      "time_per_iteration": 2.7526535987854004
+    },
+    {
+      "auxiliary_loss_clip": 0.01185494,
+      "auxiliary_loss_mlp": 0.01025022,
+      "balance_loss_clip": 1.0460844,
+      "balance_loss_mlp": 1.01758933,
+      "epoch": 0.6936812360969158,
+      "flos": 18254184019200.0,
+      "grad_norm": 1.834464808858292,
+      "language_loss": 0.74148041,
+      "learning_rate": 9.060007180947071e-07,
+      "loss": 0.76358557,
+      "num_input_tokens_seen": 124110930,
+      "step": 5769,
+      "time_per_iteration": 2.706660032272339
+    },
+    {
+      "auxiliary_loss_clip": 0.01204705,
+      "auxiliary_loss_mlp": 0.01028208,
+      "balance_loss_clip": 1.0391953,
+      "balance_loss_mlp": 1.02065039,
+      "epoch": 0.6938014789875548,
+      "flos": 31317336368640.0,
+      "grad_norm": 2.3665666437814146,
+      "language_loss": 0.73094594,
+      "learning_rate": 9.053486983427534e-07,
+      "loss": 0.7532751,
+      "num_input_tokens_seen": 124132180,
+      "step": 5770,
+      "time_per_iteration": 2.7448723316192627
+    },
+    {
+      "auxiliary_loss_clip": 0.01190512,
+      "auxiliary_loss_mlp": 0.0103167,
+      "balance_loss_clip": 1.04375398,
+      "balance_loss_mlp": 1.02434158,
+      "epoch": 0.6939217218781939,
+      "flos": 17528429721600.0,
+      "grad_norm": 1.984948189607988,
+      "language_loss": 0.70675898,
+      "learning_rate": 9.046968446485326e-07,
+      "loss": 0.72898078,
+      "num_input_tokens_seen": 124150585,
+      "step": 5771,
+      "time_per_iteration": 2.6897757053375244
+    },
+    {
+      "auxiliary_loss_clip": 0.01183516,
+      "auxiliary_loss_mlp": 0.01027722,
+      "balance_loss_clip": 1.04866695,
+      "balance_loss_mlp": 1.01976454,
+      "epoch": 0.6940419647688331,
+      "flos": 18551776199040.0,
+      "grad_norm": 2.403483621939092,
+      "language_loss": 0.70771182,
+      "learning_rate": 9.040451571109295e-07,
+      "loss": 0.72982424,
+      "num_input_tokens_seen": 124166205,
+      "step": 5772,
+      "time_per_iteration": 2.5457797050476074
+    },
+    {
+      "auxiliary_loss_clip": 0.01104518,
+      "auxiliary_loss_mlp": 0.01001753,
+      "balance_loss_clip": 1.01753449,
+      "balance_loss_mlp": 1.00068653,
+      "epoch": 0.6941622076594721,
+      "flos": 66926286829440.0,
+      "grad_norm": 0.8321425855740172,
+      "language_loss": 0.60471392,
+      "learning_rate": 9.033936358288042e-07,
+      "loss": 0.62577659,
+      "num_input_tokens_seen": 124219940,
+      "step": 5773,
+      "time_per_iteration": 3.2880539894104004
+    },
+    {
+      "auxiliary_loss_clip": 0.01173086,
+      "auxiliary_loss_mlp": 0.01024763,
+      "balance_loss_clip": 1.04978514,
+      "balance_loss_mlp": 1.01736021,
+      "epoch": 0.6942824505501112,
+      "flos": 26578062051840.0,
+      "grad_norm": 1.6445958225976447,
+      "language_loss": 0.82274938,
+      "learning_rate": 9.027422809009937e-07,
+      "loss": 0.84472787,
+      "num_input_tokens_seen": 124239885,
+      "step": 5774,
+      "time_per_iteration": 2.6726090908050537
+    },
+    {
+      "auxiliary_loss_clip": 0.0118169,
+      "auxiliary_loss_mlp": 0.01027071,
+      "balance_loss_clip": 1.04564762,
+      "balance_loss_mlp": 1.01974273,
+      "epoch": 0.6944026934407503,
+      "flos": 21248308056960.0,
+      "grad_norm": 1.671991412372872,
+      "language_loss": 0.83168763,
+      "learning_rate": 9.020910924263054e-07,
+      "loss": 0.85377526,
+      "num_input_tokens_seen": 124258410,
+      "step": 5775,
+      "time_per_iteration": 2.5840086936950684
+    },
+    {
+      "auxiliary_loss_clip": 0.01102455,
+      "auxiliary_loss_mlp": 0.01001784,
+      "balance_loss_clip": 1.01651239,
+      "balance_loss_mlp": 1.00065136,
+      "epoch": 0.6945229363313894,
+      "flos": 70677191537280.0,
+      "grad_norm": 0.8957942899908437,
+      "language_loss": 0.58101159,
+      "learning_rate": 9.014400705035261e-07,
+      "loss": 0.60205394,
+      "num_input_tokens_seen": 124315315,
+      "step": 5776,
+      "time_per_iteration": 3.287336826324463
+    },
+    {
+      "auxiliary_loss_clip": 0.01172924,
+      "auxiliary_loss_mlp": 0.01025738,
+      "balance_loss_clip": 1.05116689,
+      "balance_loss_mlp": 1.01848459,
+      "epoch": 0.6946431792220285,
+      "flos": 18952934267520.0,
+      "grad_norm": 2.0672947882441433,
+      "language_loss": 0.76604497,
+      "learning_rate": 9.00789215231414e-07,
+      "loss": 0.78803158,
+      "num_input_tokens_seen": 124333710,
+      "step": 5777,
+      "time_per_iteration": 3.4412283897399902
+    },
+    {
+      "auxiliary_loss_clip": 0.01193393,
+      "auxiliary_loss_mlp": 0.01378888,
+      "balance_loss_clip": 1.04143453,
+      "balance_loss_mlp": 1.0001595,
+      "epoch": 0.6947634221126676,
+      "flos": 20338834671360.0,
+      "grad_norm": 2.4760827450762686,
+      "language_loss": 0.82019019,
+      "learning_rate": 9.001385267087056e-07,
+      "loss": 0.84591299,
+      "num_input_tokens_seen": 124352855,
+      "step": 5778,
+      "time_per_iteration": 2.667177677154541
+    },
+    {
+      "auxiliary_loss_clip": 0.01182752,
+      "auxiliary_loss_mlp": 0.01021388,
+      "balance_loss_clip": 1.04859841,
+      "balance_loss_mlp": 1.0141753,
+      "epoch": 0.6948836650033067,
+      "flos": 21833723917440.0,
+      "grad_norm": 1.527427058271586,
+      "language_loss": 0.70139432,
+      "learning_rate": 8.994880050341072e-07,
+      "loss": 0.72343576,
+      "num_input_tokens_seen": 124372960,
+      "step": 5779,
+      "time_per_iteration": 3.521782398223877
+    },
+    {
+      "auxiliary_loss_clip": 0.01178649,
+      "auxiliary_loss_mlp": 0.01033111,
+      "balance_loss_clip": 1.0445869,
+      "balance_loss_mlp": 1.0254066,
+      "epoch": 0.6950039078939457,
+      "flos": 23657519024640.0,
+      "grad_norm": 3.103155071162721,
+      "language_loss": 0.77499604,
+      "learning_rate": 8.988376503063026e-07,
+      "loss": 0.79711366,
+      "num_input_tokens_seen": 124394220,
+      "step": 5780,
+      "time_per_iteration": 2.725458860397339
+    },
+    {
+      "auxiliary_loss_clip": 0.01211494,
+      "auxiliary_loss_mlp": 0.01029755,
+      "balance_loss_clip": 1.0420568,
+      "balance_loss_mlp": 1.02217293,
+      "epoch": 0.6951241507845849,
+      "flos": 21792462168960.0,
+      "grad_norm": 2.2117646752466253,
+      "language_loss": 0.81556785,
+      "learning_rate": 8.981874626239521e-07,
+      "loss": 0.83798039,
+      "num_input_tokens_seen": 124412795,
+      "step": 5781,
+      "time_per_iteration": 3.7128312587738037
+    },
+    {
+      "auxiliary_loss_clip": 0.01183535,
+      "auxiliary_loss_mlp": 0.01027367,
+      "balance_loss_clip": 1.05142808,
+      "balance_loss_mlp": 1.01965415,
+      "epoch": 0.695244393675224,
+      "flos": 14647568244480.0,
+      "grad_norm": 1.9139582072748613,
+      "language_loss": 0.88429171,
+      "learning_rate": 8.975374420856872e-07,
+      "loss": 0.90640068,
+      "num_input_tokens_seen": 124429690,
+      "step": 5782,
+      "time_per_iteration": 2.630291700363159
+    },
+    {
+      "auxiliary_loss_clip": 0.01182889,
+      "auxiliary_loss_mlp": 0.01028703,
+      "balance_loss_clip": 1.0402447,
+      "balance_loss_mlp": 1.0210762,
+      "epoch": 0.695364636565863,
+      "flos": 16873203778560.0,
+      "grad_norm": 2.571231665715132,
+      "language_loss": 0.7248131,
+      "learning_rate": 8.968875887901157e-07,
+      "loss": 0.74692893,
+      "num_input_tokens_seen": 124447070,
+      "step": 5783,
+      "time_per_iteration": 2.6341466903686523
+    },
+    {
+      "auxiliary_loss_clip": 0.01184774,
+      "auxiliary_loss_mlp": 0.01021555,
+      "balance_loss_clip": 1.04310846,
+      "balance_loss_mlp": 1.01382482,
+      "epoch": 0.6954848794565022,
+      "flos": 19354523299200.0,
+      "grad_norm": 1.8830654474924589,
+      "language_loss": 0.62665039,
+      "learning_rate": 8.9623790283582e-07,
+      "loss": 0.64871371,
+      "num_input_tokens_seen": 124464950,
+      "step": 5784,
+      "time_per_iteration": 2.6442463397979736
+    },
+    {
+      "auxiliary_loss_clip": 0.01195996,
+      "auxiliary_loss_mlp": 0.01032527,
+      "balance_loss_clip": 1.04496801,
+      "balance_loss_mlp": 1.02488577,
+      "epoch": 0.6956051223471412,
+      "flos": 18990209606400.0,
+      "grad_norm": 2.988881236856714,
+      "language_loss": 0.76607317,
+      "learning_rate": 8.955883843213561e-07,
+      "loss": 0.78835839,
+      "num_input_tokens_seen": 124483965,
+      "step": 5785,
+      "time_per_iteration": 3.510504961013794
+    },
+    {
+      "auxiliary_loss_clip": 0.01186663,
+      "auxiliary_loss_mlp": 0.01030573,
+      "balance_loss_clip": 1.04707086,
+      "balance_loss_mlp": 1.02246618,
+      "epoch": 0.6957253652377803,
+      "flos": 16107229226880.0,
+      "grad_norm": 1.8678869022118114,
+      "language_loss": 0.87034506,
+      "learning_rate": 8.949390333452569e-07,
+      "loss": 0.89251745,
+      "num_input_tokens_seen": 124501910,
+      "step": 5786,
+      "time_per_iteration": 2.675696849822998
+    },
+    {
+      "auxiliary_loss_clip": 0.01169629,
+      "auxiliary_loss_mlp": 0.01024238,
+      "balance_loss_clip": 1.04972279,
+      "balance_loss_mlp": 1.01667392,
+      "epoch": 0.6958456081284194,
+      "flos": 29388646569600.0,
+      "grad_norm": 2.0730629426228284,
+      "language_loss": 0.67890418,
+      "learning_rate": 8.942898500060279e-07,
+      "loss": 0.70084286,
+      "num_input_tokens_seen": 124521625,
+      "step": 5787,
+      "time_per_iteration": 2.656614303588867
+    },
+    {
+      "auxiliary_loss_clip": 0.01211725,
+      "auxiliary_loss_mlp": 0.01026273,
+      "balance_loss_clip": 1.0439539,
+      "balance_loss_mlp": 1.01792872,
+      "epoch": 0.6959658510190585,
+      "flos": 25154850395520.0,
+      "grad_norm": 2.670235714828811,
+      "language_loss": 0.71748745,
+      "learning_rate": 8.936408344021493e-07,
+      "loss": 0.73986745,
+      "num_input_tokens_seen": 124538540,
+      "step": 5788,
+      "time_per_iteration": 2.722905397415161
+    },
+    {
+      "auxiliary_loss_clip": 0.01200256,
+      "auxiliary_loss_mlp": 0.01028789,
+      "balance_loss_clip": 1.05100417,
+      "balance_loss_mlp": 1.02047992,
+      "epoch": 0.6960860939096976,
+      "flos": 42814388759040.0,
+      "grad_norm": 2.192663852331382,
+      "language_loss": 0.71143198,
+      "learning_rate": 8.929919866320765e-07,
+      "loss": 0.73372245,
+      "num_input_tokens_seen": 124559355,
+      "step": 5789,
+      "time_per_iteration": 2.9360642433166504
+    },
+    {
+      "auxiliary_loss_clip": 0.01203629,
+      "auxiliary_loss_mlp": 0.01378958,
+      "balance_loss_clip": 1.04456711,
+      "balance_loss_mlp": 1.00014007,
+      "epoch": 0.6962063368003367,
+      "flos": 17566566986880.0,
+      "grad_norm": 1.884943340544005,
+      "language_loss": 0.81431895,
+      "learning_rate": 8.923433067942385e-07,
+      "loss": 0.84014481,
+      "num_input_tokens_seen": 124577920,
+      "step": 5790,
+      "time_per_iteration": 2.7257370948791504
+    },
+    {
+      "auxiliary_loss_clip": 0.01205125,
+      "auxiliary_loss_mlp": 0.01028572,
+      "balance_loss_clip": 1.04639232,
+      "balance_loss_mlp": 1.02110338,
+      "epoch": 0.6963265796909758,
+      "flos": 21251648021760.0,
+      "grad_norm": 1.8944897261632634,
+      "language_loss": 0.6871109,
+      "learning_rate": 8.916947949870417e-07,
+      "loss": 0.70944786,
+      "num_input_tokens_seen": 124597585,
+      "step": 5791,
+      "time_per_iteration": 2.7329111099243164
+    },
+    {
+      "auxiliary_loss_clip": 0.01076958,
+      "auxiliary_loss_mlp": 0.01001926,
+      "balance_loss_clip": 1.00986016,
+      "balance_loss_mlp": 1.00071621,
+      "epoch": 0.6964468225816148,
+      "flos": 68828295801600.0,
+      "grad_norm": 0.7447594815349099,
+      "language_loss": 0.58164036,
+      "learning_rate": 8.910464513088615e-07,
+      "loss": 0.60242921,
+      "num_input_tokens_seen": 124661625,
+      "step": 5792,
+      "time_per_iteration": 3.25252628326416
+    },
+    {
+      "auxiliary_loss_clip": 0.01181076,
+      "auxiliary_loss_mlp": 0.01023497,
+      "balance_loss_clip": 1.04411352,
+      "balance_loss_mlp": 1.01570702,
+      "epoch": 0.696567065472254,
+      "flos": 18950887192320.0,
+      "grad_norm": 1.9549787190600043,
+      "language_loss": 0.78079963,
+      "learning_rate": 8.903982758580542e-07,
+      "loss": 0.80284536,
+      "num_input_tokens_seen": 124680565,
+      "step": 5793,
+      "time_per_iteration": 2.706817626953125
+    },
+    {
+      "auxiliary_loss_clip": 0.01186272,
+      "auxiliary_loss_mlp": 0.01027692,
+      "balance_loss_clip": 1.04670334,
+      "balance_loss_mlp": 1.02016401,
+      "epoch": 0.696687308362893,
+      "flos": 22856675345280.0,
+      "grad_norm": 1.852745814315225,
+      "language_loss": 0.80406231,
+      "learning_rate": 8.897502687329457e-07,
+      "loss": 0.82620198,
+      "num_input_tokens_seen": 124700365,
+      "step": 5794,
+      "time_per_iteration": 2.66623854637146
+    },
+    {
+      "auxiliary_loss_clip": 0.01190314,
+      "auxiliary_loss_mlp": 0.01027545,
+      "balance_loss_clip": 1.04261565,
+      "balance_loss_mlp": 1.02037179,
+      "epoch": 0.6968075512535321,
+      "flos": 24972926987520.0,
+      "grad_norm": 2.0481781636517913,
+      "language_loss": 0.79770434,
+      "learning_rate": 8.891024300318382e-07,
+      "loss": 0.81988299,
+      "num_input_tokens_seen": 124718935,
+      "step": 5795,
+      "time_per_iteration": 2.829373836517334
+    },
+    {
+      "auxiliary_loss_clip": 0.01184708,
+      "auxiliary_loss_mlp": 0.01025382,
+      "balance_loss_clip": 1.04158163,
+      "balance_loss_mlp": 1.01827669,
+      "epoch": 0.6969277941441713,
+      "flos": 21030438113280.0,
+      "grad_norm": 1.50700902860077,
+      "language_loss": 0.75647318,
+      "learning_rate": 8.884547598530103e-07,
+      "loss": 0.77857411,
+      "num_input_tokens_seen": 124739505,
+      "step": 5796,
+      "time_per_iteration": 2.6951351165771484
+    },
+    {
+      "auxiliary_loss_clip": 0.0121082,
+      "auxiliary_loss_mlp": 0.01025823,
+      "balance_loss_clip": 1.03839374,
+      "balance_loss_mlp": 1.01803207,
+      "epoch": 0.6970480370348103,
+      "flos": 21579404647680.0,
+      "grad_norm": 1.7929142873323742,
+      "language_loss": 0.74917746,
+      "learning_rate": 8.8780725829471e-07,
+      "loss": 0.77154392,
+      "num_input_tokens_seen": 124757410,
+      "step": 5797,
+      "time_per_iteration": 2.7870547771453857
+    },
+    {
+      "auxiliary_loss_clip": 0.01171792,
+      "auxiliary_loss_mlp": 0.01026013,
+      "balance_loss_clip": 1.04807043,
+      "balance_loss_mlp": 1.01847327,
+      "epoch": 0.6971682799254494,
+      "flos": 22419175691520.0,
+      "grad_norm": 1.9108152434616992,
+      "language_loss": 0.77783376,
+      "learning_rate": 8.87159925455165e-07,
+      "loss": 0.79981184,
+      "num_input_tokens_seen": 124777240,
+      "step": 5798,
+      "time_per_iteration": 2.645925283432007
+    },
+    {
+      "auxiliary_loss_clip": 0.01194073,
+      "auxiliary_loss_mlp": 0.01026959,
+      "balance_loss_clip": 1.044011,
+      "balance_loss_mlp": 1.01903486,
+      "epoch": 0.6972885228160886,
+      "flos": 20005834659840.0,
+      "grad_norm": 1.8824817921991595,
+      "language_loss": 0.73070198,
+      "learning_rate": 8.865127614325738e-07,
+      "loss": 0.75291234,
+      "num_input_tokens_seen": 124795670,
+      "step": 5799,
+      "time_per_iteration": 2.6690726280212402
+    },
+    {
+      "auxiliary_loss_clip": 0.01178244,
+      "auxiliary_loss_mlp": 0.01027493,
+      "balance_loss_clip": 1.04306912,
+      "balance_loss_mlp": 1.01938105,
+      "epoch": 0.6974087657067276,
+      "flos": 37853437656960.0,
+      "grad_norm": 2.1832448215717273,
+      "language_loss": 0.66586697,
+      "learning_rate": 8.85865766325113e-07,
+      "loss": 0.68792439,
+      "num_input_tokens_seen": 124819600,
+      "step": 5800,
+      "time_per_iteration": 2.819302558898926
+    },
+    {
+      "auxiliary_loss_clip": 0.01183942,
+      "auxiliary_loss_mlp": 0.01025774,
+      "balance_loss_clip": 1.04622757,
+      "balance_loss_mlp": 1.01765013,
+      "epoch": 0.6975290085973667,
+      "flos": 29489267543040.0,
+      "grad_norm": 3.0193403708948963,
+      "language_loss": 0.71904612,
+      "learning_rate": 8.852189402309287e-07,
+      "loss": 0.74114323,
+      "num_input_tokens_seen": 124838785,
+      "step": 5801,
+      "time_per_iteration": 2.70170259475708
+    },
+    {
+      "auxiliary_loss_clip": 0.01179273,
+      "auxiliary_loss_mlp": 0.01024619,
+      "balance_loss_clip": 1.04729128,
+      "balance_loss_mlp": 1.01650143,
+      "epoch": 0.6976492514880057,
+      "flos": 12895630295040.0,
+      "grad_norm": 2.6126541755303663,
+      "language_loss": 0.73915011,
+      "learning_rate": 8.845722832481441e-07,
+      "loss": 0.76118904,
+      "num_input_tokens_seen": 124854215,
+      "step": 5802,
+      "time_per_iteration": 2.6235435009002686
+    },
+    {
+      "auxiliary_loss_clip": 0.01179805,
+      "auxiliary_loss_mlp": 0.01022304,
+      "balance_loss_clip": 1.04781163,
+      "balance_loss_mlp": 1.01384306,
+      "epoch": 0.6977694943786449,
+      "flos": 24352929308160.0,
+      "grad_norm": 2.0762989509586487,
+      "language_loss": 0.77297723,
+      "learning_rate": 8.83925795474858e-07,
+      "loss": 0.79499829,
+      "num_input_tokens_seen": 124874340,
+      "step": 5803,
+      "time_per_iteration": 3.5581414699554443
+    },
+    {
+      "auxiliary_loss_clip": 0.01192653,
+      "auxiliary_loss_mlp": 0.01033288,
+      "balance_loss_clip": 1.04518449,
+      "balance_loss_mlp": 1.02496696,
+      "epoch": 0.6978897372692839,
+      "flos": 29898470257920.0,
+      "grad_norm": 2.3395043950268466,
+      "language_loss": 0.5950647,
+      "learning_rate": 8.832794770091414e-07,
+      "loss": 0.61732411,
+      "num_input_tokens_seen": 124895175,
+      "step": 5804,
+      "time_per_iteration": 2.758894920349121
+    },
+    {
+      "auxiliary_loss_clip": 0.01193109,
+      "auxiliary_loss_mlp": 0.01024477,
+      "balance_loss_clip": 1.04505563,
+      "balance_loss_mlp": 1.01693439,
+      "epoch": 0.698009980159923,
+      "flos": 21761579450880.0,
+      "grad_norm": 2.3855879028658356,
+      "language_loss": 0.82702863,
+      "learning_rate": 8.826333279490401e-07,
+      "loss": 0.84920448,
+      "num_input_tokens_seen": 124915810,
+      "step": 5805,
+      "time_per_iteration": 3.5702321529388428
+    },
+    {
+      "auxiliary_loss_clip": 0.01190116,
+      "auxiliary_loss_mlp": 0.01023375,
+      "balance_loss_clip": 1.04659593,
+      "balance_loss_mlp": 1.01620734,
+      "epoch": 0.6981302230505622,
+      "flos": 19857164267520.0,
+      "grad_norm": 2.2058646768102372,
+      "language_loss": 0.68108165,
+      "learning_rate": 8.819873483925748e-07,
+      "loss": 0.70321655,
+      "num_input_tokens_seen": 124932930,
+      "step": 5806,
+      "time_per_iteration": 2.642123222351074
+    },
+    {
+      "auxiliary_loss_clip": 0.01203901,
+      "auxiliary_loss_mlp": 0.01378965,
+      "balance_loss_clip": 1.0471859,
+      "balance_loss_mlp": 1.00012922,
+      "epoch": 0.6982504659412012,
+      "flos": 22198648141440.0,
+      "grad_norm": 3.140482323846704,
+      "language_loss": 0.74637961,
+      "learning_rate": 8.81341538437739e-07,
+      "loss": 0.77220833,
+      "num_input_tokens_seen": 124951220,
+      "step": 5807,
+      "time_per_iteration": 2.7018752098083496
+    },
+    {
+      "auxiliary_loss_clip": 0.01193456,
+      "auxiliary_loss_mlp": 0.01022141,
+      "balance_loss_clip": 1.04514265,
+      "balance_loss_mlp": 1.01471996,
+      "epoch": 0.6983707088318403,
+      "flos": 35588479708800.0,
+      "grad_norm": 2.1398992429750106,
+      "language_loss": 0.68210512,
+      "learning_rate": 8.80695898182503e-07,
+      "loss": 0.70426106,
+      "num_input_tokens_seen": 124972200,
+      "step": 5808,
+      "time_per_iteration": 3.6303610801696777
+    },
+    {
+      "auxiliary_loss_clip": 0.01076604,
+      "auxiliary_loss_mlp": 0.01000281,
+      "balance_loss_clip": 1.01637888,
+      "balance_loss_mlp": 0.99921399,
+      "epoch": 0.6984909517224794,
+      "flos": 65440052760960.0,
+      "grad_norm": 0.8326945993472599,
+      "language_loss": 0.65163457,
+      "learning_rate": 8.800504277248093e-07,
+      "loss": 0.6724034,
+      "num_input_tokens_seen": 125036950,
+      "step": 5809,
+      "time_per_iteration": 3.2407472133636475
+    },
+    {
+      "auxiliary_loss_clip": 0.01196486,
+      "auxiliary_loss_mlp": 0.01378775,
+      "balance_loss_clip": 1.05053318,
+      "balance_loss_mlp": 1.00020218,
+      "epoch": 0.6986111946131185,
+      "flos": 18546927863040.0,
+      "grad_norm": 1.737070760557196,
+      "language_loss": 0.75178576,
+      "learning_rate": 8.794051271625753e-07,
+      "loss": 0.77753836,
+      "num_input_tokens_seen": 125054585,
+      "step": 5810,
+      "time_per_iteration": 2.718165397644043
+    },
+    {
+      "auxiliary_loss_clip": 0.01187851,
+      "auxiliary_loss_mlp": 0.01027692,
+      "balance_loss_clip": 1.04541504,
+      "balance_loss_mlp": 1.0202055,
+      "epoch": 0.6987314375037575,
+      "flos": 23039173370880.0,
+      "grad_norm": 1.6054108405734855,
+      "language_loss": 0.83292472,
+      "learning_rate": 8.787599965936925e-07,
+      "loss": 0.85508013,
+      "num_input_tokens_seen": 125075515,
+      "step": 5811,
+      "time_per_iteration": 3.585991144180298
+    },
+    {
+      "auxiliary_loss_clip": 0.01189175,
+      "auxiliary_loss_mlp": 0.01024892,
+      "balance_loss_clip": 1.04570532,
+      "balance_loss_mlp": 1.01710761,
+      "epoch": 0.6988516803943967,
+      "flos": 38400393029760.0,
+      "grad_norm": 1.633934373379828,
+      "language_loss": 0.71895611,
+      "learning_rate": 8.781150361160261e-07,
+      "loss": 0.74109685,
+      "num_input_tokens_seen": 125097425,
+      "step": 5812,
+      "time_per_iteration": 2.7999696731567383
+    },
+    {
+      "auxiliary_loss_clip": 0.01199593,
+      "auxiliary_loss_mlp": 0.01027689,
+      "balance_loss_clip": 1.04523706,
+      "balance_loss_mlp": 1.0199523,
+      "epoch": 0.6989719232850358,
+      "flos": 24096993926400.0,
+      "grad_norm": 1.8101889339703061,
+      "language_loss": 0.7355026,
+      "learning_rate": 8.774702458274181e-07,
+      "loss": 0.75777543,
+      "num_input_tokens_seen": 125117830,
+      "step": 5813,
+      "time_per_iteration": 2.6757314205169678
+    },
+    {
+      "auxiliary_loss_clip": 0.01177339,
+      "auxiliary_loss_mlp": 0.01022115,
+      "balance_loss_clip": 1.04560161,
+      "balance_loss_mlp": 1.0139792,
+      "epoch": 0.6990921661756748,
+      "flos": 14866838818560.0,
+      "grad_norm": 2.9205925094417258,
+      "language_loss": 0.70963848,
+      "learning_rate": 8.768256258256799e-07,
+      "loss": 0.73163307,
+      "num_input_tokens_seen": 125134455,
+      "step": 5814,
+      "time_per_iteration": 2.6136276721954346
+    },
+    {
+      "auxiliary_loss_clip": 0.01183463,
+      "auxiliary_loss_mlp": 0.01026569,
+      "balance_loss_clip": 1.04798865,
+      "balance_loss_mlp": 1.01904953,
+      "epoch": 0.699212409066314,
+      "flos": 20193719725440.0,
+      "grad_norm": 2.05173258471981,
+      "language_loss": 0.7354033,
+      "learning_rate": 8.76181176208602e-07,
+      "loss": 0.75750363,
+      "num_input_tokens_seen": 125152555,
+      "step": 5815,
+      "time_per_iteration": 2.691338539123535
+    },
+    {
+      "auxiliary_loss_clip": 0.01190167,
+      "auxiliary_loss_mlp": 0.01026167,
+      "balance_loss_clip": 1.03778601,
+      "balance_loss_mlp": 1.0177629,
+      "epoch": 0.699332651956953,
+      "flos": 19427888828160.0,
+      "grad_norm": 2.090994450269299,
+      "language_loss": 0.73494911,
+      "learning_rate": 8.755368970739461e-07,
+      "loss": 0.75711244,
+      "num_input_tokens_seen": 125171915,
+      "step": 5816,
+      "time_per_iteration": 2.7059056758880615
+    },
+    {
+      "auxiliary_loss_clip": 0.01202675,
+      "auxiliary_loss_mlp": 0.01027911,
+      "balance_loss_clip": 1.04349196,
+      "balance_loss_mlp": 1.01937521,
+      "epoch": 0.6994528948475921,
+      "flos": 16143714466560.0,
+      "grad_norm": 2.643286977629477,
+      "language_loss": 0.61406994,
+      "learning_rate": 8.748927885194479e-07,
+      "loss": 0.63637573,
+      "num_input_tokens_seen": 125190220,
+      "step": 5817,
+      "time_per_iteration": 2.7001430988311768
+    },
+    {
+      "auxiliary_loss_clip": 0.01096469,
+      "auxiliary_loss_mlp": 0.01000322,
+      "balance_loss_clip": 1.01408792,
+      "balance_loss_mlp": 0.99895686,
+      "epoch": 0.6995731377382313,
+      "flos": 64952420699520.0,
+      "grad_norm": 0.875229528841476,
+      "language_loss": 0.57336378,
+      "learning_rate": 8.742488506428209e-07,
+      "loss": 0.59433174,
+      "num_input_tokens_seen": 125249310,
+      "step": 5818,
+      "time_per_iteration": 3.1734561920166016
+    },
+    {
+      "auxiliary_loss_clip": 0.01192575,
+      "auxiliary_loss_mlp": 0.01378609,
+      "balance_loss_clip": 1.04544926,
+      "balance_loss_mlp": 1.00010228,
+      "epoch": 0.6996933806288703,
+      "flos": 24900136076160.0,
+      "grad_norm": 1.8037548794432667,
+      "language_loss": 0.78195828,
+      "learning_rate": 8.736050835417466e-07,
+      "loss": 0.80767006,
+      "num_input_tokens_seen": 125269350,
+      "step": 5819,
+      "time_per_iteration": 2.775616407394409
+    },
+    {
+      "auxiliary_loss_clip": 0.01184678,
+      "auxiliary_loss_mlp": 0.01029712,
+      "balance_loss_clip": 1.04855561,
+      "balance_loss_mlp": 1.02283096,
+      "epoch": 0.6998136235195094,
+      "flos": 20777806782720.0,
+      "grad_norm": 2.0961643757708686,
+      "language_loss": 0.60916889,
+      "learning_rate": 8.729614873138862e-07,
+      "loss": 0.63131279,
+      "num_input_tokens_seen": 125286985,
+      "step": 5820,
+      "time_per_iteration": 2.5634241104125977
+    },
+    {
+      "auxiliary_loss_clip": 0.0121562,
+      "auxiliary_loss_mlp": 0.01031573,
+      "balance_loss_clip": 1.0463295,
+      "balance_loss_mlp": 1.02334177,
+      "epoch": 0.6999338664101485,
+      "flos": 23733470332800.0,
+      "grad_norm": 2.0079641671603006,
+      "language_loss": 0.77905482,
+      "learning_rate": 8.723180620568716e-07,
+      "loss": 0.80152678,
+      "num_input_tokens_seen": 125306240,
+      "step": 5821,
+      "time_per_iteration": 2.753080129623413
+    },
+    {
+      "auxiliary_loss_clip": 0.01190434,
+      "auxiliary_loss_mlp": 0.01022245,
+      "balance_loss_clip": 1.04581094,
+      "balance_loss_mlp": 1.01454735,
+      "epoch": 0.7000541093007876,
+      "flos": 19864598382720.0,
+      "grad_norm": 1.814444831213662,
+      "language_loss": 0.85217142,
+      "learning_rate": 8.716748078683116e-07,
+      "loss": 0.87429821,
+      "num_input_tokens_seen": 125323015,
+      "step": 5822,
+      "time_per_iteration": 2.6045944690704346
+    },
+    {
+      "auxiliary_loss_clip": 0.01216661,
+      "auxiliary_loss_mlp": 0.0102941,
+      "balance_loss_clip": 1.04161942,
+      "balance_loss_mlp": 1.02082705,
+      "epoch": 0.7001743521914267,
+      "flos": 29679056029440.0,
+      "grad_norm": 1.9185041811448837,
+      "language_loss": 0.68566179,
+      "learning_rate": 8.710317248457855e-07,
+      "loss": 0.70812249,
+      "num_input_tokens_seen": 125342630,
+      "step": 5823,
+      "time_per_iteration": 2.8348262310028076
+    },
+    {
+      "auxiliary_loss_clip": 0.0118678,
+      "auxiliary_loss_mlp": 0.01026371,
+      "balance_loss_clip": 1.04922438,
+      "balance_loss_mlp": 1.01864004,
+      "epoch": 0.7002945950820658,
+      "flos": 27489762080640.0,
+      "grad_norm": 2.0447370132685214,
+      "language_loss": 0.71891224,
+      "learning_rate": 8.703888130868482e-07,
+      "loss": 0.74104381,
+      "num_input_tokens_seen": 125364480,
+      "step": 5824,
+      "time_per_iteration": 2.695521354675293
+    },
+    {
+      "auxiliary_loss_clip": 0.01195831,
+      "auxiliary_loss_mlp": 0.01024666,
+      "balance_loss_clip": 1.04351377,
+      "balance_loss_mlp": 1.01789474,
+      "epoch": 0.7004148379727049,
+      "flos": 22158463800960.0,
+      "grad_norm": 2.2132603196233536,
+      "language_loss": 0.81975377,
+      "learning_rate": 8.697460726890307e-07,
+      "loss": 0.84195876,
+      "num_input_tokens_seen": 125381625,
+      "step": 5825,
+      "time_per_iteration": 2.6741018295288086
+    },
+    {
+      "auxiliary_loss_clip": 0.01191276,
+      "auxiliary_loss_mlp": 0.01378791,
+      "balance_loss_clip": 1.04032731,
+      "balance_loss_mlp": 1.00017321,
+      "epoch": 0.7005350808633439,
+      "flos": 19423758764160.0,
+      "grad_norm": 1.8713680736506852,
+      "language_loss": 0.9046306,
+      "learning_rate": 8.691035037498354e-07,
+      "loss": 0.93033129,
+      "num_input_tokens_seen": 125397615,
+      "step": 5826,
+      "time_per_iteration": 2.7355077266693115
+    },
+    {
+      "auxiliary_loss_clip": 0.0118086,
+      "auxiliary_loss_mlp": 0.01025046,
+      "balance_loss_clip": 1.04192984,
+      "balance_loss_mlp": 1.01800346,
+      "epoch": 0.7006553237539831,
+      "flos": 23476708938240.0,
+      "grad_norm": 1.6699673832701636,
+      "language_loss": 0.72304273,
+      "learning_rate": 8.684611063667391e-07,
+      "loss": 0.74510181,
+      "num_input_tokens_seen": 125418080,
+      "step": 5827,
+      "time_per_iteration": 2.6337053775787354
+    },
+    {
+      "auxiliary_loss_clip": 0.01179256,
+      "auxiliary_loss_mlp": 0.01029173,
+      "balance_loss_clip": 1.04654574,
+      "balance_loss_mlp": 1.02141833,
+      "epoch": 0.7007755666446221,
+      "flos": 31212872640000.0,
+      "grad_norm": 1.9429392169994595,
+      "language_loss": 0.76818585,
+      "learning_rate": 8.678188806371935e-07,
+      "loss": 0.79027009,
+      "num_input_tokens_seen": 125440115,
+      "step": 5828,
+      "time_per_iteration": 2.7453272342681885
+    },
+    {
+      "auxiliary_loss_clip": 0.01177616,
+      "auxiliary_loss_mlp": 0.01023604,
+      "balance_loss_clip": 1.04574609,
+      "balance_loss_mlp": 1.01613605,
+      "epoch": 0.7008958095352612,
+      "flos": 18149899858560.0,
+      "grad_norm": 1.8232291434502068,
+      "language_loss": 0.85468936,
+      "learning_rate": 8.671768266586228e-07,
+      "loss": 0.87670159,
+      "num_input_tokens_seen": 125458240,
+      "step": 5829,
+      "time_per_iteration": 3.531663656234741
+    },
+    {
+      "auxiliary_loss_clip": 0.01194387,
+      "auxiliary_loss_mlp": 0.0102571,
+      "balance_loss_clip": 1.04315543,
+      "balance_loss_mlp": 1.01756215,
+      "epoch": 0.7010160524259004,
+      "flos": 27452307173760.0,
+      "grad_norm": 1.72090217080975,
+      "language_loss": 0.78022313,
+      "learning_rate": 8.665349445284275e-07,
+      "loss": 0.80242407,
+      "num_input_tokens_seen": 125477980,
+      "step": 5830,
+      "time_per_iteration": 2.7096517086029053
+    },
+    {
+      "auxiliary_loss_clip": 0.01198481,
+      "auxiliary_loss_mlp": 0.01029844,
+      "balance_loss_clip": 1.04542589,
+      "balance_loss_mlp": 1.02219129,
+      "epoch": 0.7011362953165394,
+      "flos": 23842064125440.0,
+      "grad_norm": 1.5077802926116397,
+      "language_loss": 0.80712783,
+      "learning_rate": 8.658932343439799e-07,
+      "loss": 0.82941115,
+      "num_input_tokens_seen": 125497765,
+      "step": 5831,
+      "time_per_iteration": 3.6310856342315674
+    },
+    {
+      "auxiliary_loss_clip": 0.01172116,
+      "auxiliary_loss_mlp": 0.01025265,
+      "balance_loss_clip": 1.04922462,
+      "balance_loss_mlp": 1.01773095,
+      "epoch": 0.7012565382071785,
+      "flos": 24823430582400.0,
+      "grad_norm": 2.428969447715841,
+      "language_loss": 0.77678847,
+      "learning_rate": 8.65251696202627e-07,
+      "loss": 0.79876226,
+      "num_input_tokens_seen": 125514145,
+      "step": 5832,
+      "time_per_iteration": 2.529078960418701
+    },
+    {
+      "auxiliary_loss_clip": 0.0120215,
+      "auxiliary_loss_mlp": 0.01028658,
+      "balance_loss_clip": 1.04747295,
+      "balance_loss_mlp": 1.0208497,
+      "epoch": 0.7013767810978175,
+      "flos": 21397445326080.0,
+      "grad_norm": 2.859105892873413,
+      "language_loss": 0.87662184,
+      "learning_rate": 8.646103302016896e-07,
+      "loss": 0.89892995,
+      "num_input_tokens_seen": 125533115,
+      "step": 5833,
+      "time_per_iteration": 3.5850865840911865
+    },
+    {
+      "auxiliary_loss_clip": 0.01217908,
+      "auxiliary_loss_mlp": 0.01025754,
+      "balance_loss_clip": 1.04415917,
+      "balance_loss_mlp": 1.01800513,
+      "epoch": 0.7014970239884567,
+      "flos": 16687150306560.0,
+      "grad_norm": 1.840096451227004,
+      "language_loss": 0.88586199,
+      "learning_rate": 8.639691364384614e-07,
+      "loss": 0.90829861,
+      "num_input_tokens_seen": 125550740,
+      "step": 5834,
+      "time_per_iteration": 2.631680727005005
+    },
+    {
+      "auxiliary_loss_clip": 0.01194389,
+      "auxiliary_loss_mlp": 0.01025353,
+      "balance_loss_clip": 1.04882407,
+      "balance_loss_mlp": 1.01793814,
+      "epoch": 0.7016172668790958,
+      "flos": 12568268718720.0,
+      "grad_norm": 2.0075118447538203,
+      "language_loss": 0.72375828,
+      "learning_rate": 8.633281150102136e-07,
+      "loss": 0.74595571,
+      "num_input_tokens_seen": 125567590,
+      "step": 5835,
+      "time_per_iteration": 2.8659729957580566
+    },
+    {
+      "auxiliary_loss_clip": 0.01186622,
+      "auxiliary_loss_mlp": 0.01028043,
+      "balance_loss_clip": 1.04573393,
+      "balance_loss_mlp": 1.02048802,
+      "epoch": 0.7017375097697348,
+      "flos": 17452729808640.0,
+      "grad_norm": 2.413468138330871,
+      "language_loss": 0.68037868,
+      "learning_rate": 8.626872660141855e-07,
+      "loss": 0.70252532,
+      "num_input_tokens_seen": 125585500,
+      "step": 5836,
+      "time_per_iteration": 2.596097230911255
+    },
+    {
+      "auxiliary_loss_clip": 0.01207157,
+      "auxiliary_loss_mlp": 0.01024287,
+      "balance_loss_clip": 1.04405665,
+      "balance_loss_mlp": 1.01678228,
+      "epoch": 0.701857752660374,
+      "flos": 18513028402560.0,
+      "grad_norm": 1.7343202628510728,
+      "language_loss": 0.74820077,
+      "learning_rate": 8.620465895475957e-07,
+      "loss": 0.7705152,
+      "num_input_tokens_seen": 125603720,
+      "step": 5837,
+      "time_per_iteration": 3.598318099975586
+    },
+    {
+      "auxiliary_loss_clip": 0.01199943,
+      "auxiliary_loss_mlp": 0.01026836,
+      "balance_loss_clip": 1.0426836,
+      "balance_loss_mlp": 1.0193795,
+      "epoch": 0.701977995551013,
+      "flos": 24425971614720.0,
+      "grad_norm": 1.6095061882175963,
+      "language_loss": 0.75194275,
+      "learning_rate": 8.614060857076333e-07,
+      "loss": 0.77421051,
+      "num_input_tokens_seen": 125624390,
+      "step": 5838,
+      "time_per_iteration": 2.74507737159729
+    },
+    {
+      "auxiliary_loss_clip": 0.01181466,
+      "auxiliary_loss_mlp": 0.0103306,
+      "balance_loss_clip": 1.04388523,
+      "balance_loss_mlp": 1.02549601,
+      "epoch": 0.7020982384416521,
+      "flos": 23002759958400.0,
+      "grad_norm": 15.304879715064029,
+      "language_loss": 0.74803889,
+      "learning_rate": 8.60765754591462e-07,
+      "loss": 0.77018416,
+      "num_input_tokens_seen": 125644085,
+      "step": 5839,
+      "time_per_iteration": 2.6340134143829346
+    },
+    {
+      "auxiliary_loss_clip": 0.01169424,
+      "auxiliary_loss_mlp": 0.01024879,
+      "balance_loss_clip": 1.04677153,
+      "balance_loss_mlp": 1.01748204,
+      "epoch": 0.7022184813322913,
+      "flos": 20449080489600.0,
+      "grad_norm": 2.035814328617099,
+      "language_loss": 0.72760975,
+      "learning_rate": 8.601255962962211e-07,
+      "loss": 0.74955279,
+      "num_input_tokens_seen": 125663095,
+      "step": 5840,
+      "time_per_iteration": 2.6114776134490967
+    },
+    {
+      "auxiliary_loss_clip": 0.01189149,
+      "auxiliary_loss_mlp": 0.01033545,
+      "balance_loss_clip": 1.04967809,
+      "balance_loss_mlp": 1.02518797,
+      "epoch": 0.7023387242229303,
+      "flos": 19790514581760.0,
+      "grad_norm": 2.670403832321855,
+      "language_loss": 0.72673327,
+      "learning_rate": 8.594856109190194e-07,
+      "loss": 0.7489602,
+      "num_input_tokens_seen": 125680125,
+      "step": 5841,
+      "time_per_iteration": 2.581066846847534
+    },
+    {
+      "auxiliary_loss_clip": 0.01170854,
+      "auxiliary_loss_mlp": 0.01026517,
+      "balance_loss_clip": 1.04737735,
+      "balance_loss_mlp": 1.01894689,
+      "epoch": 0.7024589671135694,
+      "flos": 33259278286080.0,
+      "grad_norm": 5.723791373430322,
+      "language_loss": 0.69293851,
+      "learning_rate": 8.588457985569446e-07,
+      "loss": 0.71491218,
+      "num_input_tokens_seen": 125703035,
+      "step": 5842,
+      "time_per_iteration": 2.716371536254883
+    },
+    {
+      "auxiliary_loss_clip": 0.01172791,
+      "auxiliary_loss_mlp": 0.01033323,
+      "balance_loss_clip": 1.04908824,
+      "balance_loss_mlp": 1.02491271,
+      "epoch": 0.7025792100042085,
+      "flos": 19098982967040.0,
+      "grad_norm": 2.136417386184433,
+      "language_loss": 0.72076368,
+      "learning_rate": 8.582061593070542e-07,
+      "loss": 0.74282479,
+      "num_input_tokens_seen": 125723765,
+      "step": 5843,
+      "time_per_iteration": 2.5609469413757324
+    },
+    {
+      "auxiliary_loss_clip": 0.01171425,
+      "auxiliary_loss_mlp": 0.01379071,
+      "balance_loss_clip": 1.04917395,
+      "balance_loss_mlp": 1.00011373,
+      "epoch": 0.7026994528948476,
+      "flos": 18952611045120.0,
+      "grad_norm": 2.621447281144109,
+      "language_loss": 0.76607579,
+      "learning_rate": 8.57566693266383e-07,
+      "loss": 0.7915808,
+      "num_input_tokens_seen": 125741455,
+      "step": 5844,
+      "time_per_iteration": 2.5611445903778076
+    },
+    {
+      "auxiliary_loss_clip": 0.01192816,
+      "auxiliary_loss_mlp": 0.01378706,
+      "balance_loss_clip": 1.04439974,
+      "balance_loss_mlp": 1.00012612,
+      "epoch": 0.7028196957854866,
+      "flos": 19536662188800.0,
+      "grad_norm": 8.535531987961148,
+      "language_loss": 0.69520831,
+      "learning_rate": 8.569274005319354e-07,
+      "loss": 0.72092348,
+      "num_input_tokens_seen": 125759855,
+      "step": 5845,
+      "time_per_iteration": 2.630706787109375
+    },
+    {
+      "auxiliary_loss_clip": 0.01174061,
+      "auxiliary_loss_mlp": 0.01028475,
+      "balance_loss_clip": 1.04527378,
+      "balance_loss_mlp": 1.0211879,
+      "epoch": 0.7029399386761258,
+      "flos": 20845318394880.0,
+      "grad_norm": 1.799560843203349,
+      "language_loss": 0.79594815,
+      "learning_rate": 8.562882812006913e-07,
+      "loss": 0.81797349,
+      "num_input_tokens_seen": 125777345,
+      "step": 5846,
+      "time_per_iteration": 2.6239535808563232
+    },
+    {
+      "auxiliary_loss_clip": 0.01170429,
+      "auxiliary_loss_mlp": 0.01028808,
+      "balance_loss_clip": 1.04849052,
+      "balance_loss_mlp": 1.0213635,
+      "epoch": 0.7030601815667649,
+      "flos": 22055005653120.0,
+      "grad_norm": 1.7196562696021747,
+      "language_loss": 0.77735198,
+      "learning_rate": 8.556493353696066e-07,
+      "loss": 0.79934436,
+      "num_input_tokens_seen": 125796345,
+      "step": 5847,
+      "time_per_iteration": 2.582354784011841
+    },
+    {
+      "auxiliary_loss_clip": 0.01183545,
+      "auxiliary_loss_mlp": 0.01379169,
+      "balance_loss_clip": 1.04826725,
+      "balance_loss_mlp": 1.0001334,
+      "epoch": 0.7031804244574039,
+      "flos": 27198742089600.0,
+      "grad_norm": 2.151796043568363,
+      "language_loss": 0.68004632,
+      "learning_rate": 8.550105631356077e-07,
+      "loss": 0.70567346,
+      "num_input_tokens_seen": 125816070,
+      "step": 5848,
+      "time_per_iteration": 2.685948371887207
+    },
+    {
+      "auxiliary_loss_clip": 0.01187504,
+      "auxiliary_loss_mlp": 0.01024557,
+      "balance_loss_clip": 1.04122806,
+      "balance_loss_mlp": 1.01688027,
+      "epoch": 0.7033006673480431,
+      "flos": 22379853277440.0,
+      "grad_norm": 2.106117203443555,
+      "language_loss": 0.77009732,
+      "learning_rate": 8.543719645955961e-07,
+      "loss": 0.79221785,
+      "num_input_tokens_seen": 125834400,
+      "step": 5849,
+      "time_per_iteration": 2.7232091426849365
+    },
+    {
+      "auxiliary_loss_clip": 0.01189892,
+      "auxiliary_loss_mlp": 0.0103082,
+      "balance_loss_clip": 1.04471731,
+      "balance_loss_mlp": 1.02316642,
+      "epoch": 0.7034209102386821,
+      "flos": 24715986024960.0,
+      "grad_norm": 1.6783630515605104,
+      "language_loss": 0.74652493,
+      "learning_rate": 8.537335398464467e-07,
+      "loss": 0.76873201,
+      "num_input_tokens_seen": 125854720,
+      "step": 5850,
+      "time_per_iteration": 2.650259017944336
+    },
+    {
+      "auxiliary_loss_clip": 0.01186251,
+      "auxiliary_loss_mlp": 0.0102654,
+      "balance_loss_clip": 1.04287803,
+      "balance_loss_mlp": 1.01833272,
+      "epoch": 0.7035411531293212,
+      "flos": 22556174163840.0,
+      "grad_norm": 2.785797224224517,
+      "language_loss": 0.8538965,
+      "learning_rate": 8.53095288985007e-07,
+      "loss": 0.87602448,
+      "num_input_tokens_seen": 125868455,
+      "step": 5851,
+      "time_per_iteration": 2.6826953887939453
+    },
+    {
+      "auxiliary_loss_clip": 0.01168327,
+      "auxiliary_loss_mlp": 0.01026315,
+      "balance_loss_clip": 1.04778671,
+      "balance_loss_mlp": 1.01927614,
+      "epoch": 0.7036613960199604,
+      "flos": 22674967418880.0,
+      "grad_norm": 1.6632434311506297,
+      "language_loss": 0.82108259,
+      "learning_rate": 8.524572121081009e-07,
+      "loss": 0.84302896,
+      "num_input_tokens_seen": 125888555,
+      "step": 5852,
+      "time_per_iteration": 2.5604565143585205
+    },
+    {
+      "auxiliary_loss_clip": 0.0118399,
+      "auxiliary_loss_mlp": 0.01025015,
+      "balance_loss_clip": 1.04761982,
+      "balance_loss_mlp": 1.01709378,
+      "epoch": 0.7037816389105994,
+      "flos": 22492146170880.0,
+      "grad_norm": 2.2068820115868855,
+      "language_loss": 0.62414879,
+      "learning_rate": 8.518193093125232e-07,
+      "loss": 0.6462388,
+      "num_input_tokens_seen": 125907610,
+      "step": 5853,
+      "time_per_iteration": 2.627946376800537
+    },
+    {
+      "auxiliary_loss_clip": 0.01197321,
+      "auxiliary_loss_mlp": 0.0102878,
+      "balance_loss_clip": 1.04862225,
+      "balance_loss_mlp": 1.02170479,
+      "epoch": 0.7039018818012385,
+      "flos": 27087490690560.0,
+      "grad_norm": 1.63847853358226,
+      "language_loss": 0.81081772,
+      "learning_rate": 8.511815806950436e-07,
+      "loss": 0.83307862,
+      "num_input_tokens_seen": 125928640,
+      "step": 5854,
+      "time_per_iteration": 2.692394733428955
+    },
+    {
+      "auxiliary_loss_clip": 0.01175062,
+      "auxiliary_loss_mlp": 0.01022334,
+      "balance_loss_clip": 1.04346228,
+      "balance_loss_mlp": 1.01521719,
+      "epoch": 0.7040221246918776,
+      "flos": 17749819198080.0,
+      "grad_norm": 1.5416744517335035,
+      "language_loss": 0.7798115,
+      "learning_rate": 8.505440263524044e-07,
+      "loss": 0.80178547,
+      "num_input_tokens_seen": 125947485,
+      "step": 5855,
+      "time_per_iteration": 3.5110418796539307
+    },
+    {
+      "auxiliary_loss_clip": 0.01181237,
+      "auxiliary_loss_mlp": 0.01030251,
+      "balance_loss_clip": 1.04688585,
+      "balance_loss_mlp": 1.02163839,
+      "epoch": 0.7041423675825167,
+      "flos": 16279851012480.0,
+      "grad_norm": 2.52493267829607,
+      "language_loss": 0.88332856,
+      "learning_rate": 8.49906646381322e-07,
+      "loss": 0.90544331,
+      "num_input_tokens_seen": 125960320,
+      "step": 5856,
+      "time_per_iteration": 2.589916706085205
+    },
+    {
+      "auxiliary_loss_clip": 0.01200217,
+      "auxiliary_loss_mlp": 0.01026559,
+      "balance_loss_clip": 1.04564607,
+      "balance_loss_mlp": 1.01946259,
+      "epoch": 0.7042626104731557,
+      "flos": 25483181639040.0,
+      "grad_norm": 1.650168390085659,
+      "language_loss": 0.72003609,
+      "learning_rate": 8.492694408784884e-07,
+      "loss": 0.74230385,
+      "num_input_tokens_seen": 125980575,
+      "step": 5857,
+      "time_per_iteration": 3.5809473991394043
+    },
+    {
+      "auxiliary_loss_clip": 0.0118138,
+      "auxiliary_loss_mlp": 0.01025061,
+      "balance_loss_clip": 1.0459702,
+      "balance_loss_mlp": 1.01729441,
+      "epoch": 0.7043828533637949,
+      "flos": 17857622891520.0,
+      "grad_norm": 2.237972452852121,
+      "language_loss": 0.6230402,
+      "learning_rate": 8.486324099405642e-07,
+      "loss": 0.64510459,
+      "num_input_tokens_seen": 125997420,
+      "step": 5858,
+      "time_per_iteration": 2.660468816757202
+    },
+    {
+      "auxiliary_loss_clip": 0.01180396,
+      "auxiliary_loss_mlp": 0.01026947,
+      "balance_loss_clip": 1.04713428,
+      "balance_loss_mlp": 1.01925802,
+      "epoch": 0.704503096254434,
+      "flos": 29494259533440.0,
+      "grad_norm": 1.6249449836849932,
+      "language_loss": 0.74890155,
+      "learning_rate": 8.479955536641887e-07,
+      "loss": 0.77097499,
+      "num_input_tokens_seen": 126018915,
+      "step": 5859,
+      "time_per_iteration": 2.654849052429199
+    },
+    {
+      "auxiliary_loss_clip": 0.01178666,
+      "auxiliary_loss_mlp": 0.01026566,
+      "balance_loss_clip": 1.04093993,
+      "balance_loss_mlp": 1.01879323,
+      "epoch": 0.704623339145073,
+      "flos": 30920739327360.0,
+      "grad_norm": 1.788856508968012,
+      "language_loss": 0.65899074,
+      "learning_rate": 8.473588721459716e-07,
+      "loss": 0.68104303,
+      "num_input_tokens_seen": 126038825,
+      "step": 5860,
+      "time_per_iteration": 3.604989767074585
+    },
+    {
+      "auxiliary_loss_clip": 0.01181296,
+      "auxiliary_loss_mlp": 0.01033458,
+      "balance_loss_clip": 1.04953623,
+      "balance_loss_mlp": 1.02476811,
+      "epoch": 0.7047435820357122,
+      "flos": 23914747296000.0,
+      "grad_norm": 1.9482590964450042,
+      "language_loss": 0.70357966,
+      "learning_rate": 8.467223654824967e-07,
+      "loss": 0.7257272,
+      "num_input_tokens_seen": 126058280,
+      "step": 5861,
+      "time_per_iteration": 2.619006395339966
+    },
+    {
+      "auxiliary_loss_clip": 0.01170406,
+      "auxiliary_loss_mlp": 0.0102736,
+      "balance_loss_clip": 1.04553986,
+      "balance_loss_mlp": 1.01973629,
+      "epoch": 0.7048638249263512,
+      "flos": 46494010926720.0,
+      "grad_norm": 1.7994200931450368,
+      "language_loss": 0.62737823,
+      "learning_rate": 8.460860337703233e-07,
+      "loss": 0.64935589,
+      "num_input_tokens_seen": 126078885,
+      "step": 5862,
+      "time_per_iteration": 3.737696409225464
+    },
+    {
+      "auxiliary_loss_clip": 0.01180156,
+      "auxiliary_loss_mlp": 0.01022775,
+      "balance_loss_clip": 1.04122329,
+      "balance_loss_mlp": 1.01453209,
+      "epoch": 0.7049840678169903,
+      "flos": 21689219502720.0,
+      "grad_norm": 1.951882150692134,
+      "language_loss": 0.70604324,
+      "learning_rate": 8.454498771059797e-07,
+      "loss": 0.72807264,
+      "num_input_tokens_seen": 126098260,
+      "step": 5863,
+      "time_per_iteration": 2.7100226879119873
+    },
+    {
+      "auxiliary_loss_clip": 0.01197883,
+      "auxiliary_loss_mlp": 0.01027351,
+      "balance_loss_clip": 1.0406549,
+      "balance_loss_mlp": 1.01949465,
+      "epoch": 0.7051043107076294,
+      "flos": 18405081054720.0,
+      "grad_norm": 2.136676377115449,
+      "language_loss": 0.83369601,
+      "learning_rate": 8.448138955859725e-07,
+      "loss": 0.85594839,
+      "num_input_tokens_seen": 126114845,
+      "step": 5864,
+      "time_per_iteration": 2.6083035469055176
+    },
+    {
+      "auxiliary_loss_clip": 0.01187537,
+      "auxiliary_loss_mlp": 0.01025124,
+      "balance_loss_clip": 1.04513943,
+      "balance_loss_mlp": 1.01736069,
+      "epoch": 0.7052245535982685,
+      "flos": 19319043640320.0,
+      "grad_norm": 1.7383353739500205,
+      "language_loss": 0.90114737,
+      "learning_rate": 8.44178089306778e-07,
+      "loss": 0.92327398,
+      "num_input_tokens_seen": 126132780,
+      "step": 5865,
+      "time_per_iteration": 2.6662192344665527
+    },
+    {
+      "auxiliary_loss_clip": 0.01170726,
+      "auxiliary_loss_mlp": 0.01025142,
+      "balance_loss_clip": 1.04939985,
+      "balance_loss_mlp": 1.01732445,
+      "epoch": 0.7053447964889076,
+      "flos": 19062138591360.0,
+      "grad_norm": 1.842132772451775,
+      "language_loss": 0.7689836,
+      "learning_rate": 8.4354245836485e-07,
+      "loss": 0.79094231,
+      "num_input_tokens_seen": 126151225,
+      "step": 5866,
+      "time_per_iteration": 2.5512497425079346
+    },
+    {
+      "auxiliary_loss_clip": 0.01200078,
+      "auxiliary_loss_mlp": 0.01032014,
+      "balance_loss_clip": 1.04444504,
+      "balance_loss_mlp": 1.02408695,
+      "epoch": 0.7054650393795466,
+      "flos": 27379228953600.0,
+      "grad_norm": 1.5802454565400885,
+      "language_loss": 0.72744519,
+      "learning_rate": 8.429070028566108e-07,
+      "loss": 0.74976611,
+      "num_input_tokens_seen": 126172535,
+      "step": 5867,
+      "time_per_iteration": 2.8191826343536377
+    },
+    {
+      "auxiliary_loss_clip": 0.01179715,
+      "auxiliary_loss_mlp": 0.01025379,
+      "balance_loss_clip": 1.04691803,
+      "balance_loss_mlp": 1.01768351,
+      "epoch": 0.7055852822701858,
+      "flos": 16102201322880.0,
+      "grad_norm": 1.8624790158275188,
+      "language_loss": 0.75137174,
+      "learning_rate": 8.422717228784586e-07,
+      "loss": 0.7734226,
+      "num_input_tokens_seen": 126189410,
+      "step": 5868,
+      "time_per_iteration": 2.544548273086548
+    },
+    {
+      "auxiliary_loss_clip": 0.01205443,
+      "auxiliary_loss_mlp": 0.01028395,
+      "balance_loss_clip": 1.04504037,
+      "balance_loss_mlp": 1.0204618,
+      "epoch": 0.7057055251608249,
+      "flos": 11692299744000.0,
+      "grad_norm": 2.0337857785948503,
+      "language_loss": 0.69191343,
+      "learning_rate": 8.416366185267663e-07,
+      "loss": 0.71425182,
+      "num_input_tokens_seen": 126206910,
+      "step": 5869,
+      "time_per_iteration": 2.6831860542297363
+    },
+    {
+      "auxiliary_loss_clip": 0.01178947,
+      "auxiliary_loss_mlp": 0.01026036,
+      "balance_loss_clip": 1.04548192,
+      "balance_loss_mlp": 1.01800418,
+      "epoch": 0.7058257680514639,
+      "flos": 22711560399360.0,
+      "grad_norm": 1.7217722507718218,
+      "language_loss": 0.77774715,
+      "learning_rate": 8.410016898978778e-07,
+      "loss": 0.799797,
+      "num_input_tokens_seen": 126224385,
+      "step": 5870,
+      "time_per_iteration": 2.6080410480499268
+    },
+    {
+      "auxiliary_loss_clip": 0.01204797,
+      "auxiliary_loss_mlp": 0.01030464,
+      "balance_loss_clip": 1.04403949,
+      "balance_loss_mlp": 1.02318025,
+      "epoch": 0.7059460109421031,
+      "flos": 17529543043200.0,
+      "grad_norm": 1.887812358690168,
+      "language_loss": 0.78945857,
+      "learning_rate": 8.403669370881115e-07,
+      "loss": 0.81181115,
+      "num_input_tokens_seen": 126243120,
+      "step": 5871,
+      "time_per_iteration": 2.7874114513397217
+    },
+    {
+      "auxiliary_loss_clip": 0.01170058,
+      "auxiliary_loss_mlp": 0.01026443,
+      "balance_loss_clip": 1.04864383,
+      "balance_loss_mlp": 1.0191772,
+      "epoch": 0.7060662538327421,
+      "flos": 23544687427200.0,
+      "grad_norm": 2.110763687832023,
+      "language_loss": 0.78823292,
+      "learning_rate": 8.397323601937587e-07,
+      "loss": 0.81019795,
+      "num_input_tokens_seen": 126263020,
+      "step": 5872,
+      "time_per_iteration": 2.6191744804382324
+    },
+    {
+      "auxiliary_loss_clip": 0.01191132,
+      "auxiliary_loss_mlp": 0.01027672,
+      "balance_loss_clip": 1.04428625,
+      "balance_loss_mlp": 1.01966119,
+      "epoch": 0.7061864967233812,
+      "flos": 30260736875520.0,
+      "grad_norm": 2.811927376127759,
+      "language_loss": 0.77126658,
+      "learning_rate": 8.390979593110838e-07,
+      "loss": 0.79345459,
+      "num_input_tokens_seen": 126285150,
+      "step": 5873,
+      "time_per_iteration": 2.7622969150543213
+    },
+    {
+      "auxiliary_loss_clip": 0.01195294,
+      "auxiliary_loss_mlp": 0.01024702,
+      "balance_loss_clip": 1.04802012,
+      "balance_loss_mlp": 1.01679587,
+      "epoch": 0.7063067396140204,
+      "flos": 20701460424960.0,
+      "grad_norm": 2.077352350448865,
+      "language_loss": 0.8169598,
+      "learning_rate": 8.384637345363262e-07,
+      "loss": 0.83915973,
+      "num_input_tokens_seen": 126304340,
+      "step": 5874,
+      "time_per_iteration": 2.6872291564941406
+    },
+    {
+      "auxiliary_loss_clip": 0.01175211,
+      "auxiliary_loss_mlp": 0.01030516,
+      "balance_loss_clip": 1.04026651,
+      "balance_loss_mlp": 1.02189684,
+      "epoch": 0.7064269825046594,
+      "flos": 32266168081920.0,
+      "grad_norm": 1.7358696012901864,
+      "language_loss": 0.76876605,
+      "learning_rate": 8.378296859656964e-07,
+      "loss": 0.79082334,
+      "num_input_tokens_seen": 126325495,
+      "step": 5875,
+      "time_per_iteration": 2.6639933586120605
+    },
+    {
+      "auxiliary_loss_clip": 0.01190091,
+      "auxiliary_loss_mlp": 0.01024126,
+      "balance_loss_clip": 1.046453,
+      "balance_loss_mlp": 1.01700282,
+      "epoch": 0.7065472253952985,
+      "flos": 30227124723840.0,
+      "grad_norm": 1.9157831792590314,
+      "language_loss": 0.68562543,
+      "learning_rate": 8.371958136953792e-07,
+      "loss": 0.70776761,
+      "num_input_tokens_seen": 126345525,
+      "step": 5876,
+      "time_per_iteration": 2.6350021362304688
+    },
+    {
+      "auxiliary_loss_clip": 0.01203748,
+      "auxiliary_loss_mlp": 0.01024385,
+      "balance_loss_clip": 1.04396057,
+      "balance_loss_mlp": 1.01571238,
+      "epoch": 0.7066674682859376,
+      "flos": 16216720859520.0,
+      "grad_norm": 3.6979782547066513,
+      "language_loss": 0.66218531,
+      "learning_rate": 8.365621178215326e-07,
+      "loss": 0.68446672,
+      "num_input_tokens_seen": 126361995,
+      "step": 5877,
+      "time_per_iteration": 2.5308175086975098
+    },
+    {
+      "auxiliary_loss_clip": 0.01172244,
+      "auxiliary_loss_mlp": 0.01023871,
+      "balance_loss_clip": 1.04472315,
+      "balance_loss_mlp": 1.01604521,
+      "epoch": 0.7067877111765767,
+      "flos": 14830461319680.0,
+      "grad_norm": 2.1820553429454974,
+      "language_loss": 0.7468468,
+      "learning_rate": 8.359285984402871e-07,
+      "loss": 0.76880789,
+      "num_input_tokens_seen": 126379260,
+      "step": 5878,
+      "time_per_iteration": 2.4919803142547607
+    },
+    {
+      "auxiliary_loss_clip": 0.01184571,
+      "auxiliary_loss_mlp": 0.01021313,
+      "balance_loss_clip": 1.04617655,
+      "balance_loss_mlp": 1.01384759,
+      "epoch": 0.7069079540672157,
+      "flos": 25440196037760.0,
+      "grad_norm": 2.0128399619417556,
+      "language_loss": 0.74386859,
+      "learning_rate": 8.352952556477489e-07,
+      "loss": 0.76592743,
+      "num_input_tokens_seen": 126397170,
+      "step": 5879,
+      "time_per_iteration": 2.5586228370666504
+    },
+    {
+      "auxiliary_loss_clip": 0.01179353,
+      "auxiliary_loss_mlp": 0.01025345,
+      "balance_loss_clip": 1.04781199,
+      "balance_loss_mlp": 1.01805854,
+      "epoch": 0.7070281969578549,
+      "flos": 24607751368320.0,
+      "grad_norm": 1.8144791020441267,
+      "language_loss": 0.76542974,
+      "learning_rate": 8.34662089539993e-07,
+      "loss": 0.78747666,
+      "num_input_tokens_seen": 126416680,
+      "step": 5880,
+      "time_per_iteration": 2.522188901901245
+    },
+    {
+      "auxiliary_loss_clip": 0.01169585,
+      "auxiliary_loss_mlp": 0.01027414,
+      "balance_loss_clip": 1.04940188,
+      "balance_loss_mlp": 1.01977241,
+      "epoch": 0.707148439848494,
+      "flos": 26724469887360.0,
+      "grad_norm": 2.058007961903343,
+      "language_loss": 0.79148936,
+      "learning_rate": 8.340291002130722e-07,
+      "loss": 0.81345934,
+      "num_input_tokens_seen": 126435870,
+      "step": 5881,
+      "time_per_iteration": 3.3855974674224854
+    },
+    {
+      "auxiliary_loss_clip": 0.01174331,
+      "auxiliary_loss_mlp": 0.01030845,
+      "balance_loss_clip": 1.05063403,
+      "balance_loss_mlp": 1.02314401,
+      "epoch": 0.707268682739133,
+      "flos": 15085750256640.0,
+      "grad_norm": 2.5209969189356807,
+      "language_loss": 0.79750472,
+      "learning_rate": 8.3339628776301e-07,
+      "loss": 0.81955647,
+      "num_input_tokens_seen": 126454010,
+      "step": 5882,
+      "time_per_iteration": 2.593395233154297
+    },
+    {
+      "auxiliary_loss_clip": 0.01168953,
+      "auxiliary_loss_mlp": 0.01026426,
+      "balance_loss_clip": 1.0477109,
+      "balance_loss_mlp": 1.01903844,
+      "epoch": 0.7073889256297722,
+      "flos": 34313148345600.0,
+      "grad_norm": 2.2016533815485193,
+      "language_loss": 0.56906927,
+      "learning_rate": 8.327636522858033e-07,
+      "loss": 0.59102303,
+      "num_input_tokens_seen": 126473615,
+      "step": 5883,
+      "time_per_iteration": 3.2656350135803223
+    },
+    {
+      "auxiliary_loss_clip": 0.01208381,
+      "auxiliary_loss_mlp": 0.01025873,
+      "balance_loss_clip": 1.04627347,
+      "balance_loss_mlp": 1.0180409,
+      "epoch": 0.7075091685204112,
+      "flos": 20083940784000.0,
+      "grad_norm": 3.1818475198117677,
+      "language_loss": 0.7714799,
+      "learning_rate": 8.321311938774225e-07,
+      "loss": 0.79382241,
+      "num_input_tokens_seen": 126492705,
+      "step": 5884,
+      "time_per_iteration": 2.6101033687591553
+    },
+    {
+      "auxiliary_loss_clip": 0.01172289,
+      "auxiliary_loss_mlp": 0.01029082,
+      "balance_loss_clip": 1.0486244,
+      "balance_loss_mlp": 1.02137566,
+      "epoch": 0.7076294114110503,
+      "flos": 20777124424320.0,
+      "grad_norm": 2.0295311435614383,
+      "language_loss": 0.79521441,
+      "learning_rate": 8.314989126338104e-07,
+      "loss": 0.81722808,
+      "num_input_tokens_seen": 126512715,
+      "step": 5885,
+      "time_per_iteration": 2.511949062347412
+    },
+    {
+      "auxiliary_loss_clip": 0.01180566,
+      "auxiliary_loss_mlp": 0.01027976,
+      "balance_loss_clip": 1.04604316,
+      "balance_loss_mlp": 1.0198102,
+      "epoch": 0.7077496543016895,
+      "flos": 17967689141760.0,
+      "grad_norm": 1.7116824615249984,
+      "language_loss": 0.84519839,
+      "learning_rate": 8.308668086508847e-07,
+      "loss": 0.86728382,
+      "num_input_tokens_seen": 126530795,
+      "step": 5886,
+      "time_per_iteration": 3.4403631687164307
+    },
+    {
+      "auxiliary_loss_clip": 0.0119784,
+      "auxiliary_loss_mlp": 0.01028797,
+      "balance_loss_clip": 1.04158139,
+      "balance_loss_mlp": 1.02056003,
+      "epoch": 0.7078698971923285,
+      "flos": 45478098564480.0,
+      "grad_norm": 1.725899743126666,
+      "language_loss": 0.73643947,
+      "learning_rate": 8.302348820245342e-07,
+      "loss": 0.75870585,
+      "num_input_tokens_seen": 126553360,
+      "step": 5887,
+      "time_per_iteration": 2.8278071880340576
+    },
+    {
+      "auxiliary_loss_clip": 0.01194177,
+      "auxiliary_loss_mlp": 0.01030144,
+      "balance_loss_clip": 1.04182792,
+      "balance_loss_mlp": 1.02231753,
+      "epoch": 0.7079901400829676,
+      "flos": 26943704547840.0,
+      "grad_norm": 4.5744062941429275,
+      "language_loss": 0.7026403,
+      "learning_rate": 8.296031328506232e-07,
+      "loss": 0.72488356,
+      "num_input_tokens_seen": 126573110,
+      "step": 5888,
+      "time_per_iteration": 3.4872782230377197
+    },
+    {
+      "auxiliary_loss_clip": 0.01189799,
+      "auxiliary_loss_mlp": 0.01024877,
+      "balance_loss_clip": 1.04608488,
+      "balance_loss_mlp": 1.01650858,
+      "epoch": 0.7081103829736067,
+      "flos": 24423206267520.0,
+      "grad_norm": 1.840881392927448,
+      "language_loss": 0.75388443,
+      "learning_rate": 8.289715612249857e-07,
+      "loss": 0.7760312,
+      "num_input_tokens_seen": 126593725,
+      "step": 5889,
+      "time_per_iteration": 2.6822776794433594
+    },
+    {
+      "auxiliary_loss_clip": 0.01183311,
+      "auxiliary_loss_mlp": 0.01032193,
+      "balance_loss_clip": 1.0457381,
+      "balance_loss_mlp": 1.02450085,
+      "epoch": 0.7082306258642458,
+      "flos": 18543300589440.0,
+      "grad_norm": 3.317872124167484,
+      "language_loss": 0.77977604,
+      "learning_rate": 8.283401672434305e-07,
+      "loss": 0.80193102,
+      "num_input_tokens_seen": 126608950,
+      "step": 5890,
+      "time_per_iteration": 2.609628915786743
+    },
+    {
+      "auxiliary_loss_clip": 0.01185931,
+      "auxiliary_loss_mlp": 0.01024517,
+      "balance_loss_clip": 1.04659212,
+      "balance_loss_mlp": 1.0175252,
+      "epoch": 0.7083508687548848,
+      "flos": 23477534951040.0,
+      "grad_norm": 1.945010613172775,
+      "language_loss": 0.70178533,
+      "learning_rate": 8.277089510017412e-07,
+      "loss": 0.72388983,
+      "num_input_tokens_seen": 126629755,
+      "step": 5891,
+      "time_per_iteration": 2.6619465351104736
+    },
+    {
+      "auxiliary_loss_clip": 0.01187156,
+      "auxiliary_loss_mlp": 0.01024226,
+      "balance_loss_clip": 1.04721141,
+      "balance_loss_mlp": 1.0166502,
+      "epoch": 0.708471111645524,
+      "flos": 22419463000320.0,
+      "grad_norm": 1.796611282182915,
+      "language_loss": 0.82455903,
+      "learning_rate": 8.270779125956719e-07,
+      "loss": 0.84667289,
+      "num_input_tokens_seen": 126650135,
+      "step": 5892,
+      "time_per_iteration": 2.7469987869262695
+    },
+    {
+      "auxiliary_loss_clip": 0.01198796,
+      "auxiliary_loss_mlp": 0.01028373,
+      "balance_loss_clip": 1.04111409,
+      "balance_loss_mlp": 1.02017713,
+      "epoch": 0.7085913545361631,
+      "flos": 20922885815040.0,
+      "grad_norm": 2.7119440077890613,
+      "language_loss": 0.79925621,
+      "learning_rate": 8.264470521209505e-07,
+      "loss": 0.82152784,
+      "num_input_tokens_seen": 126668500,
+      "step": 5893,
+      "time_per_iteration": 2.7212939262390137
+    },
+    {
+      "auxiliary_loss_clip": 0.01167271,
+      "auxiliary_loss_mlp": 0.01024491,
+      "balance_loss_clip": 1.04363191,
+      "balance_loss_mlp": 1.01683819,
+      "epoch": 0.7087115974268021,
+      "flos": 15012384727680.0,
+      "grad_norm": 2.3743652362239804,
+      "language_loss": 0.76453388,
+      "learning_rate": 8.258163696732785e-07,
+      "loss": 0.78645146,
+      "num_input_tokens_seen": 126686090,
+      "step": 5894,
+      "time_per_iteration": 2.7676148414611816
+    },
+    {
+      "auxiliary_loss_clip": 0.01172678,
+      "auxiliary_loss_mlp": 0.01025732,
+      "balance_loss_clip": 1.04503322,
+      "balance_loss_mlp": 1.01811719,
+      "epoch": 0.7088318403174413,
+      "flos": 21539040739200.0,
+      "grad_norm": 2.3276419979541694,
+      "language_loss": 0.77028513,
+      "learning_rate": 8.251858653483288e-07,
+      "loss": 0.79226923,
+      "num_input_tokens_seen": 126704255,
+      "step": 5895,
+      "time_per_iteration": 2.603710174560547
+    },
+    {
+      "auxiliary_loss_clip": 0.01182823,
+      "auxiliary_loss_mlp": 0.01025109,
+      "balance_loss_clip": 1.04844522,
+      "balance_loss_mlp": 1.01683021,
+      "epoch": 0.7089520832080803,
+      "flos": 15516785462400.0,
+      "grad_norm": 2.5101950814477116,
+      "language_loss": 0.85859692,
+      "learning_rate": 8.245555392417501e-07,
+      "loss": 0.88067627,
+      "num_input_tokens_seen": 126718910,
+      "step": 5896,
+      "time_per_iteration": 2.567660093307495
+    },
+    {
+      "auxiliary_loss_clip": 0.01187247,
+      "auxiliary_loss_mlp": 0.01025708,
+      "balance_loss_clip": 1.03899336,
+      "balance_loss_mlp": 1.01794171,
+      "epoch": 0.7090723260987194,
+      "flos": 20412667077120.0,
+      "grad_norm": 2.245565194428913,
+      "language_loss": 0.7898888,
+      "learning_rate": 8.239253914491613e-07,
+      "loss": 0.81201839,
+      "num_input_tokens_seen": 126737235,
+      "step": 5897,
+      "time_per_iteration": 2.6895227432250977
+    },
+    {
+      "auxiliary_loss_clip": 0.01189267,
+      "auxiliary_loss_mlp": 0.01024602,
+      "balance_loss_clip": 1.04506135,
+      "balance_loss_mlp": 1.01669288,
+      "epoch": 0.7091925689893585,
+      "flos": 25668337271040.0,
+      "grad_norm": 2.39577025777193,
+      "language_loss": 0.75134718,
+      "learning_rate": 8.232954220661556e-07,
+      "loss": 0.7734859,
+      "num_input_tokens_seen": 126759970,
+      "step": 5898,
+      "time_per_iteration": 2.7729620933532715
+    },
+    {
+      "auxiliary_loss_clip": 0.01171362,
+      "auxiliary_loss_mlp": 0.01027439,
+      "balance_loss_clip": 1.05102706,
+      "balance_loss_mlp": 1.01985765,
+      "epoch": 0.7093128118799976,
+      "flos": 24206629213440.0,
+      "grad_norm": 2.5382496368243532,
+      "language_loss": 0.69817162,
+      "learning_rate": 8.226656311882989e-07,
+      "loss": 0.72015965,
+      "num_input_tokens_seen": 126779280,
+      "step": 5899,
+      "time_per_iteration": 2.6175742149353027
+    },
+    {
+      "auxiliary_loss_clip": 0.01178966,
+      "auxiliary_loss_mlp": 0.01021972,
+      "balance_loss_clip": 1.04909039,
+      "balance_loss_mlp": 1.0150342,
+      "epoch": 0.7094330547706367,
+      "flos": 16646786398080.0,
+      "grad_norm": 2.1121713559089517,
+      "language_loss": 0.77110744,
+      "learning_rate": 8.22036018911129e-07,
+      "loss": 0.79311681,
+      "num_input_tokens_seen": 126797310,
+      "step": 5900,
+      "time_per_iteration": 2.627607822418213
+    },
+    {
+      "auxiliary_loss_clip": 0.01173708,
+      "auxiliary_loss_mlp": 0.01022369,
+      "balance_loss_clip": 1.04727602,
+      "balance_loss_mlp": 1.01424456,
+      "epoch": 0.7095532976612757,
+      "flos": 16283370545280.0,
+      "grad_norm": 2.2942733326250817,
+      "language_loss": 0.8036598,
+      "learning_rate": 8.214065853301599e-07,
+      "loss": 0.82562053,
+      "num_input_tokens_seen": 126812840,
+      "step": 5901,
+      "time_per_iteration": 2.6785361766815186
+    },
+    {
+      "auxiliary_loss_clip": 0.01078387,
+      "auxiliary_loss_mlp": 0.01002927,
+      "balance_loss_clip": 1.01103759,
+      "balance_loss_mlp": 1.00174642,
+      "epoch": 0.7096735405519149,
+      "flos": 70722080559360.0,
+      "grad_norm": 0.8188276401170796,
+      "language_loss": 0.58197331,
+      "learning_rate": 8.207773305408734e-07,
+      "loss": 0.60278642,
+      "num_input_tokens_seen": 126880060,
+      "step": 5902,
+      "time_per_iteration": 3.4031410217285156
+    },
+    {
+      "auxiliary_loss_clip": 0.0121326,
+      "auxiliary_loss_mlp": 0.01030808,
+      "balance_loss_clip": 1.04290295,
+      "balance_loss_mlp": 1.02284491,
+      "epoch": 0.709793783442554,
+      "flos": 23621500661760.0,
+      "grad_norm": 2.0061702850862373,
+      "language_loss": 0.79844689,
+      "learning_rate": 8.201482546387288e-07,
+      "loss": 0.82088757,
+      "num_input_tokens_seen": 126899535,
+      "step": 5903,
+      "time_per_iteration": 2.744624376296997
+    },
+    {
+      "auxiliary_loss_clip": 0.01179473,
+      "auxiliary_loss_mlp": 0.01026602,
+      "balance_loss_clip": 1.04809332,
+      "balance_loss_mlp": 1.01904464,
+      "epoch": 0.709914026333193,
+      "flos": 25993472204160.0,
+      "grad_norm": 1.6150394089073656,
+      "language_loss": 0.91817474,
+      "learning_rate": 8.195193577191553e-07,
+      "loss": 0.9402355,
+      "num_input_tokens_seen": 126921365,
+      "step": 5904,
+      "time_per_iteration": 2.660336971282959
+    },
+    {
+      "auxiliary_loss_clip": 0.01194836,
+      "auxiliary_loss_mlp": 0.01378782,
+      "balance_loss_clip": 1.04433012,
+      "balance_loss_mlp": 1.00012267,
+      "epoch": 0.7100342692238322,
+      "flos": 24861531934080.0,
+      "grad_norm": 1.8719998949460042,
+      "language_loss": 0.84654248,
+      "learning_rate": 8.188906398775579e-07,
+      "loss": 0.87227869,
+      "num_input_tokens_seen": 126941910,
+      "step": 5905,
+      "time_per_iteration": 2.8635647296905518
+    },
+    {
+      "auxiliary_loss_clip": 0.01172128,
+      "auxiliary_loss_mlp": 0.01378826,
+      "balance_loss_clip": 1.04806638,
+      "balance_loss_mlp": 1.0001893,
+      "epoch": 0.7101545121144712,
+      "flos": 24932203943040.0,
+      "grad_norm": 1.8160368374505782,
+      "language_loss": 0.68769854,
+      "learning_rate": 8.18262101209311e-07,
+      "loss": 0.71320808,
+      "num_input_tokens_seen": 126961120,
+      "step": 5906,
+      "time_per_iteration": 2.551218032836914
+    },
+    {
+      "auxiliary_loss_clip": 0.01182947,
+      "auxiliary_loss_mlp": 0.01023714,
+      "balance_loss_clip": 1.04703283,
+      "balance_loss_mlp": 1.01637077,
+      "epoch": 0.7102747550051103,
+      "flos": 23768842250880.0,
+      "grad_norm": 1.8307180137298773,
+      "language_loss": 0.69901025,
+      "learning_rate": 8.176337418097626e-07,
+      "loss": 0.72107685,
+      "num_input_tokens_seen": 126981590,
+      "step": 5907,
+      "time_per_iteration": 3.449807643890381
+    },
+    {
+      "auxiliary_loss_clip": 0.01178336,
+      "auxiliary_loss_mlp": 0.01378629,
+      "balance_loss_clip": 1.04830861,
+      "balance_loss_mlp": 1.00017452,
+      "epoch": 0.7103949978957494,
+      "flos": 15303907509120.0,
+      "grad_norm": 2.1892572608976564,
+      "language_loss": 0.79750264,
+      "learning_rate": 8.170055617742364e-07,
+      "loss": 0.82307231,
+      "num_input_tokens_seen": 126998870,
+      "step": 5908,
+      "time_per_iteration": 2.574227809906006
+    },
+    {
+      "auxiliary_loss_clip": 0.01181211,
+      "auxiliary_loss_mlp": 0.01027685,
+      "balance_loss_clip": 1.04404569,
+      "balance_loss_mlp": 1.02049696,
+      "epoch": 0.7105152407863885,
+      "flos": 22638805401600.0,
+      "grad_norm": 1.9313657321534756,
+      "language_loss": 0.70621181,
+      "learning_rate": 8.163775611980252e-07,
+      "loss": 0.72830081,
+      "num_input_tokens_seen": 127017980,
+      "step": 5909,
+      "time_per_iteration": 3.5074291229248047
+    },
+    {
+      "auxiliary_loss_clip": 0.01188776,
+      "auxiliary_loss_mlp": 0.01023643,
+      "balance_loss_clip": 1.04711843,
+      "balance_loss_mlp": 1.01594174,
+      "epoch": 0.7106354836770276,
+      "flos": 17238594879360.0,
+      "grad_norm": 1.736730784045532,
+      "language_loss": 0.78882813,
+      "learning_rate": 8.157497401763982e-07,
+      "loss": 0.81095231,
+      "num_input_tokens_seen": 127035645,
+      "step": 5910,
+      "time_per_iteration": 2.677865982055664
+    },
+    {
+      "auxiliary_loss_clip": 0.01178082,
+      "auxiliary_loss_mlp": 0.01027851,
+      "balance_loss_clip": 1.04619241,
+      "balance_loss_mlp": 1.02062654,
+      "epoch": 0.7107557265676667,
+      "flos": 20193647898240.0,
+      "grad_norm": 2.2738935911173974,
+      "language_loss": 0.77726585,
+      "learning_rate": 8.151220988045935e-07,
+      "loss": 0.79932511,
+      "num_input_tokens_seen": 127054900,
+      "step": 5911,
+      "time_per_iteration": 2.557213306427002
+    },
+    {
+      "auxiliary_loss_clip": 0.01178973,
+      "auxiliary_loss_mlp": 0.01024166,
+      "balance_loss_clip": 1.04618061,
+      "balance_loss_mlp": 1.01727581,
+      "epoch": 0.7108759694583058,
+      "flos": 21507080613120.0,
+      "grad_norm": 1.8051333207286127,
+      "language_loss": 0.82897449,
+      "learning_rate": 8.144946371778234e-07,
+      "loss": 0.85100591,
+      "num_input_tokens_seen": 127075010,
+      "step": 5912,
+      "time_per_iteration": 3.5332095623016357
+    },
+    {
+      "auxiliary_loss_clip": 0.01188187,
+      "auxiliary_loss_mlp": 0.01379066,
+      "balance_loss_clip": 1.04668355,
+      "balance_loss_mlp": 1.00017977,
+      "epoch": 0.7109962123489448,
+      "flos": 24061909317120.0,
+      "grad_norm": 1.9849744032681633,
+      "language_loss": 0.78009272,
+      "learning_rate": 8.138673553912751e-07,
+      "loss": 0.80576521,
+      "num_input_tokens_seen": 127095570,
+      "step": 5913,
+      "time_per_iteration": 2.6395058631896973
+    },
+    {
+      "auxiliary_loss_clip": 0.0120224,
+      "auxiliary_loss_mlp": 0.0103011,
+      "balance_loss_clip": 1.04139757,
+      "balance_loss_mlp": 1.02277303,
+      "epoch": 0.711116455239584,
+      "flos": 30480474326400.0,
+      "grad_norm": 2.243959337102154,
+      "language_loss": 0.56463146,
+      "learning_rate": 8.132402535401059e-07,
+      "loss": 0.58695495,
+      "num_input_tokens_seen": 127116825,
+      "step": 5914,
+      "time_per_iteration": 2.7578296661376953
+    },
+    {
+      "auxiliary_loss_clip": 0.01175589,
+      "auxiliary_loss_mlp": 0.01021973,
+      "balance_loss_clip": 1.04665947,
+      "balance_loss_mlp": 1.01459992,
+      "epoch": 0.711236698130223,
+      "flos": 25045610158080.0,
+      "grad_norm": 1.832160597242845,
+      "language_loss": 0.74149686,
+      "learning_rate": 8.126133317194465e-07,
+      "loss": 0.7634725,
+      "num_input_tokens_seen": 127137015,
+      "step": 5915,
+      "time_per_iteration": 3.7418015003204346
+    },
+    {
+      "auxiliary_loss_clip": 0.01219267,
+      "auxiliary_loss_mlp": 0.01025766,
+      "balance_loss_clip": 1.03834927,
+      "balance_loss_mlp": 1.01762962,
+      "epoch": 0.7113569410208621,
+      "flos": 24206701040640.0,
+      "grad_norm": 2.7715199461541444,
+      "language_loss": 0.7412433,
+      "learning_rate": 8.11986590024401e-07,
+      "loss": 0.76369357,
+      "num_input_tokens_seen": 127156755,
+      "step": 5916,
+      "time_per_iteration": 2.726177453994751
+    },
+    {
+      "auxiliary_loss_clip": 0.01190203,
+      "auxiliary_loss_mlp": 0.01022669,
+      "balance_loss_clip": 1.04606414,
+      "balance_loss_mlp": 1.01523066,
+      "epoch": 0.7114771839115013,
+      "flos": 35439306526080.0,
+      "grad_norm": 1.5791612829683415,
+      "language_loss": 0.69055635,
+      "learning_rate": 8.113600285500442e-07,
+      "loss": 0.71268505,
+      "num_input_tokens_seen": 127176965,
+      "step": 5917,
+      "time_per_iteration": 2.7654428482055664
+    },
+    {
+      "auxiliary_loss_clip": 0.01170181,
+      "auxiliary_loss_mlp": 0.01022617,
+      "balance_loss_clip": 1.04728532,
+      "balance_loss_mlp": 1.01491916,
+      "epoch": 0.7115974268021403,
+      "flos": 21099458096640.0,
+      "grad_norm": 1.741992304994068,
+      "language_loss": 0.73896837,
+      "learning_rate": 8.107336473914268e-07,
+      "loss": 0.76089638,
+      "num_input_tokens_seen": 127195595,
+      "step": 5918,
+      "time_per_iteration": 2.5435173511505127
+    },
+    {
+      "auxiliary_loss_clip": 0.01087877,
+      "auxiliary_loss_mlp": 0.01003655,
+      "balance_loss_clip": 1.01247048,
+      "balance_loss_mlp": 1.00243878,
+      "epoch": 0.7117176696927794,
+      "flos": 56752866616320.0,
+      "grad_norm": 0.76850573751256,
+      "language_loss": 0.55702877,
+      "learning_rate": 8.101074466435694e-07,
+      "loss": 0.57794404,
+      "num_input_tokens_seen": 127255070,
+      "step": 5919,
+      "time_per_iteration": 3.1409120559692383
+    },
+    {
+      "auxiliary_loss_clip": 0.01170998,
+      "auxiliary_loss_mlp": 0.01030778,
+      "balance_loss_clip": 1.04476047,
+      "balance_loss_mlp": 1.02334261,
+      "epoch": 0.7118379125834186,
+      "flos": 15925269905280.0,
+      "grad_norm": 1.6264014265452067,
+      "language_loss": 0.68040812,
+      "learning_rate": 8.094814264014662e-07,
+      "loss": 0.7024259,
+      "num_input_tokens_seen": 127273825,
+      "step": 5920,
+      "time_per_iteration": 2.567075490951538
+    },
+    {
+      "auxiliary_loss_clip": 0.01172823,
+      "auxiliary_loss_mlp": 0.01027426,
+      "balance_loss_clip": 1.0479517,
+      "balance_loss_mlp": 1.01947451,
+      "epoch": 0.7119581554740576,
+      "flos": 20193360589440.0,
+      "grad_norm": 2.0591307086977686,
+      "language_loss": 0.81264478,
+      "learning_rate": 8.088555867600844e-07,
+      "loss": 0.8346473,
+      "num_input_tokens_seen": 127289990,
+      "step": 5921,
+      "time_per_iteration": 2.560896873474121
+    },
+    {
+      "auxiliary_loss_clip": 0.01191023,
+      "auxiliary_loss_mlp": 0.01028297,
+      "balance_loss_clip": 1.04152393,
+      "balance_loss_mlp": 1.02118874,
+      "epoch": 0.7120783983646967,
+      "flos": 34715383822080.0,
+      "grad_norm": 2.053038960156224,
+      "language_loss": 0.60759437,
+      "learning_rate": 8.08229927814362e-07,
+      "loss": 0.6297875,
+      "num_input_tokens_seen": 127312880,
+      "step": 5922,
+      "time_per_iteration": 2.8134946823120117
+    },
+    {
+      "auxiliary_loss_clip": 0.01195045,
+      "auxiliary_loss_mlp": 0.0102642,
+      "balance_loss_clip": 1.04310369,
+      "balance_loss_mlp": 1.01891303,
+      "epoch": 0.7121986412553358,
+      "flos": 26359114700160.0,
+      "grad_norm": 1.6855208551517313,
+      "language_loss": 0.6485185,
+      "learning_rate": 8.076044496592134e-07,
+      "loss": 0.67073315,
+      "num_input_tokens_seen": 127334730,
+      "step": 5923,
+      "time_per_iteration": 2.721517324447632
+    },
+    {
+      "auxiliary_loss_clip": 0.01186403,
+      "auxiliary_loss_mlp": 0.01026305,
+      "balance_loss_clip": 1.04568934,
+      "balance_loss_mlp": 1.01845515,
+      "epoch": 0.7123188841459749,
+      "flos": 11145344371200.0,
+      "grad_norm": 2.6685457834874104,
+      "language_loss": 0.78170872,
+      "learning_rate": 8.069791523895204e-07,
+      "loss": 0.80383581,
+      "num_input_tokens_seen": 127351180,
+      "step": 5924,
+      "time_per_iteration": 2.645853042602539
+    },
+    {
+      "auxiliary_loss_clip": 0.01182538,
+      "auxiliary_loss_mlp": 0.01023953,
+      "balance_loss_clip": 1.04054964,
+      "balance_loss_mlp": 1.01609683,
+      "epoch": 0.7124391270366139,
+      "flos": 20811670329600.0,
+      "grad_norm": 2.096155345349674,
+      "language_loss": 0.77491212,
+      "learning_rate": 8.063540361001422e-07,
+      "loss": 0.79697704,
+      "num_input_tokens_seen": 127369750,
+      "step": 5925,
+      "time_per_iteration": 2.6571848392486572
+    },
+    {
+      "auxiliary_loss_clip": 0.01188772,
+      "auxiliary_loss_mlp": 0.01029863,
+      "balance_loss_clip": 1.04297543,
+      "balance_loss_mlp": 1.02230477,
+      "epoch": 0.7125593699272531,
+      "flos": 17603734584960.0,
+      "grad_norm": 2.464008523875618,
+      "language_loss": 0.7984584,
+      "learning_rate": 8.057291008859069e-07,
+      "loss": 0.82064474,
+      "num_input_tokens_seen": 127387910,
+      "step": 5926,
+      "time_per_iteration": 2.749760866165161
+    },
+    {
+      "auxiliary_loss_clip": 0.01172239,
+      "auxiliary_loss_mlp": 0.01020985,
+      "balance_loss_clip": 1.04340887,
+      "balance_loss_mlp": 1.01384401,
+      "epoch": 0.7126796128178922,
+      "flos": 28654057526400.0,
+      "grad_norm": 2.5044473741352453,
+      "language_loss": 0.68360949,
+      "learning_rate": 8.051043468416187e-07,
+      "loss": 0.70554179,
+      "num_input_tokens_seen": 127409160,
+      "step": 5927,
+      "time_per_iteration": 2.7715225219726562
+    },
+    {
+      "auxiliary_loss_clip": 0.01168303,
+      "auxiliary_loss_mlp": 0.01024159,
+      "balance_loss_clip": 1.04856515,
+      "balance_loss_mlp": 1.01723611,
+      "epoch": 0.7127998557085312,
+      "flos": 16034438315520.0,
+      "grad_norm": 2.0093075025832445,
+      "language_loss": 0.8222568,
+      "learning_rate": 8.044797740620506e-07,
+      "loss": 0.84418142,
+      "num_input_tokens_seen": 127427765,
+      "step": 5928,
+      "time_per_iteration": 2.63439679145813
+    },
+    {
+      "auxiliary_loss_clip": 0.0120071,
+      "auxiliary_loss_mlp": 0.01026214,
+      "balance_loss_clip": 1.04417276,
+      "balance_loss_mlp": 1.01898074,
+      "epoch": 0.7129200985991703,
+      "flos": 23403271582080.0,
+      "grad_norm": 2.956054021360803,
+      "language_loss": 0.78540373,
+      "learning_rate": 8.038553826419494e-07,
+      "loss": 0.80767304,
+      "num_input_tokens_seen": 127446475,
+      "step": 5929,
+      "time_per_iteration": 2.77992582321167
+    },
+    {
+      "auxiliary_loss_clip": 0.01166051,
+      "auxiliary_loss_mlp": 0.01024452,
+      "balance_loss_clip": 1.04405391,
+      "balance_loss_mlp": 1.01716805,
+      "epoch": 0.7130403414898094,
+      "flos": 21397445326080.0,
+      "grad_norm": 2.049225809014158,
+      "language_loss": 0.81073594,
+      "learning_rate": 8.032311726760364e-07,
+      "loss": 0.83264089,
+      "num_input_tokens_seen": 127467695,
+      "step": 5930,
+      "time_per_iteration": 2.636725664138794
+    },
+    {
+      "auxiliary_loss_clip": 0.01184297,
+      "auxiliary_loss_mlp": 0.01024508,
+      "balance_loss_clip": 1.04232335,
+      "balance_loss_mlp": 1.01611018,
+      "epoch": 0.7131605843804485,
+      "flos": 74739045306240.0,
+      "grad_norm": 1.8132469563925044,
+      "language_loss": 0.69133127,
+      "learning_rate": 8.026071442590022e-07,
+      "loss": 0.71341932,
+      "num_input_tokens_seen": 127494590,
+      "step": 5931,
+      "time_per_iteration": 3.108529567718506
+    },
+    {
+      "auxiliary_loss_clip": 0.01178855,
+      "auxiliary_loss_mlp": 0.01021878,
+      "balance_loss_clip": 1.0492115,
+      "balance_loss_mlp": 1.0149405,
+      "epoch": 0.7132808272710875,
+      "flos": 18368739469440.0,
+      "grad_norm": 2.572028346445952,
+      "language_loss": 0.80864644,
+      "learning_rate": 8.019832974855134e-07,
+      "loss": 0.83065379,
+      "num_input_tokens_seen": 127512550,
+      "step": 5932,
+      "time_per_iteration": 2.6153745651245117
+    },
+    {
+      "auxiliary_loss_clip": 0.01193838,
+      "auxiliary_loss_mlp": 0.01028615,
+      "balance_loss_clip": 1.04466403,
+      "balance_loss_mlp": 1.02094984,
+      "epoch": 0.7134010701617267,
+      "flos": 23253380127360.0,
+      "grad_norm": 2.3638513449776855,
+      "language_loss": 0.82453942,
+      "learning_rate": 8.013596324502052e-07,
+      "loss": 0.84676397,
+      "num_input_tokens_seen": 127531015,
+      "step": 5933,
+      "time_per_iteration": 3.6909611225128174
+    },
+    {
+      "auxiliary_loss_clip": 0.01172352,
+      "auxiliary_loss_mlp": 0.01028769,
+      "balance_loss_clip": 1.04739571,
+      "balance_loss_mlp": 1.0218097,
+      "epoch": 0.7135213130523658,
+      "flos": 23653137565440.0,
+      "grad_norm": 1.8773648755317331,
+      "language_loss": 0.78572744,
+      "learning_rate": 8.007361492476872e-07,
+      "loss": 0.80773866,
+      "num_input_tokens_seen": 127550340,
+      "step": 5934,
+      "time_per_iteration": 2.5950865745544434
+    },
+    {
+      "auxiliary_loss_clip": 0.01202827,
+      "auxiliary_loss_mlp": 0.01025714,
+      "balance_loss_clip": 1.04204535,
+      "balance_loss_mlp": 1.01834941,
+      "epoch": 0.7136415559430048,
+      "flos": 24790644443520.0,
+      "grad_norm": 2.211018291445426,
+      "language_loss": 0.78966773,
+      "learning_rate": 8.001128479725426e-07,
+      "loss": 0.81195307,
+      "num_input_tokens_seen": 127572245,
+      "step": 5935,
+      "time_per_iteration": 3.704190254211426
+    },
+    {
+      "auxiliary_loss_clip": 0.01192913,
+      "auxiliary_loss_mlp": 0.01030906,
+      "balance_loss_clip": 1.03748941,
+      "balance_loss_mlp": 1.02347338,
+      "epoch": 0.713761798833644,
+      "flos": 18296954138880.0,
+      "grad_norm": 1.6259491951578886,
+      "language_loss": 0.80762112,
+      "learning_rate": 7.994897287193248e-07,
+      "loss": 0.82985938,
+      "num_input_tokens_seen": 127591625,
+      "step": 5936,
+      "time_per_iteration": 2.7198610305786133
+    },
+    {
+      "auxiliary_loss_clip": 0.01183426,
+      "auxiliary_loss_mlp": 0.01024543,
+      "balance_loss_clip": 1.04717386,
+      "balance_loss_mlp": 1.0169729,
+      "epoch": 0.713882041724283,
+      "flos": 15558262692480.0,
+      "grad_norm": 2.9752581638890825,
+      "language_loss": 0.84011739,
+      "learning_rate": 7.988667915825605e-07,
+      "loss": 0.86219704,
+      "num_input_tokens_seen": 127608690,
+      "step": 5937,
+      "time_per_iteration": 2.634960412979126
+    },
+    {
+      "auxiliary_loss_clip": 0.01186583,
+      "auxiliary_loss_mlp": 0.01023723,
+      "balance_loss_clip": 1.04571927,
+      "balance_loss_mlp": 1.01618314,
+      "epoch": 0.7140022846149221,
+      "flos": 24061011477120.0,
+      "grad_norm": 2.4001141962418244,
+      "language_loss": 0.75826508,
+      "learning_rate": 7.982440366567491e-07,
+      "loss": 0.78036809,
+      "num_input_tokens_seen": 127627180,
+      "step": 5938,
+      "time_per_iteration": 3.6344637870788574
+    },
+    {
+      "auxiliary_loss_clip": 0.01169454,
+      "auxiliary_loss_mlp": 0.01024982,
+      "balance_loss_clip": 1.04278314,
+      "balance_loss_mlp": 1.0181278,
+      "epoch": 0.7141225275055613,
+      "flos": 27891710248320.0,
+      "grad_norm": 1.664141813863324,
+      "language_loss": 0.752828,
+      "learning_rate": 7.97621464036361e-07,
+      "loss": 0.77477241,
+      "num_input_tokens_seen": 127648940,
+      "step": 5939,
+      "time_per_iteration": 2.6147353649139404
+    },
+    {
+      "auxiliary_loss_clip": 0.01181103,
+      "auxiliary_loss_mlp": 0.01021541,
+      "balance_loss_clip": 1.04629004,
+      "balance_loss_mlp": 1.0135777,
+      "epoch": 0.7142427703962003,
+      "flos": 19682603147520.0,
+      "grad_norm": 1.62466467468335,
+      "language_loss": 0.67928094,
+      "learning_rate": 7.969990738158417e-07,
+      "loss": 0.70130742,
+      "num_input_tokens_seen": 127667350,
+      "step": 5940,
+      "time_per_iteration": 3.6169745922088623
+    },
+    {
+      "auxiliary_loss_clip": 0.01182263,
+      "auxiliary_loss_mlp": 0.01023448,
+      "balance_loss_clip": 1.04871154,
+      "balance_loss_mlp": 1.01522803,
+      "epoch": 0.7143630132868394,
+      "flos": 21032377447680.0,
+      "grad_norm": 2.024404646765013,
+      "language_loss": 0.84916985,
+      "learning_rate": 7.963768660896062e-07,
+      "loss": 0.87122697,
+      "num_input_tokens_seen": 127685760,
+      "step": 5941,
+      "time_per_iteration": 2.5901713371276855
+    },
+    {
+      "auxiliary_loss_clip": 0.01181985,
+      "auxiliary_loss_mlp": 0.01025589,
+      "balance_loss_clip": 1.04709148,
+      "balance_loss_mlp": 1.01779866,
+      "epoch": 0.7144832561774785,
+      "flos": 24129923719680.0,
+      "grad_norm": 2.174402215925629,
+      "language_loss": 0.82377219,
+      "learning_rate": 7.957548409520432e-07,
+      "loss": 0.84584796,
+      "num_input_tokens_seen": 127704985,
+      "step": 5942,
+      "time_per_iteration": 2.6196937561035156
+    },
+    {
+      "auxiliary_loss_clip": 0.01195197,
+      "auxiliary_loss_mlp": 0.01028256,
+      "balance_loss_clip": 1.0419569,
+      "balance_loss_mlp": 1.02070999,
+      "epoch": 0.7146034990681176,
+      "flos": 16325817442560.0,
+      "grad_norm": 2.145544160975461,
+      "language_loss": 0.84114015,
+      "learning_rate": 7.951329984975135e-07,
+      "loss": 0.86337471,
+      "num_input_tokens_seen": 127721925,
+      "step": 5943,
+      "time_per_iteration": 2.7009644508361816
+    },
+    {
+      "auxiliary_loss_clip": 0.0110659,
+      "auxiliary_loss_mlp": 0.01002979,
+      "balance_loss_clip": 1.01227665,
+      "balance_loss_mlp": 1.00177479,
+      "epoch": 0.7147237419587567,
+      "flos": 69627164232960.0,
+      "grad_norm": 0.7208581616827764,
+      "language_loss": 0.54293358,
+      "learning_rate": 7.94511338820349e-07,
+      "loss": 0.56402934,
+      "num_input_tokens_seen": 127784230,
+      "step": 5944,
+      "time_per_iteration": 3.2408323287963867
+    },
+    {
+      "auxiliary_loss_clip": 0.01187926,
+      "auxiliary_loss_mlp": 0.01379225,
+      "balance_loss_clip": 1.04493403,
+      "balance_loss_mlp": 1.00014853,
+      "epoch": 0.7148439848493958,
+      "flos": 22266806198400.0,
+      "grad_norm": 2.181208984774594,
+      "language_loss": 0.78338242,
+      "learning_rate": 7.938898620148575e-07,
+      "loss": 0.80905396,
+      "num_input_tokens_seen": 127801990,
+      "step": 5945,
+      "time_per_iteration": 2.658159017562866
+    },
+    {
+      "auxiliary_loss_clip": 0.0118689,
+      "auxiliary_loss_mlp": 0.0102542,
+      "balance_loss_clip": 1.04594612,
+      "balance_loss_mlp": 1.01770687,
+      "epoch": 0.7149642277400349,
+      "flos": 17931383470080.0,
+      "grad_norm": 1.9061228211570795,
+      "language_loss": 0.70815098,
+      "learning_rate": 7.932685681753135e-07,
+      "loss": 0.73027402,
+      "num_input_tokens_seen": 127819270,
+      "step": 5946,
+      "time_per_iteration": 2.60591721534729
+    },
+    {
+      "auxiliary_loss_clip": 0.01167013,
+      "auxiliary_loss_mlp": 0.01022144,
+      "balance_loss_clip": 1.04749739,
+      "balance_loss_mlp": 1.01519418,
+      "epoch": 0.7150844706306739,
+      "flos": 31681937370240.0,
+      "grad_norm": 2.055086707287311,
+      "language_loss": 0.62587118,
+      "learning_rate": 7.92647457395969e-07,
+      "loss": 0.64776278,
+      "num_input_tokens_seen": 127841095,
+      "step": 5947,
+      "time_per_iteration": 2.6348166465759277
+    },
+    {
+      "auxiliary_loss_clip": 0.0121606,
+      "auxiliary_loss_mlp": 0.0103156,
+      "balance_loss_clip": 1.03743839,
+      "balance_loss_mlp": 1.02322173,
+      "epoch": 0.7152047135213131,
+      "flos": 10926217451520.0,
+      "grad_norm": 1.9400838351443177,
+      "language_loss": 0.7390126,
+      "learning_rate": 7.920265297710444e-07,
+      "loss": 0.76148874,
+      "num_input_tokens_seen": 127858485,
+      "step": 5948,
+      "time_per_iteration": 2.75508975982666
+    },
+    {
+      "auxiliary_loss_clip": 0.01180851,
+      "auxiliary_loss_mlp": 0.01025357,
+      "balance_loss_clip": 1.04735208,
+      "balance_loss_mlp": 1.01833892,
+      "epoch": 0.7153249564119522,
+      "flos": 20995640812800.0,
+      "grad_norm": 1.8839040054252292,
+      "language_loss": 0.7325986,
+      "learning_rate": 7.914057853947363e-07,
+      "loss": 0.75466073,
+      "num_input_tokens_seen": 127877665,
+      "step": 5949,
+      "time_per_iteration": 2.6317453384399414
+    },
+    {
+      "auxiliary_loss_clip": 0.01192068,
+      "auxiliary_loss_mlp": 0.0102303,
+      "balance_loss_clip": 1.04280508,
+      "balance_loss_mlp": 1.01511765,
+      "epoch": 0.7154451993025912,
+      "flos": 24243114453120.0,
+      "grad_norm": 1.8385221323602994,
+      "language_loss": 0.62601715,
+      "learning_rate": 7.907852243612089e-07,
+      "loss": 0.64816809,
+      "num_input_tokens_seen": 127898070,
+      "step": 5950,
+      "time_per_iteration": 2.7212533950805664
+    },
+    {
+      "auxiliary_loss_clip": 0.01184078,
+      "auxiliary_loss_mlp": 0.01027274,
+      "balance_loss_clip": 1.04357708,
+      "balance_loss_mlp": 1.0202738,
+      "epoch": 0.7155654421932304,
+      "flos": 23330947547520.0,
+      "grad_norm": 2.182176091444964,
+      "language_loss": 0.72421587,
+      "learning_rate": 7.901648467646009e-07,
+      "loss": 0.74632943,
+      "num_input_tokens_seen": 127917010,
+      "step": 5951,
+      "time_per_iteration": 2.636441946029663
+    },
+    {
+      "auxiliary_loss_clip": 0.01172626,
+      "auxiliary_loss_mlp": 0.01019645,
+      "balance_loss_clip": 1.04954541,
+      "balance_loss_mlp": 1.01231933,
+      "epoch": 0.7156856850838694,
+      "flos": 22711883621760.0,
+      "grad_norm": 1.8155841599044822,
+      "language_loss": 0.72594672,
+      "learning_rate": 7.895446526990244e-07,
+      "loss": 0.74786937,
+      "num_input_tokens_seen": 127937025,
+      "step": 5952,
+      "time_per_iteration": 2.5812973976135254
+    },
+    {
+      "auxiliary_loss_clip": 0.01214461,
+      "auxiliary_loss_mlp": 0.01025673,
+      "balance_loss_clip": 1.0431273,
+      "balance_loss_mlp": 1.01827002,
+      "epoch": 0.7158059279745085,
+      "flos": 19865424395520.0,
+      "grad_norm": 1.5623336050207208,
+      "language_loss": 0.75380677,
+      "learning_rate": 7.889246422585609e-07,
+      "loss": 0.77620816,
+      "num_input_tokens_seen": 127956410,
+      "step": 5953,
+      "time_per_iteration": 2.662458658218384
+    },
+    {
+      "auxiliary_loss_clip": 0.01169015,
+      "auxiliary_loss_mlp": 0.01027426,
+      "balance_loss_clip": 1.0476265,
+      "balance_loss_mlp": 1.02014518,
+      "epoch": 0.7159261708651476,
+      "flos": 24134772055680.0,
+      "grad_norm": 1.63694968014957,
+      "language_loss": 0.73343372,
+      "learning_rate": 7.883048155372675e-07,
+      "loss": 0.75539815,
+      "num_input_tokens_seen": 127974925,
+      "step": 5954,
+      "time_per_iteration": 2.5926291942596436
+    },
+    {
+      "auxiliary_loss_clip": 0.0119255,
+      "auxiliary_loss_mlp": 0.01023572,
+      "balance_loss_clip": 1.04661179,
+      "balance_loss_mlp": 1.01597857,
+      "epoch": 0.7160464137557867,
+      "flos": 16983198201600.0,
+      "grad_norm": 2.338800790615999,
+      "language_loss": 0.7175557,
+      "learning_rate": 7.876851726291698e-07,
+      "loss": 0.73971689,
+      "num_input_tokens_seen": 127993225,
+      "step": 5955,
+      "time_per_iteration": 2.5764846801757812
+    },
+    {
+      "auxiliary_loss_clip": 0.01196554,
+      "auxiliary_loss_mlp": 0.01026066,
+      "balance_loss_clip": 1.04130936,
+      "balance_loss_mlp": 1.01912236,
+      "epoch": 0.7161666566464258,
+      "flos": 25228251838080.0,
+      "grad_norm": 1.8133585216422399,
+      "language_loss": 0.78486037,
+      "learning_rate": 7.870657136282666e-07,
+      "loss": 0.80708659,
+      "num_input_tokens_seen": 128012085,
+      "step": 5956,
+      "time_per_iteration": 2.691943645477295
+    },
+    {
+      "auxiliary_loss_clip": 0.01170275,
+      "auxiliary_loss_mlp": 0.01024267,
+      "balance_loss_clip": 1.04384303,
+      "balance_loss_mlp": 1.01726294,
+      "epoch": 0.7162868995370649,
+      "flos": 26468390851200.0,
+      "grad_norm": 1.5078730936497202,
+      "language_loss": 0.82058072,
+      "learning_rate": 7.86446438628531e-07,
+      "loss": 0.84252608,
+      "num_input_tokens_seen": 128033155,
+      "step": 5957,
+      "time_per_iteration": 2.6241157054901123
+    },
+    {
+      "auxiliary_loss_clip": 0.01064869,
+      "auxiliary_loss_mlp": 0.01000596,
+      "balance_loss_clip": 1.01175928,
+      "balance_loss_mlp": 0.99935609,
+      "epoch": 0.716407142427704,
+      "flos": 69998912040960.0,
+      "grad_norm": 0.7678269287062676,
+      "language_loss": 0.56880343,
+      "learning_rate": 7.858273477239059e-07,
+      "loss": 0.58945805,
+      "num_input_tokens_seen": 128101575,
+      "step": 5958,
+      "time_per_iteration": 3.229729652404785
+    },
+    {
+      "auxiliary_loss_clip": 0.01187928,
+      "auxiliary_loss_mlp": 0.0102669,
+      "balance_loss_clip": 1.0404408,
+      "balance_loss_mlp": 1.01904845,
+      "epoch": 0.716527385318343,
+      "flos": 20740459616640.0,
+      "grad_norm": 1.65743557672041,
+      "language_loss": 0.71674287,
+      "learning_rate": 7.852084410083067e-07,
+      "loss": 0.73888904,
+      "num_input_tokens_seen": 128120395,
+      "step": 5959,
+      "time_per_iteration": 3.5787391662597656
+    },
+    {
+      "auxiliary_loss_clip": 0.01182024,
+      "auxiliary_loss_mlp": 0.01028742,
+      "balance_loss_clip": 1.04496503,
+      "balance_loss_mlp": 1.02152395,
+      "epoch": 0.7166476282089821,
+      "flos": 25371966153600.0,
+      "grad_norm": 1.5353768983992948,
+      "language_loss": 0.63804448,
+      "learning_rate": 7.84589718575621e-07,
+      "loss": 0.66015208,
+      "num_input_tokens_seen": 128140840,
+      "step": 5960,
+      "time_per_iteration": 2.6715800762176514
+    },
+    {
+      "auxiliary_loss_clip": 0.01184253,
+      "auxiliary_loss_mlp": 0.01020143,
+      "balance_loss_clip": 1.04004049,
+      "balance_loss_mlp": 1.01243043,
+      "epoch": 0.7167678710996213,
+      "flos": 24133730561280.0,
+      "grad_norm": 2.0902386611187165,
+      "language_loss": 0.69262159,
+      "learning_rate": 7.83971180519708e-07,
+      "loss": 0.71466553,
+      "num_input_tokens_seen": 128159695,
+      "step": 5961,
+      "time_per_iteration": 3.9413232803344727
+    },
+    {
+      "auxiliary_loss_clip": 0.01172787,
+      "auxiliary_loss_mlp": 0.01028646,
+      "balance_loss_clip": 1.04928541,
+      "balance_loss_mlp": 1.02081418,
+      "epoch": 0.7168881139902603,
+      "flos": 30226586019840.0,
+      "grad_norm": 2.073073528522134,
+      "language_loss": 0.75554937,
+      "learning_rate": 7.833528269344008e-07,
+      "loss": 0.77756369,
+      "num_input_tokens_seen": 128179600,
+      "step": 5962,
+      "time_per_iteration": 2.727482318878174
+    },
+    {
+      "auxiliary_loss_clip": 0.01195041,
+      "auxiliary_loss_mlp": 0.01027863,
+      "balance_loss_clip": 1.04548931,
+      "balance_loss_mlp": 1.01959634,
+      "epoch": 0.7170083568808994,
+      "flos": 14606414236800.0,
+      "grad_norm": 2.2553912177426336,
+      "language_loss": 0.77480924,
+      "learning_rate": 7.827346579135023e-07,
+      "loss": 0.79703832,
+      "num_input_tokens_seen": 128196940,
+      "step": 5963,
+      "time_per_iteration": 2.7096307277679443
+    },
+    {
+      "auxiliary_loss_clip": 0.01184032,
+      "auxiliary_loss_mlp": 0.0102841,
+      "balance_loss_clip": 1.04465699,
+      "balance_loss_mlp": 1.02064621,
+      "epoch": 0.7171285997715385,
+      "flos": 23331091201920.0,
+      "grad_norm": 1.9036655772435176,
+      "language_loss": 0.83200771,
+      "learning_rate": 7.821166735507885e-07,
+      "loss": 0.85413212,
+      "num_input_tokens_seen": 128215970,
+      "step": 5964,
+      "time_per_iteration": 3.668306350708008
+    },
+    {
+      "auxiliary_loss_clip": 0.01165035,
+      "auxiliary_loss_mlp": 0.01023154,
+      "balance_loss_clip": 1.04579926,
+      "balance_loss_mlp": 1.01601291,
+      "epoch": 0.7172488426621776,
+      "flos": 16543543731840.0,
+      "grad_norm": 1.7794397897608745,
+      "language_loss": 0.68635404,
+      "learning_rate": 7.81498873940007e-07,
+      "loss": 0.70823598,
+      "num_input_tokens_seen": 128233185,
+      "step": 5965,
+      "time_per_iteration": 2.511361837387085
+    },
+    {
+      "auxiliary_loss_clip": 0.01182181,
+      "auxiliary_loss_mlp": 0.01022792,
+      "balance_loss_clip": 1.04434395,
+      "balance_loss_mlp": 1.01456702,
+      "epoch": 0.7173690855528166,
+      "flos": 26541612725760.0,
+      "grad_norm": 2.360642034817984,
+      "language_loss": 0.77167237,
+      "learning_rate": 7.808812591748768e-07,
+      "loss": 0.79372215,
+      "num_input_tokens_seen": 128253565,
+      "step": 5966,
+      "time_per_iteration": 3.6157872676849365
+    },
+    {
+      "auxiliary_loss_clip": 0.01191806,
+      "auxiliary_loss_mlp": 0.01024902,
+      "balance_loss_clip": 1.04347372,
+      "balance_loss_mlp": 1.01678371,
+      "epoch": 0.7174893284434558,
+      "flos": 22784099915520.0,
+      "grad_norm": 1.9048135815021376,
+      "language_loss": 0.6455214,
+      "learning_rate": 7.802638293490915e-07,
+      "loss": 0.66768849,
+      "num_input_tokens_seen": 128273210,
+      "step": 5967,
+      "time_per_iteration": 2.674233913421631
+    },
+    {
+      "auxiliary_loss_clip": 0.01191123,
+      "auxiliary_loss_mlp": 0.01021492,
+      "balance_loss_clip": 1.04570484,
+      "balance_loss_mlp": 1.01446509,
+      "epoch": 0.7176095713340949,
+      "flos": 23293564467840.0,
+      "grad_norm": 1.7042491617976254,
+      "language_loss": 0.76939994,
+      "learning_rate": 7.796465845563123e-07,
+      "loss": 0.79152608,
+      "num_input_tokens_seen": 128292085,
+      "step": 5968,
+      "time_per_iteration": 2.6299211978912354
+    },
+    {
+      "auxiliary_loss_clip": 0.01181118,
+      "auxiliary_loss_mlp": 0.01378655,
+      "balance_loss_clip": 1.04386473,
+      "balance_loss_mlp": 1.00017953,
+      "epoch": 0.7177298142247339,
+      "flos": 25591631777280.0,
+      "grad_norm": 1.862837289927579,
+      "language_loss": 0.79564297,
+      "learning_rate": 7.790295248901766e-07,
+      "loss": 0.82124066,
+      "num_input_tokens_seen": 128313215,
+      "step": 5969,
+      "time_per_iteration": 2.7008392810821533
+    },
+    {
+      "auxiliary_loss_clip": 0.01177661,
+      "auxiliary_loss_mlp": 0.0102777,
+      "balance_loss_clip": 1.04730439,
+      "balance_loss_mlp": 1.01986647,
+      "epoch": 0.7178500571153731,
+      "flos": 31652778504960.0,
+      "grad_norm": 1.6051479384729481,
+      "language_loss": 0.61874902,
+      "learning_rate": 7.784126504442902e-07,
+      "loss": 0.64080334,
+      "num_input_tokens_seen": 128336445,
+      "step": 5970,
+      "time_per_iteration": 2.7763872146606445
+    },
+    {
+      "auxiliary_loss_clip": 0.01187619,
+      "auxiliary_loss_mlp": 0.0102527,
+      "balance_loss_clip": 1.04348028,
+      "balance_loss_mlp": 1.01778388,
+      "epoch": 0.7179703000060121,
+      "flos": 19427242383360.0,
+      "grad_norm": 1.3821510890081778,
+      "language_loss": 0.67803293,
+      "learning_rate": 7.777959613122351e-07,
+      "loss": 0.70016181,
+      "num_input_tokens_seen": 128356270,
+      "step": 5971,
+      "time_per_iteration": 2.6907262802124023
+    },
+    {
+      "auxiliary_loss_clip": 0.01181002,
+      "auxiliary_loss_mlp": 0.01022803,
+      "balance_loss_clip": 1.04575014,
+      "balance_loss_mlp": 1.01573384,
+      "epoch": 0.7180905428966512,
+      "flos": 28839249072000.0,
+      "grad_norm": 1.7101385147615382,
+      "language_loss": 0.77852684,
+      "learning_rate": 7.771794575875604e-07,
+      "loss": 0.80056489,
+      "num_input_tokens_seen": 128378140,
+      "step": 5972,
+      "time_per_iteration": 2.639883518218994
+    },
+    {
+      "auxiliary_loss_clip": 0.01180122,
+      "auxiliary_loss_mlp": 0.01028019,
+      "balance_loss_clip": 1.04856193,
+      "balance_loss_mlp": 1.02026451,
+      "epoch": 0.7182107857872904,
+      "flos": 20047563285120.0,
+      "grad_norm": 2.3044092667759473,
+      "language_loss": 0.77783084,
+      "learning_rate": 7.765631393637888e-07,
+      "loss": 0.79991221,
+      "num_input_tokens_seen": 128396335,
+      "step": 5973,
+      "time_per_iteration": 2.6538500785827637
+    },
+    {
+      "auxiliary_loss_clip": 0.01171125,
+      "auxiliary_loss_mlp": 0.01027629,
+      "balance_loss_clip": 1.04247606,
+      "balance_loss_mlp": 1.01989865,
+      "epoch": 0.7183310286779294,
+      "flos": 22747686503040.0,
+      "grad_norm": 3.5540917441418407,
+      "language_loss": 0.4865225,
+      "learning_rate": 7.75947006734417e-07,
+      "loss": 0.50850999,
+      "num_input_tokens_seen": 128414115,
+      "step": 5974,
+      "time_per_iteration": 2.5833702087402344
+    },
+    {
+      "auxiliary_loss_clip": 0.01167619,
+      "auxiliary_loss_mlp": 0.01024747,
+      "balance_loss_clip": 1.04630077,
+      "balance_loss_mlp": 1.01702261,
+      "epoch": 0.7184512715685685,
+      "flos": 17158262112000.0,
+      "grad_norm": 2.0024441991131483,
+      "language_loss": 0.82554942,
+      "learning_rate": 7.753310597929101e-07,
+      "loss": 0.84747303,
+      "num_input_tokens_seen": 128430755,
+      "step": 5975,
+      "time_per_iteration": 2.554486036300659
+    },
+    {
+      "auxiliary_loss_clip": 0.01065243,
+      "auxiliary_loss_mlp": 0.01000556,
+      "balance_loss_clip": 1.01202345,
+      "balance_loss_mlp": 0.99932212,
+      "epoch": 0.7185715144592076,
+      "flos": 65509611448320.0,
+      "grad_norm": 0.7534569578009698,
+      "language_loss": 0.5510639,
+      "learning_rate": 7.747152986327095e-07,
+      "loss": 0.57172185,
+      "num_input_tokens_seen": 128491300,
+      "step": 5976,
+      "time_per_iteration": 3.0320661067962646
+    },
+    {
+      "auxiliary_loss_clip": 0.01208165,
+      "auxiliary_loss_mlp": 0.0102766,
+      "balance_loss_clip": 1.04269385,
+      "balance_loss_mlp": 1.02077019,
+      "epoch": 0.7186917573498467,
+      "flos": 16180522928640.0,
+      "grad_norm": 1.6794856984632418,
+      "language_loss": 0.68103504,
+      "learning_rate": 7.740997233472228e-07,
+      "loss": 0.70339334,
+      "num_input_tokens_seen": 128508920,
+      "step": 5977,
+      "time_per_iteration": 2.7278330326080322
+    },
+    {
+      "auxiliary_loss_clip": 0.01189298,
+      "auxiliary_loss_mlp": 0.01022724,
+      "balance_loss_clip": 1.0460434,
+      "balance_loss_mlp": 1.01614356,
+      "epoch": 0.7188120002404857,
+      "flos": 29242274647680.0,
+      "grad_norm": 2.906840566400786,
+      "language_loss": 0.7104972,
+      "learning_rate": 7.734843340298329e-07,
+      "loss": 0.73261738,
+      "num_input_tokens_seen": 128528745,
+      "step": 5978,
+      "time_per_iteration": 2.653477191925049
+    },
+    {
+      "auxiliary_loss_clip": 0.01191167,
+      "auxiliary_loss_mlp": 0.01025527,
+      "balance_loss_clip": 1.04316068,
+      "balance_loss_mlp": 1.01745617,
+      "epoch": 0.7189322431311249,
+      "flos": 33401161008000.0,
+      "grad_norm": 1.845412954346436,
+      "language_loss": 0.7522614,
+      "learning_rate": 7.72869130773895e-07,
+      "loss": 0.77442837,
+      "num_input_tokens_seen": 128549345,
+      "step": 5979,
+      "time_per_iteration": 2.713088035583496
+    },
+    {
+      "auxiliary_loss_clip": 0.01078999,
+      "auxiliary_loss_mlp": 0.01000997,
+      "balance_loss_clip": 1.01203942,
+      "balance_loss_mlp": 0.99978155,
+      "epoch": 0.719052486021764,
+      "flos": 61351263792000.0,
+      "grad_norm": 0.8237684505242788,
+      "language_loss": 0.59380579,
+      "learning_rate": 7.722541136727343e-07,
+      "loss": 0.61460572,
+      "num_input_tokens_seen": 128605360,
+      "step": 5980,
+      "time_per_iteration": 3.070472240447998
+    },
+    {
+      "auxiliary_loss_clip": 0.01178645,
+      "auxiliary_loss_mlp": 0.01023127,
+      "balance_loss_clip": 1.0466342,
+      "balance_loss_mlp": 1.01558065,
+      "epoch": 0.719172728912403,
+      "flos": 15596795007360.0,
+      "grad_norm": 2.1699040038361397,
+      "language_loss": 0.80661464,
+      "learning_rate": 7.716392828196483e-07,
+      "loss": 0.82863235,
+      "num_input_tokens_seen": 128623160,
+      "step": 5981,
+      "time_per_iteration": 2.553788661956787
+    },
+    {
+      "auxiliary_loss_clip": 0.01179631,
+      "auxiliary_loss_mlp": 0.01026375,
+      "balance_loss_clip": 1.04802227,
+      "balance_loss_mlp": 1.01879346,
+      "epoch": 0.7192929718030422,
+      "flos": 15553162961280.0,
+      "grad_norm": 2.448929016036425,
+      "language_loss": 0.77101266,
+      "learning_rate": 7.710246383079064e-07,
+      "loss": 0.79307276,
+      "num_input_tokens_seen": 128638545,
+      "step": 5982,
+      "time_per_iteration": 2.6809515953063965
+    },
+    {
+      "auxiliary_loss_clip": 0.01184345,
+      "auxiliary_loss_mlp": 0.0102702,
+      "balance_loss_clip": 1.04102397,
+      "balance_loss_mlp": 1.01958084,
+      "epoch": 0.7194132146936812,
+      "flos": 21862487733120.0,
+      "grad_norm": 2.6219018043175546,
+      "language_loss": 0.91989893,
+      "learning_rate": 7.704101802307492e-07,
+      "loss": 0.94201255,
+      "num_input_tokens_seen": 128650845,
+      "step": 5983,
+      "time_per_iteration": 2.6300690174102783
+    },
+    {
+      "auxiliary_loss_clip": 0.01185703,
+      "auxiliary_loss_mlp": 0.0102533,
+      "balance_loss_clip": 1.04285097,
+      "balance_loss_mlp": 1.01773,
+      "epoch": 0.7195334575843203,
+      "flos": 27338900958720.0,
+      "grad_norm": 2.1180011158865883,
+      "language_loss": 0.87343693,
+      "learning_rate": 7.697959086813912e-07,
+      "loss": 0.89554727,
+      "num_input_tokens_seen": 128667010,
+      "step": 5984,
+      "time_per_iteration": 2.6793007850646973
+    },
+    {
+      "auxiliary_loss_clip": 0.01185882,
+      "auxiliary_loss_mlp": 0.01027654,
+      "balance_loss_clip": 1.04148531,
+      "balance_loss_mlp": 1.01942873,
+      "epoch": 0.7196537004749595,
+      "flos": 18770615809920.0,
+      "grad_norm": 2.290651181994944,
+      "language_loss": 0.79997069,
+      "learning_rate": 7.691818237530145e-07,
+      "loss": 0.82210606,
+      "num_input_tokens_seen": 128685870,
+      "step": 5985,
+      "time_per_iteration": 3.5730233192443848
+    },
+    {
+      "auxiliary_loss_clip": 0.01216786,
+      "auxiliary_loss_mlp": 0.01026185,
+      "balance_loss_clip": 1.04376817,
+      "balance_loss_mlp": 1.01875877,
+      "epoch": 0.7197739433655985,
+      "flos": 24531009960960.0,
+      "grad_norm": 1.7378646426094817,
+      "language_loss": 0.77334183,
+      "learning_rate": 7.685679255387774e-07,
+      "loss": 0.79577154,
+      "num_input_tokens_seen": 128704185,
+      "step": 5986,
+      "time_per_iteration": 3.691403388977051
+    },
+    {
+      "auxiliary_loss_clip": 0.01183842,
+      "auxiliary_loss_mlp": 0.01027031,
+      "balance_loss_clip": 1.04549634,
+      "balance_loss_mlp": 1.01991451,
+      "epoch": 0.7198941862562376,
+      "flos": 18040587793920.0,
+      "grad_norm": 1.9364548157104373,
+      "language_loss": 0.7747345,
+      "learning_rate": 7.679542141318065e-07,
+      "loss": 0.79684329,
+      "num_input_tokens_seen": 128721290,
+      "step": 5987,
+      "time_per_iteration": 2.666201591491699
+    },
+    {
+      "auxiliary_loss_clip": 0.01168893,
+      "auxiliary_loss_mlp": 0.01027393,
+      "balance_loss_clip": 1.03977168,
+      "balance_loss_mlp": 1.01995409,
+      "epoch": 0.7200144291468767,
+      "flos": 29022393542400.0,
+      "grad_norm": 1.8249120719165233,
+      "language_loss": 0.75514412,
+      "learning_rate": 7.673406896252013e-07,
+      "loss": 0.777107,
+      "num_input_tokens_seen": 128742665,
+      "step": 5988,
+      "time_per_iteration": 2.6683900356292725
+    },
+    {
+      "auxiliary_loss_clip": 0.01193239,
+      "auxiliary_loss_mlp": 0.01024747,
+      "balance_loss_clip": 1.04183757,
+      "balance_loss_mlp": 1.01673603,
+      "epoch": 0.7201346720375158,
+      "flos": 25374264624000.0,
+      "grad_norm": 1.5511455365234141,
+      "language_loss": 0.7850647,
+      "learning_rate": 7.667273521120347e-07,
+      "loss": 0.80724454,
+      "num_input_tokens_seen": 128762225,
+      "step": 5989,
+      "time_per_iteration": 2.715040683746338
+    },
+    {
+      "auxiliary_loss_clip": 0.01196093,
+      "auxiliary_loss_mlp": 0.01022495,
+      "balance_loss_clip": 1.04319406,
+      "balance_loss_mlp": 1.01531219,
+      "epoch": 0.7202549149281549,
+      "flos": 14355614499840.0,
+      "grad_norm": 1.9350409759328648,
+      "language_loss": 0.79603243,
+      "learning_rate": 7.661142016853468e-07,
+      "loss": 0.81821835,
+      "num_input_tokens_seen": 128779585,
+      "step": 5990,
+      "time_per_iteration": 3.479811906814575
+    },
+    {
+      "auxiliary_loss_clip": 0.01201572,
+      "auxiliary_loss_mlp": 0.01020217,
+      "balance_loss_clip": 1.04218912,
+      "balance_loss_mlp": 1.01288605,
+      "epoch": 0.7203751578187939,
+      "flos": 23001682550400.0,
+      "grad_norm": 1.7896367220709282,
+      "language_loss": 0.74642032,
+      "learning_rate": 7.655012384381543e-07,
+      "loss": 0.76863819,
+      "num_input_tokens_seen": 128799070,
+      "step": 5991,
+      "time_per_iteration": 2.7249796390533447
+    },
+    {
+      "auxiliary_loss_clip": 0.01185238,
+      "auxiliary_loss_mlp": 0.01024924,
+      "balance_loss_clip": 1.0475595,
+      "balance_loss_mlp": 1.01764977,
+      "epoch": 0.7204954007094331,
+      "flos": 23692424065920.0,
+      "grad_norm": 2.1753143254824674,
+      "language_loss": 0.81614137,
+      "learning_rate": 7.648884624634415e-07,
+      "loss": 0.83824295,
+      "num_input_tokens_seen": 128817620,
+      "step": 5992,
+      "time_per_iteration": 3.7220165729522705
+    },
+    {
+      "auxiliary_loss_clip": 0.0117766,
+      "auxiliary_loss_mlp": 0.01021712,
+      "balance_loss_clip": 1.0469147,
+      "balance_loss_mlp": 1.01446152,
+      "epoch": 0.7206156436000721,
+      "flos": 16253026531200.0,
+      "grad_norm": 1.9844324452168751,
+      "language_loss": 0.89097059,
+      "learning_rate": 7.642758738541683e-07,
+      "loss": 0.91296434,
+      "num_input_tokens_seen": 128834200,
+      "step": 5993,
+      "time_per_iteration": 2.5995545387268066
+    },
+    {
+      "auxiliary_loss_clip": 0.0107823,
+      "auxiliary_loss_mlp": 0.0100513,
+      "balance_loss_clip": 1.01192808,
+      "balance_loss_mlp": 1.00393188,
+      "epoch": 0.7207358864907112,
+      "flos": 54377806504320.0,
+      "grad_norm": 0.7571335415056228,
+      "language_loss": 0.60742712,
+      "learning_rate": 7.636634727032621e-07,
+      "loss": 0.62826073,
+      "num_input_tokens_seen": 128891305,
+      "step": 5994,
+      "time_per_iteration": 3.0612668991088867
+    },
+    {
+      "auxiliary_loss_clip": 0.01192622,
+      "auxiliary_loss_mlp": 0.01028487,
+      "balance_loss_clip": 1.03902984,
+      "balance_loss_mlp": 1.02039313,
+      "epoch": 0.7208561293813504,
+      "flos": 19135540033920.0,
+      "grad_norm": 1.9370505522312957,
+      "language_loss": 0.78539383,
+      "learning_rate": 7.630512591036231e-07,
+      "loss": 0.80760491,
+      "num_input_tokens_seen": 128910615,
+      "step": 5995,
+      "time_per_iteration": 2.6811606884002686
+    },
+    {
+      "auxiliary_loss_clip": 0.01179037,
+      "auxiliary_loss_mlp": 0.01023932,
+      "balance_loss_clip": 1.04519737,
+      "balance_loss_mlp": 1.01639771,
+      "epoch": 0.7209763722719894,
+      "flos": 17748526308480.0,
+      "grad_norm": 2.3219859808219487,
+      "language_loss": 0.64371854,
+      "learning_rate": 7.624392331481255e-07,
+      "loss": 0.66574824,
+      "num_input_tokens_seen": 128928270,
+      "step": 5996,
+      "time_per_iteration": 2.574995279312134
+    },
+    {
+      "auxiliary_loss_clip": 0.01076144,
+      "auxiliary_loss_mlp": 0.01001917,
+      "balance_loss_clip": 1.01092362,
+      "balance_loss_mlp": 1.00068879,
+      "epoch": 0.7210966151626285,
+      "flos": 66819488716800.0,
+      "grad_norm": 0.7449334714665675,
+      "language_loss": 0.51825595,
+      "learning_rate": 7.618273949296115e-07,
+      "loss": 0.53903657,
+      "num_input_tokens_seen": 128987780,
+      "step": 5997,
+      "time_per_iteration": 3.109063148498535
+    },
+    {
+      "auxiliary_loss_clip": 0.01180703,
+      "auxiliary_loss_mlp": 0.01023849,
+      "balance_loss_clip": 1.04338264,
+      "balance_loss_mlp": 1.01638651,
+      "epoch": 0.7212168580532676,
+      "flos": 21141869080320.0,
+      "grad_norm": 1.9911717647307245,
+      "language_loss": 0.68245006,
+      "learning_rate": 7.612157445408987e-07,
+      "loss": 0.70449555,
+      "num_input_tokens_seen": 129005590,
+      "step": 5998,
+      "time_per_iteration": 2.650228261947632
+    },
+    {
+      "auxiliary_loss_clip": 0.01190301,
+      "auxiliary_loss_mlp": 0.0102814,
+      "balance_loss_clip": 1.04696369,
+      "balance_loss_mlp": 1.01974726,
+      "epoch": 0.7213371009439067,
+      "flos": 22345738335360.0,
+      "grad_norm": 2.29822118044211,
+      "language_loss": 0.74328375,
+      "learning_rate": 7.606042820747716e-07,
+      "loss": 0.76546818,
+      "num_input_tokens_seen": 129021995,
+      "step": 5999,
+      "time_per_iteration": 2.6902103424072266
+    },
+    {
+      "auxiliary_loss_clip": 0.01195359,
+      "auxiliary_loss_mlp": 0.01026713,
+      "balance_loss_clip": 1.04997468,
+      "balance_loss_mlp": 1.01907218,
+      "epoch": 0.7214573438345457,
+      "flos": 18515901490560.0,
+      "grad_norm": 1.7075099925466977,
+      "language_loss": 0.85538781,
+      "learning_rate": 7.599930076239889e-07,
+      "loss": 0.87760854,
+      "num_input_tokens_seen": 129039280,
+      "step": 6000,
+      "time_per_iteration": 2.6316208839416504
+    },
+    {
+      "auxiliary_loss_clip": 0.01209579,
+      "auxiliary_loss_mlp": 0.01378883,
+      "balance_loss_clip": 1.04457402,
+      "balance_loss_mlp": 1.00015986,
+      "epoch": 0.7215775867251849,
+      "flos": 35736108606720.0,
+      "grad_norm": 1.8211477793132727,
+      "language_loss": 0.70530653,
+      "learning_rate": 7.593819212812818e-07,
+      "loss": 0.73119116,
+      "num_input_tokens_seen": 129060860,
+      "step": 6001,
+      "time_per_iteration": 2.844871997833252
+    },
+    {
+      "auxiliary_loss_clip": 0.01177701,
+      "auxiliary_loss_mlp": 0.01023453,
+      "balance_loss_clip": 1.04716623,
+      "balance_loss_mlp": 1.01667321,
+      "epoch": 0.721697829615824,
+      "flos": 20372410909440.0,
+      "grad_norm": 2.2713104642328883,
+      "language_loss": 0.71870768,
+      "learning_rate": 7.587710231393508e-07,
+      "loss": 0.74071926,
+      "num_input_tokens_seen": 129079215,
+      "step": 6002,
+      "time_per_iteration": 2.5704519748687744
+    },
+    {
+      "auxiliary_loss_clip": 0.01207362,
+      "auxiliary_loss_mlp": 0.01021052,
+      "balance_loss_clip": 1.03677273,
+      "balance_loss_mlp": 1.01358366,
+      "epoch": 0.721818072506463,
+      "flos": 20229809915520.0,
+      "grad_norm": 2.0084897389548817,
+      "language_loss": 0.83455431,
+      "learning_rate": 7.581603132908685e-07,
+      "loss": 0.85683846,
+      "num_input_tokens_seen": 129097185,
+      "step": 6003,
+      "time_per_iteration": 2.944232702255249
+    },
+    {
+      "auxiliary_loss_clip": 0.01185745,
+      "auxiliary_loss_mlp": 0.01024457,
+      "balance_loss_clip": 1.04162109,
+      "balance_loss_mlp": 1.01675642,
+      "epoch": 0.7219383153971022,
+      "flos": 18186887888640.0,
+      "grad_norm": 2.624774577998776,
+      "language_loss": 0.78319782,
+      "learning_rate": 7.575497918284795e-07,
+      "loss": 0.80529982,
+      "num_input_tokens_seen": 129114730,
+      "step": 6004,
+      "time_per_iteration": 2.774718761444092
+    },
+    {
+      "auxiliary_loss_clip": 0.0117093,
+      "auxiliary_loss_mlp": 0.01024922,
+      "balance_loss_clip": 1.04567814,
+      "balance_loss_mlp": 1.01692319,
+      "epoch": 0.7220585582877412,
+      "flos": 17342124854400.0,
+      "grad_norm": 2.0136664731537497,
+      "language_loss": 0.74508977,
+      "learning_rate": 7.569394588447984e-07,
+      "loss": 0.76704824,
+      "num_input_tokens_seen": 129131745,
+      "step": 6005,
+      "time_per_iteration": 2.6594762802124023
+    },
+    {
+      "auxiliary_loss_clip": 0.0116608,
+      "auxiliary_loss_mlp": 0.01027204,
+      "balance_loss_clip": 1.04334831,
+      "balance_loss_mlp": 1.01984286,
+      "epoch": 0.7221788011783803,
+      "flos": 16976338704000.0,
+      "grad_norm": 2.6722204310779296,
+      "language_loss": 0.77954268,
+      "learning_rate": 7.563293144324146e-07,
+      "loss": 0.80147558,
+      "num_input_tokens_seen": 129147295,
+      "step": 6006,
+      "time_per_iteration": 2.567603588104248
+    },
+    {
+      "auxiliary_loss_clip": 0.0116756,
+      "auxiliary_loss_mlp": 0.01025409,
+      "balance_loss_clip": 1.04765916,
+      "balance_loss_mlp": 1.01856375,
+      "epoch": 0.7222990440690195,
+      "flos": 26286359702400.0,
+      "grad_norm": 2.4738335499392266,
+      "language_loss": 0.79823411,
+      "learning_rate": 7.557193586838834e-07,
+      "loss": 0.82016379,
+      "num_input_tokens_seen": 129162660,
+      "step": 6007,
+      "time_per_iteration": 2.6092426776885986
+    },
+    {
+      "auxiliary_loss_clip": 0.01189359,
+      "auxiliary_loss_mlp": 0.01023461,
+      "balance_loss_clip": 1.04411459,
+      "balance_loss_mlp": 1.01598084,
+      "epoch": 0.7224192869596585,
+      "flos": 17601687509760.0,
+      "grad_norm": 2.224891229527945,
+      "language_loss": 0.71367788,
+      "learning_rate": 7.551095916917371e-07,
+      "loss": 0.73580611,
+      "num_input_tokens_seen": 129179990,
+      "step": 6008,
+      "time_per_iteration": 2.574601173400879
+    },
+    {
+      "auxiliary_loss_clip": 0.01208907,
+      "auxiliary_loss_mlp": 0.01026377,
+      "balance_loss_clip": 1.04540217,
+      "balance_loss_mlp": 1.01828265,
+      "epoch": 0.7225395298502976,
+      "flos": 12932331016320.0,
+      "grad_norm": 2.8902016280263867,
+      "language_loss": 0.66778785,
+      "learning_rate": 7.545000135484758e-07,
+      "loss": 0.69014072,
+      "num_input_tokens_seen": 129197425,
+      "step": 6009,
+      "time_per_iteration": 2.6478865146636963
+    },
+    {
+      "auxiliary_loss_clip": 0.01170282,
+      "auxiliary_loss_mlp": 0.01379197,
+      "balance_loss_clip": 1.04783869,
+      "balance_loss_mlp": 1.00012803,
+      "epoch": 0.7226597727409367,
+      "flos": 29643899592960.0,
+      "grad_norm": 1.8070855788394125,
+      "language_loss": 0.62707603,
+      "learning_rate": 7.538906243465714e-07,
+      "loss": 0.65257078,
+      "num_input_tokens_seen": 129217560,
+      "step": 6010,
+      "time_per_iteration": 2.617760181427002
+    },
+    {
+      "auxiliary_loss_clip": 0.01169708,
+      "auxiliary_loss_mlp": 0.01026735,
+      "balance_loss_clip": 1.04739153,
+      "balance_loss_mlp": 1.01875997,
+      "epoch": 0.7227800156315758,
+      "flos": 13771635183360.0,
+      "grad_norm": 2.2670317466979313,
+      "language_loss": 0.78432995,
+      "learning_rate": 7.5328142417847e-07,
+      "loss": 0.80629432,
+      "num_input_tokens_seen": 129234325,
+      "step": 6011,
+      "time_per_iteration": 3.603684902191162
+    },
+    {
+      "auxiliary_loss_clip": 0.01174887,
+      "auxiliary_loss_mlp": 0.01024502,
+      "balance_loss_clip": 1.0448308,
+      "balance_loss_mlp": 1.01739144,
+      "epoch": 0.7229002585222148,
+      "flos": 20301882554880.0,
+      "grad_norm": 1.603148631712873,
+      "language_loss": 0.68896616,
+      "learning_rate": 7.526724131365838e-07,
+      "loss": 0.71096003,
+      "num_input_tokens_seen": 129255280,
+      "step": 6012,
+      "time_per_iteration": 3.595576286315918
+    },
+    {
+      "auxiliary_loss_clip": 0.01184886,
+      "auxiliary_loss_mlp": 0.0102886,
+      "balance_loss_clip": 1.0464673,
+      "balance_loss_mlp": 1.02066398,
+      "epoch": 0.723020501412854,
+      "flos": 16581250033920.0,
+      "grad_norm": 2.1200883352653697,
+      "language_loss": 0.70501596,
+      "learning_rate": 7.520635913133017e-07,
+      "loss": 0.72715336,
+      "num_input_tokens_seen": 129273910,
+      "step": 6013,
+      "time_per_iteration": 2.61548113822937
+    },
+    {
+      "auxiliary_loss_clip": 0.01182826,
+      "auxiliary_loss_mlp": 0.01029441,
+      "balance_loss_clip": 1.04689455,
+      "balance_loss_mlp": 1.02188885,
+      "epoch": 0.7231407443034931,
+      "flos": 28548300908160.0,
+      "grad_norm": 1.8398906446902175,
+      "language_loss": 0.82310832,
+      "learning_rate": 7.514549588009798e-07,
+      "loss": 0.84523106,
+      "num_input_tokens_seen": 129294785,
+      "step": 6014,
+      "time_per_iteration": 2.7225284576416016
+    },
+    {
+      "auxiliary_loss_clip": 0.01191718,
+      "auxiliary_loss_mlp": 0.01027903,
+      "balance_loss_clip": 1.04768598,
+      "balance_loss_mlp": 1.02025557,
+      "epoch": 0.7232609871941321,
+      "flos": 30008536508160.0,
+      "grad_norm": 2.4022971970791307,
+      "language_loss": 0.70291483,
+      "learning_rate": 7.508465156919492e-07,
+      "loss": 0.72511101,
+      "num_input_tokens_seen": 129318295,
+      "step": 6015,
+      "time_per_iteration": 2.777644634246826
+    },
+    {
+      "auxiliary_loss_clip": 0.01185528,
+      "auxiliary_loss_mlp": 0.0103209,
+      "balance_loss_clip": 1.04364109,
+      "balance_loss_mlp": 1.02467513,
+      "epoch": 0.7233812300847713,
+      "flos": 16654005031680.0,
+      "grad_norm": 2.7721699043563692,
+      "language_loss": 0.61440778,
+      "learning_rate": 7.502382620785083e-07,
+      "loss": 0.63658392,
+      "num_input_tokens_seen": 129334845,
+      "step": 6016,
+      "time_per_iteration": 3.618447780609131
+    },
+    {
+      "auxiliary_loss_clip": 0.01095785,
+      "auxiliary_loss_mlp": 0.01001076,
+      "balance_loss_clip": 1.01335895,
+      "balance_loss_mlp": 0.99979478,
+      "epoch": 0.7235014729754103,
+      "flos": 67258784050560.0,
+      "grad_norm": 0.8066029067940362,
+      "language_loss": 0.62521511,
+      "learning_rate": 7.496301980529289e-07,
+      "loss": 0.64618373,
+      "num_input_tokens_seen": 129398055,
+      "step": 6017,
+      "time_per_iteration": 3.348708391189575
+    },
+    {
+      "auxiliary_loss_clip": 0.01170236,
+      "auxiliary_loss_mlp": 0.01030712,
+      "balance_loss_clip": 1.04786777,
+      "balance_loss_mlp": 1.02311265,
+      "epoch": 0.7236217158660494,
+      "flos": 26943237671040.0,
+      "grad_norm": 1.963624452534612,
+      "language_loss": 0.74287575,
+      "learning_rate": 7.490223237074547e-07,
+      "loss": 0.76488525,
+      "num_input_tokens_seen": 129417765,
+      "step": 6018,
+      "time_per_iteration": 3.5759942531585693
+    },
+    {
+      "auxiliary_loss_clip": 0.01193714,
+      "auxiliary_loss_mlp": 0.01021003,
+      "balance_loss_clip": 1.04289401,
+      "balance_loss_mlp": 1.01337409,
+      "epoch": 0.7237419587566886,
+      "flos": 29423372042880.0,
+      "grad_norm": 2.1705347311002767,
+      "language_loss": 0.6609652,
+      "learning_rate": 7.484146391342989e-07,
+      "loss": 0.68311238,
+      "num_input_tokens_seen": 129437560,
+      "step": 6019,
+      "time_per_iteration": 2.7033705711364746
+    },
+    {
+      "auxiliary_loss_clip": 0.01176073,
+      "auxiliary_loss_mlp": 0.01026054,
+      "balance_loss_clip": 1.04140782,
+      "balance_loss_mlp": 1.01859713,
+      "epoch": 0.7238622016473276,
+      "flos": 17821496787840.0,
+      "grad_norm": 3.6077757911775996,
+      "language_loss": 0.57047784,
+      "learning_rate": 7.478071444256484e-07,
+      "loss": 0.59249914,
+      "num_input_tokens_seen": 129455320,
+      "step": 6020,
+      "time_per_iteration": 2.719559907913208
+    },
+    {
+      "auxiliary_loss_clip": 0.01204786,
+      "auxiliary_loss_mlp": 0.01025888,
+      "balance_loss_clip": 1.04317617,
+      "balance_loss_mlp": 1.01852417,
+      "epoch": 0.7239824445379667,
+      "flos": 25739117020800.0,
+      "grad_norm": 1.8039420227900653,
+      "language_loss": 0.79336917,
+      "learning_rate": 7.471998396736579e-07,
+      "loss": 0.81567591,
+      "num_input_tokens_seen": 129475700,
+      "step": 6021,
+      "time_per_iteration": 2.8339710235595703
+    },
+    {
+      "auxiliary_loss_clip": 0.01197419,
+      "auxiliary_loss_mlp": 0.01024217,
+      "balance_loss_clip": 1.04496419,
+      "balance_loss_mlp": 1.01665878,
+      "epoch": 0.7241026874286057,
+      "flos": 23148916398720.0,
+      "grad_norm": 1.9002293390759666,
+      "language_loss": 0.75849676,
+      "learning_rate": 7.465927249704549e-07,
+      "loss": 0.78071314,
+      "num_input_tokens_seen": 129493585,
+      "step": 6022,
+      "time_per_iteration": 2.6962532997131348
+    },
+    {
+      "auxiliary_loss_clip": 0.01177832,
+      "auxiliary_loss_mlp": 0.01023884,
+      "balance_loss_clip": 1.04520428,
+      "balance_loss_mlp": 1.0162015,
+      "epoch": 0.7242229303192449,
+      "flos": 20266905686400.0,
+      "grad_norm": 1.79083991731087,
+      "language_loss": 0.77627343,
+      "learning_rate": 7.459858004081398e-07,
+      "loss": 0.79829061,
+      "num_input_tokens_seen": 129511555,
+      "step": 6023,
+      "time_per_iteration": 2.6521506309509277
+    },
+    {
+      "auxiliary_loss_clip": 0.01097474,
+      "auxiliary_loss_mlp": 0.01000279,
+      "balance_loss_clip": 1.01311278,
+      "balance_loss_mlp": 0.99906296,
+      "epoch": 0.724343173209884,
+      "flos": 62311659684480.0,
+      "grad_norm": 0.6530533750018467,
+      "language_loss": 0.57962096,
+      "learning_rate": 7.453790660787815e-07,
+      "loss": 0.60059851,
+      "num_input_tokens_seen": 129579650,
+      "step": 6024,
+      "time_per_iteration": 3.3745663166046143
+    },
+    {
+      "auxiliary_loss_clip": 0.01192024,
+      "auxiliary_loss_mlp": 0.01027952,
+      "balance_loss_clip": 1.04679704,
+      "balance_loss_mlp": 1.01961958,
+      "epoch": 0.724463416100523,
+      "flos": 35006403813120.0,
+      "grad_norm": 3.461443583066096,
+      "language_loss": 0.63539785,
+      "learning_rate": 7.447725220744214e-07,
+      "loss": 0.65759754,
+      "num_input_tokens_seen": 129601895,
+      "step": 6025,
+      "time_per_iteration": 2.796407461166382
+    },
+    {
+      "auxiliary_loss_clip": 0.01173936,
+      "auxiliary_loss_mlp": 0.01027443,
+      "balance_loss_clip": 1.04895711,
+      "balance_loss_mlp": 1.01929176,
+      "epoch": 0.7245836589911622,
+      "flos": 21871968923520.0,
+      "grad_norm": 1.9386419512287385,
+      "language_loss": 0.76861525,
+      "learning_rate": 7.441661684870717e-07,
+      "loss": 0.79062903,
+      "num_input_tokens_seen": 129622150,
+      "step": 6026,
+      "time_per_iteration": 2.669790267944336
+    },
+    {
+      "auxiliary_loss_clip": 0.01171234,
+      "auxiliary_loss_mlp": 0.01023211,
+      "balance_loss_clip": 1.04820991,
+      "balance_loss_mlp": 1.01586771,
+      "epoch": 0.7247039018818012,
+      "flos": 23006494972800.0,
+      "grad_norm": 1.7878018690383917,
+      "language_loss": 0.81513953,
+      "learning_rate": 7.435600054087152e-07,
+      "loss": 0.83708405,
+      "num_input_tokens_seen": 129644315,
+      "step": 6027,
+      "time_per_iteration": 2.6881041526794434
+    },
+    {
+      "auxiliary_loss_clip": 0.01170192,
+      "auxiliary_loss_mlp": 0.01026229,
+      "balance_loss_clip": 1.04826593,
+      "balance_loss_mlp": 1.01837301,
+      "epoch": 0.7248241447724403,
+      "flos": 31722588587520.0,
+      "grad_norm": 2.0146159864825424,
+      "language_loss": 0.74045348,
+      "learning_rate": 7.42954032931308e-07,
+      "loss": 0.76241773,
+      "num_input_tokens_seen": 129665355,
+      "step": 6028,
+      "time_per_iteration": 2.5907537937164307
+    },
+    {
+      "auxiliary_loss_clip": 0.01189819,
+      "auxiliary_loss_mlp": 0.01023785,
+      "balance_loss_clip": 1.0460341,
+      "balance_loss_mlp": 1.01606631,
+      "epoch": 0.7249443876630794,
+      "flos": 34896984007680.0,
+      "grad_norm": 3.022961142230916,
+      "language_loss": 0.74774027,
+      "learning_rate": 7.423482511467733e-07,
+      "loss": 0.76987636,
+      "num_input_tokens_seen": 129686125,
+      "step": 6029,
+      "time_per_iteration": 2.82848858833313
+    },
+    {
+      "auxiliary_loss_clip": 0.0120095,
+      "auxiliary_loss_mlp": 0.01027506,
+      "balance_loss_clip": 1.04040003,
+      "balance_loss_mlp": 1.02031422,
+      "epoch": 0.7250646305537185,
+      "flos": 26359294268160.0,
+      "grad_norm": 2.5335144349212984,
+      "language_loss": 0.65042645,
+      "learning_rate": 7.417426601470099e-07,
+      "loss": 0.67271101,
+      "num_input_tokens_seen": 129706485,
+      "step": 6030,
+      "time_per_iteration": 2.7200732231140137
+    },
+    {
+      "auxiliary_loss_clip": 0.01180391,
+      "auxiliary_loss_mlp": 0.01026336,
+      "balance_loss_clip": 1.046965,
+      "balance_loss_mlp": 1.01854575,
+      "epoch": 0.7251848734443576,
+      "flos": 30081614728320.0,
+      "grad_norm": 2.131304735456805,
+      "language_loss": 0.78294492,
+      "learning_rate": 7.411372600238841e-07,
+      "loss": 0.80501223,
+      "num_input_tokens_seen": 129727100,
+      "step": 6031,
+      "time_per_iteration": 2.6721954345703125
+    },
+    {
+      "auxiliary_loss_clip": 0.01170063,
+      "auxiliary_loss_mlp": 0.01025182,
+      "balance_loss_clip": 1.04767704,
+      "balance_loss_mlp": 1.01789236,
+      "epoch": 0.7253051163349967,
+      "flos": 17785262943360.0,
+      "grad_norm": 2.2833054838430034,
+      "language_loss": 0.73802894,
+      "learning_rate": 7.405320508692346e-07,
+      "loss": 0.75998139,
+      "num_input_tokens_seen": 129745840,
+      "step": 6032,
+      "time_per_iteration": 2.509486675262451
+    },
+    {
+      "auxiliary_loss_clip": 0.01166257,
+      "auxiliary_loss_mlp": 0.01030029,
+      "balance_loss_clip": 1.04761338,
+      "balance_loss_mlp": 1.02308488,
+      "epoch": 0.7254253592256358,
+      "flos": 12641346938880.0,
+      "grad_norm": 2.0503261496637943,
+      "language_loss": 0.75589406,
+      "learning_rate": 7.399270327748727e-07,
+      "loss": 0.77785695,
+      "num_input_tokens_seen": 129763500,
+      "step": 6033,
+      "time_per_iteration": 2.5706191062927246
+    },
+    {
+      "auxiliary_loss_clip": 0.01196785,
+      "auxiliary_loss_mlp": 0.01378058,
+      "balance_loss_clip": 1.04294944,
+      "balance_loss_mlp": 1.00017595,
+      "epoch": 0.7255456021162748,
+      "flos": 27199208966400.0,
+      "grad_norm": 1.7785387731475246,
+      "language_loss": 0.74190509,
+      "learning_rate": 7.39322205832577e-07,
+      "loss": 0.76765358,
+      "num_input_tokens_seen": 129784390,
+      "step": 6034,
+      "time_per_iteration": 2.7318832874298096
+    },
+    {
+      "auxiliary_loss_clip": 0.01182964,
+      "auxiliary_loss_mlp": 0.01028921,
+      "balance_loss_clip": 1.04572868,
+      "balance_loss_mlp": 1.02107739,
+      "epoch": 0.725665845006914,
+      "flos": 21288205088640.0,
+      "grad_norm": 2.2075859393479167,
+      "language_loss": 0.80842203,
+      "learning_rate": 7.387175701341009e-07,
+      "loss": 0.8305409,
+      "num_input_tokens_seen": 129803060,
+      "step": 6035,
+      "time_per_iteration": 2.6563949584960938
+    },
+    {
+      "auxiliary_loss_clip": 0.01178203,
+      "auxiliary_loss_mlp": 0.01027596,
+      "balance_loss_clip": 1.04455328,
+      "balance_loss_mlp": 1.01988888,
+      "epoch": 0.7257860878975531,
+      "flos": 16033684129920.0,
+      "grad_norm": 2.528688211039615,
+      "language_loss": 0.71745813,
+      "learning_rate": 7.381131257711659e-07,
+      "loss": 0.73951608,
+      "num_input_tokens_seen": 129820165,
+      "step": 6036,
+      "time_per_iteration": 2.5442371368408203
+    },
+    {
+      "auxiliary_loss_clip": 0.01184162,
+      "auxiliary_loss_mlp": 0.01027096,
+      "balance_loss_clip": 1.04807639,
+      "balance_loss_mlp": 1.02017641,
+      "epoch": 0.7259063307881921,
+      "flos": 12129943052160.0,
+      "grad_norm": 1.7989256441552914,
+      "language_loss": 0.83298898,
+      "learning_rate": 7.375088728354677e-07,
+      "loss": 0.85510153,
+      "num_input_tokens_seen": 129835195,
+      "step": 6037,
+      "time_per_iteration": 3.4761762619018555
+    },
+    {
+      "auxiliary_loss_clip": 0.01199158,
+      "auxiliary_loss_mlp": 0.01027371,
+      "balance_loss_clip": 1.04356432,
+      "balance_loss_mlp": 1.02075803,
+      "epoch": 0.7260265736788313,
+      "flos": 30443845432320.0,
+      "grad_norm": 3.6902561395019764,
+      "language_loss": 0.6747067,
+      "learning_rate": 7.369048114186691e-07,
+      "loss": 0.69697195,
+      "num_input_tokens_seen": 129856240,
+      "step": 6038,
+      "time_per_iteration": 2.7585601806640625
+    },
+    {
+      "auxiliary_loss_clip": 0.01201084,
+      "auxiliary_loss_mlp": 0.01378551,
+      "balance_loss_clip": 1.04303741,
+      "balance_loss_mlp": 1.00020504,
+      "epoch": 0.7261468165694703,
+      "flos": 21142264129920.0,
+      "grad_norm": 1.836540556609348,
+      "language_loss": 0.83121419,
+      "learning_rate": 7.363009416124055e-07,
+      "loss": 0.85701054,
+      "num_input_tokens_seen": 129875565,
+      "step": 6039,
+      "time_per_iteration": 3.573007583618164
+    },
+    {
+      "auxiliary_loss_clip": 0.01201025,
+      "auxiliary_loss_mlp": 0.0102385,
+      "balance_loss_clip": 1.04633784,
+      "balance_loss_mlp": 1.01633382,
+      "epoch": 0.7262670594601094,
+      "flos": 22306308180480.0,
+      "grad_norm": 6.205297741608696,
+      "language_loss": 0.6283465,
+      "learning_rate": 7.356972635082852e-07,
+      "loss": 0.65059525,
+      "num_input_tokens_seen": 129894420,
+      "step": 6040,
+      "time_per_iteration": 2.7008700370788574
+    },
+    {
+      "auxiliary_loss_clip": 0.01206501,
+      "auxiliary_loss_mlp": 0.01026371,
+      "balance_loss_clip": 1.04768264,
+      "balance_loss_mlp": 1.01803815,
+      "epoch": 0.7263873023507486,
+      "flos": 25335049950720.0,
+      "grad_norm": 1.9406897655742137,
+      "language_loss": 0.75475132,
+      "learning_rate": 7.35093777197884e-07,
+      "loss": 0.77708,
+      "num_input_tokens_seen": 129914490,
+      "step": 6041,
+      "time_per_iteration": 2.8030083179473877
+    },
+    {
+      "auxiliary_loss_clip": 0.0118593,
+      "auxiliary_loss_mlp": 0.01024339,
+      "balance_loss_clip": 1.04612207,
+      "balance_loss_mlp": 1.01716256,
+      "epoch": 0.7265075452413876,
+      "flos": 23878621192320.0,
+      "grad_norm": 2.915397215192861,
+      "language_loss": 0.85814601,
+      "learning_rate": 7.344904827727525e-07,
+      "loss": 0.88024867,
+      "num_input_tokens_seen": 129931670,
+      "step": 6042,
+      "time_per_iteration": 3.5559122562408447
+    },
+    {
+      "auxiliary_loss_clip": 0.01195239,
+      "auxiliary_loss_mlp": 0.0102614,
+      "balance_loss_clip": 1.0417192,
+      "balance_loss_mlp": 1.01892447,
+      "epoch": 0.7266277881320267,
+      "flos": 28724549967360.0,
+      "grad_norm": 3.5641362521491953,
+      "language_loss": 0.73911893,
+      "learning_rate": 7.338873803244076e-07,
+      "loss": 0.76133275,
+      "num_input_tokens_seen": 129946905,
+      "step": 6043,
+      "time_per_iteration": 2.754167079925537
+    },
+    {
+      "auxiliary_loss_clip": 0.01184744,
+      "auxiliary_loss_mlp": 0.01027663,
+      "balance_loss_clip": 1.04661679,
+      "balance_loss_mlp": 1.02077603,
+      "epoch": 0.7267480310226658,
+      "flos": 24863507182080.0,
+      "grad_norm": 2.006736100618886,
+      "language_loss": 0.80845463,
+      "learning_rate": 7.332844699443401e-07,
+      "loss": 0.83057868,
+      "num_input_tokens_seen": 129965505,
+      "step": 6044,
+      "time_per_iteration": 3.5816147327423096
+    },
+    {
+      "auxiliary_loss_clip": 0.01195182,
+      "auxiliary_loss_mlp": 0.01027966,
+      "balance_loss_clip": 1.04160345,
+      "balance_loss_mlp": 1.02064693,
+      "epoch": 0.7268682739133049,
+      "flos": 27198490694400.0,
+      "grad_norm": 2.027395796460133,
+      "language_loss": 0.75629508,
+      "learning_rate": 7.326817517240121e-07,
+      "loss": 0.77852654,
+      "num_input_tokens_seen": 129987210,
+      "step": 6045,
+      "time_per_iteration": 2.7765259742736816
+    },
+    {
+      "auxiliary_loss_clip": 0.01177996,
+      "auxiliary_loss_mlp": 0.0137827,
+      "balance_loss_clip": 1.04550576,
+      "balance_loss_mlp": 1.00017369,
+      "epoch": 0.7269885168039439,
+      "flos": 33508138688640.0,
+      "grad_norm": 3.0477389671211124,
+      "language_loss": 0.83498675,
+      "learning_rate": 7.320792257548545e-07,
+      "loss": 0.86054945,
+      "num_input_tokens_seen": 130008385,
+      "step": 6046,
+      "time_per_iteration": 2.751546621322632
+    },
+    {
+      "auxiliary_loss_clip": 0.01192709,
+      "auxiliary_loss_mlp": 0.01025426,
+      "balance_loss_clip": 1.04718685,
+      "balance_loss_mlp": 1.01815379,
+      "epoch": 0.7271087596945831,
+      "flos": 24313750548480.0,
+      "grad_norm": 2.0534527459289817,
+      "language_loss": 0.76294822,
+      "learning_rate": 7.314768921282704e-07,
+      "loss": 0.78512955,
+      "num_input_tokens_seen": 130029040,
+      "step": 6047,
+      "time_per_iteration": 2.64748215675354
+    },
+    {
+      "auxiliary_loss_clip": 0.01180802,
+      "auxiliary_loss_mlp": 0.01022722,
+      "balance_loss_clip": 1.04649973,
+      "balance_loss_mlp": 1.01558781,
+      "epoch": 0.7272290025852222,
+      "flos": 23805147922560.0,
+      "grad_norm": 3.2051106725683156,
+      "language_loss": 0.71583748,
+      "learning_rate": 7.30874750935633e-07,
+      "loss": 0.73787272,
+      "num_input_tokens_seen": 130048725,
+      "step": 6048,
+      "time_per_iteration": 2.7473857402801514
+    },
+    {
+      "auxiliary_loss_clip": 0.01196926,
+      "auxiliary_loss_mlp": 0.01023462,
+      "balance_loss_clip": 1.04597306,
+      "balance_loss_mlp": 1.01563585,
+      "epoch": 0.7273492454758612,
+      "flos": 16720367408640.0,
+      "grad_norm": 2.4381028293737526,
+      "language_loss": 0.79374325,
+      "learning_rate": 7.30272802268286e-07,
+      "loss": 0.81594718,
+      "num_input_tokens_seen": 130065720,
+      "step": 6049,
+      "time_per_iteration": 2.6383049488067627
+    },
+    {
+      "auxiliary_loss_clip": 0.01186062,
+      "auxiliary_loss_mlp": 0.01021996,
+      "balance_loss_clip": 1.03796315,
+      "balance_loss_mlp": 1.01568115,
+      "epoch": 0.7274694883665004,
+      "flos": 28031330413440.0,
+      "grad_norm": 1.7381472097121484,
+      "language_loss": 0.76301634,
+      "learning_rate": 7.29671046217547e-07,
+      "loss": 0.785097,
+      "num_input_tokens_seen": 130084830,
+      "step": 6050,
+      "time_per_iteration": 2.795030117034912
+    },
+    {
+      "auxiliary_loss_clip": 0.01198659,
+      "auxiliary_loss_mlp": 0.01026259,
+      "balance_loss_clip": 1.04493868,
+      "balance_loss_mlp": 1.0192256,
+      "epoch": 0.7275897312571394,
+      "flos": 30372706546560.0,
+      "grad_norm": 2.1704444121714506,
+      "language_loss": 0.8186928,
+      "learning_rate": 7.290694828746988e-07,
+      "loss": 0.84094197,
+      "num_input_tokens_seen": 130104495,
+      "step": 6051,
+      "time_per_iteration": 2.7544920444488525
+    },
+    {
+      "auxiliary_loss_clip": 0.01201128,
+      "auxiliary_loss_mlp": 0.01023469,
+      "balance_loss_clip": 1.04415345,
+      "balance_loss_mlp": 1.01631939,
+      "epoch": 0.7277099741477785,
+      "flos": 19204775498880.0,
+      "grad_norm": 1.824842360981672,
+      "language_loss": 0.8583374,
+      "learning_rate": 7.284681123310004e-07,
+      "loss": 0.88058341,
+      "num_input_tokens_seen": 130123210,
+      "step": 6052,
+      "time_per_iteration": 2.745758056640625
+    },
+    {
+      "auxiliary_loss_clip": 0.01176238,
+      "auxiliary_loss_mlp": 0.0102293,
+      "balance_loss_clip": 1.04612815,
+      "balance_loss_mlp": 1.01547348,
+      "epoch": 0.7278302170384175,
+      "flos": 20667884186880.0,
+      "grad_norm": 5.063608089053939,
+      "language_loss": 0.79702652,
+      "learning_rate": 7.27866934677678e-07,
+      "loss": 0.81901813,
+      "num_input_tokens_seen": 130142880,
+      "step": 6053,
+      "time_per_iteration": 2.574784755706787
+    },
+    {
+      "auxiliary_loss_clip": 0.01205174,
+      "auxiliary_loss_mlp": 0.01027467,
+      "balance_loss_clip": 1.04546309,
+      "balance_loss_mlp": 1.01983154,
+      "epoch": 0.7279504599290567,
+      "flos": 19093200877440.0,
+      "grad_norm": 2.0547814788472007,
+      "language_loss": 0.78082669,
+      "learning_rate": 7.272659500059297e-07,
+      "loss": 0.8031531,
+      "num_input_tokens_seen": 130160220,
+      "step": 6054,
+      "time_per_iteration": 2.744903087615967
+    },
+    {
+      "auxiliary_loss_clip": 0.0117043,
+      "auxiliary_loss_mlp": 0.01025998,
+      "balance_loss_clip": 1.04549599,
+      "balance_loss_mlp": 1.01801074,
+      "epoch": 0.7280707028196958,
+      "flos": 19062174504960.0,
+      "grad_norm": 6.7623281184743025,
+      "language_loss": 0.80330729,
+      "learning_rate": 7.266651584069264e-07,
+      "loss": 0.82527155,
+      "num_input_tokens_seen": 130177885,
+      "step": 6055,
+      "time_per_iteration": 2.6722373962402344
+    },
+    {
+      "auxiliary_loss_clip": 0.01185156,
+      "auxiliary_loss_mlp": 0.01030594,
+      "balance_loss_clip": 1.05119872,
+      "balance_loss_mlp": 1.02345371,
+      "epoch": 0.7281909457103348,
+      "flos": 37196308293120.0,
+      "grad_norm": 1.7971927792746718,
+      "language_loss": 0.56936973,
+      "learning_rate": 7.260645599718045e-07,
+      "loss": 0.59152722,
+      "num_input_tokens_seen": 130204240,
+      "step": 6056,
+      "time_per_iteration": 2.755206823348999
+    },
+    {
+      "auxiliary_loss_clip": 0.01188219,
+      "auxiliary_loss_mlp": 0.01024655,
+      "balance_loss_clip": 1.0459094,
+      "balance_loss_mlp": 1.01693618,
+      "epoch": 0.728311188600974,
+      "flos": 20667094087680.0,
+      "grad_norm": 2.196513876142502,
+      "language_loss": 0.67058754,
+      "learning_rate": 7.254641547916767e-07,
+      "loss": 0.6927163,
+      "num_input_tokens_seen": 130221735,
+      "step": 6057,
+      "time_per_iteration": 2.6978182792663574
+    },
+    {
+      "auxiliary_loss_clip": 0.01170917,
+      "auxiliary_loss_mlp": 0.01027579,
+      "balance_loss_clip": 1.05075407,
+      "balance_loss_mlp": 1.02008688,
+      "epoch": 0.728431431491613,
+      "flos": 28840685616000.0,
+      "grad_norm": 1.888765548044618,
+      "language_loss": 0.69200224,
+      "learning_rate": 7.248639429576226e-07,
+      "loss": 0.71398723,
+      "num_input_tokens_seen": 130241190,
+      "step": 6058,
+      "time_per_iteration": 2.630272150039673
+    },
+    {
+      "auxiliary_loss_clip": 0.01181372,
+      "auxiliary_loss_mlp": 0.01025829,
+      "balance_loss_clip": 1.04758406,
+      "balance_loss_mlp": 1.01840782,
+      "epoch": 0.7285516743822521,
+      "flos": 25991856092160.0,
+      "grad_norm": 2.055413048205087,
+      "language_loss": 0.71882492,
+      "learning_rate": 7.242639245606959e-07,
+      "loss": 0.74089694,
+      "num_input_tokens_seen": 130260980,
+      "step": 6059,
+      "time_per_iteration": 2.667597770690918
+    },
+    {
+      "auxiliary_loss_clip": 0.01190528,
+      "auxiliary_loss_mlp": 0.01024536,
+      "balance_loss_clip": 1.04303741,
+      "balance_loss_mlp": 1.01717532,
+      "epoch": 0.7286719172728913,
+      "flos": 16399721675520.0,
+      "grad_norm": 1.589839794554265,
+      "language_loss": 0.82265919,
+      "learning_rate": 7.236640996919168e-07,
+      "loss": 0.84480989,
+      "num_input_tokens_seen": 130280025,
+      "step": 6060,
+      "time_per_iteration": 2.768470525741577
+    },
+    {
+      "auxiliary_loss_clip": 0.01181528,
+      "auxiliary_loss_mlp": 0.01025386,
+      "balance_loss_clip": 1.04687738,
+      "balance_loss_mlp": 1.01825464,
+      "epoch": 0.7287921601635303,
+      "flos": 22018161277440.0,
+      "grad_norm": 1.7030264172915883,
+      "language_loss": 0.70640844,
+      "learning_rate": 7.230644684422782e-07,
+      "loss": 0.7284776,
+      "num_input_tokens_seen": 130300255,
+      "step": 6061,
+      "time_per_iteration": 2.638244152069092
+    },
+    {
+      "auxiliary_loss_clip": 0.01191639,
+      "auxiliary_loss_mlp": 0.01024467,
+      "balance_loss_clip": 1.042804,
+      "balance_loss_mlp": 1.01689124,
+      "epoch": 0.7289124030541694,
+      "flos": 24600927784320.0,
+      "grad_norm": 1.7337853267661987,
+      "language_loss": 0.81551641,
+      "learning_rate": 7.224650309027451e-07,
+      "loss": 0.83767748,
+      "num_input_tokens_seen": 130320005,
+      "step": 6062,
+      "time_per_iteration": 2.7018988132476807
+    },
+    {
+      "auxiliary_loss_clip": 0.01183937,
+      "auxiliary_loss_mlp": 0.01025625,
+      "balance_loss_clip": 1.04929936,
+      "balance_loss_mlp": 1.01877308,
+      "epoch": 0.7290326459448085,
+      "flos": 21393638484480.0,
+      "grad_norm": 2.7068119732793665,
+      "language_loss": 0.68438137,
+      "learning_rate": 7.218657871642506e-07,
+      "loss": 0.70647699,
+      "num_input_tokens_seen": 130338810,
+      "step": 6063,
+      "time_per_iteration": 3.4926767349243164
+    },
+    {
+      "auxiliary_loss_clip": 0.01172921,
+      "auxiliary_loss_mlp": 0.0102669,
+      "balance_loss_clip": 1.04960883,
+      "balance_loss_mlp": 1.01857758,
+      "epoch": 0.7291528888354476,
+      "flos": 18587686821120.0,
+      "grad_norm": 2.3374379585163823,
+      "language_loss": 0.62403363,
+      "learning_rate": 7.212667373177012e-07,
+      "loss": 0.64602971,
+      "num_input_tokens_seen": 130353805,
+      "step": 6064,
+      "time_per_iteration": 3.4809300899505615
+    },
+    {
+      "auxiliary_loss_clip": 0.01196482,
+      "auxiliary_loss_mlp": 0.01028678,
+      "balance_loss_clip": 1.04349566,
+      "balance_loss_mlp": 1.02161169,
+      "epoch": 0.7292731317260867,
+      "flos": 18951066760320.0,
+      "grad_norm": 1.861160195799337,
+      "language_loss": 0.75183237,
+      "learning_rate": 7.206678814539704e-07,
+      "loss": 0.77408397,
+      "num_input_tokens_seen": 130372105,
+      "step": 6065,
+      "time_per_iteration": 2.6677329540252686
+    },
+    {
+      "auxiliary_loss_clip": 0.0121623,
+      "auxiliary_loss_mlp": 0.01023178,
+      "balance_loss_clip": 1.04385948,
+      "balance_loss_mlp": 1.01636231,
+      "epoch": 0.7293933746167258,
+      "flos": 21067569797760.0,
+      "grad_norm": 1.5032020559890729,
+      "language_loss": 0.72695565,
+      "learning_rate": 7.20069219663904e-07,
+      "loss": 0.74934971,
+      "num_input_tokens_seen": 130391990,
+      "step": 6066,
+      "time_per_iteration": 2.7818243503570557
+    },
+    {
+      "auxiliary_loss_clip": 0.011798,
+      "auxiliary_loss_mlp": 0.01022812,
+      "balance_loss_clip": 1.04412043,
+      "balance_loss_mlp": 1.01489639,
+      "epoch": 0.7295136175073649,
+      "flos": 22453326547200.0,
+      "grad_norm": 1.6672513697665357,
+      "language_loss": 0.79251158,
+      "learning_rate": 7.1947075203832e-07,
+      "loss": 0.81453764,
+      "num_input_tokens_seen": 130411970,
+      "step": 6067,
+      "time_per_iteration": 2.6209566593170166
+    },
+    {
+      "auxiliary_loss_clip": 0.0106401,
+      "auxiliary_loss_mlp": 0.01000064,
+      "balance_loss_clip": 1.01101995,
+      "balance_loss_mlp": 0.99897903,
+      "epoch": 0.7296338603980039,
+      "flos": 56125506648960.0,
+      "grad_norm": 0.8648804799720224,
+      "language_loss": 0.60121965,
+      "learning_rate": 7.188724786680049e-07,
+      "loss": 0.62186038,
+      "num_input_tokens_seen": 130472440,
+      "step": 6068,
+      "time_per_iteration": 4.014440059661865
+    },
+    {
+      "auxiliary_loss_clip": 0.01188935,
+      "auxiliary_loss_mlp": 0.01024187,
+      "balance_loss_clip": 1.04491007,
+      "balance_loss_mlp": 1.01738,
+      "epoch": 0.7297541032886431,
+      "flos": 25228287751680.0,
+      "grad_norm": 1.5639542168003644,
+      "language_loss": 0.7561034,
+      "learning_rate": 7.182743996437162e-07,
+      "loss": 0.77823472,
+      "num_input_tokens_seen": 130491975,
+      "step": 6069,
+      "time_per_iteration": 3.6178057193756104
+    },
+    {
+      "auxiliary_loss_clip": 0.0120118,
+      "auxiliary_loss_mlp": 0.0103078,
+      "balance_loss_clip": 1.04309237,
+      "balance_loss_mlp": 1.02309716,
+      "epoch": 0.7298743461792822,
+      "flos": 26467600752000.0,
+      "grad_norm": 2.051943293240661,
+      "language_loss": 0.68636823,
+      "learning_rate": 7.176765150561819e-07,
+      "loss": 0.70868784,
+      "num_input_tokens_seen": 130510580,
+      "step": 6070,
+      "time_per_iteration": 2.7776057720184326
+    },
+    {
+      "auxiliary_loss_clip": 0.01170155,
+      "auxiliary_loss_mlp": 0.01028295,
+      "balance_loss_clip": 1.04513586,
+      "balance_loss_mlp": 1.02079356,
+      "epoch": 0.7299945890699212,
+      "flos": 19569053278080.0,
+      "grad_norm": 2.296087713104795,
+      "language_loss": 0.79930359,
+      "learning_rate": 7.170788249961002e-07,
+      "loss": 0.82128811,
+      "num_input_tokens_seen": 130529090,
+      "step": 6071,
+      "time_per_iteration": 2.628854513168335
+    },
+    {
+      "auxiliary_loss_clip": 0.01168567,
+      "auxiliary_loss_mlp": 0.01030756,
+      "balance_loss_clip": 1.04705346,
+      "balance_loss_mlp": 1.02344871,
+      "epoch": 0.7301148319605604,
+      "flos": 22928963466240.0,
+      "grad_norm": 1.9218451681829987,
+      "language_loss": 0.88114464,
+      "learning_rate": 7.164813295541418e-07,
+      "loss": 0.90313786,
+      "num_input_tokens_seen": 130548655,
+      "step": 6072,
+      "time_per_iteration": 2.573256254196167
+    },
+    {
+      "auxiliary_loss_clip": 0.01188307,
+      "auxiliary_loss_mlp": 0.01021794,
+      "balance_loss_clip": 1.0429734,
+      "balance_loss_mlp": 1.01457334,
+      "epoch": 0.7302350748511994,
+      "flos": 25369703596800.0,
+      "grad_norm": 1.6127446086862804,
+      "language_loss": 0.70415288,
+      "learning_rate": 7.15884028820944e-07,
+      "loss": 0.72625387,
+      "num_input_tokens_seen": 130567710,
+      "step": 6073,
+      "time_per_iteration": 2.711238145828247
+    },
+    {
+      "auxiliary_loss_clip": 0.01189245,
+      "auxiliary_loss_mlp": 0.01023056,
+      "balance_loss_clip": 1.0407474,
+      "balance_loss_mlp": 1.01581156,
+      "epoch": 0.7303553177418385,
+      "flos": 27819170732160.0,
+      "grad_norm": 2.0085240489354366,
+      "language_loss": 0.60349864,
+      "learning_rate": 7.152869228871185e-07,
+      "loss": 0.62562168,
+      "num_input_tokens_seen": 130590195,
+      "step": 6074,
+      "time_per_iteration": 2.7425546646118164
+    },
+    {
+      "auxiliary_loss_clip": 0.01180478,
+      "auxiliary_loss_mlp": 0.01026336,
+      "balance_loss_clip": 1.04381347,
+      "balance_loss_mlp": 1.01907659,
+      "epoch": 0.7304755606324776,
+      "flos": 24426510318720.0,
+      "grad_norm": 1.7996436249853922,
+      "language_loss": 0.72029638,
+      "learning_rate": 7.146900118432457e-07,
+      "loss": 0.74236453,
+      "num_input_tokens_seen": 130609940,
+      "step": 6075,
+      "time_per_iteration": 2.7288436889648438
+    },
+    {
+      "auxiliary_loss_clip": 0.01215403,
+      "auxiliary_loss_mlp": 0.01021198,
+      "balance_loss_clip": 1.03409803,
+      "balance_loss_mlp": 1.01393247,
+      "epoch": 0.7305958035231167,
+      "flos": 23840483927040.0,
+      "grad_norm": 1.5812634936764853,
+      "language_loss": 0.86049306,
+      "learning_rate": 7.140932957798753e-07,
+      "loss": 0.88285911,
+      "num_input_tokens_seen": 130628380,
+      "step": 6076,
+      "time_per_iteration": 2.8614115715026855
+    },
+    {
+      "auxiliary_loss_clip": 0.01190218,
+      "auxiliary_loss_mlp": 0.01025794,
+      "balance_loss_clip": 1.04406655,
+      "balance_loss_mlp": 1.01835775,
+      "epoch": 0.7307160464137558,
+      "flos": 16726939597440.0,
+      "grad_norm": 2.156049211047905,
+      "language_loss": 0.71731395,
+      "learning_rate": 7.134967747875309e-07,
+      "loss": 0.73947406,
+      "num_input_tokens_seen": 130646590,
+      "step": 6077,
+      "time_per_iteration": 3.0485148429870605
+    },
+    {
+      "auxiliary_loss_clip": 0.01173466,
+      "auxiliary_loss_mlp": 0.0102741,
+      "balance_loss_clip": 1.04532385,
+      "balance_loss_mlp": 1.01967382,
+      "epoch": 0.7308362893043949,
+      "flos": 21798280172160.0,
+      "grad_norm": 1.8405196496961436,
+      "language_loss": 0.81755722,
+      "learning_rate": 7.129004489567014e-07,
+      "loss": 0.83956593,
+      "num_input_tokens_seen": 130664070,
+      "step": 6078,
+      "time_per_iteration": 2.6702964305877686
+    },
+    {
+      "auxiliary_loss_clip": 0.01199949,
+      "auxiliary_loss_mlp": 0.01025554,
+      "balance_loss_clip": 1.04400802,
+      "balance_loss_mlp": 1.01828575,
+      "epoch": 0.730956532195034,
+      "flos": 10707377840640.0,
+      "grad_norm": 2.3871242478863124,
+      "language_loss": 0.77941382,
+      "learning_rate": 7.123043183778512e-07,
+      "loss": 0.80166894,
+      "num_input_tokens_seen": 130681400,
+      "step": 6079,
+      "time_per_iteration": 2.6576285362243652
+    },
+    {
+      "auxiliary_loss_clip": 0.01200578,
+      "auxiliary_loss_mlp": 0.01022225,
+      "balance_loss_clip": 1.0448072,
+      "balance_loss_mlp": 1.01484609,
+      "epoch": 0.731076775085673,
+      "flos": 19791987039360.0,
+      "grad_norm": 1.5277777787617683,
+      "language_loss": 0.65324593,
+      "learning_rate": 7.117083831414114e-07,
+      "loss": 0.67547393,
+      "num_input_tokens_seen": 130700675,
+      "step": 6080,
+      "time_per_iteration": 2.708158016204834
+    },
+    {
+      "auxiliary_loss_clip": 0.01167625,
+      "auxiliary_loss_mlp": 0.01022368,
+      "balance_loss_clip": 1.04830146,
+      "balance_loss_mlp": 1.01480389,
+      "epoch": 0.7311970179763122,
+      "flos": 20447033414400.0,
+      "grad_norm": 1.9324290443151089,
+      "language_loss": 0.69625211,
+      "learning_rate": 7.11112643337787e-07,
+      "loss": 0.71815205,
+      "num_input_tokens_seen": 130719720,
+      "step": 6081,
+      "time_per_iteration": 2.525129795074463
+    },
+    {
+      "auxiliary_loss_clip": 0.01190135,
+      "auxiliary_loss_mlp": 0.01021788,
+      "balance_loss_clip": 1.04708076,
+      "balance_loss_mlp": 1.01416469,
+      "epoch": 0.7313172608669513,
+      "flos": 18513818501760.0,
+      "grad_norm": 2.4577456202253254,
+      "language_loss": 0.7636953,
+      "learning_rate": 7.10517099057349e-07,
+      "loss": 0.78581452,
+      "num_input_tokens_seen": 130736670,
+      "step": 6082,
+      "time_per_iteration": 2.7003471851348877
+    },
+    {
+      "auxiliary_loss_clip": 0.01186088,
+      "auxiliary_loss_mlp": 0.01028351,
+      "balance_loss_clip": 1.04417968,
+      "balance_loss_mlp": 1.01985145,
+      "epoch": 0.7314375037575903,
+      "flos": 16180738410240.0,
+      "grad_norm": 4.227569147057043,
+      "language_loss": 0.61408579,
+      "learning_rate": 7.099217503904411e-07,
+      "loss": 0.63623023,
+      "num_input_tokens_seen": 130754525,
+      "step": 6083,
+      "time_per_iteration": 2.660508155822754
+    },
+    {
+      "auxiliary_loss_clip": 0.01191381,
+      "auxiliary_loss_mlp": 0.01027604,
+      "balance_loss_clip": 1.04501843,
+      "balance_loss_mlp": 1.02020681,
+      "epoch": 0.7315577466482295,
+      "flos": 17967940536960.0,
+      "grad_norm": 2.8762190811251775,
+      "language_loss": 0.89965397,
+      "learning_rate": 7.093265974273788e-07,
+      "loss": 0.92184389,
+      "num_input_tokens_seen": 130772420,
+      "step": 6084,
+      "time_per_iteration": 2.647650718688965
+    },
+    {
+      "auxiliary_loss_clip": 0.01178977,
+      "auxiliary_loss_mlp": 0.01023679,
+      "balance_loss_clip": 1.04539371,
+      "balance_loss_mlp": 1.016819,
+      "epoch": 0.7316779895388685,
+      "flos": 18405440190720.0,
+      "grad_norm": 1.8511632274531677,
+      "language_loss": 0.71864903,
+      "learning_rate": 7.087316402584447e-07,
+      "loss": 0.74067557,
+      "num_input_tokens_seen": 130791245,
+      "step": 6085,
+      "time_per_iteration": 2.5818440914154053
+    },
+    {
+      "auxiliary_loss_clip": 0.01170522,
+      "auxiliary_loss_mlp": 0.01029632,
+      "balance_loss_clip": 1.04906154,
+      "balance_loss_mlp": 1.0220505,
+      "epoch": 0.7317982324295076,
+      "flos": 17928294900480.0,
+      "grad_norm": 2.4956223611838655,
+      "language_loss": 0.86670518,
+      "learning_rate": 7.081368789738953e-07,
+      "loss": 0.8887068,
+      "num_input_tokens_seen": 130808445,
+      "step": 6086,
+      "time_per_iteration": 2.5931246280670166
+    },
+    {
+      "auxiliary_loss_clip": 0.01180357,
+      "auxiliary_loss_mlp": 0.0102765,
+      "balance_loss_clip": 1.04202676,
+      "balance_loss_mlp": 1.01982939,
+      "epoch": 0.7319184753201466,
+      "flos": 27229840289280.0,
+      "grad_norm": 1.9789066006958729,
+      "language_loss": 0.77718216,
+      "learning_rate": 7.075423136639537e-07,
+      "loss": 0.79926223,
+      "num_input_tokens_seen": 130827700,
+      "step": 6087,
+      "time_per_iteration": 2.666550874710083
+    },
+    {
+      "auxiliary_loss_clip": 0.01189039,
+      "auxiliary_loss_mlp": 0.01025022,
+      "balance_loss_clip": 1.04215217,
+      "balance_loss_mlp": 1.01755929,
+      "epoch": 0.7320387182107858,
+      "flos": 37448544574080.0,
+      "grad_norm": 1.689474199829158,
+      "language_loss": 0.74596494,
+      "learning_rate": 7.069479444188149e-07,
+      "loss": 0.76810557,
+      "num_input_tokens_seen": 130848290,
+      "step": 6088,
+      "time_per_iteration": 2.852756977081299
+    },
+    {
+      "auxiliary_loss_clip": 0.01177115,
+      "auxiliary_loss_mlp": 0.0102565,
+      "balance_loss_clip": 1.04412234,
+      "balance_loss_mlp": 1.01737058,
+      "epoch": 0.7321589611014249,
+      "flos": 17859023521920.0,
+      "grad_norm": 1.7231034086182144,
+      "language_loss": 0.82297993,
+      "learning_rate": 7.063537713286453e-07,
+      "loss": 0.8450076,
+      "num_input_tokens_seen": 130865970,
+      "step": 6089,
+      "time_per_iteration": 3.5424041748046875
+    },
+    {
+      "auxiliary_loss_clip": 0.01192398,
+      "auxiliary_loss_mlp": 0.01023442,
+      "balance_loss_clip": 1.04463923,
+      "balance_loss_mlp": 1.01608443,
+      "epoch": 0.7322792039920639,
+      "flos": 26100593539200.0,
+      "grad_norm": 3.307800292984502,
+      "language_loss": 0.80989897,
+      "learning_rate": 7.057597944835803e-07,
+      "loss": 0.83205736,
+      "num_input_tokens_seen": 130885245,
+      "step": 6090,
+      "time_per_iteration": 3.4782044887542725
+    },
+    {
+      "auxiliary_loss_clip": 0.0120048,
+      "auxiliary_loss_mlp": 0.01028589,
+      "balance_loss_clip": 1.0426327,
+      "balance_loss_mlp": 1.02120447,
+      "epoch": 0.7323994468827031,
+      "flos": 25369093065600.0,
+      "grad_norm": 1.924366011861328,
+      "language_loss": 0.74741125,
+      "learning_rate": 7.051660139737253e-07,
+      "loss": 0.76970184,
+      "num_input_tokens_seen": 130903465,
+      "step": 6091,
+      "time_per_iteration": 2.688746213912964
+    },
+    {
+      "auxiliary_loss_clip": 0.01175503,
+      "auxiliary_loss_mlp": 0.01378747,
+      "balance_loss_clip": 1.04688644,
+      "balance_loss_mlp": 1.00022411,
+      "epoch": 0.7325196897733421,
+      "flos": 26907075653760.0,
+      "grad_norm": 2.2724708887975593,
+      "language_loss": 0.76454926,
+      "learning_rate": 7.045724298891565e-07,
+      "loss": 0.79009175,
+      "num_input_tokens_seen": 130922935,
+      "step": 6092,
+      "time_per_iteration": 2.6312081813812256
+    },
+    {
+      "auxiliary_loss_clip": 0.01178267,
+      "auxiliary_loss_mlp": 0.01024752,
+      "balance_loss_clip": 1.04663444,
+      "balance_loss_mlp": 1.01767075,
+      "epoch": 0.7326399326639812,
+      "flos": 25775781828480.0,
+      "grad_norm": 1.948586851555813,
+      "language_loss": 0.69294655,
+      "learning_rate": 7.039790423199192e-07,
+      "loss": 0.71497679,
+      "num_input_tokens_seen": 130942575,
+      "step": 6093,
+      "time_per_iteration": 2.6971118450164795
+    },
+    {
+      "auxiliary_loss_clip": 0.01189344,
+      "auxiliary_loss_mlp": 0.01024712,
+      "balance_loss_clip": 1.04453897,
+      "balance_loss_mlp": 1.01764917,
+      "epoch": 0.7327601755546204,
+      "flos": 21032269706880.0,
+      "grad_norm": 2.587289352474979,
+      "language_loss": 0.78003788,
+      "learning_rate": 7.033858513560322e-07,
+      "loss": 0.80217838,
+      "num_input_tokens_seen": 130958870,
+      "step": 6094,
+      "time_per_iteration": 3.609234094619751
+    },
+    {
+      "auxiliary_loss_clip": 0.01180559,
+      "auxiliary_loss_mlp": 0.01025292,
+      "balance_loss_clip": 1.0476079,
+      "balance_loss_mlp": 1.01821053,
+      "epoch": 0.7328804184452594,
+      "flos": 16289224462080.0,
+      "grad_norm": 2.4707709147557053,
+      "language_loss": 0.7634908,
+      "learning_rate": 7.027928570874794e-07,
+      "loss": 0.78554928,
+      "num_input_tokens_seen": 130977060,
+      "step": 6095,
+      "time_per_iteration": 2.579631805419922
+    },
+    {
+      "auxiliary_loss_clip": 0.01168628,
+      "auxiliary_loss_mlp": 0.01028469,
+      "balance_loss_clip": 1.0469507,
+      "balance_loss_mlp": 1.02136135,
+      "epoch": 0.7330006613358985,
+      "flos": 17858233422720.0,
+      "grad_norm": 1.9434185742390278,
+      "language_loss": 0.85688603,
+      "learning_rate": 7.022000596042194e-07,
+      "loss": 0.87885702,
+      "num_input_tokens_seen": 130994160,
+      "step": 6096,
+      "time_per_iteration": 3.4990663528442383
+    },
+    {
+      "auxiliary_loss_clip": 0.01197036,
+      "auxiliary_loss_mlp": 0.01023535,
+      "balance_loss_clip": 1.04065609,
+      "balance_loss_mlp": 1.01618552,
+      "epoch": 0.7331209042265376,
+      "flos": 22492074343680.0,
+      "grad_norm": 2.13268038240026,
+      "language_loss": 0.81863928,
+      "learning_rate": 7.016074589961784e-07,
+      "loss": 0.84084499,
+      "num_input_tokens_seen": 131012725,
+      "step": 6097,
+      "time_per_iteration": 2.7133679389953613
+    },
+    {
+      "auxiliary_loss_clip": 0.01182107,
+      "auxiliary_loss_mlp": 0.01028419,
+      "balance_loss_clip": 1.044204,
+      "balance_loss_mlp": 1.02111709,
+      "epoch": 0.7332411471171767,
+      "flos": 33072757937280.0,
+      "grad_norm": 1.7187253210942752,
+      "language_loss": 0.66960561,
+      "learning_rate": 7.01015055353253e-07,
+      "loss": 0.69171083,
+      "num_input_tokens_seen": 131035150,
+      "step": 6098,
+      "time_per_iteration": 2.7663004398345947
+    },
+    {
+      "auxiliary_loss_clip": 0.01193778,
+      "auxiliary_loss_mlp": 0.01031669,
+      "balance_loss_clip": 1.04161763,
+      "balance_loss_mlp": 1.0239383,
+      "epoch": 0.7333613900078157,
+      "flos": 22743017735040.0,
+      "grad_norm": 1.710120058354996,
+      "language_loss": 0.77775049,
+      "learning_rate": 7.004228487653123e-07,
+      "loss": 0.80000496,
+      "num_input_tokens_seen": 131055955,
+      "step": 6099,
+      "time_per_iteration": 2.7863609790802
+    },
+    {
+      "auxiliary_loss_clip": 0.0118925,
+      "auxiliary_loss_mlp": 0.01029655,
+      "balance_loss_clip": 1.03970313,
+      "balance_loss_mlp": 1.02235377,
+      "epoch": 0.7334816328984549,
+      "flos": 22346133384960.0,
+      "grad_norm": 1.8865169753340905,
+      "language_loss": 0.78291655,
+      "learning_rate": 6.998308393221906e-07,
+      "loss": 0.80510557,
+      "num_input_tokens_seen": 131074360,
+      "step": 6100,
+      "time_per_iteration": 2.6910626888275146
+    },
+    {
+      "auxiliary_loss_clip": 0.01199626,
+      "auxiliary_loss_mlp": 0.01029059,
+      "balance_loss_clip": 1.04607797,
+      "balance_loss_mlp": 1.02209735,
+      "epoch": 0.733601875789094,
+      "flos": 20736149984640.0,
+      "grad_norm": 2.101593586581799,
+      "language_loss": 0.71002603,
+      "learning_rate": 6.992390271136977e-07,
+      "loss": 0.73231292,
+      "num_input_tokens_seen": 131090070,
+      "step": 6101,
+      "time_per_iteration": 2.6742427349090576
+    },
+    {
+      "auxiliary_loss_clip": 0.01170685,
+      "auxiliary_loss_mlp": 0.01027222,
+      "balance_loss_clip": 1.04438806,
+      "balance_loss_mlp": 1.01956868,
+      "epoch": 0.733722118679733,
+      "flos": 22564362464640.0,
+      "grad_norm": 1.8618780843678522,
+      "language_loss": 0.85445005,
+      "learning_rate": 6.986474122296094e-07,
+      "loss": 0.87642908,
+      "num_input_tokens_seen": 131109185,
+      "step": 6102,
+      "time_per_iteration": 2.612504243850708
+    },
+    {
+      "auxiliary_loss_clip": 0.01173031,
+      "auxiliary_loss_mlp": 0.01026272,
+      "balance_loss_clip": 1.04922462,
+      "balance_loss_mlp": 1.01817822,
+      "epoch": 0.7338423615703722,
+      "flos": 20084192179200.0,
+      "grad_norm": 1.8924541459721953,
+      "language_loss": 0.72256911,
+      "learning_rate": 6.980559947596751e-07,
+      "loss": 0.74456215,
+      "num_input_tokens_seen": 131127725,
+      "step": 6103,
+      "time_per_iteration": 2.552619218826294
+    },
+    {
+      "auxiliary_loss_clip": 0.01203472,
+      "auxiliary_loss_mlp": 0.01023715,
+      "balance_loss_clip": 1.04179049,
+      "balance_loss_mlp": 1.01628196,
+      "epoch": 0.7339626044610112,
+      "flos": 21687675217920.0,
+      "grad_norm": 1.9151152012544503,
+      "language_loss": 0.75978482,
+      "learning_rate": 6.974647747936109e-07,
+      "loss": 0.78205669,
+      "num_input_tokens_seen": 131146110,
+      "step": 6104,
+      "time_per_iteration": 2.743434429168701
+    },
+    {
+      "auxiliary_loss_clip": 0.01171518,
+      "auxiliary_loss_mlp": 0.01379022,
+      "balance_loss_clip": 1.0487299,
+      "balance_loss_mlp": 1.00015557,
+      "epoch": 0.7340828473516503,
+      "flos": 15268248282240.0,
+      "grad_norm": 2.0788996162751303,
+      "language_loss": 0.82504153,
+      "learning_rate": 6.968737524211039e-07,
+      "loss": 0.85054702,
+      "num_input_tokens_seen": 131162920,
+      "step": 6105,
+      "time_per_iteration": 2.581481695175171
+    },
+    {
+      "auxiliary_loss_clip": 0.0118092,
+      "auxiliary_loss_mlp": 0.01025655,
+      "balance_loss_clip": 1.04969299,
+      "balance_loss_mlp": 1.01792407,
+      "epoch": 0.7342030902422895,
+      "flos": 22930112701440.0,
+      "grad_norm": 5.310867227557299,
+      "language_loss": 0.80077994,
+      "learning_rate": 6.962829277318132e-07,
+      "loss": 0.82284576,
+      "num_input_tokens_seen": 131182515,
+      "step": 6106,
+      "time_per_iteration": 2.5882279872894287
+    },
+    {
+      "auxiliary_loss_clip": 0.01181153,
+      "auxiliary_loss_mlp": 0.01023725,
+      "balance_loss_clip": 1.0487479,
+      "balance_loss_mlp": 1.0165782,
+      "epoch": 0.7343233331329285,
+      "flos": 25847890381440.0,
+      "grad_norm": 1.7736854091350782,
+      "language_loss": 0.83636844,
+      "learning_rate": 6.956923008153652e-07,
+      "loss": 0.85841721,
+      "num_input_tokens_seen": 131202280,
+      "step": 6107,
+      "time_per_iteration": 2.6737921237945557
+    },
+    {
+      "auxiliary_loss_clip": 0.0117918,
+      "auxiliary_loss_mlp": 0.01027186,
+      "balance_loss_clip": 1.04479468,
+      "balance_loss_mlp": 1.01989603,
+      "epoch": 0.7344435760235676,
+      "flos": 18478985287680.0,
+      "grad_norm": 1.9917501563887448,
+      "language_loss": 0.84426433,
+      "learning_rate": 6.951018717613593e-07,
+      "loss": 0.866328,
+      "num_input_tokens_seen": 131221295,
+      "step": 6108,
+      "time_per_iteration": 2.606050968170166
+    },
+    {
+      "auxiliary_loss_clip": 0.01176683,
+      "auxiliary_loss_mlp": 0.01029462,
+      "balance_loss_clip": 1.04664326,
+      "balance_loss_mlp": 1.02176142,
+      "epoch": 0.7345638189142067,
+      "flos": 17640040256640.0,
+      "grad_norm": 1.987261410983196,
+      "language_loss": 0.77980667,
+      "learning_rate": 6.945116406593614e-07,
+      "loss": 0.80186808,
+      "num_input_tokens_seen": 131240150,
+      "step": 6109,
+      "time_per_iteration": 2.615793228149414
+    },
+    {
+      "auxiliary_loss_clip": 0.0120908,
+      "auxiliary_loss_mlp": 0.01026035,
+      "balance_loss_clip": 1.04456532,
+      "balance_loss_mlp": 1.01882267,
+      "epoch": 0.7346840618048458,
+      "flos": 20260225756800.0,
+      "grad_norm": 2.432100175884562,
+      "language_loss": 0.74331546,
+      "learning_rate": 6.939216075989089e-07,
+      "loss": 0.7656666,
+      "num_input_tokens_seen": 131258080,
+      "step": 6110,
+      "time_per_iteration": 2.6850364208221436
+    },
+    {
+      "auxiliary_loss_clip": 0.01183897,
+      "auxiliary_loss_mlp": 0.01024016,
+      "balance_loss_clip": 1.0438931,
+      "balance_loss_mlp": 1.01669681,
+      "epoch": 0.7348043046954849,
+      "flos": 29023183641600.0,
+      "grad_norm": 2.628910261287824,
+      "language_loss": 0.65708685,
+      "learning_rate": 6.933317726695109e-07,
+      "loss": 0.67916596,
+      "num_input_tokens_seen": 131279310,
+      "step": 6111,
+      "time_per_iteration": 2.733431577682495
+    },
+    {
+      "auxiliary_loss_clip": 0.01195023,
+      "auxiliary_loss_mlp": 0.01026134,
+      "balance_loss_clip": 1.04624963,
+      "balance_loss_mlp": 1.01913655,
+      "epoch": 0.734924547586124,
+      "flos": 17931203902080.0,
+      "grad_norm": 2.8800822542652593,
+      "language_loss": 0.79872346,
+      "learning_rate": 6.92742135960644e-07,
+      "loss": 0.82093501,
+      "num_input_tokens_seen": 131297010,
+      "step": 6112,
+      "time_per_iteration": 2.695558547973633
+    },
+    {
+      "auxiliary_loss_clip": 0.01078072,
+      "auxiliary_loss_mlp": 0.00999653,
+      "balance_loss_clip": 1.01154435,
+      "balance_loss_mlp": 0.99857962,
+      "epoch": 0.7350447904767631,
+      "flos": 63588319850880.0,
+      "grad_norm": 0.8256245968338667,
+      "language_loss": 0.55724812,
+      "learning_rate": 6.921526975617556e-07,
+      "loss": 0.57802534,
+      "num_input_tokens_seen": 131356470,
+      "step": 6113,
+      "time_per_iteration": 3.2586100101470947
+    },
+    {
+      "auxiliary_loss_clip": 0.01188214,
+      "auxiliary_loss_mlp": 0.01025368,
+      "balance_loss_clip": 1.04413962,
+      "balance_loss_mlp": 1.01786423,
+      "epoch": 0.7351650333674021,
+      "flos": 21580015178880.0,
+      "grad_norm": 1.8594715950715932,
+      "language_loss": 0.75475806,
+      "learning_rate": 6.915634575622631e-07,
+      "loss": 0.77689397,
+      "num_input_tokens_seen": 131374985,
+      "step": 6114,
+      "time_per_iteration": 2.7182188034057617
+    },
+    {
+      "auxiliary_loss_clip": 0.01167562,
+      "auxiliary_loss_mlp": 0.01024272,
+      "balance_loss_clip": 1.04717326,
+      "balance_loss_mlp": 1.01711977,
+      "epoch": 0.7352852762580413,
+      "flos": 18186349184640.0,
+      "grad_norm": 1.8218099064950792,
+      "language_loss": 0.70590562,
+      "learning_rate": 6.909744160515532e-07,
+      "loss": 0.72782397,
+      "num_input_tokens_seen": 131393125,
+      "step": 6115,
+      "time_per_iteration": 3.4187064170837402
+    },
+    {
+      "auxiliary_loss_clip": 0.01185302,
+      "auxiliary_loss_mlp": 0.01028757,
+      "balance_loss_clip": 1.04642463,
+      "balance_loss_mlp": 1.02147961,
+      "epoch": 0.7354055191486804,
+      "flos": 38910073063680.0,
+      "grad_norm": 1.9020318262735258,
+      "language_loss": 0.69204116,
+      "learning_rate": 6.903855731189849e-07,
+      "loss": 0.71418172,
+      "num_input_tokens_seen": 131415760,
+      "step": 6116,
+      "time_per_iteration": 3.696760416030884
+    },
+    {
+      "auxiliary_loss_clip": 0.01194503,
+      "auxiliary_loss_mlp": 0.01023349,
+      "balance_loss_clip": 1.04505134,
+      "balance_loss_mlp": 1.0155766,
+      "epoch": 0.7355257620393194,
+      "flos": 16289978647680.0,
+      "grad_norm": 2.7182622772274505,
+      "language_loss": 0.81738555,
+      "learning_rate": 6.897969288538825e-07,
+      "loss": 0.83956409,
+      "num_input_tokens_seen": 131433705,
+      "step": 6117,
+      "time_per_iteration": 2.6538214683532715
+    },
+    {
+      "auxiliary_loss_clip": 0.01182573,
+      "auxiliary_loss_mlp": 0.01024545,
+      "balance_loss_clip": 1.04439688,
+      "balance_loss_mlp": 1.01691008,
+      "epoch": 0.7356460049299585,
+      "flos": 18114240631680.0,
+      "grad_norm": 2.050623683417816,
+      "language_loss": 0.80883414,
+      "learning_rate": 6.892084833455452e-07,
+      "loss": 0.83090532,
+      "num_input_tokens_seen": 131453275,
+      "step": 6118,
+      "time_per_iteration": 2.616422176361084
+    },
+    {
+      "auxiliary_loss_clip": 0.01175899,
+      "auxiliary_loss_mlp": 0.01024698,
+      "balance_loss_clip": 1.04664922,
+      "balance_loss_mlp": 1.0169524,
+      "epoch": 0.7357662478205976,
+      "flos": 21325193118720.0,
+      "grad_norm": 1.4283116396424362,
+      "language_loss": 0.83719414,
+      "learning_rate": 6.886202366832384e-07,
+      "loss": 0.85920012,
+      "num_input_tokens_seen": 131474960,
+      "step": 6119,
+      "time_per_iteration": 2.637176752090454
+    },
+    {
+      "auxiliary_loss_clip": 0.01201679,
+      "auxiliary_loss_mlp": 0.01023827,
+      "balance_loss_clip": 1.04223013,
+      "balance_loss_mlp": 1.01639438,
+      "epoch": 0.7358864907112367,
+      "flos": 14246841139200.0,
+      "grad_norm": 1.8240992960575757,
+      "language_loss": 0.73586786,
+      "learning_rate": 6.880321889561987e-07,
+      "loss": 0.75812292,
+      "num_input_tokens_seen": 131492935,
+      "step": 6120,
+      "time_per_iteration": 3.5742530822753906
+    },
+    {
+      "auxiliary_loss_clip": 0.0118775,
+      "auxiliary_loss_mlp": 0.01027621,
+      "balance_loss_clip": 1.04217863,
+      "balance_loss_mlp": 1.01933551,
+      "epoch": 0.7360067336018757,
+      "flos": 22309684058880.0,
+      "grad_norm": 3.892944045466075,
+      "language_loss": 0.65314102,
+      "learning_rate": 6.874443402536338e-07,
+      "loss": 0.67529476,
+      "num_input_tokens_seen": 131512025,
+      "step": 6121,
+      "time_per_iteration": 3.562696933746338
+    },
+    {
+      "auxiliary_loss_clip": 0.01192908,
+      "auxiliary_loss_mlp": 0.01024564,
+      "balance_loss_clip": 1.0456661,
+      "balance_loss_mlp": 1.01688719,
+      "epoch": 0.7361269764925149,
+      "flos": 25554607833600.0,
+      "grad_norm": 1.6580072515049353,
+      "language_loss": 0.80550313,
+      "learning_rate": 6.868566906647177e-07,
+      "loss": 0.82767785,
+      "num_input_tokens_seen": 131532975,
+      "step": 6122,
+      "time_per_iteration": 2.732435464859009
+    },
+    {
+      "auxiliary_loss_clip": 0.01177414,
+      "auxiliary_loss_mlp": 0.01026815,
+      "balance_loss_clip": 1.04558873,
+      "balance_loss_mlp": 1.01926351,
+      "epoch": 0.736247219383154,
+      "flos": 20376505059840.0,
+      "grad_norm": 1.8734304899695977,
+      "language_loss": 0.835585,
+      "learning_rate": 6.862692402785984e-07,
+      "loss": 0.85762727,
+      "num_input_tokens_seen": 131553225,
+      "step": 6123,
+      "time_per_iteration": 2.6375269889831543
+    },
+    {
+      "auxiliary_loss_clip": 0.01104854,
+      "auxiliary_loss_mlp": 0.01000557,
+      "balance_loss_clip": 1.01776195,
+      "balance_loss_mlp": 0.9995138,
+      "epoch": 0.736367462273793,
+      "flos": 70339525735680.0,
+      "grad_norm": 0.6857274791874975,
+      "language_loss": 0.49633551,
+      "learning_rate": 6.856819891843899e-07,
+      "loss": 0.51738966,
+      "num_input_tokens_seen": 131617930,
+      "step": 6124,
+      "time_per_iteration": 3.4358608722686768
+    },
+    {
+      "auxiliary_loss_clip": 0.01215665,
+      "auxiliary_loss_mlp": 0.01025922,
+      "balance_loss_clip": 1.04369259,
+      "balance_loss_mlp": 1.01869154,
+      "epoch": 0.7364877051644322,
+      "flos": 22412711243520.0,
+      "grad_norm": 1.9262928043299417,
+      "language_loss": 0.72356665,
+      "learning_rate": 6.8509493747118e-07,
+      "loss": 0.74598253,
+      "num_input_tokens_seen": 131636740,
+      "step": 6125,
+      "time_per_iteration": 2.842404365539551
+    },
+    {
+      "auxiliary_loss_clip": 0.01171959,
+      "auxiliary_loss_mlp": 0.01021867,
+      "balance_loss_clip": 1.05002737,
+      "balance_loss_mlp": 1.01461649,
+      "epoch": 0.7366079480550712,
+      "flos": 12130266274560.0,
+      "grad_norm": 2.203016742862321,
+      "language_loss": 0.88399684,
+      "learning_rate": 6.845080852280221e-07,
+      "loss": 0.90593511,
+      "num_input_tokens_seen": 131653810,
+      "step": 6126,
+      "time_per_iteration": 2.7948224544525146
+    },
+    {
+      "auxiliary_loss_clip": 0.01198153,
+      "auxiliary_loss_mlp": 0.01023324,
+      "balance_loss_clip": 1.04401433,
+      "balance_loss_mlp": 1.01620162,
+      "epoch": 0.7367281909457103,
+      "flos": 15049336844160.0,
+      "grad_norm": 1.7103036709410797,
+      "language_loss": 0.74070209,
+      "learning_rate": 6.839214325439409e-07,
+      "loss": 0.76291692,
+      "num_input_tokens_seen": 131671505,
+      "step": 6127,
+      "time_per_iteration": 2.751359224319458
+    },
+    {
+      "auxiliary_loss_clip": 0.01180794,
+      "auxiliary_loss_mlp": 0.01024709,
+      "balance_loss_clip": 1.04651022,
+      "balance_loss_mlp": 1.01804554,
+      "epoch": 0.7368484338363495,
+      "flos": 23510752053120.0,
+      "grad_norm": 1.6333779330384006,
+      "language_loss": 0.71729165,
+      "learning_rate": 6.833349795079327e-07,
+      "loss": 0.73934668,
+      "num_input_tokens_seen": 131690615,
+      "step": 6128,
+      "time_per_iteration": 2.635765314102173
+    },
+    {
+      "auxiliary_loss_clip": 0.01196412,
+      "auxiliary_loss_mlp": 0.01026779,
+      "balance_loss_clip": 1.04605818,
+      "balance_loss_mlp": 1.01952195,
+      "epoch": 0.7369686767269885,
+      "flos": 27417833095680.0,
+      "grad_norm": 1.5801470890957883,
+      "language_loss": 0.68780017,
+      "learning_rate": 6.827487262089613e-07,
+      "loss": 0.71003205,
+      "num_input_tokens_seen": 131711120,
+      "step": 6129,
+      "time_per_iteration": 2.7348692417144775
+    },
+    {
+      "auxiliary_loss_clip": 0.01086009,
+      "auxiliary_loss_mlp": 0.00999962,
+      "balance_loss_clip": 1.01331329,
+      "balance_loss_mlp": 0.99879944,
+      "epoch": 0.7370889196176276,
+      "flos": 70293343824000.0,
+      "grad_norm": 0.9592922839064266,
+      "language_loss": 0.56863147,
+      "learning_rate": 6.821626727359606e-07,
+      "loss": 0.58949119,
+      "num_input_tokens_seen": 131776680,
+      "step": 6130,
+      "time_per_iteration": 3.3855865001678467
+    },
+    {
+      "auxiliary_loss_clip": 0.01188593,
+      "auxiliary_loss_mlp": 0.01029333,
+      "balance_loss_clip": 1.04809451,
+      "balance_loss_mlp": 1.02097082,
+      "epoch": 0.7372091625082667,
+      "flos": 18040839189120.0,
+      "grad_norm": 2.125959925839556,
+      "language_loss": 0.76761591,
+      "learning_rate": 6.815768191778348e-07,
+      "loss": 0.78979522,
+      "num_input_tokens_seen": 131794760,
+      "step": 6131,
+      "time_per_iteration": 2.7181568145751953
+    },
+    {
+      "auxiliary_loss_clip": 0.01172094,
+      "auxiliary_loss_mlp": 0.01026163,
+      "balance_loss_clip": 1.04439163,
+      "balance_loss_mlp": 1.01814055,
+      "epoch": 0.7373294053989058,
+      "flos": 33726331854720.0,
+      "grad_norm": 2.1198037842604722,
+      "language_loss": 0.73287576,
+      "learning_rate": 6.809911656234569e-07,
+      "loss": 0.75485831,
+      "num_input_tokens_seen": 131816735,
+      "step": 6132,
+      "time_per_iteration": 2.7158570289611816
+    },
+    {
+      "auxiliary_loss_clip": 0.01197064,
+      "auxiliary_loss_mlp": 0.0102394,
+      "balance_loss_clip": 1.04245043,
+      "balance_loss_mlp": 1.01640582,
+      "epoch": 0.7374496482895448,
+      "flos": 21506326427520.0,
+      "grad_norm": 2.428602642110819,
+      "language_loss": 0.7824353,
+      "learning_rate": 6.804057121616707e-07,
+      "loss": 0.80464542,
+      "num_input_tokens_seen": 131834940,
+      "step": 6133,
+      "time_per_iteration": 2.7394402027130127
+    },
+    {
+      "auxiliary_loss_clip": 0.01178607,
+      "auxiliary_loss_mlp": 0.01023159,
+      "balance_loss_clip": 1.04487002,
+      "balance_loss_mlp": 1.01621795,
+      "epoch": 0.737569891180184,
+      "flos": 24936908624640.0,
+      "grad_norm": 2.001886420827213,
+      "language_loss": 0.72026873,
+      "learning_rate": 6.798204588812888e-07,
+      "loss": 0.74228638,
+      "num_input_tokens_seen": 131854355,
+      "step": 6134,
+      "time_per_iteration": 2.6419131755828857
+    },
+    {
+      "auxiliary_loss_clip": 0.01201672,
+      "auxiliary_loss_mlp": 0.01378905,
+      "balance_loss_clip": 1.03916979,
+      "balance_loss_mlp": 1.00018299,
+      "epoch": 0.7376901340708231,
+      "flos": 20664544222080.0,
+      "grad_norm": 1.6237481247345276,
+      "language_loss": 0.75456381,
+      "learning_rate": 6.792354058710937e-07,
+      "loss": 0.78036958,
+      "num_input_tokens_seen": 131871825,
+      "step": 6135,
+      "time_per_iteration": 2.744086742401123
+    },
+    {
+      "auxiliary_loss_clip": 0.01165244,
+      "auxiliary_loss_mlp": 0.01027069,
+      "balance_loss_clip": 1.04726648,
+      "balance_loss_mlp": 1.02011299,
+      "epoch": 0.7378103769614621,
+      "flos": 23805794367360.0,
+      "grad_norm": 1.962872091608032,
+      "language_loss": 0.65098351,
+      "learning_rate": 6.786505532198374e-07,
+      "loss": 0.67290664,
+      "num_input_tokens_seen": 131890770,
+      "step": 6136,
+      "time_per_iteration": 2.606752872467041
+    },
+    {
+      "auxiliary_loss_clip": 0.01170322,
+      "auxiliary_loss_mlp": 0.01023044,
+      "balance_loss_clip": 1.04809022,
+      "balance_loss_mlp": 1.0154053,
+      "epoch": 0.7379306198521013,
+      "flos": 22237216369920.0,
+      "grad_norm": 1.651187159798726,
+      "language_loss": 0.85410726,
+      "learning_rate": 6.780659010162411e-07,
+      "loss": 0.87604094,
+      "num_input_tokens_seen": 131909720,
+      "step": 6137,
+      "time_per_iteration": 2.665950298309326
+    },
+    {
+      "auxiliary_loss_clip": 0.01199768,
+      "auxiliary_loss_mlp": 0.01032129,
+      "balance_loss_clip": 1.04527879,
+      "balance_loss_mlp": 1.02496433,
+      "epoch": 0.7380508627427403,
+      "flos": 14903108576640.0,
+      "grad_norm": 1.6395403843647411,
+      "language_loss": 0.83049303,
+      "learning_rate": 6.774814493489975e-07,
+      "loss": 0.85281199,
+      "num_input_tokens_seen": 131927395,
+      "step": 6138,
+      "time_per_iteration": 2.7712533473968506
+    },
+    {
+      "auxiliary_loss_clip": 0.01174608,
+      "auxiliary_loss_mlp": 0.01023211,
+      "balance_loss_clip": 1.04569542,
+      "balance_loss_mlp": 1.01593935,
+      "epoch": 0.7381711056333794,
+      "flos": 21685843624320.0,
+      "grad_norm": 1.6499957548157946,
+      "language_loss": 0.6593861,
+      "learning_rate": 6.768971983067655e-07,
+      "loss": 0.6813643,
+      "num_input_tokens_seen": 131947725,
+      "step": 6139,
+      "time_per_iteration": 2.6053121089935303
+    },
+    {
+      "auxiliary_loss_clip": 0.01064396,
+      "auxiliary_loss_mlp": 0.00999157,
+      "balance_loss_clip": 1.0114857,
+      "balance_loss_mlp": 0.99804252,
+      "epoch": 0.7382913485240186,
+      "flos": 52404263596800.0,
+      "grad_norm": 1.01444410376606,
+      "language_loss": 0.67855954,
+      "learning_rate": 6.763131479781772e-07,
+      "loss": 0.69919515,
+      "num_input_tokens_seen": 131997485,
+      "step": 6140,
+      "time_per_iteration": 2.9848392009735107
+    },
+    {
+      "auxiliary_loss_clip": 0.01181999,
+      "auxiliary_loss_mlp": 0.01026909,
+      "balance_loss_clip": 1.04768336,
+      "balance_loss_mlp": 1.01970911,
+      "epoch": 0.7384115914146576,
+      "flos": 21798818876160.0,
+      "grad_norm": 1.8052762464520709,
+      "language_loss": 0.7633574,
+      "learning_rate": 6.757292984518316e-07,
+      "loss": 0.78544641,
+      "num_input_tokens_seen": 132016885,
+      "step": 6141,
+      "time_per_iteration": 4.700171232223511
+    },
+    {
+      "auxiliary_loss_clip": 0.01078126,
+      "auxiliary_loss_mlp": 0.01002737,
+      "balance_loss_clip": 1.0116744,
+      "balance_loss_mlp": 1.00154483,
+      "epoch": 0.7385318343052967,
+      "flos": 61494331662720.0,
+      "grad_norm": 0.7387857954343258,
+      "language_loss": 0.56455868,
+      "learning_rate": 6.751456498162981e-07,
+      "loss": 0.58536732,
+      "num_input_tokens_seen": 132075920,
+      "step": 6142,
+      "time_per_iteration": 3.0820260047912598
+    },
+    {
+      "auxiliary_loss_clip": 0.01176186,
+      "auxiliary_loss_mlp": 0.01023223,
+      "balance_loss_clip": 1.04384351,
+      "balance_loss_mlp": 1.01623106,
+      "epoch": 0.7386520771959358,
+      "flos": 17013757697280.0,
+      "grad_norm": 1.87867181071198,
+      "language_loss": 0.85355937,
+      "learning_rate": 6.745622021601174e-07,
+      "loss": 0.87555349,
+      "num_input_tokens_seen": 132092945,
+      "step": 6143,
+      "time_per_iteration": 2.6514956951141357
+    },
+    {
+      "auxiliary_loss_clip": 0.01197177,
+      "auxiliary_loss_mlp": 0.01023116,
+      "balance_loss_clip": 1.04370904,
+      "balance_loss_mlp": 1.01528358,
+      "epoch": 0.7387723200865749,
+      "flos": 18770759464320.0,
+      "grad_norm": 1.8401170733430272,
+      "language_loss": 0.69674492,
+      "learning_rate": 6.739789555717954e-07,
+      "loss": 0.71894783,
+      "num_input_tokens_seen": 132109920,
+      "step": 6144,
+      "time_per_iteration": 2.6768674850463867
+    },
+    {
+      "auxiliary_loss_clip": 0.01166883,
+      "auxiliary_loss_mlp": 0.01027316,
+      "balance_loss_clip": 1.04636812,
+      "balance_loss_mlp": 1.01961482,
+      "epoch": 0.738892562977214,
+      "flos": 22525542840960.0,
+      "grad_norm": 2.064914421683879,
+      "language_loss": 0.77322292,
+      "learning_rate": 6.733959101398124e-07,
+      "loss": 0.79516494,
+      "num_input_tokens_seen": 132128050,
+      "step": 6145,
+      "time_per_iteration": 3.4612956047058105
+    },
+    {
+      "auxiliary_loss_clip": 0.01183895,
+      "auxiliary_loss_mlp": 0.01029931,
+      "balance_loss_clip": 1.04363036,
+      "balance_loss_mlp": 1.02275455,
+      "epoch": 0.7390128058678531,
+      "flos": 21501478091520.0,
+      "grad_norm": 2.949898182054298,
+      "language_loss": 0.81570411,
+      "learning_rate": 6.728130659526143e-07,
+      "loss": 0.8378424,
+      "num_input_tokens_seen": 132145860,
+      "step": 6146,
+      "time_per_iteration": 2.6530067920684814
+    },
+    {
+      "auxiliary_loss_clip": 0.01190569,
+      "auxiliary_loss_mlp": 0.01028799,
+      "balance_loss_clip": 1.04711962,
+      "balance_loss_mlp": 1.02116919,
+      "epoch": 0.7391330487584922,
+      "flos": 25776176878080.0,
+      "grad_norm": 2.4961514101234274,
+      "language_loss": 0.70915294,
+      "learning_rate": 6.7223042309862e-07,
+      "loss": 0.73134655,
+      "num_input_tokens_seen": 132166060,
+      "step": 6147,
+      "time_per_iteration": 3.5781755447387695
+    },
+    {
+      "auxiliary_loss_clip": 0.01174987,
+      "auxiliary_loss_mlp": 0.01021783,
+      "balance_loss_clip": 1.04528952,
+      "balance_loss_mlp": 1.01440716,
+      "epoch": 0.7392532916491312,
+      "flos": 28366736636160.0,
+      "grad_norm": 1.9211100520051518,
+      "language_loss": 0.73386604,
+      "learning_rate": 6.716479816662144e-07,
+      "loss": 0.75583375,
+      "num_input_tokens_seen": 132187790,
+      "step": 6148,
+      "time_per_iteration": 2.722088098526001
+    },
+    {
+      "auxiliary_loss_clip": 0.01189067,
+      "auxiliary_loss_mlp": 0.01025359,
+      "balance_loss_clip": 1.04318988,
+      "balance_loss_mlp": 1.01810467,
+      "epoch": 0.7393735345397703,
+      "flos": 23585877348480.0,
+      "grad_norm": 1.874088961667303,
+      "language_loss": 0.72990251,
+      "learning_rate": 6.710657417437531e-07,
+      "loss": 0.75204682,
+      "num_input_tokens_seen": 132207495,
+      "step": 6149,
+      "time_per_iteration": 2.6610074043273926
+    },
+    {
+      "auxiliary_loss_clip": 0.01186671,
+      "auxiliary_loss_mlp": 0.01027067,
+      "balance_loss_clip": 1.04545724,
+      "balance_loss_mlp": 1.01941395,
+      "epoch": 0.7394937774304094,
+      "flos": 19974772373760.0,
+      "grad_norm": 2.062689634023383,
+      "language_loss": 0.80269349,
+      "learning_rate": 6.704837034195628e-07,
+      "loss": 0.82483089,
+      "num_input_tokens_seen": 132225960,
+      "step": 6150,
+      "time_per_iteration": 2.5997025966644287
+    },
+    {
+      "auxiliary_loss_clip": 0.01171072,
+      "auxiliary_loss_mlp": 0.01030539,
+      "balance_loss_clip": 1.04718149,
+      "balance_loss_mlp": 1.0226922,
+      "epoch": 0.7396140203210485,
+      "flos": 23478037741440.0,
+      "grad_norm": 1.7151236327256325,
+      "language_loss": 0.84821737,
+      "learning_rate": 6.699018667819376e-07,
+      "loss": 0.87023348,
+      "num_input_tokens_seen": 132245360,
+      "step": 6151,
+      "time_per_iteration": 2.62148118019104
+    },
+    {
+      "auxiliary_loss_clip": 0.01173683,
+      "auxiliary_loss_mlp": 0.0102667,
+      "balance_loss_clip": 1.04454637,
+      "balance_loss_mlp": 1.01916564,
+      "epoch": 0.7397342632116876,
+      "flos": 25555433846400.0,
+      "grad_norm": 1.602538365240831,
+      "language_loss": 0.72608155,
+      "learning_rate": 6.693202319191415e-07,
+      "loss": 0.74808514,
+      "num_input_tokens_seen": 132267095,
+      "step": 6152,
+      "time_per_iteration": 2.6851608753204346
+    },
+    {
+      "auxiliary_loss_clip": 0.01170434,
+      "auxiliary_loss_mlp": 0.01025765,
+      "balance_loss_clip": 1.05103087,
+      "balance_loss_mlp": 1.0187794,
+      "epoch": 0.7398545061023267,
+      "flos": 24755021130240.0,
+      "grad_norm": 1.8877583717851492,
+      "language_loss": 0.74796736,
+      "learning_rate": 6.687387989194084e-07,
+      "loss": 0.76992935,
+      "num_input_tokens_seen": 132286610,
+      "step": 6153,
+      "time_per_iteration": 2.595264434814453
+    },
+    {
+      "auxiliary_loss_clip": 0.0118222,
+      "auxiliary_loss_mlp": 0.01023956,
+      "balance_loss_clip": 1.0449481,
+      "balance_loss_mlp": 1.0162257,
+      "epoch": 0.7399747489929658,
+      "flos": 16508602776960.0,
+      "grad_norm": 1.829665900774435,
+      "language_loss": 0.79143,
+      "learning_rate": 6.681575678709404e-07,
+      "loss": 0.8134917,
+      "num_input_tokens_seen": 132305300,
+      "step": 6154,
+      "time_per_iteration": 2.6055219173431396
+    },
+    {
+      "auxiliary_loss_clip": 0.01175026,
+      "auxiliary_loss_mlp": 0.01023265,
+      "balance_loss_clip": 1.04518437,
+      "balance_loss_mlp": 1.01568937,
+      "epoch": 0.7400949918836048,
+      "flos": 24097065753600.0,
+      "grad_norm": 1.970866712913524,
+      "language_loss": 0.70910883,
+      "learning_rate": 6.67576538861911e-07,
+      "loss": 0.7310918,
+      "num_input_tokens_seen": 132323875,
+      "step": 6155,
+      "time_per_iteration": 2.652096748352051
+    },
+    {
+      "auxiliary_loss_clip": 0.01183759,
+      "auxiliary_loss_mlp": 0.01024465,
+      "balance_loss_clip": 1.04570901,
+      "balance_loss_mlp": 1.01730013,
+      "epoch": 0.740215234774244,
+      "flos": 21802517976960.0,
+      "grad_norm": 1.499581191511844,
+      "language_loss": 0.82196927,
+      "learning_rate": 6.669957119804612e-07,
+      "loss": 0.84405148,
+      "num_input_tokens_seen": 132345510,
+      "step": 6156,
+      "time_per_iteration": 2.661189556121826
+    },
+    {
+      "auxiliary_loss_clip": 0.01193348,
+      "auxiliary_loss_mlp": 0.01023351,
+      "balance_loss_clip": 1.04396701,
+      "balance_loss_mlp": 1.01585913,
+      "epoch": 0.7403354776648831,
+      "flos": 18733196816640.0,
+      "grad_norm": 4.033228400306593,
+      "language_loss": 0.72091651,
+      "learning_rate": 6.66415087314702e-07,
+      "loss": 0.74308348,
+      "num_input_tokens_seen": 132360465,
+      "step": 6157,
+      "time_per_iteration": 2.683716058731079
+    },
+    {
+      "auxiliary_loss_clip": 0.01187661,
+      "auxiliary_loss_mlp": 0.01025901,
+      "balance_loss_clip": 1.04496729,
+      "balance_loss_mlp": 1.01826525,
+      "epoch": 0.7404557205555221,
+      "flos": 16909581277440.0,
+      "grad_norm": 2.5588395679971874,
+      "language_loss": 0.72980034,
+      "learning_rate": 6.65834664952714e-07,
+      "loss": 0.75193596,
+      "num_input_tokens_seen": 132377915,
+      "step": 6158,
+      "time_per_iteration": 2.7035129070281982
+    },
+    {
+      "auxiliary_loss_clip": 0.01195987,
+      "auxiliary_loss_mlp": 0.01023289,
+      "balance_loss_clip": 1.04232383,
+      "balance_loss_mlp": 1.01585591,
+      "epoch": 0.7405759634461613,
+      "flos": 21214408596480.0,
+      "grad_norm": 1.706639631799951,
+      "language_loss": 0.75983518,
+      "learning_rate": 6.652544449825457e-07,
+      "loss": 0.78202796,
+      "num_input_tokens_seen": 132398170,
+      "step": 6159,
+      "time_per_iteration": 2.7123212814331055
+    },
+    {
+      "auxiliary_loss_clip": 0.01194457,
+      "auxiliary_loss_mlp": 0.01029248,
+      "balance_loss_clip": 1.04532743,
+      "balance_loss_mlp": 1.0212667,
+      "epoch": 0.7406962063368003,
+      "flos": 20480106862080.0,
+      "grad_norm": 1.8260225785803408,
+      "language_loss": 0.764902,
+      "learning_rate": 6.646744274922182e-07,
+      "loss": 0.78713906,
+      "num_input_tokens_seen": 132416615,
+      "step": 6160,
+      "time_per_iteration": 2.6648082733154297
+    },
+    {
+      "auxiliary_loss_clip": 0.01187741,
+      "auxiliary_loss_mlp": 0.01025725,
+      "balance_loss_clip": 1.04411697,
+      "balance_loss_mlp": 1.01839352,
+      "epoch": 0.7408164492274394,
+      "flos": 19791915212160.0,
+      "grad_norm": 4.178106789435028,
+      "language_loss": 0.75330406,
+      "learning_rate": 6.640946125697171e-07,
+      "loss": 0.77543867,
+      "num_input_tokens_seen": 132434145,
+      "step": 6161,
+      "time_per_iteration": 2.6535356044769287
+    },
+    {
+      "auxiliary_loss_clip": 0.01177168,
+      "auxiliary_loss_mlp": 0.01029326,
+      "balance_loss_clip": 1.0445199,
+      "balance_loss_mlp": 1.02065396,
+      "epoch": 0.7409366921180786,
+      "flos": 29204855654400.0,
+      "grad_norm": 5.773454731563942,
+      "language_loss": 0.7540592,
+      "learning_rate": 6.635150003030017e-07,
+      "loss": 0.77612418,
+      "num_input_tokens_seen": 132452670,
+      "step": 6162,
+      "time_per_iteration": 2.640589952468872
+    },
+    {
+      "auxiliary_loss_clip": 0.01201298,
+      "auxiliary_loss_mlp": 0.01022266,
+      "balance_loss_clip": 1.03904045,
+      "balance_loss_mlp": 1.01473832,
+      "epoch": 0.7410569350087176,
+      "flos": 22930004960640.0,
+      "grad_norm": 2.7992801385932884,
+      "language_loss": 0.85834885,
+      "learning_rate": 6.629355907799981e-07,
+      "loss": 0.88058454,
+      "num_input_tokens_seen": 132472475,
+      "step": 6163,
+      "time_per_iteration": 2.726942777633667
+    },
+    {
+      "auxiliary_loss_clip": 0.01182461,
+      "auxiliary_loss_mlp": 0.0103334,
+      "balance_loss_clip": 1.04698563,
+      "balance_loss_mlp": 1.02573466,
+      "epoch": 0.7411771778993567,
+      "flos": 30440397726720.0,
+      "grad_norm": 1.8410140280130625,
+      "language_loss": 0.69107115,
+      "learning_rate": 6.623563840886015e-07,
+      "loss": 0.71322918,
+      "num_input_tokens_seen": 132493400,
+      "step": 6164,
+      "time_per_iteration": 2.689176559448242
+    },
+    {
+      "auxiliary_loss_clip": 0.01170709,
+      "auxiliary_loss_mlp": 0.01025603,
+      "balance_loss_clip": 1.04325223,
+      "balance_loss_mlp": 1.01828957,
+      "epoch": 0.7412974207899958,
+      "flos": 20522050968960.0,
+      "grad_norm": 1.650911449967234,
+      "language_loss": 0.69865739,
+      "learning_rate": 6.617773803166795e-07,
+      "loss": 0.72062051,
+      "num_input_tokens_seen": 132511725,
+      "step": 6165,
+      "time_per_iteration": 2.6204442977905273
+    },
+    {
+      "auxiliary_loss_clip": 0.01190533,
+      "auxiliary_loss_mlp": 0.0137907,
+      "balance_loss_clip": 1.04417384,
+      "balance_loss_mlp": 1.00024056,
+      "epoch": 0.7414176636806349,
+      "flos": 22090700793600.0,
+      "grad_norm": 2.233380767857893,
+      "language_loss": 0.81712413,
+      "learning_rate": 6.611985795520634e-07,
+      "loss": 0.84282017,
+      "num_input_tokens_seen": 132530270,
+      "step": 6166,
+      "time_per_iteration": 2.6187026500701904
+    },
+    {
+      "auxiliary_loss_clip": 0.01203212,
+      "auxiliary_loss_mlp": 0.01030145,
+      "balance_loss_clip": 1.04462719,
+      "balance_loss_mlp": 1.02223802,
+      "epoch": 0.7415379065712739,
+      "flos": 25155245445120.0,
+      "grad_norm": 2.5879560627261604,
+      "language_loss": 0.77941287,
+      "learning_rate": 6.606199818825588e-07,
+      "loss": 0.80174637,
+      "num_input_tokens_seen": 132550725,
+      "step": 6167,
+      "time_per_iteration": 3.6541895866394043
+    },
+    {
+      "auxiliary_loss_clip": 0.01189632,
+      "auxiliary_loss_mlp": 0.01024137,
+      "balance_loss_clip": 1.04377913,
+      "balance_loss_mlp": 1.01660252,
+      "epoch": 0.7416581494619131,
+      "flos": 16871731320960.0,
+      "grad_norm": 2.2933354312801493,
+      "language_loss": 0.81869078,
+      "learning_rate": 6.600415873959377e-07,
+      "loss": 0.84082842,
+      "num_input_tokens_seen": 132568600,
+      "step": 6168,
+      "time_per_iteration": 3.5328972339630127
+    },
+    {
+      "auxiliary_loss_clip": 0.01207932,
+      "auxiliary_loss_mlp": 0.01378289,
+      "balance_loss_clip": 1.03706908,
+      "balance_loss_mlp": 1.00018656,
+      "epoch": 0.7417783923525522,
+      "flos": 28438881102720.0,
+      "grad_norm": 2.0914928951436287,
+      "language_loss": 0.64745277,
+      "learning_rate": 6.594633961799437e-07,
+      "loss": 0.67331505,
+      "num_input_tokens_seen": 132587640,
+      "step": 6169,
+      "time_per_iteration": 2.902355432510376
+    },
+    {
+      "auxiliary_loss_clip": 0.01205016,
+      "auxiliary_loss_mlp": 0.01024708,
+      "balance_loss_clip": 1.04432631,
+      "balance_loss_mlp": 1.01746869,
+      "epoch": 0.7418986352431912,
+      "flos": 20084299920000.0,
+      "grad_norm": 1.5814476201633227,
+      "language_loss": 0.81607366,
+      "learning_rate": 6.588854083222857e-07,
+      "loss": 0.83837092,
+      "num_input_tokens_seen": 132607075,
+      "step": 6170,
+      "time_per_iteration": 2.7229225635528564
+    },
+    {
+      "auxiliary_loss_clip": 0.01188284,
+      "auxiliary_loss_mlp": 0.01028599,
+      "balance_loss_clip": 1.04468513,
+      "balance_loss_mlp": 1.02089179,
+      "epoch": 0.7420188781338304,
+      "flos": 18259571059200.0,
+      "grad_norm": 2.126174572429566,
+      "language_loss": 0.80744946,
+      "learning_rate": 6.583076239106444e-07,
+      "loss": 0.82961822,
+      "num_input_tokens_seen": 132625580,
+      "step": 6171,
+      "time_per_iteration": 2.691995859146118
+    },
+    {
+      "auxiliary_loss_clip": 0.01191968,
+      "auxiliary_loss_mlp": 0.01023506,
+      "balance_loss_clip": 1.04429626,
+      "balance_loss_mlp": 1.0162282,
+      "epoch": 0.7421391210244694,
+      "flos": 13771994319360.0,
+      "grad_norm": 2.160266283587928,
+      "language_loss": 0.75244826,
+      "learning_rate": 6.577300430326707e-07,
+      "loss": 0.77460301,
+      "num_input_tokens_seen": 132640525,
+      "step": 6172,
+      "time_per_iteration": 3.5149307250976562
+    },
+    {
+      "auxiliary_loss_clip": 0.01194588,
+      "auxiliary_loss_mlp": 0.01025195,
+      "balance_loss_clip": 1.04444385,
+      "balance_loss_mlp": 1.01802444,
+      "epoch": 0.7422593639151085,
+      "flos": 15961683317760.0,
+      "grad_norm": 2.7111593204966473,
+      "language_loss": 0.72034943,
+      "learning_rate": 6.571526657759821e-07,
+      "loss": 0.74254727,
+      "num_input_tokens_seen": 132656265,
+      "step": 6173,
+      "time_per_iteration": 3.5444655418395996
+    },
+    {
+      "auxiliary_loss_clip": 0.01170791,
+      "auxiliary_loss_mlp": 0.0102592,
+      "balance_loss_clip": 1.0430913,
+      "balance_loss_mlp": 1.01869619,
+      "epoch": 0.7423796068057477,
+      "flos": 30114400867200.0,
+      "grad_norm": 1.570947779499198,
+      "language_loss": 0.70553386,
+      "learning_rate": 6.565754922281663e-07,
+      "loss": 0.72750098,
+      "num_input_tokens_seen": 132678510,
+      "step": 6174,
+      "time_per_iteration": 2.6801960468292236
+    },
+    {
+      "auxiliary_loss_clip": 0.01181977,
+      "auxiliary_loss_mlp": 0.01024377,
+      "balance_loss_clip": 1.04172301,
+      "balance_loss_mlp": 1.01693511,
+      "epoch": 0.7424998496963867,
+      "flos": 20521907314560.0,
+      "grad_norm": 1.647773944265166,
+      "language_loss": 0.78337193,
+      "learning_rate": 6.559985224767801e-07,
+      "loss": 0.80543554,
+      "num_input_tokens_seen": 132696385,
+      "step": 6175,
+      "time_per_iteration": 2.629326105117798
+    },
+    {
+      "auxiliary_loss_clip": 0.01200842,
+      "auxiliary_loss_mlp": 0.01025283,
+      "balance_loss_clip": 1.04383051,
+      "balance_loss_mlp": 1.01762938,
+      "epoch": 0.7426200925870258,
+      "flos": 21871573873920.0,
+      "grad_norm": 2.484453847790887,
+      "language_loss": 0.75406235,
+      "learning_rate": 6.55421756609349e-07,
+      "loss": 0.77632362,
+      "num_input_tokens_seen": 132714640,
+      "step": 6176,
+      "time_per_iteration": 2.64723539352417
+    },
+    {
+      "auxiliary_loss_clip": 0.01177204,
+      "auxiliary_loss_mlp": 0.01029287,
+      "balance_loss_clip": 1.04914045,
+      "balance_loss_mlp": 1.02170539,
+      "epoch": 0.7427403354776649,
+      "flos": 26432049265920.0,
+      "grad_norm": 1.969611265315953,
+      "language_loss": 0.78689241,
+      "learning_rate": 6.54845194713369e-07,
+      "loss": 0.80895734,
+      "num_input_tokens_seen": 132735590,
+      "step": 6177,
+      "time_per_iteration": 2.655153512954712
+    },
+    {
+      "auxiliary_loss_clip": 0.01173015,
+      "auxiliary_loss_mlp": 0.01024243,
+      "balance_loss_clip": 1.04694343,
+      "balance_loss_mlp": 1.01679265,
+      "epoch": 0.742860578368304,
+      "flos": 19898390102400.0,
+      "grad_norm": 1.9498707498291643,
+      "language_loss": 0.79742545,
+      "learning_rate": 6.542688368763034e-07,
+      "loss": 0.81939805,
+      "num_input_tokens_seen": 132753995,
+      "step": 6178,
+      "time_per_iteration": 2.6299891471862793
+    },
+    {
+      "auxiliary_loss_clip": 0.01176281,
+      "auxiliary_loss_mlp": 0.01024409,
+      "balance_loss_clip": 1.04684961,
+      "balance_loss_mlp": 1.01691031,
+      "epoch": 0.742980821258943,
+      "flos": 24827201510400.0,
+      "grad_norm": 2.2748485010094184,
+      "language_loss": 0.77007699,
+      "learning_rate": 6.536926831855854e-07,
+      "loss": 0.79208386,
+      "num_input_tokens_seen": 132773160,
+      "step": 6179,
+      "time_per_iteration": 2.6133766174316406
+    },
+    {
+      "auxiliary_loss_clip": 0.01181965,
+      "auxiliary_loss_mlp": 0.01025367,
+      "balance_loss_clip": 1.04437232,
+      "balance_loss_mlp": 1.01767778,
+      "epoch": 0.7431010641495821,
+      "flos": 25228646887680.0,
+      "grad_norm": 2.5582426573159087,
+      "language_loss": 0.73119491,
+      "learning_rate": 6.531167337286165e-07,
+      "loss": 0.75326824,
+      "num_input_tokens_seen": 132793180,
+      "step": 6180,
+      "time_per_iteration": 2.649750232696533
+    },
+    {
+      "auxiliary_loss_clip": 0.01187095,
+      "auxiliary_loss_mlp": 0.0102535,
+      "balance_loss_clip": 1.04750538,
+      "balance_loss_mlp": 1.01832581,
+      "epoch": 0.7432213070402213,
+      "flos": 21762369550080.0,
+      "grad_norm": 1.6944339333057314,
+      "language_loss": 0.79501683,
+      "learning_rate": 6.52540988592768e-07,
+      "loss": 0.81714129,
+      "num_input_tokens_seen": 132814200,
+      "step": 6181,
+      "time_per_iteration": 2.647848129272461
+    },
+    {
+      "auxiliary_loss_clip": 0.01188757,
+      "auxiliary_loss_mlp": 0.01030388,
+      "balance_loss_clip": 1.04455447,
+      "balance_loss_mlp": 1.02302659,
+      "epoch": 0.7433415499308603,
+      "flos": 14793832425600.0,
+      "grad_norm": 2.356901687241828,
+      "language_loss": 0.83567041,
+      "learning_rate": 6.519654478653814e-07,
+      "loss": 0.85786188,
+      "num_input_tokens_seen": 132832565,
+      "step": 6182,
+      "time_per_iteration": 2.628309488296509
+    },
+    {
+      "auxiliary_loss_clip": 0.01091646,
+      "auxiliary_loss_mlp": 0.01000623,
+      "balance_loss_clip": 1.0115459,
+      "balance_loss_mlp": 0.9995147,
+      "epoch": 0.7434617928214994,
+      "flos": 67155577297920.0,
+      "grad_norm": 0.7608410363291875,
+      "language_loss": 0.56071526,
+      "learning_rate": 6.51390111633763e-07,
+      "loss": 0.58163798,
+      "num_input_tokens_seen": 132897840,
+      "step": 6183,
+      "time_per_iteration": 3.327423572540283
+    },
+    {
+      "auxiliary_loss_clip": 0.01208625,
+      "auxiliary_loss_mlp": 0.01025296,
+      "balance_loss_clip": 1.03835261,
+      "balance_loss_mlp": 1.01840234,
+      "epoch": 0.7435820357121385,
+      "flos": 27377576928000.0,
+      "grad_norm": 1.65096211283241,
+      "language_loss": 0.76136029,
+      "learning_rate": 6.508149799851932e-07,
+      "loss": 0.78369951,
+      "num_input_tokens_seen": 132919505,
+      "step": 6184,
+      "time_per_iteration": 2.832552909851074
+    },
+    {
+      "auxiliary_loss_clip": 0.01184342,
+      "auxiliary_loss_mlp": 0.01021618,
+      "balance_loss_clip": 1.04616261,
+      "balance_loss_mlp": 1.01452541,
+      "epoch": 0.7437022786027776,
+      "flos": 23987645948160.0,
+      "grad_norm": 3.040917662984888,
+      "language_loss": 0.61569273,
+      "learning_rate": 6.502400530069183e-07,
+      "loss": 0.63775235,
+      "num_input_tokens_seen": 132939390,
+      "step": 6185,
+      "time_per_iteration": 2.66658353805542
+    },
+    {
+      "auxiliary_loss_clip": 0.01193503,
+      "auxiliary_loss_mlp": 0.01024714,
+      "balance_loss_clip": 1.04319525,
+      "balance_loss_mlp": 1.01652992,
+      "epoch": 0.7438225214934167,
+      "flos": 21866761451520.0,
+      "grad_norm": 2.1047530887902517,
+      "language_loss": 0.68631452,
+      "learning_rate": 6.496653307861535e-07,
+      "loss": 0.70849669,
+      "num_input_tokens_seen": 132960060,
+      "step": 6186,
+      "time_per_iteration": 2.71455717086792
+    },
+    {
+      "auxiliary_loss_clip": 0.0118132,
+      "auxiliary_loss_mlp": 0.01024023,
+      "balance_loss_clip": 1.04512942,
+      "balance_loss_mlp": 1.01733208,
+      "epoch": 0.7439427643840558,
+      "flos": 20230097224320.0,
+      "grad_norm": 1.7940850845042287,
+      "language_loss": 0.65757817,
+      "learning_rate": 6.490908134100857e-07,
+      "loss": 0.67963159,
+      "num_input_tokens_seen": 132978525,
+      "step": 6187,
+      "time_per_iteration": 2.5878937244415283
+    },
+    {
+      "auxiliary_loss_clip": 0.01180755,
+      "auxiliary_loss_mlp": 0.01024676,
+      "balance_loss_clip": 1.04540181,
+      "balance_loss_mlp": 1.01720214,
+      "epoch": 0.7440630072746949,
+      "flos": 20849915335680.0,
+      "grad_norm": 2.1351244606837048,
+      "language_loss": 0.69437337,
+      "learning_rate": 6.48516500965866e-07,
+      "loss": 0.71642774,
+      "num_input_tokens_seen": 132998460,
+      "step": 6188,
+      "time_per_iteration": 2.6305034160614014
+    },
+    {
+      "auxiliary_loss_clip": 0.01180016,
+      "auxiliary_loss_mlp": 0.01019783,
+      "balance_loss_clip": 1.04450727,
+      "balance_loss_mlp": 1.01292276,
+      "epoch": 0.7441832501653339,
+      "flos": 26503762769280.0,
+      "grad_norm": 1.8088832273520759,
+      "language_loss": 0.81850958,
+      "learning_rate": 6.479423935406192e-07,
+      "loss": 0.84050751,
+      "num_input_tokens_seen": 133018445,
+      "step": 6189,
+      "time_per_iteration": 2.6737215518951416
+    },
+    {
+      "auxiliary_loss_clip": 0.01086181,
+      "auxiliary_loss_mlp": 0.01002598,
+      "balance_loss_clip": 1.0144136,
+      "balance_loss_mlp": 1.00142431,
+      "epoch": 0.7443034930559731,
+      "flos": 68602848088320.0,
+      "grad_norm": 0.8041047449685225,
+      "language_loss": 0.61994624,
+      "learning_rate": 6.473684912214357e-07,
+      "loss": 0.64083397,
+      "num_input_tokens_seen": 133082005,
+      "step": 6190,
+      "time_per_iteration": 3.3278884887695312
+    },
+    {
+      "auxiliary_loss_clip": 0.0117697,
+      "auxiliary_loss_mlp": 0.01026228,
+      "balance_loss_clip": 1.0459373,
+      "balance_loss_mlp": 1.01841938,
+      "epoch": 0.7444237359466122,
+      "flos": 18654982951680.0,
+      "grad_norm": 2.4523603442550668,
+      "language_loss": 0.7000224,
+      "learning_rate": 6.467947940953778e-07,
+      "loss": 0.72205436,
+      "num_input_tokens_seen": 133100530,
+      "step": 6191,
+      "time_per_iteration": 2.6663036346435547
+    },
+    {
+      "auxiliary_loss_clip": 0.01185218,
+      "auxiliary_loss_mlp": 0.01019187,
+      "balance_loss_clip": 1.0447073,
+      "balance_loss_mlp": 1.01187015,
+      "epoch": 0.7445439788372512,
+      "flos": 22817604326400.0,
+      "grad_norm": 1.786774384089426,
+      "language_loss": 0.72649431,
+      "learning_rate": 6.462213022494732e-07,
+      "loss": 0.74853837,
+      "num_input_tokens_seen": 133119775,
+      "step": 6192,
+      "time_per_iteration": 2.705139636993408
+    },
+    {
+      "auxiliary_loss_clip": 0.01077928,
+      "auxiliary_loss_mlp": 0.01002344,
+      "balance_loss_clip": 1.01151276,
+      "balance_loss_mlp": 1.00124764,
+      "epoch": 0.7446642217278904,
+      "flos": 67045690615680.0,
+      "grad_norm": 0.7712649500801977,
+      "language_loss": 0.61001194,
+      "learning_rate": 6.456480157707201e-07,
+      "loss": 0.63081461,
+      "num_input_tokens_seen": 133184550,
+      "step": 6193,
+      "time_per_iteration": 4.0833775997161865
+    },
+    {
+      "auxiliary_loss_clip": 0.01187811,
+      "auxiliary_loss_mlp": 0.01024524,
+      "balance_loss_clip": 1.04272413,
+      "balance_loss_mlp": 1.01704109,
+      "epoch": 0.7447844646185294,
+      "flos": 17417465631360.0,
+      "grad_norm": 2.0898281807185857,
+      "language_loss": 0.85146976,
+      "learning_rate": 6.450749347460866e-07,
+      "loss": 0.87359309,
+      "num_input_tokens_seen": 133201525,
+      "step": 6194,
+      "time_per_iteration": 2.755890369415283
+    },
+    {
+      "auxiliary_loss_clip": 0.01170159,
+      "auxiliary_loss_mlp": 0.01028104,
+      "balance_loss_clip": 1.04799068,
+      "balance_loss_mlp": 1.01990247,
+      "epoch": 0.7449047075091685,
+      "flos": 26615876094720.0,
+      "grad_norm": 1.8877395706464308,
+      "language_loss": 0.79121125,
+      "learning_rate": 6.445020592625083e-07,
+      "loss": 0.81319392,
+      "num_input_tokens_seen": 133222175,
+      "step": 6195,
+      "time_per_iteration": 2.5985701084136963
+    },
+    {
+      "auxiliary_loss_clip": 0.0116835,
+      "auxiliary_loss_mlp": 0.0102626,
+      "balance_loss_clip": 1.04651189,
+      "balance_loss_mlp": 1.01925898,
+      "epoch": 0.7450249503998077,
+      "flos": 14170458867840.0,
+      "grad_norm": 2.0474155677975845,
+      "language_loss": 0.80282664,
+      "learning_rate": 6.4392938940689e-07,
+      "loss": 0.82477272,
+      "num_input_tokens_seen": 133237590,
+      "step": 6196,
+      "time_per_iteration": 2.588310956954956
+    },
+    {
+      "auxiliary_loss_clip": 0.0119905,
+      "auxiliary_loss_mlp": 0.01379081,
+      "balance_loss_clip": 1.04099107,
+      "balance_loss_mlp": 1.0001694,
+      "epoch": 0.7451451932904467,
+      "flos": 19606687752960.0,
+      "grad_norm": 2.4834753612592158,
+      "language_loss": 0.71276939,
+      "learning_rate": 6.433569252661049e-07,
+      "loss": 0.73855066,
+      "num_input_tokens_seen": 133255590,
+      "step": 6197,
+      "time_per_iteration": 2.709059238433838
+    },
+    {
+      "auxiliary_loss_clip": 0.01188985,
+      "auxiliary_loss_mlp": 0.01022474,
+      "balance_loss_clip": 1.04308534,
+      "balance_loss_mlp": 1.01565814,
+      "epoch": 0.7452654361810858,
+      "flos": 12495405980160.0,
+      "grad_norm": 1.9036964829317669,
+      "language_loss": 0.71071726,
+      "learning_rate": 6.427846669269952e-07,
+      "loss": 0.73283184,
+      "num_input_tokens_seen": 133273210,
+      "step": 6198,
+      "time_per_iteration": 3.5734400749206543
+    },
+    {
+      "auxiliary_loss_clip": 0.01169132,
+      "auxiliary_loss_mlp": 0.01024866,
+      "balance_loss_clip": 1.04836106,
+      "balance_loss_mlp": 1.01793957,
+      "epoch": 0.7453856790717249,
+      "flos": 22127329687680.0,
+      "grad_norm": 2.0615265499830233,
+      "language_loss": 0.82403773,
+      "learning_rate": 6.422126144763729e-07,
+      "loss": 0.84597772,
+      "num_input_tokens_seen": 133292600,
+      "step": 6199,
+      "time_per_iteration": 3.473098039627075
+    },
+    {
+      "auxiliary_loss_clip": 0.01188751,
+      "auxiliary_loss_mlp": 0.01379147,
+      "balance_loss_clip": 1.03948092,
+      "balance_loss_mlp": 1.00010204,
+      "epoch": 0.745505921962364,
+      "flos": 20010682995840.0,
+      "grad_norm": 1.9974194948661208,
+      "language_loss": 0.7663638,
+      "learning_rate": 6.416407680010174e-07,
+      "loss": 0.79204273,
+      "num_input_tokens_seen": 133306960,
+      "step": 6200,
+      "time_per_iteration": 2.656806707382202
+    },
+    {
+      "auxiliary_loss_clip": 0.01216905,
+      "auxiliary_loss_mlp": 0.01028382,
+      "balance_loss_clip": 1.04289699,
+      "balance_loss_mlp": 1.0208714,
+      "epoch": 0.745626164853003,
+      "flos": 24677884673280.0,
+      "grad_norm": 2.3883749717624094,
+      "language_loss": 0.81127369,
+      "learning_rate": 6.410691275876774e-07,
+      "loss": 0.83372653,
+      "num_input_tokens_seen": 133326380,
+      "step": 6201,
+      "time_per_iteration": 2.77439284324646
+    },
+    {
+      "auxiliary_loss_clip": 0.011957,
+      "auxiliary_loss_mlp": 0.01026806,
+      "balance_loss_clip": 1.04682851,
+      "balance_loss_mlp": 1.01915836,
+      "epoch": 0.7457464077436422,
+      "flos": 14538830797440.0,
+      "grad_norm": 5.824991475396436,
+      "language_loss": 0.76620722,
+      "learning_rate": 6.404976933230704e-07,
+      "loss": 0.78843224,
+      "num_input_tokens_seen": 133342900,
+      "step": 6202,
+      "time_per_iteration": 2.5898025035858154
+    },
+    {
+      "auxiliary_loss_clip": 0.01189988,
+      "auxiliary_loss_mlp": 0.01030588,
+      "balance_loss_clip": 1.0453527,
+      "balance_loss_mlp": 1.02246344,
+      "epoch": 0.7458666506342813,
+      "flos": 34021194600960.0,
+      "grad_norm": 1.8690151841216516,
+      "language_loss": 0.72605467,
+      "learning_rate": 6.399264652938813e-07,
+      "loss": 0.74826038,
+      "num_input_tokens_seen": 133363805,
+      "step": 6203,
+      "time_per_iteration": 2.753545045852661
+    },
+    {
+      "auxiliary_loss_clip": 0.01183095,
+      "auxiliary_loss_mlp": 0.01025231,
+      "balance_loss_clip": 1.04299736,
+      "balance_loss_mlp": 1.01886535,
+      "epoch": 0.7459868935249203,
+      "flos": 24279025075200.0,
+      "grad_norm": 2.23785200829016,
+      "language_loss": 0.74455416,
+      "learning_rate": 6.393554435867679e-07,
+      "loss": 0.76663744,
+      "num_input_tokens_seen": 133384655,
+      "step": 6204,
+      "time_per_iteration": 2.6878371238708496
+    },
+    {
+      "auxiliary_loss_clip": 0.01191554,
+      "auxiliary_loss_mlp": 0.01031484,
+      "balance_loss_clip": 1.04373193,
+      "balance_loss_mlp": 1.02385414,
+      "epoch": 0.7461071364155595,
+      "flos": 21908777385600.0,
+      "grad_norm": 2.1788100717236025,
+      "language_loss": 0.83685839,
+      "learning_rate": 6.387846282883502e-07,
+      "loss": 0.85908878,
+      "num_input_tokens_seen": 133401185,
+      "step": 6205,
+      "time_per_iteration": 2.7037577629089355
+    },
+    {
+      "auxiliary_loss_clip": 0.0116676,
+      "auxiliary_loss_mlp": 0.01028531,
+      "balance_loss_clip": 1.04764163,
+      "balance_loss_mlp": 1.0209552,
+      "epoch": 0.7462273793061985,
+      "flos": 22889712879360.0,
+      "grad_norm": 2.0151928245513466,
+      "language_loss": 0.76597315,
+      "learning_rate": 6.38214019485223e-07,
+      "loss": 0.78792608,
+      "num_input_tokens_seen": 133420010,
+      "step": 6206,
+      "time_per_iteration": 2.5499253273010254
+    },
+    {
+      "auxiliary_loss_clip": 0.01205795,
+      "auxiliary_loss_mlp": 0.01024159,
+      "balance_loss_clip": 1.03823042,
+      "balance_loss_mlp": 1.01656568,
+      "epoch": 0.7463476221968376,
+      "flos": 19968451580160.0,
+      "grad_norm": 1.8251701516803898,
+      "language_loss": 0.71664751,
+      "learning_rate": 6.376436172639461e-07,
+      "loss": 0.73894703,
+      "num_input_tokens_seen": 133437855,
+      "step": 6207,
+      "time_per_iteration": 2.7554831504821777
+    },
+    {
+      "auxiliary_loss_clip": 0.01222106,
+      "auxiliary_loss_mlp": 0.01028474,
+      "balance_loss_clip": 1.03887987,
+      "balance_loss_mlp": 1.02040339,
+      "epoch": 0.7464678650874768,
+      "flos": 16836610798080.0,
+      "grad_norm": 2.5740279163196664,
+      "language_loss": 0.6510489,
+      "learning_rate": 6.370734217110487e-07,
+      "loss": 0.67355472,
+      "num_input_tokens_seen": 133456600,
+      "step": 6208,
+      "time_per_iteration": 2.725243091583252
+    },
+    {
+      "auxiliary_loss_clip": 0.01191785,
+      "auxiliary_loss_mlp": 0.01028834,
+      "balance_loss_clip": 1.04808307,
+      "balance_loss_mlp": 1.02091289,
+      "epoch": 0.7465881079781158,
+      "flos": 48100869843840.0,
+      "grad_norm": 1.4809068778938526,
+      "language_loss": 0.64260817,
+      "learning_rate": 6.36503432913031e-07,
+      "loss": 0.66481429,
+      "num_input_tokens_seen": 133479745,
+      "step": 6209,
+      "time_per_iteration": 2.828695297241211
+    },
+    {
+      "auxiliary_loss_clip": 0.01176787,
+      "auxiliary_loss_mlp": 0.01025799,
+      "balance_loss_clip": 1.04688859,
+      "balance_loss_mlp": 1.01791883,
+      "epoch": 0.7467083508687549,
+      "flos": 19677359761920.0,
+      "grad_norm": 1.9960357412888328,
+      "language_loss": 0.6911546,
+      "learning_rate": 6.359336509563569e-07,
+      "loss": 0.71318048,
+      "num_input_tokens_seen": 133495765,
+      "step": 6210,
+      "time_per_iteration": 2.620892286300659
+    },
+    {
+      "auxiliary_loss_clip": 0.01179737,
+      "auxiliary_loss_mlp": 0.01025953,
+      "balance_loss_clip": 1.04149985,
+      "balance_loss_mlp": 1.01843655,
+      "epoch": 0.7468285937593939,
+      "flos": 17895436934400.0,
+      "grad_norm": 1.7562920064722731,
+      "language_loss": 0.80715781,
+      "learning_rate": 6.353640759274641e-07,
+      "loss": 0.82921469,
+      "num_input_tokens_seen": 133514655,
+      "step": 6211,
+      "time_per_iteration": 2.6197941303253174
+    },
+    {
+      "auxiliary_loss_clip": 0.01174251,
+      "auxiliary_loss_mlp": 0.01024189,
+      "balance_loss_clip": 1.04370177,
+      "balance_loss_mlp": 1.01659262,
+      "epoch": 0.7469488366500331,
+      "flos": 23141446369920.0,
+      "grad_norm": 10.853423829373218,
+      "language_loss": 0.74976218,
+      "learning_rate": 6.347947079127556e-07,
+      "loss": 0.77174658,
+      "num_input_tokens_seen": 133532555,
+      "step": 6212,
+      "time_per_iteration": 2.680996894836426
+    },
+    {
+      "auxiliary_loss_clip": 0.01180525,
+      "auxiliary_loss_mlp": 0.01028528,
+      "balance_loss_clip": 1.04358697,
+      "balance_loss_mlp": 1.02141738,
+      "epoch": 0.7470690795406721,
+      "flos": 16690849407360.0,
+      "grad_norm": 2.0643062052622,
+      "language_loss": 0.77139062,
+      "learning_rate": 6.342255469986053e-07,
+      "loss": 0.79348111,
+      "num_input_tokens_seen": 133551300,
+      "step": 6213,
+      "time_per_iteration": 2.617138624191284
+    },
+    {
+      "auxiliary_loss_clip": 0.01167382,
+      "auxiliary_loss_mlp": 0.01022975,
+      "balance_loss_clip": 1.04658532,
+      "balance_loss_mlp": 1.01541102,
+      "epoch": 0.7471893224313112,
+      "flos": 25192700352000.0,
+      "grad_norm": 1.710052268138982,
+      "language_loss": 0.75969589,
+      "learning_rate": 6.336565932713533e-07,
+      "loss": 0.78159952,
+      "num_input_tokens_seen": 133570725,
+      "step": 6214,
+      "time_per_iteration": 2.604619264602661
+    },
+    {
+      "auxiliary_loss_clip": 0.01183352,
+      "auxiliary_loss_mlp": 0.01029371,
+      "balance_loss_clip": 1.04673862,
+      "balance_loss_mlp": 1.02174735,
+      "epoch": 0.7473095653219504,
+      "flos": 22526225199360.0,
+      "grad_norm": 2.0142939132440447,
+      "language_loss": 0.77841234,
+      "learning_rate": 6.330878468173088e-07,
+      "loss": 0.80053961,
+      "num_input_tokens_seen": 133590790,
+      "step": 6215,
+      "time_per_iteration": 2.6579537391662598
+    },
+    {
+      "auxiliary_loss_clip": 0.01166371,
+      "auxiliary_loss_mlp": 0.01025682,
+      "balance_loss_clip": 1.04348135,
+      "balance_loss_mlp": 1.01867211,
+      "epoch": 0.7474298082125894,
+      "flos": 18113989236480.0,
+      "grad_norm": 2.1086716953794427,
+      "language_loss": 0.72806633,
+      "learning_rate": 6.32519307722752e-07,
+      "loss": 0.74998683,
+      "num_input_tokens_seen": 133608685,
+      "step": 6216,
+      "time_per_iteration": 2.655616044998169
+    },
+    {
+      "auxiliary_loss_clip": 0.01103278,
+      "auxiliary_loss_mlp": 0.01000493,
+      "balance_loss_clip": 1.01696777,
+      "balance_loss_mlp": 0.99948609,
+      "epoch": 0.7475500511032285,
+      "flos": 62086535193600.0,
+      "grad_norm": 0.9162628749307754,
+      "language_loss": 0.54960811,
+      "learning_rate": 6.31950976073929e-07,
+      "loss": 0.57064575,
+      "num_input_tokens_seen": 133662775,
+      "step": 6217,
+      "time_per_iteration": 3.2585561275482178
+    },
+    {
+      "auxiliary_loss_clip": 0.01202062,
+      "auxiliary_loss_mlp": 0.01025562,
+      "balance_loss_clip": 1.04361498,
+      "balance_loss_mlp": 1.01828158,
+      "epoch": 0.7476702939938676,
+      "flos": 17785586165760.0,
+      "grad_norm": 2.2400988572125193,
+      "language_loss": 0.80605352,
+      "learning_rate": 6.31382851957055e-07,
+      "loss": 0.82832968,
+      "num_input_tokens_seen": 133679595,
+      "step": 6218,
+      "time_per_iteration": 2.6983981132507324
+    },
+    {
+      "auxiliary_loss_clip": 0.01193243,
+      "auxiliary_loss_mlp": 0.01378646,
+      "balance_loss_clip": 1.04556525,
+      "balance_loss_mlp": 1.0001905,
+      "epoch": 0.7477905368845067,
+      "flos": 27927944092800.0,
+      "grad_norm": 2.0157459742293007,
+      "language_loss": 0.71530282,
+      "learning_rate": 6.308149354583143e-07,
+      "loss": 0.74102175,
+      "num_input_tokens_seen": 133699000,
+      "step": 6219,
+      "time_per_iteration": 3.6076974868774414
+    },
+    {
+      "auxiliary_loss_clip": 0.01184617,
+      "auxiliary_loss_mlp": 0.01028308,
+      "balance_loss_clip": 1.04906881,
+      "balance_loss_mlp": 1.02087545,
+      "epoch": 0.7479107797751458,
+      "flos": 26870374932480.0,
+      "grad_norm": 2.0494489657577977,
+      "language_loss": 0.8189624,
+      "learning_rate": 6.302472266638586e-07,
+      "loss": 0.84109169,
+      "num_input_tokens_seen": 133719540,
+      "step": 6220,
+      "time_per_iteration": 3.540938377380371
+    },
+    {
+      "auxiliary_loss_clip": 0.01175846,
+      "auxiliary_loss_mlp": 0.01027881,
+      "balance_loss_clip": 1.05002928,
+      "balance_loss_mlp": 1.01981068,
+      "epoch": 0.7480310226657849,
+      "flos": 33943375785600.0,
+      "grad_norm": 1.9506329404467364,
+      "language_loss": 0.70031559,
+      "learning_rate": 6.296797256598101e-07,
+      "loss": 0.7223528,
+      "num_input_tokens_seen": 133741020,
+      "step": 6221,
+      "time_per_iteration": 2.6496152877807617
+    },
+    {
+      "auxiliary_loss_clip": 0.01184679,
+      "auxiliary_loss_mlp": 0.01024936,
+      "balance_loss_clip": 1.04240954,
+      "balance_loss_mlp": 1.0180279,
+      "epoch": 0.748151265556424,
+      "flos": 24826555065600.0,
+      "grad_norm": 1.88394500053882,
+      "language_loss": 0.81499642,
+      "learning_rate": 6.291124325322576e-07,
+      "loss": 0.83709252,
+      "num_input_tokens_seen": 133761145,
+      "step": 6222,
+      "time_per_iteration": 2.6706202030181885
+    },
+    {
+      "auxiliary_loss_clip": 0.01191305,
+      "auxiliary_loss_mlp": 0.01025317,
+      "balance_loss_clip": 1.04491711,
+      "balance_loss_mlp": 1.01797938,
+      "epoch": 0.748271508447063,
+      "flos": 38399351535360.0,
+      "grad_norm": 1.583066685728043,
+      "language_loss": 0.62514961,
+      "learning_rate": 6.285453473672595e-07,
+      "loss": 0.64731574,
+      "num_input_tokens_seen": 133783715,
+      "step": 6223,
+      "time_per_iteration": 2.7801225185394287
+    },
+    {
+      "auxiliary_loss_clip": 0.01169638,
+      "auxiliary_loss_mlp": 0.01025962,
+      "balance_loss_clip": 1.04849458,
+      "balance_loss_mlp": 1.01900315,
+      "epoch": 0.7483917513377022,
+      "flos": 21541842000000.0,
+      "grad_norm": 1.8750600988890518,
+      "language_loss": 0.75522053,
+      "learning_rate": 6.279784702508415e-07,
+      "loss": 0.7771765,
+      "num_input_tokens_seen": 133804465,
+      "step": 6224,
+      "time_per_iteration": 3.5286543369293213
+    },
+    {
+      "auxiliary_loss_clip": 0.01104433,
+      "auxiliary_loss_mlp": 0.01000771,
+      "balance_loss_clip": 1.01072526,
+      "balance_loss_mlp": 0.99966842,
+      "epoch": 0.7485119942283412,
+      "flos": 62314532772480.0,
+      "grad_norm": 0.7779945094712117,
+      "language_loss": 0.58554149,
+      "learning_rate": 6.274118012689979e-07,
+      "loss": 0.60659349,
+      "num_input_tokens_seen": 133866365,
+      "step": 6225,
+      "time_per_iteration": 4.267701148986816
+    },
+    {
+      "auxiliary_loss_clip": 0.01179076,
+      "auxiliary_loss_mlp": 0.01028162,
+      "balance_loss_clip": 1.04432964,
+      "balance_loss_mlp": 1.02029991,
+      "epoch": 0.7486322371189803,
+      "flos": 29937613104000.0,
+      "grad_norm": 1.7466060363131453,
+      "language_loss": 0.68078208,
+      "learning_rate": 6.268453405076943e-07,
+      "loss": 0.70285439,
+      "num_input_tokens_seen": 133888760,
+      "step": 6226,
+      "time_per_iteration": 2.699772357940674
+    },
+    {
+      "auxiliary_loss_clip": 0.01184751,
+      "auxiliary_loss_mlp": 0.01022249,
+      "balance_loss_clip": 1.04370618,
+      "balance_loss_mlp": 1.01531148,
+      "epoch": 0.7487524800096195,
+      "flos": 18949414734720.0,
+      "grad_norm": 2.0775409915629544,
+      "language_loss": 0.82248819,
+      "learning_rate": 6.262790880528592e-07,
+      "loss": 0.84455812,
+      "num_input_tokens_seen": 133906380,
+      "step": 6227,
+      "time_per_iteration": 2.7503726482391357
+    },
+    {
+      "auxiliary_loss_clip": 0.01201325,
+      "auxiliary_loss_mlp": 0.01026561,
+      "balance_loss_clip": 1.04007328,
+      "balance_loss_mlp": 1.01904535,
+      "epoch": 0.7488727229002585,
+      "flos": 18697393935360.0,
+      "grad_norm": 3.2879115249463866,
+      "language_loss": 0.79708946,
+      "learning_rate": 6.257130439903951e-07,
+      "loss": 0.8193683,
+      "num_input_tokens_seen": 133922875,
+      "step": 6228,
+      "time_per_iteration": 2.6344265937805176
+    },
+    {
+      "auxiliary_loss_clip": 0.011722,
+      "auxiliary_loss_mlp": 0.01027048,
+      "balance_loss_clip": 1.0496459,
+      "balance_loss_mlp": 1.02025342,
+      "epoch": 0.7489929657908976,
+      "flos": 23623368168960.0,
+      "grad_norm": 3.715557640163127,
+      "language_loss": 0.80854928,
+      "learning_rate": 6.251472084061695e-07,
+      "loss": 0.83054173,
+      "num_input_tokens_seen": 133941795,
+      "step": 6229,
+      "time_per_iteration": 2.5960640907287598
+    },
+    {
+      "auxiliary_loss_clip": 0.0117687,
+      "auxiliary_loss_mlp": 0.01030202,
+      "balance_loss_clip": 1.04792047,
+      "balance_loss_mlp": 1.02287102,
+      "epoch": 0.7491132086815367,
+      "flos": 20551533056640.0,
+      "grad_norm": 1.9021854847039759,
+      "language_loss": 0.89257109,
+      "learning_rate": 6.245815813860191e-07,
+      "loss": 0.9146418,
+      "num_input_tokens_seen": 133957305,
+      "step": 6230,
+      "time_per_iteration": 2.5719356536865234
+    },
+    {
+      "auxiliary_loss_clip": 0.01171642,
+      "auxiliary_loss_mlp": 0.01026164,
+      "balance_loss_clip": 1.04743731,
+      "balance_loss_mlp": 1.01804042,
+      "epoch": 0.7492334515721758,
+      "flos": 23003011353600.0,
+      "grad_norm": 2.0471793338938657,
+      "language_loss": 0.70632982,
+      "learning_rate": 6.240161630157495e-07,
+      "loss": 0.72830784,
+      "num_input_tokens_seen": 133976660,
+      "step": 6231,
+      "time_per_iteration": 2.588921070098877
+    },
+    {
+      "auxiliary_loss_clip": 0.01171222,
+      "auxiliary_loss_mlp": 0.01028973,
+      "balance_loss_clip": 1.04824948,
+      "balance_loss_mlp": 1.02134407,
+      "epoch": 0.7493536944628149,
+      "flos": 16398823835520.0,
+      "grad_norm": 2.4022136711445436,
+      "language_loss": 0.70385933,
+      "learning_rate": 6.23450953381133e-07,
+      "loss": 0.72586131,
+      "num_input_tokens_seen": 133994750,
+      "step": 6232,
+      "time_per_iteration": 2.533184766769409
+    },
+    {
+      "auxiliary_loss_clip": 0.01176277,
+      "auxiliary_loss_mlp": 0.01023497,
+      "balance_loss_clip": 1.04145765,
+      "balance_loss_mlp": 1.01642776,
+      "epoch": 0.749473937353454,
+      "flos": 15338561155200.0,
+      "grad_norm": 1.9803231686204132,
+      "language_loss": 0.67772824,
+      "learning_rate": 6.228859525679131e-07,
+      "loss": 0.69972599,
+      "num_input_tokens_seen": 134009165,
+      "step": 6233,
+      "time_per_iteration": 2.6095800399780273
+    },
+    {
+      "auxiliary_loss_clip": 0.01180837,
+      "auxiliary_loss_mlp": 0.01028265,
+      "balance_loss_clip": 1.04876423,
+      "balance_loss_mlp": 1.02131844,
+      "epoch": 0.7495941802440931,
+      "flos": 18951138587520.0,
+      "grad_norm": 2.399106748593753,
+      "language_loss": 0.7958107,
+      "learning_rate": 6.223211606617986e-07,
+      "loss": 0.81790173,
+      "num_input_tokens_seen": 134027585,
+      "step": 6234,
+      "time_per_iteration": 2.556164264678955
+    },
+    {
+      "auxiliary_loss_clip": 0.01178534,
+      "auxiliary_loss_mlp": 0.01023447,
+      "balance_loss_clip": 1.0500592,
+      "balance_loss_mlp": 1.01731706,
+      "epoch": 0.7497144231347321,
+      "flos": 22492469393280.0,
+      "grad_norm": 1.7444537341602488,
+      "language_loss": 0.83798653,
+      "learning_rate": 6.217565777484701e-07,
+      "loss": 0.86000633,
+      "num_input_tokens_seen": 134046680,
+      "step": 6235,
+      "time_per_iteration": 2.6212711334228516
+    },
+    {
+      "auxiliary_loss_clip": 0.01185694,
+      "auxiliary_loss_mlp": 0.0137885,
+      "balance_loss_clip": 1.04549742,
+      "balance_loss_mlp": 1.00018156,
+      "epoch": 0.7498346660253713,
+      "flos": 24243509502720.0,
+      "grad_norm": 1.7870332281652812,
+      "language_loss": 0.79917252,
+      "learning_rate": 6.211922039135722e-07,
+      "loss": 0.8248179,
+      "num_input_tokens_seen": 134066825,
+      "step": 6236,
+      "time_per_iteration": 2.614243268966675
+    },
+    {
+      "auxiliary_loss_clip": 0.01171198,
+      "auxiliary_loss_mlp": 0.01024896,
+      "balance_loss_clip": 1.04946983,
+      "balance_loss_mlp": 1.01776683,
+      "epoch": 0.7499549089160104,
+      "flos": 24387080163840.0,
+      "grad_norm": 2.467525211430689,
+      "language_loss": 0.81072438,
+      "learning_rate": 6.206280392427201e-07,
+      "loss": 0.83268523,
+      "num_input_tokens_seen": 134086410,
+      "step": 6237,
+      "time_per_iteration": 2.5795392990112305
+    },
+    {
+      "auxiliary_loss_clip": 0.0116905,
+      "auxiliary_loss_mlp": 0.01024848,
+      "balance_loss_clip": 1.04355359,
+      "balance_loss_mlp": 1.01757038,
+      "epoch": 0.7500751518066494,
+      "flos": 34057320704640.0,
+      "grad_norm": 2.016188919686416,
+      "language_loss": 0.73808002,
+      "learning_rate": 6.200640838214983e-07,
+      "loss": 0.76001906,
+      "num_input_tokens_seen": 134109185,
+      "step": 6238,
+      "time_per_iteration": 2.7403724193573
+    },
+    {
+      "auxiliary_loss_clip": 0.01167031,
+      "auxiliary_loss_mlp": 0.01022077,
+      "balance_loss_clip": 1.04675889,
+      "balance_loss_mlp": 1.01521027,
+      "epoch": 0.7501953946972886,
+      "flos": 18843586289280.0,
+      "grad_norm": 1.814884402479432,
+      "language_loss": 0.66955411,
+      "learning_rate": 6.195003377354578e-07,
+      "loss": 0.69144523,
+      "num_input_tokens_seen": 134128455,
+      "step": 6239,
+      "time_per_iteration": 2.6322784423828125
+    },
+    {
+      "auxiliary_loss_clip": 0.01172732,
+      "auxiliary_loss_mlp": 0.01021629,
+      "balance_loss_clip": 1.04419708,
+      "balance_loss_mlp": 1.01397276,
+      "epoch": 0.7503156375879276,
+      "flos": 20257675891200.0,
+      "grad_norm": 2.603470670149287,
+      "language_loss": 0.73989332,
+      "learning_rate": 6.189368010701183e-07,
+      "loss": 0.76183695,
+      "num_input_tokens_seen": 134145515,
+      "step": 6240,
+      "time_per_iteration": 2.5788381099700928
+    },
+    {
+      "auxiliary_loss_clip": 0.01182383,
+      "auxiliary_loss_mlp": 0.01027835,
+      "balance_loss_clip": 1.04532051,
+      "balance_loss_mlp": 1.02042913,
+      "epoch": 0.7504358804785667,
+      "flos": 13480040574720.0,
+      "grad_norm": 1.9584760299276378,
+      "language_loss": 0.76508093,
+      "learning_rate": 6.183734739109683e-07,
+      "loss": 0.78718311,
+      "num_input_tokens_seen": 134163335,
+      "step": 6241,
+      "time_per_iteration": 2.6248021125793457
+    },
+    {
+      "auxiliary_loss_clip": 0.01186552,
+      "auxiliary_loss_mlp": 0.01028145,
+      "balance_loss_clip": 1.04911494,
+      "balance_loss_mlp": 1.02012837,
+      "epoch": 0.7505561233692057,
+      "flos": 29461042431360.0,
+      "grad_norm": 1.9954252521229099,
+      "language_loss": 0.69066703,
+      "learning_rate": 6.178103563434629e-07,
+      "loss": 0.71281397,
+      "num_input_tokens_seen": 134182335,
+      "step": 6242,
+      "time_per_iteration": 2.666409969329834
+    },
+    {
+      "auxiliary_loss_clip": 0.01169334,
+      "auxiliary_loss_mlp": 0.0102168,
+      "balance_loss_clip": 1.04720974,
+      "balance_loss_mlp": 1.01425004,
+      "epoch": 0.7506763662598449,
+      "flos": 20302457172480.0,
+      "grad_norm": 1.635126615061084,
+      "language_loss": 0.83693027,
+      "learning_rate": 6.172474484530283e-07,
+      "loss": 0.85884035,
+      "num_input_tokens_seen": 134201070,
+      "step": 6243,
+      "time_per_iteration": 2.5338973999023438
+    },
+    {
+      "auxiliary_loss_clip": 0.0117328,
+      "auxiliary_loss_mlp": 0.01021047,
+      "balance_loss_clip": 1.04050398,
+      "balance_loss_mlp": 1.01345968,
+      "epoch": 0.750796609150484,
+      "flos": 37230961939200.0,
+      "grad_norm": 3.267525545314218,
+      "language_loss": 0.75746715,
+      "learning_rate": 6.166847503250563e-07,
+      "loss": 0.77941042,
+      "num_input_tokens_seen": 134223310,
+      "step": 6244,
+      "time_per_iteration": 2.723073720932007
+    },
+    {
+      "auxiliary_loss_clip": 0.01185331,
+      "auxiliary_loss_mlp": 0.01032649,
+      "balance_loss_clip": 1.04416156,
+      "balance_loss_mlp": 1.02479935,
+      "epoch": 0.750916852041123,
+      "flos": 19609417186560.0,
+      "grad_norm": 2.991196859586884,
+      "language_loss": 0.78432965,
+      "learning_rate": 6.161222620449078e-07,
+      "loss": 0.80650949,
+      "num_input_tokens_seen": 134242085,
+      "step": 6245,
+      "time_per_iteration": 3.4827334880828857
+    },
+    {
+      "auxiliary_loss_clip": 0.01200365,
+      "auxiliary_loss_mlp": 0.01026605,
+      "balance_loss_clip": 1.0455904,
+      "balance_loss_mlp": 1.01887441,
+      "epoch": 0.7510370949317622,
+      "flos": 25112690807040.0,
+      "grad_norm": 2.3131320595962603,
+      "language_loss": 0.80496335,
+      "learning_rate": 6.155599836979117e-07,
+      "loss": 0.82723296,
+      "num_input_tokens_seen": 134260770,
+      "step": 6246,
+      "time_per_iteration": 3.6407759189605713
+    },
+    {
+      "auxiliary_loss_clip": 0.01203816,
+      "auxiliary_loss_mlp": 0.01029625,
+      "balance_loss_clip": 1.04219019,
+      "balance_loss_mlp": 1.02127445,
+      "epoch": 0.7511573378224012,
+      "flos": 19062282245760.0,
+      "grad_norm": 2.0068834682315715,
+      "language_loss": 0.81745678,
+      "learning_rate": 6.149979153693649e-07,
+      "loss": 0.83979118,
+      "num_input_tokens_seen": 134278025,
+      "step": 6247,
+      "time_per_iteration": 2.6721348762512207
+    },
+    {
+      "auxiliary_loss_clip": 0.01175047,
+      "auxiliary_loss_mlp": 0.01025753,
+      "balance_loss_clip": 1.04615593,
+      "balance_loss_mlp": 1.01815069,
+      "epoch": 0.7512775807130403,
+      "flos": 19937676602880.0,
+      "grad_norm": 2.000421439277236,
+      "language_loss": 0.77072173,
+      "learning_rate": 6.144360571445343e-07,
+      "loss": 0.79272974,
+      "num_input_tokens_seen": 134297170,
+      "step": 6248,
+      "time_per_iteration": 2.5934133529663086
+    },
+    {
+      "auxiliary_loss_clip": 0.01177329,
+      "auxiliary_loss_mlp": 0.01028258,
+      "balance_loss_clip": 1.0484302,
+      "balance_loss_mlp": 1.02024698,
+      "epoch": 0.7513978236036795,
+      "flos": 20739920912640.0,
+      "grad_norm": 1.719597503761655,
+      "language_loss": 0.80223858,
+      "learning_rate": 6.138744091086509e-07,
+      "loss": 0.82429445,
+      "num_input_tokens_seen": 134316755,
+      "step": 6249,
+      "time_per_iteration": 2.650000810623169
+    },
+    {
+      "auxiliary_loss_clip": 0.01201669,
+      "auxiliary_loss_mlp": 0.01026479,
+      "balance_loss_clip": 1.04597425,
+      "balance_loss_mlp": 1.01966596,
+      "epoch": 0.7515180664943185,
+      "flos": 27563163523200.0,
+      "grad_norm": 2.555591611465025,
+      "language_loss": 0.72370386,
+      "learning_rate": 6.133129713469183e-07,
+      "loss": 0.74598539,
+      "num_input_tokens_seen": 134335960,
+      "step": 6250,
+      "time_per_iteration": 3.628310441970825
+    },
+    {
+      "auxiliary_loss_clip": 0.01201726,
+      "auxiliary_loss_mlp": 0.01022504,
+      "balance_loss_clip": 1.04056823,
+      "balance_loss_mlp": 1.01510406,
+      "epoch": 0.7516383093849576,
+      "flos": 33803181002880.0,
+      "grad_norm": 2.417091928812237,
+      "language_loss": 0.63890243,
+      "learning_rate": 6.127517439445053e-07,
+      "loss": 0.66114473,
+      "num_input_tokens_seen": 134356805,
+      "step": 6251,
+      "time_per_iteration": 3.7421441078186035
+    },
+    {
+      "auxiliary_loss_clip": 0.01197363,
+      "auxiliary_loss_mlp": 0.01024362,
+      "balance_loss_clip": 1.04306388,
+      "balance_loss_mlp": 1.01744509,
+      "epoch": 0.7517585522755967,
+      "flos": 29746172592000.0,
+      "grad_norm": 1.9826394723639962,
+      "language_loss": 0.82203484,
+      "learning_rate": 6.121907269865498e-07,
+      "loss": 0.84425211,
+      "num_input_tokens_seen": 134376295,
+      "step": 6252,
+      "time_per_iteration": 2.7978739738464355
+    },
+    {
+      "auxiliary_loss_clip": 0.01101345,
+      "auxiliary_loss_mlp": 0.01005082,
+      "balance_loss_clip": 1.0157423,
+      "balance_loss_mlp": 1.00395,
+      "epoch": 0.7518787951662358,
+      "flos": 69807974319360.0,
+      "grad_norm": 0.9254433885297444,
+      "language_loss": 0.67222434,
+      "learning_rate": 6.116299205581577e-07,
+      "loss": 0.69328856,
+      "num_input_tokens_seen": 134431125,
+      "step": 6253,
+      "time_per_iteration": 3.2214932441711426
+    },
+    {
+      "auxiliary_loss_clip": 0.01174292,
+      "auxiliary_loss_mlp": 0.01028067,
+      "balance_loss_clip": 1.0488925,
+      "balance_loss_mlp": 1.01979327,
+      "epoch": 0.7519990380568748,
+      "flos": 34203225749760.0,
+      "grad_norm": 1.6522302979411017,
+      "language_loss": 0.68296564,
+      "learning_rate": 6.110693247444018e-07,
+      "loss": 0.70498919,
+      "num_input_tokens_seen": 134452960,
+      "step": 6254,
+      "time_per_iteration": 2.7304837703704834
+    },
+    {
+      "auxiliary_loss_clip": 0.01183005,
+      "auxiliary_loss_mlp": 0.01024968,
+      "balance_loss_clip": 1.0416851,
+      "balance_loss_mlp": 1.01762164,
+      "epoch": 0.752119280947514,
+      "flos": 21725704742400.0,
+      "grad_norm": 1.7090875304411597,
+      "language_loss": 0.8255465,
+      "learning_rate": 6.105089396303258e-07,
+      "loss": 0.84762621,
+      "num_input_tokens_seen": 134471350,
+      "step": 6255,
+      "time_per_iteration": 2.6461479663848877
+    },
+    {
+      "auxiliary_loss_clip": 0.01188096,
+      "auxiliary_loss_mlp": 0.01024264,
+      "balance_loss_clip": 1.04552448,
+      "balance_loss_mlp": 1.01662898,
+      "epoch": 0.7522395238381531,
+      "flos": 32742774668160.0,
+      "grad_norm": 1.997389570620817,
+      "language_loss": 0.7552911,
+      "learning_rate": 6.099487653009383e-07,
+      "loss": 0.77741474,
+      "num_input_tokens_seen": 134490695,
+      "step": 6256,
+      "time_per_iteration": 2.761528491973877
+    },
+    {
+      "auxiliary_loss_clip": 0.01176503,
+      "auxiliary_loss_mlp": 0.0102461,
+      "balance_loss_clip": 1.04540634,
+      "balance_loss_mlp": 1.01779127,
+      "epoch": 0.7523597667287921,
+      "flos": 23476026579840.0,
+      "grad_norm": 2.075424021423268,
+      "language_loss": 0.83171213,
+      "learning_rate": 6.093888018412192e-07,
+      "loss": 0.85372329,
+      "num_input_tokens_seen": 134506885,
+      "step": 6257,
+      "time_per_iteration": 2.6006078720092773
+    },
+    {
+      "auxiliary_loss_clip": 0.0107874,
+      "auxiliary_loss_mlp": 0.010014,
+      "balance_loss_clip": 1.01249671,
+      "balance_loss_mlp": 1.00028515,
+      "epoch": 0.7524800096194313,
+      "flos": 67346730501120.0,
+      "grad_norm": 0.7119258412818666,
+      "language_loss": 0.54688853,
+      "learning_rate": 6.088290493361125e-07,
+      "loss": 0.56768996,
+      "num_input_tokens_seen": 134571770,
+      "step": 6258,
+      "time_per_iteration": 3.331667423248291
+    },
+    {
+      "auxiliary_loss_clip": 0.01193021,
+      "auxiliary_loss_mlp": 0.01026038,
+      "balance_loss_clip": 1.03992581,
+      "balance_loss_mlp": 1.01889491,
+      "epoch": 0.7526002525100703,
+      "flos": 13006055681280.0,
+      "grad_norm": 2.0469567286500125,
+      "language_loss": 0.71291548,
+      "learning_rate": 6.082695078705322e-07,
+      "loss": 0.73510605,
+      "num_input_tokens_seen": 134589250,
+      "step": 6259,
+      "time_per_iteration": 2.661074638366699
+    },
+    {
+      "auxiliary_loss_clip": 0.01168481,
+      "auxiliary_loss_mlp": 0.01025844,
+      "balance_loss_clip": 1.04464459,
+      "balance_loss_mlp": 1.01758909,
+      "epoch": 0.7527204954007094,
+      "flos": 21397229844480.0,
+      "grad_norm": 2.2012986980698805,
+      "language_loss": 0.68919134,
+      "learning_rate": 6.077101775293618e-07,
+      "loss": 0.71113455,
+      "num_input_tokens_seen": 134608075,
+      "step": 6260,
+      "time_per_iteration": 2.588512420654297
+    },
+    {
+      "auxiliary_loss_clip": 0.01179667,
+      "auxiliary_loss_mlp": 0.01026312,
+      "balance_loss_clip": 1.04515433,
+      "balance_loss_mlp": 1.01777089,
+      "epoch": 0.7528407382913486,
+      "flos": 18947188091520.0,
+      "grad_norm": 3.435086780409005,
+      "language_loss": 0.82710016,
+      "learning_rate": 6.071510583974504e-07,
+      "loss": 0.84915996,
+      "num_input_tokens_seen": 134623260,
+      "step": 6261,
+      "time_per_iteration": 2.7025363445281982
+    },
+    {
+      "auxiliary_loss_clip": 0.01171837,
+      "auxiliary_loss_mlp": 0.0102509,
+      "balance_loss_clip": 1.05019712,
+      "balance_loss_mlp": 1.01775885,
+      "epoch": 0.7529609811819876,
+      "flos": 15231798956160.0,
+      "grad_norm": 1.7950653439942466,
+      "language_loss": 0.71898878,
+      "learning_rate": 6.065921505596161e-07,
+      "loss": 0.74095803,
+      "num_input_tokens_seen": 134641540,
+      "step": 6262,
+      "time_per_iteration": 2.5484800338745117
+    },
+    {
+      "auxiliary_loss_clip": 0.01194727,
+      "auxiliary_loss_mlp": 0.01027171,
+      "balance_loss_clip": 1.04532361,
+      "balance_loss_mlp": 1.01996183,
+      "epoch": 0.7530812240726267,
+      "flos": 19354487385600.0,
+      "grad_norm": 1.5868544123127668,
+      "language_loss": 0.76916683,
+      "learning_rate": 6.060334541006445e-07,
+      "loss": 0.79138583,
+      "num_input_tokens_seen": 134660035,
+      "step": 6263,
+      "time_per_iteration": 2.7315988540649414
+    },
+    {
+      "auxiliary_loss_clip": 0.01193998,
+      "auxiliary_loss_mlp": 0.01022611,
+      "balance_loss_clip": 1.04044461,
+      "balance_loss_mlp": 1.0156076,
+      "epoch": 0.7532014669632658,
+      "flos": 27748247328000.0,
+      "grad_norm": 1.7255798204827715,
+      "language_loss": 0.69035578,
+      "learning_rate": 6.05474969105289e-07,
+      "loss": 0.71252185,
+      "num_input_tokens_seen": 134683025,
+      "step": 6264,
+      "time_per_iteration": 2.763059139251709
+    },
+    {
+      "auxiliary_loss_clip": 0.01178463,
+      "auxiliary_loss_mlp": 0.01027703,
+      "balance_loss_clip": 1.0460881,
+      "balance_loss_mlp": 1.02011561,
+      "epoch": 0.7533217098539049,
+      "flos": 14137421333760.0,
+      "grad_norm": 3.434597362326491,
+      "language_loss": 0.7376458,
+      "learning_rate": 6.049166956582725e-07,
+      "loss": 0.75970745,
+      "num_input_tokens_seen": 134701290,
+      "step": 6265,
+      "time_per_iteration": 2.6370012760162354
+    },
+    {
+      "auxiliary_loss_clip": 0.01171815,
+      "auxiliary_loss_mlp": 0.01025811,
+      "balance_loss_clip": 1.04534674,
+      "balance_loss_mlp": 1.01898038,
+      "epoch": 0.753441952744544,
+      "flos": 26429068437120.0,
+      "grad_norm": 1.918485586107922,
+      "language_loss": 0.87182796,
+      "learning_rate": 6.043586338442841e-07,
+      "loss": 0.89380431,
+      "num_input_tokens_seen": 134720345,
+      "step": 6266,
+      "time_per_iteration": 2.639569044113159
+    },
+    {
+      "auxiliary_loss_clip": 0.01164106,
+      "auxiliary_loss_mlp": 0.01024296,
+      "balance_loss_clip": 1.0466342,
+      "balance_loss_mlp": 1.01770103,
+      "epoch": 0.7535621956351831,
+      "flos": 23878621192320.0,
+      "grad_norm": 1.5679843059167669,
+      "language_loss": 0.73166662,
+      "learning_rate": 6.038007837479815e-07,
+      "loss": 0.75355065,
+      "num_input_tokens_seen": 134741450,
+      "step": 6267,
+      "time_per_iteration": 2.579724073410034
+    },
+    {
+      "auxiliary_loss_clip": 0.01177796,
+      "auxiliary_loss_mlp": 0.01026648,
+      "balance_loss_clip": 1.04844832,
+      "balance_loss_mlp": 1.0194658,
+      "epoch": 0.7536824385258222,
+      "flos": 21795873960960.0,
+      "grad_norm": 1.845104605643479,
+      "language_loss": 0.64307857,
+      "learning_rate": 6.032431454539897e-07,
+      "loss": 0.66512305,
+      "num_input_tokens_seen": 134760295,
+      "step": 6268,
+      "time_per_iteration": 2.591648578643799
+    },
+    {
+      "auxiliary_loss_clip": 0.01196954,
+      "auxiliary_loss_mlp": 0.01026292,
+      "balance_loss_clip": 1.04430485,
+      "balance_loss_mlp": 1.01871037,
+      "epoch": 0.7538026814164612,
+      "flos": 28911644933760.0,
+      "grad_norm": 1.6827096686334235,
+      "language_loss": 0.81307518,
+      "learning_rate": 6.026857190469014e-07,
+      "loss": 0.83530772,
+      "num_input_tokens_seen": 134782050,
+      "step": 6269,
+      "time_per_iteration": 2.799913167953491
+    },
+    {
+      "auxiliary_loss_clip": 0.0118935,
+      "auxiliary_loss_mlp": 0.01023898,
+      "balance_loss_clip": 1.04662371,
+      "balance_loss_mlp": 1.01691794,
+      "epoch": 0.7539229243071004,
+      "flos": 21104701482240.0,
+      "grad_norm": 1.9011536856819664,
+      "language_loss": 0.7406252,
+      "learning_rate": 6.0212850461128e-07,
+      "loss": 0.76275772,
+      "num_input_tokens_seen": 134801170,
+      "step": 6270,
+      "time_per_iteration": 2.6102824211120605
+    },
+    {
+      "auxiliary_loss_clip": 0.01187211,
+      "auxiliary_loss_mlp": 0.01021618,
+      "balance_loss_clip": 1.0436697,
+      "balance_loss_mlp": 1.01389313,
+      "epoch": 0.7540431671977395,
+      "flos": 15158469340800.0,
+      "grad_norm": 2.2004870234367533,
+      "language_loss": 0.74593914,
+      "learning_rate": 6.015715022316516e-07,
+      "loss": 0.76802742,
+      "num_input_tokens_seen": 134819150,
+      "step": 6271,
+      "time_per_iteration": 3.525312900543213
+    },
+    {
+      "auxiliary_loss_clip": 0.01203623,
+      "auxiliary_loss_mlp": 0.01022731,
+      "balance_loss_clip": 1.04075313,
+      "balance_loss_mlp": 1.0150001,
+      "epoch": 0.7541634100883785,
+      "flos": 18770579896320.0,
+      "grad_norm": 2.853993420580086,
+      "language_loss": 0.78116894,
+      "learning_rate": 6.010147119925154e-07,
+      "loss": 0.80343246,
+      "num_input_tokens_seen": 134836905,
+      "step": 6272,
+      "time_per_iteration": 3.7501237392425537
+    },
+    {
+      "auxiliary_loss_clip": 0.01184569,
+      "auxiliary_loss_mlp": 0.01022358,
+      "balance_loss_clip": 1.04159343,
+      "balance_loss_mlp": 1.01539636,
+      "epoch": 0.7542836529790176,
+      "flos": 20594770053120.0,
+      "grad_norm": 2.1527828978149692,
+      "language_loss": 0.66696495,
+      "learning_rate": 6.004581339783348e-07,
+      "loss": 0.68903422,
+      "num_input_tokens_seen": 134855225,
+      "step": 6273,
+      "time_per_iteration": 2.6449825763702393
+    },
+    {
+      "auxiliary_loss_clip": 0.01181674,
+      "auxiliary_loss_mlp": 0.01025842,
+      "balance_loss_clip": 1.04606414,
+      "balance_loss_mlp": 1.01820636,
+      "epoch": 0.7544038958696567,
+      "flos": 19095104298240.0,
+      "grad_norm": 2.686549498491915,
+      "language_loss": 0.68486309,
+      "learning_rate": 5.999017682735425e-07,
+      "loss": 0.70693827,
+      "num_input_tokens_seen": 134871615,
+      "step": 6274,
+      "time_per_iteration": 2.6162269115448
+    },
+    {
+      "auxiliary_loss_clip": 0.01220959,
+      "auxiliary_loss_mlp": 0.01027874,
+      "balance_loss_clip": 1.04139256,
+      "balance_loss_mlp": 1.02014291,
+      "epoch": 0.7545241387602958,
+      "flos": 31723306859520.0,
+      "grad_norm": 1.8550262386852208,
+      "language_loss": 0.66529775,
+      "learning_rate": 5.993456149625387e-07,
+      "loss": 0.68778598,
+      "num_input_tokens_seen": 134892765,
+      "step": 6275,
+      "time_per_iteration": 2.863647699356079
+    },
+    {
+      "auxiliary_loss_clip": 0.01185023,
+      "auxiliary_loss_mlp": 0.01024949,
+      "balance_loss_clip": 1.04297483,
+      "balance_loss_mlp": 1.01736116,
+      "epoch": 0.7546443816509348,
+      "flos": 20296495514880.0,
+      "grad_norm": 1.9007438283042404,
+      "language_loss": 0.82483423,
+      "learning_rate": 5.987896741296909e-07,
+      "loss": 0.84693396,
+      "num_input_tokens_seen": 134910505,
+      "step": 6276,
+      "time_per_iteration": 3.5660226345062256
+    },
+    {
+      "auxiliary_loss_clip": 0.01190055,
+      "auxiliary_loss_mlp": 0.0102594,
+      "balance_loss_clip": 1.04832649,
+      "balance_loss_mlp": 1.01826644,
+      "epoch": 0.754764624541574,
+      "flos": 23696159080320.0,
+      "grad_norm": 2.1690898168100032,
+      "language_loss": 0.78363991,
+      "learning_rate": 5.982339458593361e-07,
+      "loss": 0.80579984,
+      "num_input_tokens_seen": 134930445,
+      "step": 6277,
+      "time_per_iteration": 3.5792148113250732
+    },
+    {
+      "auxiliary_loss_clip": 0.01176436,
+      "auxiliary_loss_mlp": 0.01378729,
+      "balance_loss_clip": 1.04801464,
+      "balance_loss_mlp": 1.00017881,
+      "epoch": 0.7548848674322131,
+      "flos": 25337204766720.0,
+      "grad_norm": 1.580230813738504,
+      "language_loss": 0.84086573,
+      "learning_rate": 5.976784302357767e-07,
+      "loss": 0.86641735,
+      "num_input_tokens_seen": 134951010,
+      "step": 6278,
+      "time_per_iteration": 2.6221868991851807
+    },
+    {
+      "auxiliary_loss_clip": 0.01180864,
+      "auxiliary_loss_mlp": 0.0102387,
+      "balance_loss_clip": 1.04751945,
+      "balance_loss_mlp": 1.0164845,
+      "epoch": 0.7550051103228521,
+      "flos": 19573147428480.0,
+      "grad_norm": 2.1113427221808405,
+      "language_loss": 0.73531264,
+      "learning_rate": 5.971231273432855e-07,
+      "loss": 0.75735998,
+      "num_input_tokens_seen": 134970495,
+      "step": 6279,
+      "time_per_iteration": 2.6298818588256836
+    },
+    {
+      "auxiliary_loss_clip": 0.01078552,
+      "auxiliary_loss_mlp": 0.01002775,
+      "balance_loss_clip": 1.01289749,
+      "balance_loss_mlp": 1.00173223,
+      "epoch": 0.7551253532134913,
+      "flos": 64150068648960.0,
+      "grad_norm": 0.8144928799836356,
+      "language_loss": 0.54539788,
+      "learning_rate": 5.965680372661e-07,
+      "loss": 0.5662111,
+      "num_input_tokens_seen": 135028060,
+      "step": 6280,
+      "time_per_iteration": 3.115767002105713
+    },
+    {
+      "auxiliary_loss_clip": 0.01188678,
+      "auxiliary_loss_mlp": 0.01022625,
+      "balance_loss_clip": 1.04577208,
+      "balance_loss_mlp": 1.01576126,
+      "epoch": 0.7552455961041303,
+      "flos": 26067986968320.0,
+      "grad_norm": 1.7518592540656153,
+      "language_loss": 0.56348252,
+      "learning_rate": 5.960131600884266e-07,
+      "loss": 0.58559549,
+      "num_input_tokens_seen": 135047330,
+      "step": 6281,
+      "time_per_iteration": 2.627013921737671
+    },
+    {
+      "auxiliary_loss_clip": 0.01195032,
+      "auxiliary_loss_mlp": 0.01024162,
+      "balance_loss_clip": 1.04187822,
+      "balance_loss_mlp": 1.01751006,
+      "epoch": 0.7553658389947694,
+      "flos": 24498223822080.0,
+      "grad_norm": 1.6030138702179109,
+      "language_loss": 0.76033676,
+      "learning_rate": 5.954584958944413e-07,
+      "loss": 0.78252876,
+      "num_input_tokens_seen": 135065995,
+      "step": 6282,
+      "time_per_iteration": 2.7379095554351807
+    },
+    {
+      "auxiliary_loss_clip": 0.01195793,
+      "auxiliary_loss_mlp": 0.01378708,
+      "balance_loss_clip": 1.04147243,
+      "balance_loss_mlp": 1.00021172,
+      "epoch": 0.7554860818854086,
+      "flos": 21799465320960.0,
+      "grad_norm": 2.5724529963632286,
+      "language_loss": 0.81314605,
+      "learning_rate": 5.949040447682854e-07,
+      "loss": 0.83889103,
+      "num_input_tokens_seen": 135085820,
+      "step": 6283,
+      "time_per_iteration": 2.7415552139282227
+    },
+    {
+      "auxiliary_loss_clip": 0.01191685,
+      "auxiliary_loss_mlp": 0.01027551,
+      "balance_loss_clip": 1.04491568,
+      "balance_loss_mlp": 1.02009439,
+      "epoch": 0.7556063247760476,
+      "flos": 16362123114240.0,
+      "grad_norm": 1.9694914594103796,
+      "language_loss": 0.68237805,
+      "learning_rate": 5.943498067940686e-07,
+      "loss": 0.70457041,
+      "num_input_tokens_seen": 135102845,
+      "step": 6284,
+      "time_per_iteration": 2.6378798484802246
+    },
+    {
+      "auxiliary_loss_clip": 0.01182681,
+      "auxiliary_loss_mlp": 0.01028829,
+      "balance_loss_clip": 1.0498184,
+      "balance_loss_mlp": 1.02132177,
+      "epoch": 0.7557265676666867,
+      "flos": 27235155502080.0,
+      "grad_norm": 1.754082363678534,
+      "language_loss": 0.81675941,
+      "learning_rate": 5.937957820558686e-07,
+      "loss": 0.83887452,
+      "num_input_tokens_seen": 135122190,
+      "step": 6285,
+      "time_per_iteration": 2.6638753414154053
+    },
+    {
+      "auxiliary_loss_clip": 0.01091543,
+      "auxiliary_loss_mlp": 0.00998265,
+      "balance_loss_clip": 1.0115819,
+      "balance_loss_mlp": 0.9971506,
+      "epoch": 0.7558468105573258,
+      "flos": 62189131415040.0,
+      "grad_norm": 0.851414729409587,
+      "language_loss": 0.65499282,
+      "learning_rate": 5.932419706377296e-07,
+      "loss": 0.67589092,
+      "num_input_tokens_seen": 135180495,
+      "step": 6286,
+      "time_per_iteration": 3.201930046081543
+    },
+    {
+      "auxiliary_loss_clip": 0.01194991,
+      "auxiliary_loss_mlp": 0.01029819,
+      "balance_loss_clip": 1.04635882,
+      "balance_loss_mlp": 1.02261269,
+      "epoch": 0.7559670534479649,
+      "flos": 33249078823680.0,
+      "grad_norm": 2.0124058089944747,
+      "language_loss": 0.73780632,
+      "learning_rate": 5.92688372623666e-07,
+      "loss": 0.76005435,
+      "num_input_tokens_seen": 135199200,
+      "step": 6287,
+      "time_per_iteration": 2.7479023933410645
+    },
+    {
+      "auxiliary_loss_clip": 0.01177583,
+      "auxiliary_loss_mlp": 0.01024939,
+      "balance_loss_clip": 1.04476714,
+      "balance_loss_mlp": 1.01765501,
+      "epoch": 0.7560872963386039,
+      "flos": 14064379027200.0,
+      "grad_norm": 1.9883906221546097,
+      "language_loss": 0.74091858,
+      "learning_rate": 5.921349880976574e-07,
+      "loss": 0.76294374,
+      "num_input_tokens_seen": 135217035,
+      "step": 6288,
+      "time_per_iteration": 2.6485278606414795
+    },
+    {
+      "auxiliary_loss_clip": 0.01189483,
+      "auxiliary_loss_mlp": 0.0137909,
+      "balance_loss_clip": 1.04343486,
+      "balance_loss_mlp": 1.0001626,
+      "epoch": 0.7562075392292431,
+      "flos": 20412307941120.0,
+      "grad_norm": 1.895687740643294,
+      "language_loss": 0.81487101,
+      "learning_rate": 5.915818171436515e-07,
+      "loss": 0.84055674,
+      "num_input_tokens_seen": 135236370,
+      "step": 6289,
+      "time_per_iteration": 2.6263246536254883
+    },
+    {
+      "auxiliary_loss_clip": 0.01181442,
+      "auxiliary_loss_mlp": 0.01025927,
+      "balance_loss_clip": 1.04055512,
+      "balance_loss_mlp": 1.01838446,
+      "epoch": 0.7563277821198822,
+      "flos": 20376792368640.0,
+      "grad_norm": 1.546127600835559,
+      "language_loss": 0.74791932,
+      "learning_rate": 5.910288598455642e-07,
+      "loss": 0.76999301,
+      "num_input_tokens_seen": 135255720,
+      "step": 6290,
+      "time_per_iteration": 2.6441078186035156
+    },
+    {
+      "auxiliary_loss_clip": 0.01183287,
+      "auxiliary_loss_mlp": 0.01024999,
+      "balance_loss_clip": 1.04650497,
+      "balance_loss_mlp": 1.01749444,
+      "epoch": 0.7564480250105212,
+      "flos": 18588261438720.0,
+      "grad_norm": 2.901364690111718,
+      "language_loss": 0.74219763,
+      "learning_rate": 5.90476116287278e-07,
+      "loss": 0.7642805,
+      "num_input_tokens_seen": 135273320,
+      "step": 6291,
+      "time_per_iteration": 2.616825580596924
+    },
+    {
+      "auxiliary_loss_clip": 0.01188338,
+      "auxiliary_loss_mlp": 0.0102509,
+      "balance_loss_clip": 1.04718995,
+      "balance_loss_mlp": 1.01761258,
+      "epoch": 0.7565682679011604,
+      "flos": 21215521918080.0,
+      "grad_norm": 1.7885438122224881,
+      "language_loss": 0.67895091,
+      "learning_rate": 5.899235865526456e-07,
+      "loss": 0.70108521,
+      "num_input_tokens_seen": 135292615,
+      "step": 6292,
+      "time_per_iteration": 2.6207311153411865
+    },
+    {
+      "auxiliary_loss_clip": 0.01185616,
+      "auxiliary_loss_mlp": 0.01026125,
+      "balance_loss_clip": 1.04192424,
+      "balance_loss_mlp": 1.01891315,
+      "epoch": 0.7566885107917994,
+      "flos": 20449008662400.0,
+      "grad_norm": 1.6931351465901465,
+      "language_loss": 0.82153445,
+      "learning_rate": 5.893712707254825e-07,
+      "loss": 0.84365189,
+      "num_input_tokens_seen": 135310075,
+      "step": 6293,
+      "time_per_iteration": 2.679926872253418
+    },
+    {
+      "auxiliary_loss_clip": 0.01198182,
+      "auxiliary_loss_mlp": 0.0103071,
+      "balance_loss_clip": 1.03994107,
+      "balance_loss_mlp": 1.02300882,
+      "epoch": 0.7568087536824385,
+      "flos": 19025832919680.0,
+      "grad_norm": 2.9005681271537656,
+      "language_loss": 0.65946019,
+      "learning_rate": 5.888191688895769e-07,
+      "loss": 0.68174905,
+      "num_input_tokens_seen": 135327335,
+      "step": 6294,
+      "time_per_iteration": 2.6752703189849854
+    },
+    {
+      "auxiliary_loss_clip": 0.01169375,
+      "auxiliary_loss_mlp": 0.01022343,
+      "balance_loss_clip": 1.0464015,
+      "balance_loss_mlp": 1.01419842,
+      "epoch": 0.7569289965730777,
+      "flos": 15225442248960.0,
+      "grad_norm": 2.3952602732021893,
+      "language_loss": 0.62024397,
+      "learning_rate": 5.882672811286813e-07,
+      "loss": 0.64216113,
+      "num_input_tokens_seen": 135343615,
+      "step": 6295,
+      "time_per_iteration": 2.6715047359466553
+    },
+    {
+      "auxiliary_loss_clip": 0.01172304,
+      "auxiliary_loss_mlp": 0.01025659,
+      "balance_loss_clip": 1.04802704,
+      "balance_loss_mlp": 1.01769018,
+      "epoch": 0.7570492394637167,
+      "flos": 20769367086720.0,
+      "grad_norm": 2.0187214575385286,
+      "language_loss": 0.69377005,
+      "learning_rate": 5.877156075265166e-07,
+      "loss": 0.71574974,
+      "num_input_tokens_seen": 135359880,
+      "step": 6296,
+      "time_per_iteration": 2.5825154781341553
+    },
+    {
+      "auxiliary_loss_clip": 0.01181183,
+      "auxiliary_loss_mlp": 0.01028832,
+      "balance_loss_clip": 1.04117584,
+      "balance_loss_mlp": 1.02123237,
+      "epoch": 0.7571694823543558,
+      "flos": 15664091137920.0,
+      "grad_norm": 2.7983924447063746,
+      "language_loss": 0.70192432,
+      "learning_rate": 5.871641481667715e-07,
+      "loss": 0.72402447,
+      "num_input_tokens_seen": 135374325,
+      "step": 6297,
+      "time_per_iteration": 3.6396656036376953
+    },
+    {
+      "auxiliary_loss_clip": 0.01209112,
+      "auxiliary_loss_mlp": 0.01028885,
+      "balance_loss_clip": 1.04300332,
+      "balance_loss_mlp": 1.02165484,
+      "epoch": 0.7572897252449949,
+      "flos": 25409241492480.0,
+      "grad_norm": 1.893175902033906,
+      "language_loss": 0.84511399,
+      "learning_rate": 5.866129031331011e-07,
+      "loss": 0.86749399,
+      "num_input_tokens_seen": 135393980,
+      "step": 6298,
+      "time_per_iteration": 3.858666181564331
+    },
+    {
+      "auxiliary_loss_clip": 0.01187728,
+      "auxiliary_loss_mlp": 0.01028085,
+      "balance_loss_clip": 1.04412341,
+      "balance_loss_mlp": 1.02030659,
+      "epoch": 0.757409968135634,
+      "flos": 24279348297600.0,
+      "grad_norm": 2.360476105868263,
+      "language_loss": 0.83434153,
+      "learning_rate": 5.8606187250913e-07,
+      "loss": 0.85649967,
+      "num_input_tokens_seen": 135412030,
+      "step": 6299,
+      "time_per_iteration": 2.6613779067993164
+    },
+    {
+      "auxiliary_loss_clip": 0.01182487,
+      "auxiliary_loss_mlp": 0.01378856,
+      "balance_loss_clip": 1.0509901,
+      "balance_loss_mlp": 1.0002135,
+      "epoch": 0.757530211026273,
+      "flos": 24133766474880.0,
+      "grad_norm": 1.8947759755271167,
+      "language_loss": 0.84067613,
+      "learning_rate": 5.855110563784482e-07,
+      "loss": 0.86628956,
+      "num_input_tokens_seen": 135430565,
+      "step": 6300,
+      "time_per_iteration": 2.6768600940704346
+    },
+    {
+      "auxiliary_loss_clip": 0.01170385,
+      "auxiliary_loss_mlp": 0.01378489,
+      "balance_loss_clip": 1.04471564,
+      "balance_loss_mlp": 1.00017285,
+      "epoch": 0.7576504539169122,
+      "flos": 23951807153280.0,
+      "grad_norm": 1.7521602645338112,
+      "language_loss": 0.6403476,
+      "learning_rate": 5.849604548246156e-07,
+      "loss": 0.66583639,
+      "num_input_tokens_seen": 135451675,
+      "step": 6301,
+      "time_per_iteration": 2.638519763946533
+    },
+    {
+      "auxiliary_loss_clip": 0.01193424,
+      "auxiliary_loss_mlp": 0.01378845,
+      "balance_loss_clip": 1.04763317,
+      "balance_loss_mlp": 1.00021243,
+      "epoch": 0.7577706968075513,
+      "flos": 21251360712960.0,
+      "grad_norm": 1.8733368485080013,
+      "language_loss": 0.80332983,
+      "learning_rate": 5.844100679311565e-07,
+      "loss": 0.82905245,
+      "num_input_tokens_seen": 135470635,
+      "step": 6302,
+      "time_per_iteration": 3.5639822483062744
+    },
+    {
+      "auxiliary_loss_clip": 0.01186539,
+      "auxiliary_loss_mlp": 0.01022893,
+      "balance_loss_clip": 1.04610431,
+      "balance_loss_mlp": 1.01561785,
+      "epoch": 0.7578909396981903,
+      "flos": 18296595002880.0,
+      "grad_norm": 3.488511825048588,
+      "language_loss": 0.76312137,
+      "learning_rate": 5.838598957815637e-07,
+      "loss": 0.78521574,
+      "num_input_tokens_seen": 135487865,
+      "step": 6303,
+      "time_per_iteration": 3.530137062072754
+    },
+    {
+      "auxiliary_loss_clip": 0.01180177,
+      "auxiliary_loss_mlp": 0.01024278,
+      "balance_loss_clip": 1.043841,
+      "balance_loss_mlp": 1.01731944,
+      "epoch": 0.7580111825888295,
+      "flos": 25373869574400.0,
+      "grad_norm": 1.5275759947812322,
+      "language_loss": 0.85273898,
+      "learning_rate": 5.833099384592996e-07,
+      "loss": 0.87478352,
+      "num_input_tokens_seen": 135508440,
+      "step": 6304,
+      "time_per_iteration": 2.7296457290649414
+    },
+    {
+      "auxiliary_loss_clip": 0.01184415,
+      "auxiliary_loss_mlp": 0.01027003,
+      "balance_loss_clip": 1.04561257,
+      "balance_loss_mlp": 1.01914978,
+      "epoch": 0.7581314254794685,
+      "flos": 23768662682880.0,
+      "grad_norm": 2.7486706762969635,
+      "language_loss": 0.71488321,
+      "learning_rate": 5.827601960477913e-07,
+      "loss": 0.73699737,
+      "num_input_tokens_seen": 135526365,
+      "step": 6305,
+      "time_per_iteration": 2.7355079650878906
+    },
+    {
+      "auxiliary_loss_clip": 0.0117627,
+      "auxiliary_loss_mlp": 0.01026702,
+      "balance_loss_clip": 1.04583669,
+      "balance_loss_mlp": 1.01954973,
+      "epoch": 0.7582516683701076,
+      "flos": 22054610603520.0,
+      "grad_norm": 3.3723547009290193,
+      "language_loss": 0.70542246,
+      "learning_rate": 5.822106686304344e-07,
+      "loss": 0.72745216,
+      "num_input_tokens_seen": 135545655,
+      "step": 6306,
+      "time_per_iteration": 2.602128267288208
+    },
+    {
+      "auxiliary_loss_clip": 0.0119896,
+      "auxiliary_loss_mlp": 0.01026155,
+      "balance_loss_clip": 1.04326463,
+      "balance_loss_mlp": 1.018803,
+      "epoch": 0.7583719112607467,
+      "flos": 31649725848960.0,
+      "grad_norm": 1.938312965751115,
+      "language_loss": 0.57852137,
+      "learning_rate": 5.816613562905919e-07,
+      "loss": 0.60077262,
+      "num_input_tokens_seen": 135566840,
+      "step": 6307,
+      "time_per_iteration": 2.7448999881744385
+    },
+    {
+      "auxiliary_loss_clip": 0.01190649,
+      "auxiliary_loss_mlp": 0.01021764,
+      "balance_loss_clip": 1.04543328,
+      "balance_loss_mlp": 1.01430106,
+      "epoch": 0.7584921541513858,
+      "flos": 33068376478080.0,
+      "grad_norm": 1.5160473301762962,
+      "language_loss": 0.69767976,
+      "learning_rate": 5.811122591115933e-07,
+      "loss": 0.71980381,
+      "num_input_tokens_seen": 135587825,
+      "step": 6308,
+      "time_per_iteration": 2.8056063652038574
+    },
+    {
+      "auxiliary_loss_clip": 0.01196405,
+      "auxiliary_loss_mlp": 0.0103065,
+      "balance_loss_clip": 1.04780519,
+      "balance_loss_mlp": 1.02315724,
+      "epoch": 0.7586123970420249,
+      "flos": 23326350606720.0,
+      "grad_norm": 2.2308695383610275,
+      "language_loss": 0.71567893,
+      "learning_rate": 5.805633771767376e-07,
+      "loss": 0.73794949,
+      "num_input_tokens_seen": 135605220,
+      "step": 6309,
+      "time_per_iteration": 2.745985269546509
+    },
+    {
+      "auxiliary_loss_clip": 0.01183749,
+      "auxiliary_loss_mlp": 0.01025293,
+      "balance_loss_clip": 1.04658747,
+      "balance_loss_mlp": 1.01771998,
+      "epoch": 0.7587326399326639,
+      "flos": 18334229477760.0,
+      "grad_norm": 1.8672260759311148,
+      "language_loss": 0.77634108,
+      "learning_rate": 5.800147105692888e-07,
+      "loss": 0.79843146,
+      "num_input_tokens_seen": 135624795,
+      "step": 6310,
+      "time_per_iteration": 2.6691184043884277
+    },
+    {
+      "auxiliary_loss_clip": 0.01177455,
+      "auxiliary_loss_mlp": 0.01026265,
+      "balance_loss_clip": 1.04373276,
+      "balance_loss_mlp": 1.01908541,
+      "epoch": 0.7588528828233031,
+      "flos": 17275080119040.0,
+      "grad_norm": 1.6876914106474525,
+      "language_loss": 0.79177248,
+      "learning_rate": 5.794662593724795e-07,
+      "loss": 0.81380975,
+      "num_input_tokens_seen": 135643800,
+      "step": 6311,
+      "time_per_iteration": 2.624098300933838
+    },
+    {
+      "auxiliary_loss_clip": 0.01170549,
+      "auxiliary_loss_mlp": 0.01027632,
+      "balance_loss_clip": 1.04969215,
+      "balance_loss_mlp": 1.01992857,
+      "epoch": 0.7589731257139422,
+      "flos": 17713621267200.0,
+      "grad_norm": 6.911254871367875,
+      "language_loss": 0.75272912,
+      "learning_rate": 5.789180236695091e-07,
+      "loss": 0.77471095,
+      "num_input_tokens_seen": 135660655,
+      "step": 6312,
+      "time_per_iteration": 2.603900671005249
+    },
+    {
+      "auxiliary_loss_clip": 0.01171539,
+      "auxiliary_loss_mlp": 0.01022437,
+      "balance_loss_clip": 1.04523277,
+      "balance_loss_mlp": 1.01534152,
+      "epoch": 0.7590933686045812,
+      "flos": 15961072786560.0,
+      "grad_norm": 1.9633624488705739,
+      "language_loss": 0.85076404,
+      "learning_rate": 5.78370003543544e-07,
+      "loss": 0.87270379,
+      "num_input_tokens_seen": 135679410,
+      "step": 6313,
+      "time_per_iteration": 2.569019317626953
+    },
+    {
+      "auxiliary_loss_clip": 0.01180293,
+      "auxiliary_loss_mlp": 0.01378956,
+      "balance_loss_clip": 1.04707301,
+      "balance_loss_mlp": 1.00025487,
+      "epoch": 0.7592136114952204,
+      "flos": 21068072588160.0,
+      "grad_norm": 3.8353441790676603,
+      "language_loss": 0.83636403,
+      "learning_rate": 5.778221990777203e-07,
+      "loss": 0.86195648,
+      "num_input_tokens_seen": 135697150,
+      "step": 6314,
+      "time_per_iteration": 2.642076015472412
+    },
+    {
+      "auxiliary_loss_clip": 0.01187787,
+      "auxiliary_loss_mlp": 0.01030967,
+      "balance_loss_clip": 1.04668355,
+      "balance_loss_mlp": 1.02365899,
+      "epoch": 0.7593338543858594,
+      "flos": 25297666871040.0,
+      "grad_norm": 2.1526704460668253,
+      "language_loss": 0.82575154,
+      "learning_rate": 5.772746103551372e-07,
+      "loss": 0.84793913,
+      "num_input_tokens_seen": 135712545,
+      "step": 6315,
+      "time_per_iteration": 2.6405770778656006
+    },
+    {
+      "auxiliary_loss_clip": 0.01186045,
+      "auxiliary_loss_mlp": 0.01027033,
+      "balance_loss_clip": 1.04618168,
+      "balance_loss_mlp": 1.01980329,
+      "epoch": 0.7594540972764985,
+      "flos": 31832367528960.0,
+      "grad_norm": 1.8289677279700844,
+      "language_loss": 0.71926409,
+      "learning_rate": 5.767272374588648e-07,
+      "loss": 0.74139488,
+      "num_input_tokens_seen": 135733950,
+      "step": 6316,
+      "time_per_iteration": 2.737161636352539
+    },
+    {
+      "auxiliary_loss_clip": 0.01178503,
+      "auxiliary_loss_mlp": 0.01023815,
+      "balance_loss_clip": 1.0484004,
+      "balance_loss_mlp": 1.01632893,
+      "epoch": 0.7595743401671377,
+      "flos": 37597250880000.0,
+      "grad_norm": 2.316749829320917,
+      "language_loss": 0.78146482,
+      "learning_rate": 5.76180080471939e-07,
+      "loss": 0.80348796,
+      "num_input_tokens_seen": 135757120,
+      "step": 6317,
+      "time_per_iteration": 2.772904872894287
+    },
+    {
+      "auxiliary_loss_clip": 0.01173596,
+      "auxiliary_loss_mlp": 0.01026108,
+      "balance_loss_clip": 1.04824471,
+      "balance_loss_mlp": 1.01757312,
+      "epoch": 0.7596945830577767,
+      "flos": 18287724343680.0,
+      "grad_norm": 2.06745031461266,
+      "language_loss": 0.72195184,
+      "learning_rate": 5.756331394773631e-07,
+      "loss": 0.74394888,
+      "num_input_tokens_seen": 135773335,
+      "step": 6318,
+      "time_per_iteration": 2.570411443710327
+    },
+    {
+      "auxiliary_loss_clip": 0.01214242,
+      "auxiliary_loss_mlp": 0.01379305,
+      "balance_loss_clip": 1.04052067,
+      "balance_loss_mlp": 1.00016654,
+      "epoch": 0.7598148259484158,
+      "flos": 22233122219520.0,
+      "grad_norm": 1.7318318113733906,
+      "language_loss": 0.76167804,
+      "learning_rate": 5.750864145581071e-07,
+      "loss": 0.78761351,
+      "num_input_tokens_seen": 135792555,
+      "step": 6319,
+      "time_per_iteration": 2.766444683074951
+    },
+    {
+      "auxiliary_loss_clip": 0.01171743,
+      "auxiliary_loss_mlp": 0.01023666,
+      "balance_loss_clip": 1.05112505,
+      "balance_loss_mlp": 1.01616836,
+      "epoch": 0.7599350688390549,
+      "flos": 27161718145920.0,
+      "grad_norm": 1.9941843433670012,
+      "language_loss": 0.86210608,
+      "learning_rate": 5.745399057971085e-07,
+      "loss": 0.88406014,
+      "num_input_tokens_seen": 135813690,
+      "step": 6320,
+      "time_per_iteration": 2.669557571411133
+    },
+    {
+      "auxiliary_loss_clip": 0.01178621,
+      "auxiliary_loss_mlp": 0.01025521,
+      "balance_loss_clip": 1.04552436,
+      "balance_loss_mlp": 1.018062,
+      "epoch": 0.760055311729694,
+      "flos": 15560704817280.0,
+      "grad_norm": 2.1985750405911073,
+      "language_loss": 0.75569284,
+      "learning_rate": 5.739936132772738e-07,
+      "loss": 0.77773422,
+      "num_input_tokens_seen": 135832255,
+      "step": 6321,
+      "time_per_iteration": 2.590399980545044
+    },
+    {
+      "auxiliary_loss_clip": 0.011683,
+      "auxiliary_loss_mlp": 0.01029695,
+      "balance_loss_clip": 1.04656458,
+      "balance_loss_mlp": 1.02199411,
+      "epoch": 0.760175554620333,
+      "flos": 25155496840320.0,
+      "grad_norm": 2.1422189633799142,
+      "language_loss": 0.74402297,
+      "learning_rate": 5.734475370814733e-07,
+      "loss": 0.76600301,
+      "num_input_tokens_seen": 135851935,
+      "step": 6322,
+      "time_per_iteration": 2.625296115875244
+    },
+    {
+      "auxiliary_loss_clip": 0.01178989,
+      "auxiliary_loss_mlp": 0.01028058,
+      "balance_loss_clip": 1.04545307,
+      "balance_loss_mlp": 1.0207597,
+      "epoch": 0.7602957975109722,
+      "flos": 24353791234560.0,
+      "grad_norm": 1.669128044074278,
+      "language_loss": 0.78215921,
+      "learning_rate": 5.729016772925483e-07,
+      "loss": 0.80422974,
+      "num_input_tokens_seen": 135873510,
+      "step": 6323,
+      "time_per_iteration": 3.6072323322296143
+    },
+    {
+      "auxiliary_loss_clip": 0.01199349,
+      "auxiliary_loss_mlp": 0.01031116,
+      "balance_loss_clip": 1.0428369,
+      "balance_loss_mlp": 1.02318287,
+      "epoch": 0.7604160404016113,
+      "flos": 25192664438400.0,
+      "grad_norm": 1.7212566151465063,
+      "language_loss": 0.70827347,
+      "learning_rate": 5.723560339933038e-07,
+      "loss": 0.73057812,
+      "num_input_tokens_seen": 135893845,
+      "step": 6324,
+      "time_per_iteration": 3.6584219932556152
+    },
+    {
+      "auxiliary_loss_clip": 0.01174462,
+      "auxiliary_loss_mlp": 0.01379089,
+      "balance_loss_clip": 1.04532087,
+      "balance_loss_mlp": 1.00031364,
+      "epoch": 0.7605362832922503,
+      "flos": 29861841363840.0,
+      "grad_norm": 2.0424777076176754,
+      "language_loss": 0.6532144,
+      "learning_rate": 5.71810607266513e-07,
+      "loss": 0.67874992,
+      "num_input_tokens_seen": 135912430,
+      "step": 6325,
+      "time_per_iteration": 2.6996920108795166
+    },
+    {
+      "auxiliary_loss_clip": 0.01180807,
+      "auxiliary_loss_mlp": 0.01023742,
+      "balance_loss_clip": 1.04611492,
+      "balance_loss_mlp": 1.01641679,
+      "epoch": 0.7606565261828895,
+      "flos": 13917935278080.0,
+      "grad_norm": 1.8386125615451792,
+      "language_loss": 0.60797226,
+      "learning_rate": 5.712653971949184e-07,
+      "loss": 0.63001776,
+      "num_input_tokens_seen": 135930550,
+      "step": 6326,
+      "time_per_iteration": 2.6226909160614014
+    },
+    {
+      "auxiliary_loss_clip": 0.01171093,
+      "auxiliary_loss_mlp": 0.01026022,
+      "balance_loss_clip": 1.04435658,
+      "balance_loss_mlp": 1.01839244,
+      "epoch": 0.7607767690735285,
+      "flos": 18551273408640.0,
+      "grad_norm": 2.491882296356066,
+      "language_loss": 0.75146514,
+      "learning_rate": 5.707204038612268e-07,
+      "loss": 0.77343631,
+      "num_input_tokens_seen": 135947980,
+      "step": 6327,
+      "time_per_iteration": 2.599311113357544
+    },
+    {
+      "auxiliary_loss_clip": 0.0119346,
+      "auxiliary_loss_mlp": 0.01030091,
+      "balance_loss_clip": 1.04931378,
+      "balance_loss_mlp": 1.02200246,
+      "epoch": 0.7608970119641676,
+      "flos": 20922993555840.0,
+      "grad_norm": 2.1357847875443956,
+      "language_loss": 0.74072355,
+      "learning_rate": 5.701756273481138e-07,
+      "loss": 0.76295906,
+      "num_input_tokens_seen": 135965400,
+      "step": 6328,
+      "time_per_iteration": 3.657656192779541
+    },
+    {
+      "auxiliary_loss_clip": 0.01189057,
+      "auxiliary_loss_mlp": 0.01026708,
+      "balance_loss_clip": 1.04465842,
+      "balance_loss_mlp": 1.01981711,
+      "epoch": 0.7610172548548068,
+      "flos": 23807302738560.0,
+      "grad_norm": 1.5999339734209226,
+      "language_loss": 0.73822534,
+      "learning_rate": 5.696310677382212e-07,
+      "loss": 0.76038295,
+      "num_input_tokens_seen": 135986795,
+      "step": 6329,
+      "time_per_iteration": 3.5806305408477783
+    },
+    {
+      "auxiliary_loss_clip": 0.0110124,
+      "auxiliary_loss_mlp": 0.01000535,
+      "balance_loss_clip": 1.01409864,
+      "balance_loss_mlp": 0.999313,
+      "epoch": 0.7611374977454458,
+      "flos": 66496580426880.0,
+      "grad_norm": 0.8684489170511885,
+      "language_loss": 0.61763209,
+      "learning_rate": 5.690867251141576e-07,
+      "loss": 0.63864982,
+      "num_input_tokens_seen": 136053450,
+      "step": 6330,
+      "time_per_iteration": 3.375471830368042
+    },
+    {
+      "auxiliary_loss_clip": 0.01185234,
+      "auxiliary_loss_mlp": 0.01026238,
+      "balance_loss_clip": 1.04701209,
+      "balance_loss_mlp": 1.01808393,
+      "epoch": 0.7612577406360849,
+      "flos": 15633136592640.0,
+      "grad_norm": 3.0007764218946305,
+      "language_loss": 0.91784942,
+      "learning_rate": 5.685425995585013e-07,
+      "loss": 0.93996418,
+      "num_input_tokens_seen": 136071375,
+      "step": 6331,
+      "time_per_iteration": 2.636934518814087
+    },
+    {
+      "auxiliary_loss_clip": 0.01089683,
+      "auxiliary_loss_mlp": 0.01000216,
+      "balance_loss_clip": 1.01074159,
+      "balance_loss_mlp": 0.9991129,
+      "epoch": 0.761377983526724,
+      "flos": 60526253237760.0,
+      "grad_norm": 0.7549763092478111,
+      "language_loss": 0.59014541,
+      "learning_rate": 5.679986911537935e-07,
+      "loss": 0.61104435,
+      "num_input_tokens_seen": 136138905,
+      "step": 6332,
+      "time_per_iteration": 3.35371470451355
+    },
+    {
+      "auxiliary_loss_clip": 0.01189968,
+      "auxiliary_loss_mlp": 0.01025818,
+      "balance_loss_clip": 1.04016161,
+      "balance_loss_mlp": 1.01870167,
+      "epoch": 0.7614982264173631,
+      "flos": 35772522019200.0,
+      "grad_norm": 1.8213034062924733,
+      "language_loss": 0.6708374,
+      "learning_rate": 5.674549999825462e-07,
+      "loss": 0.69299531,
+      "num_input_tokens_seen": 136161720,
+      "step": 6333,
+      "time_per_iteration": 2.8359763622283936
+    },
+    {
+      "auxiliary_loss_clip": 0.01077718,
+      "auxiliary_loss_mlp": 0.01001933,
+      "balance_loss_clip": 1.01177657,
+      "balance_loss_mlp": 1.00081241,
+      "epoch": 0.7616184693080021,
+      "flos": 67925502345600.0,
+      "grad_norm": 0.9580555434001377,
+      "language_loss": 0.71360803,
+      "learning_rate": 5.669115261272363e-07,
+      "loss": 0.73440456,
+      "num_input_tokens_seen": 136222040,
+      "step": 6334,
+      "time_per_iteration": 3.1821322441101074
+    },
+    {
+      "auxiliary_loss_clip": 0.01176097,
+      "auxiliary_loss_mlp": 0.01024741,
+      "balance_loss_clip": 1.04533887,
+      "balance_loss_mlp": 1.01653945,
+      "epoch": 0.7617387121986413,
+      "flos": 20521979141760.0,
+      "grad_norm": 2.3785415266541845,
+      "language_loss": 0.72802222,
+      "learning_rate": 5.663682696703081e-07,
+      "loss": 0.75003052,
+      "num_input_tokens_seen": 136240305,
+      "step": 6335,
+      "time_per_iteration": 2.604335308074951
+    },
+    {
+      "auxiliary_loss_clip": 0.01169317,
+      "auxiliary_loss_mlp": 0.01027077,
+      "balance_loss_clip": 1.0486995,
+      "balance_loss_mlp": 1.0201807,
+      "epoch": 0.7618589550892804,
+      "flos": 18624495283200.0,
+      "grad_norm": 1.946077155268306,
+      "language_loss": 0.82099628,
+      "learning_rate": 5.658252306941746e-07,
+      "loss": 0.84296024,
+      "num_input_tokens_seen": 136259625,
+      "step": 6336,
+      "time_per_iteration": 2.5198445320129395
+    },
+    {
+      "auxiliary_loss_clip": 0.01208748,
+      "auxiliary_loss_mlp": 0.01025999,
+      "balance_loss_clip": 1.04458892,
+      "balance_loss_mlp": 1.01828599,
+      "epoch": 0.7619791979799194,
+      "flos": 17453735389440.0,
+      "grad_norm": 2.7988502057366182,
+      "language_loss": 0.7500056,
+      "learning_rate": 5.65282409281212e-07,
+      "loss": 0.77235305,
+      "num_input_tokens_seen": 136277090,
+      "step": 6337,
+      "time_per_iteration": 2.748253583908081
+    },
+    {
+      "auxiliary_loss_clip": 0.01180222,
+      "auxiliary_loss_mlp": 0.01027219,
+      "balance_loss_clip": 1.04260015,
+      "balance_loss_mlp": 1.01941037,
+      "epoch": 0.7620994408705585,
+      "flos": 14137421333760.0,
+      "grad_norm": 2.096833315449062,
+      "language_loss": 0.7004329,
+      "learning_rate": 5.64739805513768e-07,
+      "loss": 0.72250736,
+      "num_input_tokens_seen": 136294635,
+      "step": 6338,
+      "time_per_iteration": 2.640827178955078
+    },
+    {
+      "auxiliary_loss_clip": 0.01074598,
+      "auxiliary_loss_mlp": 0.01373523,
+      "balance_loss_clip": 1.01277828,
+      "balance_loss_mlp": 0.99959117,
+      "epoch": 0.7622196837611976,
+      "flos": 70708792527360.0,
+      "grad_norm": 0.7856149474236499,
+      "language_loss": 0.55724722,
+      "learning_rate": 5.641974194741541e-07,
+      "loss": 0.5817284,
+      "num_input_tokens_seen": 136350320,
+      "step": 6339,
+      "time_per_iteration": 3.1442346572875977
+    },
+    {
+      "auxiliary_loss_clip": 0.01094063,
+      "auxiliary_loss_mlp": 0.01001128,
+      "balance_loss_clip": 1.02550387,
+      "balance_loss_mlp": 1.00015688,
+      "epoch": 0.7623399266518367,
+      "flos": 60684150447360.0,
+      "grad_norm": 0.7828317524163455,
+      "language_loss": 0.63720286,
+      "learning_rate": 5.636552512446502e-07,
+      "loss": 0.65815473,
+      "num_input_tokens_seen": 136411375,
+      "step": 6340,
+      "time_per_iteration": 3.178037166595459
+    },
+    {
+      "auxiliary_loss_clip": 0.01173358,
+      "auxiliary_loss_mlp": 0.01024429,
+      "balance_loss_clip": 1.04576397,
+      "balance_loss_mlp": 1.01739264,
+      "epoch": 0.7624601695424758,
+      "flos": 26468893641600.0,
+      "grad_norm": 1.6411198111304868,
+      "language_loss": 0.77778077,
+      "learning_rate": 5.631133009075027e-07,
+      "loss": 0.79975855,
+      "num_input_tokens_seen": 136430560,
+      "step": 6341,
+      "time_per_iteration": 2.6070237159729004
+    },
+    {
+      "auxiliary_loss_clip": 0.01180547,
+      "auxiliary_loss_mlp": 0.01378471,
+      "balance_loss_clip": 1.0473758,
+      "balance_loss_mlp": 1.00017881,
+      "epoch": 0.7625804124331149,
+      "flos": 19135755515520.0,
+      "grad_norm": 4.752405062987361,
+      "language_loss": 0.68905604,
+      "learning_rate": 5.625715685449242e-07,
+      "loss": 0.71464622,
+      "num_input_tokens_seen": 136448665,
+      "step": 6342,
+      "time_per_iteration": 2.626126527786255
+    },
+    {
+      "auxiliary_loss_clip": 0.01195205,
+      "auxiliary_loss_mlp": 0.0102807,
+      "balance_loss_clip": 1.0468998,
+      "balance_loss_mlp": 1.02084553,
+      "epoch": 0.762700655323754,
+      "flos": 26213101914240.0,
+      "grad_norm": 1.5571487106684927,
+      "language_loss": 0.71759868,
+      "learning_rate": 5.620300542390966e-07,
+      "loss": 0.73983145,
+      "num_input_tokens_seen": 136469710,
+      "step": 6343,
+      "time_per_iteration": 2.710150718688965
+    },
+    {
+      "auxiliary_loss_clip": 0.01181324,
+      "auxiliary_loss_mlp": 0.01026887,
+      "balance_loss_clip": 1.0425303,
+      "balance_loss_mlp": 1.02013958,
+      "epoch": 0.762820898214393,
+      "flos": 22382582711040.0,
+      "grad_norm": 1.8829078444476735,
+      "language_loss": 0.85091758,
+      "learning_rate": 5.614887580721659e-07,
+      "loss": 0.87299967,
+      "num_input_tokens_seen": 136489855,
+      "step": 6344,
+      "time_per_iteration": 2.6722912788391113
+    },
+    {
+      "auxiliary_loss_clip": 0.01190683,
+      "auxiliary_loss_mlp": 0.01027199,
+      "balance_loss_clip": 1.04741728,
+      "balance_loss_mlp": 1.02003467,
+      "epoch": 0.7629411411050322,
+      "flos": 15700504550400.0,
+      "grad_norm": 2.131577612909581,
+      "language_loss": 0.73854029,
+      "learning_rate": 5.609476801262481e-07,
+      "loss": 0.76071912,
+      "num_input_tokens_seen": 136504715,
+      "step": 6345,
+      "time_per_iteration": 2.623641014099121
+    },
+    {
+      "auxiliary_loss_clip": 0.01189226,
+      "auxiliary_loss_mlp": 0.01030989,
+      "balance_loss_clip": 1.04303634,
+      "balance_loss_mlp": 1.02322221,
+      "epoch": 0.7630613839956712,
+      "flos": 13770342293760.0,
+      "grad_norm": 6.057011455874774,
+      "language_loss": 0.63850069,
+      "learning_rate": 5.604068204834223e-07,
+      "loss": 0.66070282,
+      "num_input_tokens_seen": 136521610,
+      "step": 6346,
+      "time_per_iteration": 2.7119293212890625
+    },
+    {
+      "auxiliary_loss_clip": 0.01201951,
+      "auxiliary_loss_mlp": 0.01378812,
+      "balance_loss_clip": 1.04271293,
+      "balance_loss_mlp": 1.00021148,
+      "epoch": 0.7631816268863103,
+      "flos": 14569569861120.0,
+      "grad_norm": 2.0762695205929442,
+      "language_loss": 0.76681954,
+      "learning_rate": 5.598661792257367e-07,
+      "loss": 0.79262722,
+      "num_input_tokens_seen": 136538655,
+      "step": 6347,
+      "time_per_iteration": 2.69242000579834
+    },
+    {
+      "auxiliary_loss_clip": 0.01174546,
+      "auxiliary_loss_mlp": 0.0102272,
+      "balance_loss_clip": 1.04450285,
+      "balance_loss_mlp": 1.01563859,
+      "epoch": 0.7633018697769495,
+      "flos": 19062210418560.0,
+      "grad_norm": 1.9334697223947888,
+      "language_loss": 0.75317258,
+      "learning_rate": 5.593257564352071e-07,
+      "loss": 0.77514517,
+      "num_input_tokens_seen": 136557095,
+      "step": 6348,
+      "time_per_iteration": 2.578584909439087
+    },
+    {
+      "auxiliary_loss_clip": 0.01172509,
+      "auxiliary_loss_mlp": 0.01021218,
+      "balance_loss_clip": 1.04416537,
+      "balance_loss_mlp": 1.01462555,
+      "epoch": 0.7634221126675885,
+      "flos": 22052958577920.0,
+      "grad_norm": 1.4999678151779716,
+      "language_loss": 0.75419664,
+      "learning_rate": 5.58785552193815e-07,
+      "loss": 0.77613389,
+      "num_input_tokens_seen": 136577340,
+      "step": 6349,
+      "time_per_iteration": 3.6222589015960693
+    },
+    {
+      "auxiliary_loss_clip": 0.011718,
+      "auxiliary_loss_mlp": 0.01023728,
+      "balance_loss_clip": 1.04981518,
+      "balance_loss_mlp": 1.01659071,
+      "epoch": 0.7635423555582276,
+      "flos": 29382720825600.0,
+      "grad_norm": 1.8059865316885388,
+      "language_loss": 0.75280625,
+      "learning_rate": 5.582455665835086e-07,
+      "loss": 0.77476156,
+      "num_input_tokens_seen": 136597635,
+      "step": 6350,
+      "time_per_iteration": 3.604640007019043
+    },
+    {
+      "auxiliary_loss_clip": 0.01192684,
+      "auxiliary_loss_mlp": 0.01028506,
+      "balance_loss_clip": 1.04322052,
+      "balance_loss_mlp": 1.02056634,
+      "epoch": 0.7636625984488667,
+      "flos": 17784903807360.0,
+      "grad_norm": 8.66927602002038,
+      "language_loss": 0.72636122,
+      "learning_rate": 5.577057996862036e-07,
+      "loss": 0.74857306,
+      "num_input_tokens_seen": 136615260,
+      "step": 6351,
+      "time_per_iteration": 2.6211671829223633
+    },
+    {
+      "auxiliary_loss_clip": 0.0116446,
+      "auxiliary_loss_mlp": 0.01025364,
+      "balance_loss_clip": 1.04587865,
+      "balance_loss_mlp": 1.01841354,
+      "epoch": 0.7637828413395058,
+      "flos": 23734583654400.0,
+      "grad_norm": 1.979576381807636,
+      "language_loss": 0.7617867,
+      "learning_rate": 5.571662515837814e-07,
+      "loss": 0.78368491,
+      "num_input_tokens_seen": 136637220,
+      "step": 6352,
+      "time_per_iteration": 2.647728681564331
+    },
+    {
+      "auxiliary_loss_clip": 0.01186964,
+      "auxiliary_loss_mlp": 0.01024728,
+      "balance_loss_clip": 1.04563987,
+      "balance_loss_mlp": 1.01763535,
+      "epoch": 0.7639030842301449,
+      "flos": 36283279461120.0,
+      "grad_norm": 1.7961556460685868,
+      "language_loss": 0.83588374,
+      "learning_rate": 5.566269223580926e-07,
+      "loss": 0.8580007,
+      "num_input_tokens_seen": 136658930,
+      "step": 6353,
+      "time_per_iteration": 2.776873826980591
+    },
+    {
+      "auxiliary_loss_clip": 0.01179576,
+      "auxiliary_loss_mlp": 0.01023837,
+      "balance_loss_clip": 1.04649222,
+      "balance_loss_mlp": 1.01723301,
+      "epoch": 0.764023327120784,
+      "flos": 28878104609280.0,
+      "grad_norm": 1.6313676914998063,
+      "language_loss": 0.75006044,
+      "learning_rate": 5.560878120909511e-07,
+      "loss": 0.77209461,
+      "num_input_tokens_seen": 136681530,
+      "step": 6354,
+      "time_per_iteration": 3.56532883644104
+    },
+    {
+      "auxiliary_loss_clip": 0.0107701,
+      "auxiliary_loss_mlp": 0.01002741,
+      "balance_loss_clip": 1.01092947,
+      "balance_loss_mlp": 1.00160277,
+      "epoch": 0.7641435700114231,
+      "flos": 64789711067520.0,
+      "grad_norm": 0.8440896659145414,
+      "language_loss": 0.58588821,
+      "learning_rate": 5.55548920864141e-07,
+      "loss": 0.6066857,
+      "num_input_tokens_seen": 136742185,
+      "step": 6355,
+      "time_per_iteration": 4.118502140045166
+    },
+    {
+      "auxiliary_loss_clip": 0.01178282,
+      "auxiliary_loss_mlp": 0.0102911,
+      "balance_loss_clip": 1.04900885,
+      "balance_loss_mlp": 1.02189469,
+      "epoch": 0.7642638129020621,
+      "flos": 16835784785280.0,
+      "grad_norm": 1.9731540844506898,
+      "language_loss": 0.7809152,
+      "learning_rate": 5.550102487594113e-07,
+      "loss": 0.80298913,
+      "num_input_tokens_seen": 136760855,
+      "step": 6356,
+      "time_per_iteration": 2.5816750526428223
+    },
+    {
+      "auxiliary_loss_clip": 0.01205279,
+      "auxiliary_loss_mlp": 0.01378749,
+      "balance_loss_clip": 1.03930604,
+      "balance_loss_mlp": 1.00026417,
+      "epoch": 0.7643840557927013,
+      "flos": 30408940391040.0,
+      "grad_norm": 2.3669586749682954,
+      "language_loss": 0.7144928,
+      "learning_rate": 5.54471795858477e-07,
+      "loss": 0.74033308,
+      "num_input_tokens_seen": 136780925,
+      "step": 6357,
+      "time_per_iteration": 2.8240439891815186
+    },
+    {
+      "auxiliary_loss_clip": 0.01191796,
+      "auxiliary_loss_mlp": 0.01025638,
+      "balance_loss_clip": 1.03969157,
+      "balance_loss_mlp": 1.01847386,
+      "epoch": 0.7645042986833404,
+      "flos": 16983234115200.0,
+      "grad_norm": 4.596030089290442,
+      "language_loss": 0.82755649,
+      "learning_rate": 5.539335622430235e-07,
+      "loss": 0.84973085,
+      "num_input_tokens_seen": 136799545,
+      "step": 6358,
+      "time_per_iteration": 2.6356513500213623
+    },
+    {
+      "auxiliary_loss_clip": 0.01169775,
+      "auxiliary_loss_mlp": 0.01020071,
+      "balance_loss_clip": 1.04352522,
+      "balance_loss_mlp": 1.01268947,
+      "epoch": 0.7646245415739794,
+      "flos": 17311493531520.0,
+      "grad_norm": 2.042012718320832,
+      "language_loss": 0.7471205,
+      "learning_rate": 5.533955479946975e-07,
+      "loss": 0.76901901,
+      "num_input_tokens_seen": 136818325,
+      "step": 6359,
+      "time_per_iteration": 2.6311604976654053
+    },
+    {
+      "auxiliary_loss_clip": 0.01106404,
+      "auxiliary_loss_mlp": 0.01373565,
+      "balance_loss_clip": 1.02428043,
+      "balance_loss_mlp": 0.99967301,
+      "epoch": 0.7647447844646186,
+      "flos": 70402332666240.0,
+      "grad_norm": 0.8576779344226081,
+      "language_loss": 0.6578629,
+      "learning_rate": 5.528577531951173e-07,
+      "loss": 0.68266261,
+      "num_input_tokens_seen": 136878730,
+      "step": 6360,
+      "time_per_iteration": 3.247246026992798
+    },
+    {
+      "auxiliary_loss_clip": 0.01189299,
+      "auxiliary_loss_mlp": 0.01027046,
+      "balance_loss_clip": 1.04604793,
+      "balance_loss_mlp": 1.0201261,
+      "epoch": 0.7648650273552576,
+      "flos": 17675914965120.0,
+      "grad_norm": 2.088672672148694,
+      "language_loss": 0.73967493,
+      "learning_rate": 5.523201779258653e-07,
+      "loss": 0.76183844,
+      "num_input_tokens_seen": 136897705,
+      "step": 6361,
+      "time_per_iteration": 2.6322827339172363
+    },
+    {
+      "auxiliary_loss_clip": 0.01165665,
+      "auxiliary_loss_mlp": 0.01025398,
+      "balance_loss_clip": 1.04483449,
+      "balance_loss_mlp": 1.01801288,
+      "epoch": 0.7649852702458967,
+      "flos": 22162019247360.0,
+      "grad_norm": 2.0505952816410242,
+      "language_loss": 0.83717656,
+      "learning_rate": 5.517828222684912e-07,
+      "loss": 0.85908711,
+      "num_input_tokens_seen": 136918360,
+      "step": 6362,
+      "time_per_iteration": 2.5350098609924316
+    },
+    {
+      "auxiliary_loss_clip": 0.01087643,
+      "auxiliary_loss_mlp": 0.01004348,
+      "balance_loss_clip": 1.01231885,
+      "balance_loss_mlp": 1.00326943,
+      "epoch": 0.7651055131365359,
+      "flos": 69848338227840.0,
+      "grad_norm": 0.7671274559025314,
+      "language_loss": 0.59002638,
+      "learning_rate": 5.512456863045117e-07,
+      "loss": 0.6109463,
+      "num_input_tokens_seen": 136979050,
+      "step": 6363,
+      "time_per_iteration": 3.2446398735046387
+    },
+    {
+      "auxiliary_loss_clip": 0.01168478,
+      "auxiliary_loss_mlp": 0.01026306,
+      "balance_loss_clip": 1.04571128,
+      "balance_loss_mlp": 1.0186832,
+      "epoch": 0.7652257560271749,
+      "flos": 19464014931840.0,
+      "grad_norm": 5.8648119532356615,
+      "language_loss": 0.74322605,
+      "learning_rate": 5.507087701154089e-07,
+      "loss": 0.76517391,
+      "num_input_tokens_seen": 136998970,
+      "step": 6364,
+      "time_per_iteration": 2.637091875076294
+    },
+    {
+      "auxiliary_loss_clip": 0.01207494,
+      "auxiliary_loss_mlp": 0.01024603,
+      "balance_loss_clip": 1.04372931,
+      "balance_loss_mlp": 1.01700306,
+      "epoch": 0.765345998917814,
+      "flos": 15961108700160.0,
+      "grad_norm": 2.7388769213812654,
+      "language_loss": 0.7511636,
+      "learning_rate": 5.50172073782634e-07,
+      "loss": 0.77348459,
+      "num_input_tokens_seen": 137016950,
+      "step": 6365,
+      "time_per_iteration": 2.6688759326934814
+    },
+    {
+      "auxiliary_loss_clip": 0.01195044,
+      "auxiliary_loss_mlp": 0.01027681,
+      "balance_loss_clip": 1.04733849,
+      "balance_loss_mlp": 1.02069187,
+      "epoch": 0.7654662418084531,
+      "flos": 23659853408640.0,
+      "grad_norm": 2.0225308070018024,
+      "language_loss": 0.87564969,
+      "learning_rate": 5.496355973876023e-07,
+      "loss": 0.89787698,
+      "num_input_tokens_seen": 137036205,
+      "step": 6366,
+      "time_per_iteration": 2.702148914337158
+    },
+    {
+      "auxiliary_loss_clip": 0.01188316,
+      "auxiliary_loss_mlp": 0.01379397,
+      "balance_loss_clip": 1.04108143,
+      "balance_loss_mlp": 1.00021076,
+      "epoch": 0.7655864846990922,
+      "flos": 41463608878080.0,
+      "grad_norm": 1.5960396644563883,
+      "language_loss": 0.7111817,
+      "learning_rate": 5.490993410116984e-07,
+      "loss": 0.73685884,
+      "num_input_tokens_seen": 137059195,
+      "step": 6367,
+      "time_per_iteration": 2.8186919689178467
+    },
+    {
+      "auxiliary_loss_clip": 0.0119029,
+      "auxiliary_loss_mlp": 0.01027477,
+      "balance_loss_clip": 1.04397273,
+      "balance_loss_mlp": 1.02012181,
+      "epoch": 0.7657067275897312,
+      "flos": 43142684088960.0,
+      "grad_norm": 2.014220578394043,
+      "language_loss": 0.69607949,
+      "learning_rate": 5.485633047362704e-07,
+      "loss": 0.71825719,
+      "num_input_tokens_seen": 137081200,
+      "step": 6368,
+      "time_per_iteration": 2.8796377182006836
+    },
+    {
+      "auxiliary_loss_clip": 0.0117364,
+      "auxiliary_loss_mlp": 0.01029576,
+      "balance_loss_clip": 1.05036783,
+      "balance_loss_mlp": 1.02166665,
+      "epoch": 0.7658269704803703,
+      "flos": 17311780840320.0,
+      "grad_norm": 3.67080357459913,
+      "language_loss": 0.79111457,
+      "learning_rate": 5.480274886426341e-07,
+      "loss": 0.81314677,
+      "num_input_tokens_seen": 137097840,
+      "step": 6369,
+      "time_per_iteration": 2.533541440963745
+    },
+    {
+      "auxiliary_loss_clip": 0.01171776,
+      "auxiliary_loss_mlp": 0.01023457,
+      "balance_loss_clip": 1.04589629,
+      "balance_loss_mlp": 1.01644766,
+      "epoch": 0.7659472133710095,
+      "flos": 12568160977920.0,
+      "grad_norm": 2.0105226479984344,
+      "language_loss": 0.77445155,
+      "learning_rate": 5.474918928120744e-07,
+      "loss": 0.79640388,
+      "num_input_tokens_seen": 137114335,
+      "step": 6370,
+      "time_per_iteration": 2.5813169479370117
+    },
+    {
+      "auxiliary_loss_clip": 0.0117562,
+      "auxiliary_loss_mlp": 0.01026234,
+      "balance_loss_clip": 1.0462656,
+      "balance_loss_mlp": 1.01929355,
+      "epoch": 0.7660674562616485,
+      "flos": 22707430335360.0,
+      "grad_norm": 1.732968653408408,
+      "language_loss": 0.87157661,
+      "learning_rate": 5.469565173258392e-07,
+      "loss": 0.8935951,
+      "num_input_tokens_seen": 137132850,
+      "step": 6371,
+      "time_per_iteration": 2.579063653945923
+    },
+    {
+      "auxiliary_loss_clip": 0.01170095,
+      "auxiliary_loss_mlp": 0.01024989,
+      "balance_loss_clip": 1.04576528,
+      "balance_loss_mlp": 1.01716006,
+      "epoch": 0.7661876991522876,
+      "flos": 17056455989760.0,
+      "grad_norm": 3.749585139640162,
+      "language_loss": 0.63697016,
+      "learning_rate": 5.464213622651454e-07,
+      "loss": 0.658921,
+      "num_input_tokens_seen": 137150665,
+      "step": 6372,
+      "time_per_iteration": 2.6454813480377197
+    },
+    {
+      "auxiliary_loss_clip": 0.01201832,
+      "auxiliary_loss_mlp": 0.01025717,
+      "balance_loss_clip": 1.04506671,
+      "balance_loss_mlp": 1.01808429,
+      "epoch": 0.7663079420429267,
+      "flos": 20084228092800.0,
+      "grad_norm": 1.6503669084873167,
+      "language_loss": 0.84109116,
+      "learning_rate": 5.458864277111753e-07,
+      "loss": 0.8633666,
+      "num_input_tokens_seen": 137168500,
+      "step": 6373,
+      "time_per_iteration": 2.640416145324707
+    },
+    {
+      "auxiliary_loss_clip": 0.01180144,
+      "auxiliary_loss_mlp": 0.01378332,
+      "balance_loss_clip": 1.04447258,
+      "balance_loss_mlp": 1.00014186,
+      "epoch": 0.7664281849335658,
+      "flos": 12677473042560.0,
+      "grad_norm": 2.477927064889199,
+      "language_loss": 0.69056427,
+      "learning_rate": 5.453517137450769e-07,
+      "loss": 0.71614903,
+      "num_input_tokens_seen": 137185075,
+      "step": 6374,
+      "time_per_iteration": 2.6734671592712402
+    },
+    {
+      "auxiliary_loss_clip": 0.01179371,
+      "auxiliary_loss_mlp": 0.01033802,
+      "balance_loss_clip": 1.0480932,
+      "balance_loss_mlp": 1.02620816,
+      "epoch": 0.7665484278242048,
+      "flos": 22345271458560.0,
+      "grad_norm": 1.5492850773808198,
+      "language_loss": 0.75982773,
+      "learning_rate": 5.448172204479684e-07,
+      "loss": 0.78195941,
+      "num_input_tokens_seen": 137204355,
+      "step": 6375,
+      "time_per_iteration": 3.7176425457000732
+    },
+    {
+      "auxiliary_loss_clip": 0.01165238,
+      "auxiliary_loss_mlp": 0.01021316,
+      "balance_loss_clip": 1.04535413,
+      "balance_loss_mlp": 1.01389551,
+      "epoch": 0.766668670714844,
+      "flos": 23617909301760.0,
+      "grad_norm": 2.0470781328330965,
+      "language_loss": 0.74593246,
+      "learning_rate": 5.442829479009294e-07,
+      "loss": 0.76779801,
+      "num_input_tokens_seen": 137223135,
+      "step": 6376,
+      "time_per_iteration": 3.4951012134552
+    },
+    {
+      "auxiliary_loss_clip": 0.01184389,
+      "auxiliary_loss_mlp": 0.0102352,
+      "balance_loss_clip": 1.04704356,
+      "balance_loss_mlp": 1.01592648,
+      "epoch": 0.7667889136054831,
+      "flos": 19427134642560.0,
+      "grad_norm": 2.0323023261029065,
+      "language_loss": 0.71611792,
+      "learning_rate": 5.437488961850103e-07,
+      "loss": 0.73819697,
+      "num_input_tokens_seen": 137242935,
+      "step": 6377,
+      "time_per_iteration": 2.610041618347168
+    },
+    {
+      "auxiliary_loss_clip": 0.01203469,
+      "auxiliary_loss_mlp": 0.01029467,
+      "balance_loss_clip": 1.04364979,
+      "balance_loss_mlp": 1.0227313,
+      "epoch": 0.7669091564961221,
+      "flos": 26866352609280.0,
+      "grad_norm": 1.7873101367638118,
+      "language_loss": 0.75625819,
+      "learning_rate": 5.432150653812258e-07,
+      "loss": 0.77858752,
+      "num_input_tokens_seen": 137262970,
+      "step": 6378,
+      "time_per_iteration": 2.7356605529785156
+    },
+    {
+      "auxiliary_loss_clip": 0.01176046,
+      "auxiliary_loss_mlp": 0.01023655,
+      "balance_loss_clip": 1.04725838,
+      "balance_loss_mlp": 1.01639509,
+      "epoch": 0.7670293993867613,
+      "flos": 12385303816320.0,
+      "grad_norm": 2.164511925608382,
+      "language_loss": 0.82910174,
+      "learning_rate": 5.42681455570557e-07,
+      "loss": 0.85109866,
+      "num_input_tokens_seen": 137279500,
+      "step": 6379,
+      "time_per_iteration": 2.589124917984009
+    },
+    {
+      "auxiliary_loss_clip": 0.01165811,
+      "auxiliary_loss_mlp": 0.01022779,
+      "balance_loss_clip": 1.04560733,
+      "balance_loss_mlp": 1.01577854,
+      "epoch": 0.7671496422774003,
+      "flos": 21762944167680.0,
+      "grad_norm": 1.702479121964883,
+      "language_loss": 0.64834905,
+      "learning_rate": 5.42148066833954e-07,
+      "loss": 0.67023498,
+      "num_input_tokens_seen": 137298745,
+      "step": 6380,
+      "time_per_iteration": 3.5126149654388428
+    },
+    {
+      "auxiliary_loss_clip": 0.01167371,
+      "auxiliary_loss_mlp": 0.0102496,
+      "balance_loss_clip": 1.04770505,
+      "balance_loss_mlp": 1.01780796,
+      "epoch": 0.7672698851680394,
+      "flos": 21069221823360.0,
+      "grad_norm": 2.0244912929199113,
+      "language_loss": 0.75444615,
+      "learning_rate": 5.416148992523289e-07,
+      "loss": 0.77636945,
+      "num_input_tokens_seen": 137317320,
+      "step": 6381,
+      "time_per_iteration": 3.4655966758728027
+    },
+    {
+      "auxiliary_loss_clip": 0.01221284,
+      "auxiliary_loss_mlp": 0.01021907,
+      "balance_loss_clip": 1.04054117,
+      "balance_loss_mlp": 1.0143286,
+      "epoch": 0.7673901280586786,
+      "flos": 16976697840000.0,
+      "grad_norm": 2.8093728491044145,
+      "language_loss": 0.78308016,
+      "learning_rate": 5.410819529065644e-07,
+      "loss": 0.80551201,
+      "num_input_tokens_seen": 137335275,
+      "step": 6382,
+      "time_per_iteration": 2.839989185333252
+    },
+    {
+      "auxiliary_loss_clip": 0.0120315,
+      "auxiliary_loss_mlp": 0.01030498,
+      "balance_loss_clip": 1.04049122,
+      "balance_loss_mlp": 1.02341747,
+      "epoch": 0.7675103709493176,
+      "flos": 29242669697280.0,
+      "grad_norm": 2.2683827701654358,
+      "language_loss": 0.65360391,
+      "learning_rate": 5.405492278775079e-07,
+      "loss": 0.67594039,
+      "num_input_tokens_seen": 137355055,
+      "step": 6383,
+      "time_per_iteration": 3.054229974746704
+    },
+    {
+      "auxiliary_loss_clip": 0.0118653,
+      "auxiliary_loss_mlp": 0.01025639,
+      "balance_loss_clip": 1.04447675,
+      "balance_loss_mlp": 1.01832867,
+      "epoch": 0.7676306138399567,
+      "flos": 29023004073600.0,
+      "grad_norm": 2.595974472321263,
+      "language_loss": 0.79402459,
+      "learning_rate": 5.400167242459732e-07,
+      "loss": 0.81614625,
+      "num_input_tokens_seen": 137374015,
+      "step": 6384,
+      "time_per_iteration": 2.6784260272979736
+    },
+    {
+      "auxiliary_loss_clip": 0.01174799,
+      "auxiliary_loss_mlp": 0.01022721,
+      "balance_loss_clip": 1.0446552,
+      "balance_loss_mlp": 1.01574087,
+      "epoch": 0.7677508567305958,
+      "flos": 22565116650240.0,
+      "grad_norm": 1.7746633582477762,
+      "language_loss": 0.8058517,
+      "learning_rate": 5.394844420927405e-07,
+      "loss": 0.82782686,
+      "num_input_tokens_seen": 137393625,
+      "step": 6385,
+      "time_per_iteration": 2.634852409362793
+    },
+    {
+      "auxiliary_loss_clip": 0.01167914,
+      "auxiliary_loss_mlp": 0.01027125,
+      "balance_loss_clip": 1.0483582,
+      "balance_loss_mlp": 1.01948369,
+      "epoch": 0.7678710996212349,
+      "flos": 25411432222080.0,
+      "grad_norm": 1.8717206700169358,
+      "language_loss": 0.73288894,
+      "learning_rate": 5.389523814985562e-07,
+      "loss": 0.7548393,
+      "num_input_tokens_seen": 137413045,
+      "step": 6386,
+      "time_per_iteration": 2.6097311973571777
+    },
+    {
+      "auxiliary_loss_clip": 0.01201355,
+      "auxiliary_loss_mlp": 0.01029965,
+      "balance_loss_clip": 1.04157996,
+      "balance_loss_mlp": 1.02234125,
+      "epoch": 0.767991342511874,
+      "flos": 26756825063040.0,
+      "grad_norm": 1.9278424739439792,
+      "language_loss": 0.76012087,
+      "learning_rate": 5.384205425441344e-07,
+      "loss": 0.78243405,
+      "num_input_tokens_seen": 137433955,
+      "step": 6387,
+      "time_per_iteration": 2.7590203285217285
+    },
+    {
+      "auxiliary_loss_clip": 0.01182773,
+      "auxiliary_loss_mlp": 0.01023566,
+      "balance_loss_clip": 1.04219651,
+      "balance_loss_mlp": 1.01699769,
+      "epoch": 0.7681115854025131,
+      "flos": 26359509749760.0,
+      "grad_norm": 1.909642741835079,
+      "language_loss": 0.84368479,
+      "learning_rate": 5.378889253101537e-07,
+      "loss": 0.86574817,
+      "num_input_tokens_seen": 137454510,
+      "step": 6388,
+      "time_per_iteration": 2.6816861629486084
+    },
+    {
+      "auxiliary_loss_clip": 0.0117748,
+      "auxiliary_loss_mlp": 0.01022641,
+      "balance_loss_clip": 1.04505026,
+      "balance_loss_mlp": 1.01561379,
+      "epoch": 0.7682318282931522,
+      "flos": 23257043314560.0,
+      "grad_norm": 1.768498257130576,
+      "language_loss": 0.80940616,
+      "learning_rate": 5.373575298772617e-07,
+      "loss": 0.83140743,
+      "num_input_tokens_seen": 137473630,
+      "step": 6389,
+      "time_per_iteration": 2.6468868255615234
+    },
+    {
+      "auxiliary_loss_clip": 0.01076128,
+      "auxiliary_loss_mlp": 0.01004646,
+      "balance_loss_clip": 1.01057458,
+      "balance_loss_mlp": 1.00357306,
+      "epoch": 0.7683520711837912,
+      "flos": 70072457137920.0,
+      "grad_norm": 0.7670127644689324,
+      "language_loss": 0.61307275,
+      "learning_rate": 5.368263563260689e-07,
+      "loss": 0.6338805,
+      "num_input_tokens_seen": 137538765,
+      "step": 6390,
+      "time_per_iteration": 3.2666876316070557
+    },
+    {
+      "auxiliary_loss_clip": 0.011734,
+      "auxiliary_loss_mlp": 0.01023511,
+      "balance_loss_clip": 1.04368448,
+      "balance_loss_mlp": 1.01645696,
+      "epoch": 0.7684723140744304,
+      "flos": 18624890332800.0,
+      "grad_norm": 1.5570784522053849,
+      "language_loss": 0.64393139,
+      "learning_rate": 5.362954047371537e-07,
+      "loss": 0.66590053,
+      "num_input_tokens_seen": 137557875,
+      "step": 6391,
+      "time_per_iteration": 2.598254919052124
+    },
+    {
+      "auxiliary_loss_clip": 0.01192835,
+      "auxiliary_loss_mlp": 0.01024172,
+      "balance_loss_clip": 1.04633081,
+      "balance_loss_mlp": 1.01622701,
+      "epoch": 0.7685925569650695,
+      "flos": 27452989532160.0,
+      "grad_norm": 2.6063208452851785,
+      "language_loss": 0.72004062,
+      "learning_rate": 5.357646751910627e-07,
+      "loss": 0.74221069,
+      "num_input_tokens_seen": 137579055,
+      "step": 6392,
+      "time_per_iteration": 2.739861011505127
+    },
+    {
+      "auxiliary_loss_clip": 0.01182123,
+      "auxiliary_loss_mlp": 0.01029038,
+      "balance_loss_clip": 1.04324877,
+      "balance_loss_mlp": 1.02162337,
+      "epoch": 0.7687127998557085,
+      "flos": 24535714642560.0,
+      "grad_norm": 2.2864927835263047,
+      "language_loss": 0.80173844,
+      "learning_rate": 5.352341677683061e-07,
+      "loss": 0.82385004,
+      "num_input_tokens_seen": 137600355,
+      "step": 6393,
+      "time_per_iteration": 2.650848150253296
+    },
+    {
+      "auxiliary_loss_clip": 0.01202354,
+      "auxiliary_loss_mlp": 0.01025479,
+      "balance_loss_clip": 1.04482603,
+      "balance_loss_mlp": 1.01899087,
+      "epoch": 0.7688330427463477,
+      "flos": 25155963717120.0,
+      "grad_norm": 1.8041523871589804,
+      "language_loss": 0.78640962,
+      "learning_rate": 5.347038825493617e-07,
+      "loss": 0.80868798,
+      "num_input_tokens_seen": 137621885,
+      "step": 6394,
+      "time_per_iteration": 2.776322841644287
+    },
+    {
+      "auxiliary_loss_clip": 0.0118072,
+      "auxiliary_loss_mlp": 0.01020378,
+      "balance_loss_clip": 1.04576683,
+      "balance_loss_mlp": 1.01368451,
+      "epoch": 0.7689532856369867,
+      "flos": 21211284113280.0,
+      "grad_norm": 2.0141531387008538,
+      "language_loss": 0.6869508,
+      "learning_rate": 5.341738196146732e-07,
+      "loss": 0.70896173,
+      "num_input_tokens_seen": 137640230,
+      "step": 6395,
+      "time_per_iteration": 2.6353507041931152
+    },
+    {
+      "auxiliary_loss_clip": 0.01172259,
+      "auxiliary_loss_mlp": 0.01025109,
+      "balance_loss_clip": 1.04440045,
+      "balance_loss_mlp": 1.017331,
+      "epoch": 0.7690735285276258,
+      "flos": 25119083427840.0,
+      "grad_norm": 2.059977757867639,
+      "language_loss": 0.73625183,
+      "learning_rate": 5.336439790446503e-07,
+      "loss": 0.75822556,
+      "num_input_tokens_seen": 137659330,
+      "step": 6396,
+      "time_per_iteration": 2.6459858417510986
+    },
+    {
+      "auxiliary_loss_clip": 0.01189284,
+      "auxiliary_loss_mlp": 0.01027205,
+      "balance_loss_clip": 1.04035056,
+      "balance_loss_mlp": 1.02011824,
+      "epoch": 0.769193771418265,
+      "flos": 54744020640000.0,
+      "grad_norm": 1.7979070664507566,
+      "language_loss": 0.62686002,
+      "learning_rate": 5.331143609196711e-07,
+      "loss": 0.64902484,
+      "num_input_tokens_seen": 137683145,
+      "step": 6397,
+      "time_per_iteration": 2.931028366088867
+    },
+    {
+      "auxiliary_loss_clip": 0.01178665,
+      "auxiliary_loss_mlp": 0.01026979,
+      "balance_loss_clip": 1.04861295,
+      "balance_loss_mlp": 1.0192306,
+      "epoch": 0.769314014308904,
+      "flos": 37341890115840.0,
+      "grad_norm": 1.8269323050503654,
+      "language_loss": 0.7722612,
+      "learning_rate": 5.325849653200758e-07,
+      "loss": 0.7943176,
+      "num_input_tokens_seen": 137707095,
+      "step": 6398,
+      "time_per_iteration": 2.7306337356567383
+    },
+    {
+      "auxiliary_loss_clip": 0.01168022,
+      "auxiliary_loss_mlp": 0.01024844,
+      "balance_loss_clip": 1.04768372,
+      "balance_loss_mlp": 1.01767397,
+      "epoch": 0.7694342571995431,
+      "flos": 20631686256000.0,
+      "grad_norm": 1.9937615536885507,
+      "language_loss": 0.76356614,
+      "learning_rate": 5.32055792326175e-07,
+      "loss": 0.78549474,
+      "num_input_tokens_seen": 137725520,
+      "step": 6399,
+      "time_per_iteration": 2.531083583831787
+    },
+    {
+      "auxiliary_loss_clip": 0.01189672,
+      "auxiliary_loss_mlp": 0.01028112,
+      "balance_loss_clip": 1.04709172,
+      "balance_loss_mlp": 1.02069426,
+      "epoch": 0.7695545000901821,
+      "flos": 24207706621440.0,
+      "grad_norm": 1.9607906368220338,
+      "language_loss": 0.72997606,
+      "learning_rate": 5.315268420182437e-07,
+      "loss": 0.75215393,
+      "num_input_tokens_seen": 137744195,
+      "step": 6400,
+      "time_per_iteration": 2.6851744651794434
+    },
+    {
+      "auxiliary_loss_clip": 0.01199626,
+      "auxiliary_loss_mlp": 0.01378519,
+      "balance_loss_clip": 1.04405534,
+      "balance_loss_mlp": 1.00021505,
+      "epoch": 0.7696747429808213,
+      "flos": 28001273708160.0,
+      "grad_norm": 2.474014300066561,
+      "language_loss": 0.76450491,
+      "learning_rate": 5.309981144765221e-07,
+      "loss": 0.79028636,
+      "num_input_tokens_seen": 137764340,
+      "step": 6401,
+      "time_per_iteration": 3.7105984687805176
+    },
+    {
+      "auxiliary_loss_clip": 0.01206764,
+      "auxiliary_loss_mlp": 0.01026716,
+      "balance_loss_clip": 1.03987479,
+      "balance_loss_mlp": 1.01941705,
+      "epoch": 0.7697949858714603,
+      "flos": 11509550323200.0,
+      "grad_norm": 3.353409686323595,
+      "language_loss": 0.75299269,
+      "learning_rate": 5.304696097812196e-07,
+      "loss": 0.7753275,
+      "num_input_tokens_seen": 137780940,
+      "step": 6402,
+      "time_per_iteration": 3.6073992252349854
+    },
+    {
+      "auxiliary_loss_clip": 0.01180872,
+      "auxiliary_loss_mlp": 0.01029967,
+      "balance_loss_clip": 1.04314494,
+      "balance_loss_mlp": 1.02179503,
+      "epoch": 0.7699152287620994,
+      "flos": 26688271956480.0,
+      "grad_norm": 2.857769862026416,
+      "language_loss": 0.60169053,
+      "learning_rate": 5.299413280125078e-07,
+      "loss": 0.62379897,
+      "num_input_tokens_seen": 137799250,
+      "step": 6403,
+      "time_per_iteration": 2.701359510421753
+    },
+    {
+      "auxiliary_loss_clip": 0.01184546,
+      "auxiliary_loss_mlp": 0.01027196,
+      "balance_loss_clip": 1.04335177,
+      "balance_loss_mlp": 1.01929235,
+      "epoch": 0.7700354716527386,
+      "flos": 16544944362240.0,
+      "grad_norm": 2.002160670501649,
+      "language_loss": 0.73021412,
+      "learning_rate": 5.294132692505284e-07,
+      "loss": 0.7523315,
+      "num_input_tokens_seen": 137817660,
+      "step": 6404,
+      "time_per_iteration": 2.606994867324829
+    },
+    {
+      "auxiliary_loss_clip": 0.01192689,
+      "auxiliary_loss_mlp": 0.01025587,
+      "balance_loss_clip": 1.0410533,
+      "balance_loss_mlp": 1.01813674,
+      "epoch": 0.7701557145433776,
+      "flos": 19242733196160.0,
+      "grad_norm": 1.8981031608601493,
+      "language_loss": 0.79001909,
+      "learning_rate": 5.288854335753861e-07,
+      "loss": 0.81220186,
+      "num_input_tokens_seen": 137835920,
+      "step": 6405,
+      "time_per_iteration": 3.692300796508789
+    },
+    {
+      "auxiliary_loss_clip": 0.01180369,
+      "auxiliary_loss_mlp": 0.01022549,
+      "balance_loss_clip": 1.04609668,
+      "balance_loss_mlp": 1.01503277,
+      "epoch": 0.7702759574340167,
+      "flos": 31685744211840.0,
+      "grad_norm": 1.9767693922825293,
+      "language_loss": 0.75835896,
+      "learning_rate": 5.283578210671551e-07,
+      "loss": 0.78038812,
+      "num_input_tokens_seen": 137858160,
+      "step": 6406,
+      "time_per_iteration": 2.767953634262085
+    },
+    {
+      "auxiliary_loss_clip": 0.01187913,
+      "auxiliary_loss_mlp": 0.01026708,
+      "balance_loss_clip": 1.04438937,
+      "balance_loss_mlp": 1.01921248,
+      "epoch": 0.7703962003246558,
+      "flos": 16800089644800.0,
+      "grad_norm": 2.0749907220056745,
+      "language_loss": 0.76685786,
+      "learning_rate": 5.278304318058719e-07,
+      "loss": 0.78900409,
+      "num_input_tokens_seen": 137876015,
+      "step": 6407,
+      "time_per_iteration": 3.550977945327759
+    },
+    {
+      "auxiliary_loss_clip": 0.01208353,
+      "auxiliary_loss_mlp": 0.01024042,
+      "balance_loss_clip": 1.03945565,
+      "balance_loss_mlp": 1.0170536,
+      "epoch": 0.7705164432152949,
+      "flos": 35736072693120.0,
+      "grad_norm": 1.7801410753792202,
+      "language_loss": 0.78969371,
+      "learning_rate": 5.273032658715411e-07,
+      "loss": 0.81201768,
+      "num_input_tokens_seen": 137898825,
+      "step": 6408,
+      "time_per_iteration": 2.903925657272339
+    },
+    {
+      "auxiliary_loss_clip": 0.01198104,
+      "auxiliary_loss_mlp": 0.01026345,
+      "balance_loss_clip": 1.04056811,
+      "balance_loss_mlp": 1.01832199,
+      "epoch": 0.7706366861059339,
+      "flos": 23365960329600.0,
+      "grad_norm": 2.2005557310934107,
+      "language_loss": 0.76527011,
+      "learning_rate": 5.267763233441347e-07,
+      "loss": 0.78751457,
+      "num_input_tokens_seen": 137919455,
+      "step": 6409,
+      "time_per_iteration": 2.797882080078125
+    },
+    {
+      "auxiliary_loss_clip": 0.01180454,
+      "auxiliary_loss_mlp": 0.01024703,
+      "balance_loss_clip": 1.04663992,
+      "balance_loss_mlp": 1.01659667,
+      "epoch": 0.7707569289965731,
+      "flos": 22929897219840.0,
+      "grad_norm": 2.4649634913662863,
+      "language_loss": 0.69757849,
+      "learning_rate": 5.26249604303588e-07,
+      "loss": 0.71963006,
+      "num_input_tokens_seen": 137937960,
+      "step": 6410,
+      "time_per_iteration": 2.6527650356292725
+    },
+    {
+      "auxiliary_loss_clip": 0.01170154,
+      "auxiliary_loss_mlp": 0.01028475,
+      "balance_loss_clip": 1.04913759,
+      "balance_loss_mlp": 1.02108979,
+      "epoch": 0.7708771718872122,
+      "flos": 17420661941760.0,
+      "grad_norm": 2.0401427566252477,
+      "language_loss": 0.78656071,
+      "learning_rate": 5.257231088298057e-07,
+      "loss": 0.80854702,
+      "num_input_tokens_seen": 137956370,
+      "step": 6411,
+      "time_per_iteration": 2.568486452102661
+    },
+    {
+      "auxiliary_loss_clip": 0.01097054,
+      "auxiliary_loss_mlp": 0.0100107,
+      "balance_loss_clip": 1.0097971,
+      "balance_loss_mlp": 0.99990815,
+      "epoch": 0.7709974147778512,
+      "flos": 72241316248320.0,
+      "grad_norm": 0.7965059318039808,
+      "language_loss": 0.53957963,
+      "learning_rate": 5.25196837002655e-07,
+      "loss": 0.56056088,
+      "num_input_tokens_seen": 138016080,
+      "step": 6412,
+      "time_per_iteration": 3.324596405029297
+    },
+    {
+      "auxiliary_loss_clip": 0.01181363,
+      "auxiliary_loss_mlp": 0.01026299,
+      "balance_loss_clip": 1.04399824,
+      "balance_loss_mlp": 1.01888394,
+      "epoch": 0.7711176576684904,
+      "flos": 39859694876160.0,
+      "grad_norm": 1.86829637905562,
+      "language_loss": 0.6845637,
+      "learning_rate": 5.24670788901971e-07,
+      "loss": 0.70664036,
+      "num_input_tokens_seen": 138039170,
+      "step": 6413,
+      "time_per_iteration": 2.8090531826019287
+    },
+    {
+      "auxiliary_loss_clip": 0.01184022,
+      "auxiliary_loss_mlp": 0.01023997,
+      "balance_loss_clip": 1.04632545,
+      "balance_loss_mlp": 1.01612306,
+      "epoch": 0.7712379005591294,
+      "flos": 36976391274240.0,
+      "grad_norm": 2.5322758568312635,
+      "language_loss": 0.68960774,
+      "learning_rate": 5.241449646075557e-07,
+      "loss": 0.71168786,
+      "num_input_tokens_seen": 138062395,
+      "step": 6414,
+      "time_per_iteration": 2.7265431880950928
+    },
+    {
+      "auxiliary_loss_clip": 0.01183825,
+      "auxiliary_loss_mlp": 0.01024836,
+      "balance_loss_clip": 1.04638815,
+      "balance_loss_mlp": 1.01729012,
+      "epoch": 0.7713581434497685,
+      "flos": 22776773541120.0,
+      "grad_norm": 1.9462688024859476,
+      "language_loss": 0.72163558,
+      "learning_rate": 5.236193641991762e-07,
+      "loss": 0.74372226,
+      "num_input_tokens_seen": 138080325,
+      "step": 6415,
+      "time_per_iteration": 2.690268039703369
+    },
+    {
+      "auxiliary_loss_clip": 0.01183005,
+      "auxiliary_loss_mlp": 0.01025828,
+      "balance_loss_clip": 1.04577422,
+      "balance_loss_mlp": 1.01843715,
+      "epoch": 0.7714783863404077,
+      "flos": 24097460803200.0,
+      "grad_norm": 2.20156644702229,
+      "language_loss": 0.697245,
+      "learning_rate": 5.23093987756565e-07,
+      "loss": 0.71933335,
+      "num_input_tokens_seen": 138099020,
+      "step": 6416,
+      "time_per_iteration": 2.642383098602295
+    },
+    {
+      "auxiliary_loss_clip": 0.01198157,
+      "auxiliary_loss_mlp": 0.01028209,
+      "balance_loss_clip": 1.0405103,
+      "balance_loss_mlp": 1.02063024,
+      "epoch": 0.7715986292310467,
+      "flos": 21063655215360.0,
+      "grad_norm": 2.229292878170313,
+      "language_loss": 0.75321317,
+      "learning_rate": 5.225688353594217e-07,
+      "loss": 0.77547681,
+      "num_input_tokens_seen": 138118650,
+      "step": 6417,
+      "time_per_iteration": 2.70760178565979
+    },
+    {
+      "auxiliary_loss_clip": 0.01191434,
+      "auxiliary_loss_mlp": 0.01378403,
+      "balance_loss_clip": 1.04629707,
+      "balance_loss_mlp": 1.00019717,
+      "epoch": 0.7717188721216858,
+      "flos": 20594877793920.0,
+      "grad_norm": 2.2501971215917433,
+      "language_loss": 0.77433705,
+      "learning_rate": 5.220439070874108e-07,
+      "loss": 0.80003548,
+      "num_input_tokens_seen": 138137890,
+      "step": 6418,
+      "time_per_iteration": 2.634140968322754
+    },
+    {
+      "auxiliary_loss_clip": 0.01178534,
+      "auxiliary_loss_mlp": 0.01026091,
+      "balance_loss_clip": 1.04951096,
+      "balance_loss_mlp": 1.019171,
+      "epoch": 0.7718391150123249,
+      "flos": 26250951870720.0,
+      "grad_norm": 1.6755991045347505,
+      "language_loss": 0.71010303,
+      "learning_rate": 5.215192030201652e-07,
+      "loss": 0.73214924,
+      "num_input_tokens_seen": 138158880,
+      "step": 6419,
+      "time_per_iteration": 2.672109603881836
+    },
+    {
+      "auxiliary_loss_clip": 0.01177129,
+      "auxiliary_loss_mlp": 0.01024415,
+      "balance_loss_clip": 1.03757894,
+      "balance_loss_mlp": 1.0170989,
+      "epoch": 0.771959357902964,
+      "flos": 22049762267520.0,
+      "grad_norm": 1.8435393833958806,
+      "language_loss": 0.86170113,
+      "learning_rate": 5.209947232372798e-07,
+      "loss": 0.88371652,
+      "num_input_tokens_seen": 138176370,
+      "step": 6420,
+      "time_per_iteration": 2.753648042678833
+    },
+    {
+      "auxiliary_loss_clip": 0.01181236,
+      "auxiliary_loss_mlp": 0.01378815,
+      "balance_loss_clip": 1.04700065,
+      "balance_loss_mlp": 1.00022459,
+      "epoch": 0.772079600793603,
+      "flos": 30446000248320.0,
+      "grad_norm": 1.7385200654503479,
+      "language_loss": 0.81194305,
+      "learning_rate": 5.204704678183196e-07,
+      "loss": 0.83754361,
+      "num_input_tokens_seen": 138195105,
+      "step": 6421,
+      "time_per_iteration": 2.686170816421509
+    },
+    {
+      "auxiliary_loss_clip": 0.01168315,
+      "auxiliary_loss_mlp": 0.01024623,
+      "balance_loss_clip": 1.04703712,
+      "balance_loss_mlp": 1.01708269,
+      "epoch": 0.7721998436842422,
+      "flos": 12969857750400.0,
+      "grad_norm": 1.958554084470307,
+      "language_loss": 0.85029405,
+      "learning_rate": 5.19946436842813e-07,
+      "loss": 0.87222344,
+      "num_input_tokens_seen": 138212235,
+      "step": 6422,
+      "time_per_iteration": 2.5690646171569824
+    },
+    {
+      "auxiliary_loss_clip": 0.01194336,
+      "auxiliary_loss_mlp": 0.01021185,
+      "balance_loss_clip": 1.04313326,
+      "balance_loss_mlp": 1.01412201,
+      "epoch": 0.7723200865748813,
+      "flos": 32635509678720.0,
+      "grad_norm": 1.7572020357875568,
+      "language_loss": 0.6790421,
+      "learning_rate": 5.194226303902546e-07,
+      "loss": 0.70119727,
+      "num_input_tokens_seen": 138231970,
+      "step": 6423,
+      "time_per_iteration": 2.7333996295928955
+    },
+    {
+      "auxiliary_loss_clip": 0.01180322,
+      "auxiliary_loss_mlp": 0.01023805,
+      "balance_loss_clip": 1.04381323,
+      "balance_loss_mlp": 1.0167985,
+      "epoch": 0.7724403294655203,
+      "flos": 21105707063040.0,
+      "grad_norm": 1.8035760102747342,
+      "language_loss": 0.70604819,
+      "learning_rate": 5.188990485401072e-07,
+      "loss": 0.72808945,
+      "num_input_tokens_seen": 138251175,
+      "step": 6424,
+      "time_per_iteration": 2.7303125858306885
+    },
+    {
+      "auxiliary_loss_clip": 0.0117939,
+      "auxiliary_loss_mlp": 0.01030273,
+      "balance_loss_clip": 1.04670143,
+      "balance_loss_mlp": 1.02265906,
+      "epoch": 0.7725605723561595,
+      "flos": 22090736707200.0,
+      "grad_norm": 1.8268402231846115,
+      "language_loss": 0.86426401,
+      "learning_rate": 5.183756913717954e-07,
+      "loss": 0.88636065,
+      "num_input_tokens_seen": 138270950,
+      "step": 6425,
+      "time_per_iteration": 2.5741100311279297
+    },
+    {
+      "auxiliary_loss_clip": 0.0118426,
+      "auxiliary_loss_mlp": 0.01024251,
+      "balance_loss_clip": 1.04590547,
+      "balance_loss_mlp": 1.01727152,
+      "epoch": 0.7726808152467985,
+      "flos": 34495610457600.0,
+      "grad_norm": 1.7087495689573466,
+      "language_loss": 0.73156714,
+      "learning_rate": 5.178525589647136e-07,
+      "loss": 0.75365222,
+      "num_input_tokens_seen": 138292590,
+      "step": 6426,
+      "time_per_iteration": 2.730556011199951
+    },
+    {
+      "auxiliary_loss_clip": 0.01190041,
+      "auxiliary_loss_mlp": 0.01020224,
+      "balance_loss_clip": 1.0449214,
+      "balance_loss_mlp": 1.0133698,
+      "epoch": 0.7728010581374376,
+      "flos": 22306344094080.0,
+      "grad_norm": 1.9109916815776473,
+      "language_loss": 0.79032278,
+      "learning_rate": 5.173296513982197e-07,
+      "loss": 0.81242543,
+      "num_input_tokens_seen": 138311115,
+      "step": 6427,
+      "time_per_iteration": 3.584026575088501
+    },
+    {
+      "auxiliary_loss_clip": 0.01206077,
+      "auxiliary_loss_mlp": 0.01028212,
+      "balance_loss_clip": 1.04697561,
+      "balance_loss_mlp": 1.02005541,
+      "epoch": 0.7729213010280768,
+      "flos": 27126453968640.0,
+      "grad_norm": 2.5925578464676198,
+      "language_loss": 0.64870256,
+      "learning_rate": 5.168069687516398e-07,
+      "loss": 0.67104542,
+      "num_input_tokens_seen": 138330885,
+      "step": 6428,
+      "time_per_iteration": 3.5870003700256348
+    },
+    {
+      "auxiliary_loss_clip": 0.01188025,
+      "auxiliary_loss_mlp": 0.01024648,
+      "balance_loss_clip": 1.04736674,
+      "balance_loss_mlp": 1.01726043,
+      "epoch": 0.7730415439187158,
+      "flos": 18150223080960.0,
+      "grad_norm": 3.5390539048984815,
+      "language_loss": 0.71500719,
+      "learning_rate": 5.16284511104263e-07,
+      "loss": 0.73713392,
+      "num_input_tokens_seen": 138350020,
+      "step": 6429,
+      "time_per_iteration": 2.628403663635254
+    },
+    {
+      "auxiliary_loss_clip": 0.01185928,
+      "auxiliary_loss_mlp": 0.01032722,
+      "balance_loss_clip": 1.04577684,
+      "balance_loss_mlp": 1.025033,
+      "epoch": 0.7731617868093549,
+      "flos": 11947480940160.0,
+      "grad_norm": 2.463150593524682,
+      "language_loss": 0.81053448,
+      "learning_rate": 5.157622785353457e-07,
+      "loss": 0.83272099,
+      "num_input_tokens_seen": 138368135,
+      "step": 6430,
+      "time_per_iteration": 2.553612470626831
+    },
+    {
+      "auxiliary_loss_clip": 0.01076599,
+      "auxiliary_loss_mlp": 0.01000037,
+      "balance_loss_clip": 1.010167,
+      "balance_loss_mlp": 0.99896443,
+      "epoch": 0.7732820296999939,
+      "flos": 64201027069440.0,
+      "grad_norm": 0.6458447312383326,
+      "language_loss": 0.60392529,
+      "learning_rate": 5.152402711241113e-07,
+      "loss": 0.62469167,
+      "num_input_tokens_seen": 138436040,
+      "step": 6431,
+      "time_per_iteration": 4.1866912841796875
+    },
+    {
+      "auxiliary_loss_clip": 0.0119001,
+      "auxiliary_loss_mlp": 0.01027939,
+      "balance_loss_clip": 1.04158759,
+      "balance_loss_mlp": 1.02108431,
+      "epoch": 0.7734022725906331,
+      "flos": 25302191984640.0,
+      "grad_norm": 1.870925108916037,
+      "language_loss": 0.82973164,
+      "learning_rate": 5.147184889497465e-07,
+      "loss": 0.85191119,
+      "num_input_tokens_seen": 138455510,
+      "step": 6432,
+      "time_per_iteration": 2.7210216522216797
+    },
+    {
+      "auxiliary_loss_clip": 0.01183408,
+      "auxiliary_loss_mlp": 0.01023543,
+      "balance_loss_clip": 1.04237652,
+      "balance_loss_mlp": 1.01571703,
+      "epoch": 0.7735225154812722,
+      "flos": 17347440067200.0,
+      "grad_norm": 2.8801497345668983,
+      "language_loss": 0.79768121,
+      "learning_rate": 5.141969320914072e-07,
+      "loss": 0.81975079,
+      "num_input_tokens_seen": 138473015,
+      "step": 6433,
+      "time_per_iteration": 3.5388107299804688
+    },
+    {
+      "auxiliary_loss_clip": 0.01169807,
+      "auxiliary_loss_mlp": 0.01029841,
+      "balance_loss_clip": 1.04571998,
+      "balance_loss_mlp": 1.02215481,
+      "epoch": 0.7736427583719112,
+      "flos": 32630086725120.0,
+      "grad_norm": 2.5434831954794648,
+      "language_loss": 0.62528408,
+      "learning_rate": 5.136756006282113e-07,
+      "loss": 0.64728051,
+      "num_input_tokens_seen": 138491680,
+      "step": 6434,
+      "time_per_iteration": 2.6957764625549316
+    },
+    {
+      "auxiliary_loss_clip": 0.01170384,
+      "auxiliary_loss_mlp": 0.01028568,
+      "balance_loss_clip": 1.04820871,
+      "balance_loss_mlp": 1.02115929,
+      "epoch": 0.7737630012625504,
+      "flos": 19860073269120.0,
+      "grad_norm": 2.640312359172627,
+      "language_loss": 0.84725904,
+      "learning_rate": 5.131544946392446e-07,
+      "loss": 0.86924857,
+      "num_input_tokens_seen": 138506960,
+      "step": 6435,
+      "time_per_iteration": 2.5481488704681396
+    },
+    {
+      "auxiliary_loss_clip": 0.01188142,
+      "auxiliary_loss_mlp": 0.0102722,
+      "balance_loss_clip": 1.04752851,
+      "balance_loss_mlp": 1.0193404,
+      "epoch": 0.7738832441531894,
+      "flos": 36022639397760.0,
+      "grad_norm": 2.111614721889553,
+      "language_loss": 0.6377781,
+      "learning_rate": 5.126336142035592e-07,
+      "loss": 0.65993178,
+      "num_input_tokens_seen": 138526995,
+      "step": 6436,
+      "time_per_iteration": 2.7755680084228516
+    },
+    {
+      "auxiliary_loss_clip": 0.0118507,
+      "auxiliary_loss_mlp": 0.01022988,
+      "balance_loss_clip": 1.043715,
+      "balance_loss_mlp": 1.01585889,
+      "epoch": 0.7740034870438285,
+      "flos": 13405274415360.0,
+      "grad_norm": 2.570924013777186,
+      "language_loss": 0.72307718,
+      "learning_rate": 5.121129594001721e-07,
+      "loss": 0.74515778,
+      "num_input_tokens_seen": 138541260,
+      "step": 6437,
+      "time_per_iteration": 2.6865744590759277
+    },
+    {
+      "auxiliary_loss_clip": 0.0117711,
+      "auxiliary_loss_mlp": 0.01027735,
+      "balance_loss_clip": 1.04869282,
+      "balance_loss_mlp": 1.02032304,
+      "epoch": 0.7741237299344677,
+      "flos": 22086714384000.0,
+      "grad_norm": 1.5678965565672438,
+      "language_loss": 0.81411004,
+      "learning_rate": 5.115925303080661e-07,
+      "loss": 0.83615851,
+      "num_input_tokens_seen": 138560970,
+      "step": 6438,
+      "time_per_iteration": 2.577410936355591
+    },
+    {
+      "auxiliary_loss_clip": 0.01188459,
+      "auxiliary_loss_mlp": 0.01024566,
+      "balance_loss_clip": 1.04501939,
+      "balance_loss_mlp": 1.0171572,
+      "epoch": 0.7742439728251067,
+      "flos": 19864777950720.0,
+      "grad_norm": 2.041430195700128,
+      "language_loss": 0.79355264,
+      "learning_rate": 5.110723270061899e-07,
+      "loss": 0.81568289,
+      "num_input_tokens_seen": 138577460,
+      "step": 6439,
+      "time_per_iteration": 2.577070713043213
+    },
+    {
+      "auxiliary_loss_clip": 0.01164281,
+      "auxiliary_loss_mlp": 0.01025625,
+      "balance_loss_clip": 1.04537106,
+      "balance_loss_mlp": 1.01838875,
+      "epoch": 0.7743642157157458,
+      "flos": 16690167048960.0,
+      "grad_norm": 1.9213504019513175,
+      "language_loss": 0.79539144,
+      "learning_rate": 5.105523495734572e-07,
+      "loss": 0.81729054,
+      "num_input_tokens_seen": 138594860,
+      "step": 6440,
+      "time_per_iteration": 2.5483133792877197
+    },
+    {
+      "auxiliary_loss_clip": 0.01170428,
+      "auxiliary_loss_mlp": 0.01026021,
+      "balance_loss_clip": 1.0488131,
+      "balance_loss_mlp": 1.01869845,
+      "epoch": 0.7744844586063849,
+      "flos": 20304360593280.0,
+      "grad_norm": 2.1389665616302933,
+      "language_loss": 0.75500256,
+      "learning_rate": 5.100325980887499e-07,
+      "loss": 0.77696711,
+      "num_input_tokens_seen": 138614785,
+      "step": 6441,
+      "time_per_iteration": 2.5254738330841064
+    },
+    {
+      "auxiliary_loss_clip": 0.01194662,
+      "auxiliary_loss_mlp": 0.01021583,
+      "balance_loss_clip": 1.04515171,
+      "balance_loss_mlp": 1.01462162,
+      "epoch": 0.774604701497024,
+      "flos": 22966705681920.0,
+      "grad_norm": 1.7238355462053192,
+      "language_loss": 0.83126837,
+      "learning_rate": 5.095130726309116e-07,
+      "loss": 0.85343075,
+      "num_input_tokens_seen": 138634960,
+      "step": 6442,
+      "time_per_iteration": 2.7221930027008057
+    },
+    {
+      "auxiliary_loss_clip": 0.010627,
+      "auxiliary_loss_mlp": 0.01003389,
+      "balance_loss_clip": 1.01040816,
+      "balance_loss_mlp": 1.00235796,
+      "epoch": 0.774724944387663,
+      "flos": 60288523073280.0,
+      "grad_norm": 0.7914334270571379,
+      "language_loss": 0.58985579,
+      "learning_rate": 5.089937732787559e-07,
+      "loss": 0.61051673,
+      "num_input_tokens_seen": 138699520,
+      "step": 6443,
+      "time_per_iteration": 3.2169687747955322
+    },
+    {
+      "auxiliary_loss_clip": 0.01194081,
+      "auxiliary_loss_mlp": 0.01030018,
+      "balance_loss_clip": 1.04355073,
+      "balance_loss_mlp": 1.02286267,
+      "epoch": 0.7748451872783022,
+      "flos": 26761026954240.0,
+      "grad_norm": 2.674495281205773,
+      "language_loss": 0.66450393,
+      "learning_rate": 5.084747001110592e-07,
+      "loss": 0.68674493,
+      "num_input_tokens_seen": 138719145,
+      "step": 6444,
+      "time_per_iteration": 2.6991541385650635
+    },
+    {
+      "auxiliary_loss_clip": 0.01176217,
+      "auxiliary_loss_mlp": 0.01378594,
+      "balance_loss_clip": 1.04947948,
+      "balance_loss_mlp": 1.00020504,
+      "epoch": 0.7749654301689413,
+      "flos": 30338627518080.0,
+      "grad_norm": 2.0010873352148923,
+      "language_loss": 0.70100939,
+      "learning_rate": 5.07955853206564e-07,
+      "loss": 0.72655755,
+      "num_input_tokens_seen": 138743850,
+      "step": 6445,
+      "time_per_iteration": 2.697298288345337
+    },
+    {
+      "auxiliary_loss_clip": 0.01183576,
+      "auxiliary_loss_mlp": 0.01023817,
+      "balance_loss_clip": 1.04759443,
+      "balance_loss_mlp": 1.01683736,
+      "epoch": 0.7750856730595803,
+      "flos": 43179851687040.0,
+      "grad_norm": 1.483467980444307,
+      "language_loss": 0.71003211,
+      "learning_rate": 5.074372326439807e-07,
+      "loss": 0.73210597,
+      "num_input_tokens_seen": 138766860,
+      "step": 6446,
+      "time_per_iteration": 2.815563201904297
+    },
+    {
+      "auxiliary_loss_clip": 0.01192762,
+      "auxiliary_loss_mlp": 0.01023412,
+      "balance_loss_clip": 1.04213583,
+      "balance_loss_mlp": 1.01639044,
+      "epoch": 0.7752059159502195,
+      "flos": 17640040256640.0,
+      "grad_norm": 2.147959862075581,
+      "language_loss": 0.73705214,
+      "learning_rate": 5.069188385019814e-07,
+      "loss": 0.75921392,
+      "num_input_tokens_seen": 138784560,
+      "step": 6447,
+      "time_per_iteration": 2.725944995880127
+    },
+    {
+      "auxiliary_loss_clip": 0.01207697,
+      "auxiliary_loss_mlp": 0.01027039,
+      "balance_loss_clip": 1.03968549,
+      "balance_loss_mlp": 1.01966047,
+      "epoch": 0.7753261588408585,
+      "flos": 12677688524160.0,
+      "grad_norm": 3.283718197260648,
+      "language_loss": 0.61761242,
+      "learning_rate": 5.064006708592077e-07,
+      "loss": 0.63995981,
+      "num_input_tokens_seen": 138800805,
+      "step": 6448,
+      "time_per_iteration": 2.719548225402832
+    },
+    {
+      "auxiliary_loss_clip": 0.01179381,
+      "auxiliary_loss_mlp": 0.01025096,
+      "balance_loss_clip": 1.04595327,
+      "balance_loss_mlp": 1.01848912,
+      "epoch": 0.7754464017314976,
+      "flos": 16690741666560.0,
+      "grad_norm": 2.456681199643425,
+      "language_loss": 0.75739652,
+      "learning_rate": 5.058827297942641e-07,
+      "loss": 0.77944136,
+      "num_input_tokens_seen": 138815910,
+      "step": 6449,
+      "time_per_iteration": 2.757769823074341
+    },
+    {
+      "auxiliary_loss_clip": 0.01193058,
+      "auxiliary_loss_mlp": 0.01024237,
+      "balance_loss_clip": 1.04619157,
+      "balance_loss_mlp": 1.01746011,
+      "epoch": 0.7755666446221368,
+      "flos": 19718944732800.0,
+      "grad_norm": 2.383125772732014,
+      "language_loss": 0.74880457,
+      "learning_rate": 5.053650153857237e-07,
+      "loss": 0.77097762,
+      "num_input_tokens_seen": 138834920,
+      "step": 6450,
+      "time_per_iteration": 2.678720235824585
+    },
+    {
+      "auxiliary_loss_clip": 0.01174327,
+      "auxiliary_loss_mlp": 0.01030471,
+      "balance_loss_clip": 1.04507565,
+      "balance_loss_mlp": 1.02362239,
+      "epoch": 0.7756868875127758,
+      "flos": 18693623007360.0,
+      "grad_norm": 1.70482612782787,
+      "language_loss": 0.69948846,
+      "learning_rate": 5.048475277121214e-07,
+      "loss": 0.72153646,
+      "num_input_tokens_seen": 138852135,
+      "step": 6451,
+      "time_per_iteration": 2.618731737136841
+    },
+    {
+      "auxiliary_loss_clip": 0.0117911,
+      "auxiliary_loss_mlp": 0.01026587,
+      "balance_loss_clip": 1.04703808,
+      "balance_loss_mlp": 1.01892734,
+      "epoch": 0.7758071304034149,
+      "flos": 28404191543040.0,
+      "grad_norm": 1.8254550801408835,
+      "language_loss": 0.77062333,
+      "learning_rate": 5.043302668519598e-07,
+      "loss": 0.79268026,
+      "num_input_tokens_seen": 138871470,
+      "step": 6452,
+      "time_per_iteration": 2.659813642501831
+    },
+    {
+      "auxiliary_loss_clip": 0.01179736,
+      "auxiliary_loss_mlp": 0.01023567,
+      "balance_loss_clip": 1.04558301,
+      "balance_loss_mlp": 1.01672459,
+      "epoch": 0.775927373294054,
+      "flos": 20595344670720.0,
+      "grad_norm": 2.3380137104037155,
+      "language_loss": 0.72048396,
+      "learning_rate": 5.038132328837079e-07,
+      "loss": 0.74251699,
+      "num_input_tokens_seen": 138889860,
+      "step": 6453,
+      "time_per_iteration": 3.498671293258667
+    },
+    {
+      "auxiliary_loss_clip": 0.01178416,
+      "auxiliary_loss_mlp": 0.01023825,
+      "balance_loss_clip": 1.04643488,
+      "balance_loss_mlp": 1.01732469,
+      "epoch": 0.7760476161846931,
+      "flos": 22526368853760.0,
+      "grad_norm": 2.0374817606383004,
+      "language_loss": 0.73633385,
+      "learning_rate": 5.032964258857993e-07,
+      "loss": 0.75835621,
+      "num_input_tokens_seen": 138909955,
+      "step": 6454,
+      "time_per_iteration": 3.6374599933624268
+    },
+    {
+      "auxiliary_loss_clip": 0.01173659,
+      "auxiliary_loss_mlp": 0.01024201,
+      "balance_loss_clip": 1.04171681,
+      "balance_loss_mlp": 1.01732564,
+      "epoch": 0.7761678590753321,
+      "flos": 48651488403840.0,
+      "grad_norm": 1.4982982810015972,
+      "language_loss": 0.68456411,
+      "learning_rate": 5.027798459366329e-07,
+      "loss": 0.70654273,
+      "num_input_tokens_seen": 138935320,
+      "step": 6455,
+      "time_per_iteration": 2.832771062850952
+    },
+    {
+      "auxiliary_loss_clip": 0.01179041,
+      "auxiliary_loss_mlp": 0.01023969,
+      "balance_loss_clip": 1.04584455,
+      "balance_loss_mlp": 1.01651871,
+      "epoch": 0.7762881019659713,
+      "flos": 26177047637760.0,
+      "grad_norm": 1.4074921783934846,
+      "language_loss": 0.63456142,
+      "learning_rate": 5.02263493114573e-07,
+      "loss": 0.65659142,
+      "num_input_tokens_seen": 138957115,
+      "step": 6456,
+      "time_per_iteration": 2.59302020072937
+    },
+    {
+      "auxiliary_loss_clip": 0.01167425,
+      "auxiliary_loss_mlp": 0.01024793,
+      "balance_loss_clip": 1.04656863,
+      "balance_loss_mlp": 1.01710963,
+      "epoch": 0.7764083448566104,
+      "flos": 20588341518720.0,
+      "grad_norm": 2.7676642588600315,
+      "language_loss": 0.77539563,
+      "learning_rate": 5.017473674979502e-07,
+      "loss": 0.79731786,
+      "num_input_tokens_seen": 138973140,
+      "step": 6457,
+      "time_per_iteration": 3.407299280166626
+    },
+    {
+      "auxiliary_loss_clip": 0.01100327,
+      "auxiliary_loss_mlp": 0.01003081,
+      "balance_loss_clip": 1.01902962,
+      "balance_loss_mlp": 1.00198448,
+      "epoch": 0.7765285877472494,
+      "flos": 67293078560640.0,
+      "grad_norm": 0.739455420533259,
+      "language_loss": 0.58310258,
+      "learning_rate": 5.01231469165061e-07,
+      "loss": 0.60413671,
+      "num_input_tokens_seen": 139028965,
+      "step": 6458,
+      "time_per_iteration": 3.1127421855926514
+    },
+    {
+      "auxiliary_loss_clip": 0.01076081,
+      "auxiliary_loss_mlp": 0.01002892,
+      "balance_loss_clip": 1.01032484,
+      "balance_loss_mlp": 1.00175941,
+      "epoch": 0.7766488306378886,
+      "flos": 61344476121600.0,
+      "grad_norm": 0.8364541952622184,
+      "language_loss": 0.56886572,
+      "learning_rate": 5.007157981941663e-07,
+      "loss": 0.58965546,
+      "num_input_tokens_seen": 139094325,
+      "step": 6459,
+      "time_per_iteration": 4.225107669830322
+    },
+    {
+      "auxiliary_loss_clip": 0.01088848,
+      "auxiliary_loss_mlp": 0.01000409,
+      "balance_loss_clip": 1.01103997,
+      "balance_loss_mlp": 0.9993059,
+      "epoch": 0.7767690735285276,
+      "flos": 62946199393920.0,
+      "grad_norm": 0.8867366384726324,
+      "language_loss": 0.67417306,
+      "learning_rate": 5.002003546634928e-07,
+      "loss": 0.69506562,
+      "num_input_tokens_seen": 139150425,
+      "step": 6460,
+      "time_per_iteration": 3.217869281768799
+    },
+    {
+      "auxiliary_loss_clip": 0.01202228,
+      "auxiliary_loss_mlp": 0.01024605,
+      "balance_loss_clip": 1.04368031,
+      "balance_loss_mlp": 1.01711559,
+      "epoch": 0.7768893164191667,
+      "flos": 20886400575360.0,
+      "grad_norm": 1.593813017901255,
+      "language_loss": 0.76029962,
+      "learning_rate": 4.996851386512331e-07,
+      "loss": 0.78256798,
+      "num_input_tokens_seen": 139169130,
+      "step": 6461,
+      "time_per_iteration": 2.691009759902954
+    },
+    {
+      "auxiliary_loss_clip": 0.01187254,
+      "auxiliary_loss_mlp": 0.01029182,
+      "balance_loss_clip": 1.04579949,
+      "balance_loss_mlp": 1.02111197,
+      "epoch": 0.7770095593098058,
+      "flos": 20704584908160.0,
+      "grad_norm": 2.6598523511033836,
+      "language_loss": 0.83221,
+      "learning_rate": 4.991701502355444e-07,
+      "loss": 0.85437435,
+      "num_input_tokens_seen": 139189595,
+      "step": 6462,
+      "time_per_iteration": 2.668607711791992
+    },
+    {
+      "auxiliary_loss_clip": 0.01181781,
+      "auxiliary_loss_mlp": 0.0102216,
+      "balance_loss_clip": 1.04656172,
+      "balance_loss_mlp": 1.01522231,
+      "epoch": 0.7771298022004449,
+      "flos": 24717709877760.0,
+      "grad_norm": 1.4961640230858233,
+      "language_loss": 0.7584734,
+      "learning_rate": 4.986553894945518e-07,
+      "loss": 0.78051281,
+      "num_input_tokens_seen": 139210805,
+      "step": 6463,
+      "time_per_iteration": 2.693453550338745
+    },
+    {
+      "auxiliary_loss_clip": 0.01205338,
+      "auxiliary_loss_mlp": 0.01025297,
+      "balance_loss_clip": 1.04100442,
+      "balance_loss_mlp": 1.01807928,
+      "epoch": 0.777250045091084,
+      "flos": 25009232659200.0,
+      "grad_norm": 1.9560511413415311,
+      "language_loss": 0.85770833,
+      "learning_rate": 4.981408565063416e-07,
+      "loss": 0.88001466,
+      "num_input_tokens_seen": 139230750,
+      "step": 6464,
+      "time_per_iteration": 2.792567491531372
+    },
+    {
+      "auxiliary_loss_clip": 0.01170087,
+      "auxiliary_loss_mlp": 0.01025519,
+      "balance_loss_clip": 1.04666734,
+      "balance_loss_mlp": 1.01739788,
+      "epoch": 0.777370287981723,
+      "flos": 20119887319680.0,
+      "grad_norm": 1.9170244643491876,
+      "language_loss": 0.75829101,
+      "learning_rate": 4.976265513489701e-07,
+      "loss": 0.78024703,
+      "num_input_tokens_seen": 139250720,
+      "step": 6465,
+      "time_per_iteration": 2.586073398590088
+    },
+    {
+      "auxiliary_loss_clip": 0.01176795,
+      "auxiliary_loss_mlp": 0.01023949,
+      "balance_loss_clip": 1.0455308,
+      "balance_loss_mlp": 1.01686811,
+      "epoch": 0.7774905308723622,
+      "flos": 21718809331200.0,
+      "grad_norm": 1.9042442319086856,
+      "language_loss": 0.80110049,
+      "learning_rate": 4.971124741004562e-07,
+      "loss": 0.82310796,
+      "num_input_tokens_seen": 139269720,
+      "step": 6466,
+      "time_per_iteration": 2.5762853622436523
+    },
+    {
+      "auxiliary_loss_clip": 0.01175581,
+      "auxiliary_loss_mlp": 0.01026083,
+      "balance_loss_clip": 1.04429734,
+      "balance_loss_mlp": 1.01851296,
+      "epoch": 0.7776107737630013,
+      "flos": 16034115093120.0,
+      "grad_norm": 1.8712190116836018,
+      "language_loss": 0.76488101,
+      "learning_rate": 4.965986248387846e-07,
+      "loss": 0.78689766,
+      "num_input_tokens_seen": 139288035,
+      "step": 6467,
+      "time_per_iteration": 2.6076512336730957
+    },
+    {
+      "auxiliary_loss_clip": 0.01187192,
+      "auxiliary_loss_mlp": 0.01026193,
+      "balance_loss_clip": 1.04391456,
+      "balance_loss_mlp": 1.01924312,
+      "epoch": 0.7777310166536403,
+      "flos": 24790895838720.0,
+      "grad_norm": 1.5364247132529385,
+      "language_loss": 0.77233088,
+      "learning_rate": 4.960850036419073e-07,
+      "loss": 0.79446477,
+      "num_input_tokens_seen": 139307135,
+      "step": 6468,
+      "time_per_iteration": 2.6490604877471924
+    },
+    {
+      "auxiliary_loss_clip": 0.01184481,
+      "auxiliary_loss_mlp": 0.0102391,
+      "balance_loss_clip": 1.04570007,
+      "balance_loss_mlp": 1.01662016,
+      "epoch": 0.7778512595442795,
+      "flos": 17272530253440.0,
+      "grad_norm": 1.672864522504928,
+      "language_loss": 0.77903837,
+      "learning_rate": 4.955716105877378e-07,
+      "loss": 0.80112231,
+      "num_input_tokens_seen": 139325905,
+      "step": 6469,
+      "time_per_iteration": 2.6150059700012207
+    },
+    {
+      "auxiliary_loss_clip": 0.01179793,
+      "auxiliary_loss_mlp": 0.01378664,
+      "balance_loss_clip": 1.04521978,
+      "balance_loss_mlp": 1.00013018,
+      "epoch": 0.7779715024349185,
+      "flos": 17748418567680.0,
+      "grad_norm": 1.6601938412703467,
+      "language_loss": 0.83268273,
+      "learning_rate": 4.950584457541598e-07,
+      "loss": 0.85826731,
+      "num_input_tokens_seen": 139344370,
+      "step": 6470,
+      "time_per_iteration": 2.6208300590515137
+    },
+    {
+      "auxiliary_loss_clip": 0.01179971,
+      "auxiliary_loss_mlp": 0.01024784,
+      "balance_loss_clip": 1.04695606,
+      "balance_loss_mlp": 1.01733947,
+      "epoch": 0.7780917453255576,
+      "flos": 24316875031680.0,
+      "grad_norm": 2.2641334306171332,
+      "language_loss": 0.81719172,
+      "learning_rate": 4.945455092190183e-07,
+      "loss": 0.83923924,
+      "num_input_tokens_seen": 139365625,
+      "step": 6471,
+      "time_per_iteration": 2.658675193786621
+    },
+    {
+      "auxiliary_loss_clip": 0.01062161,
+      "auxiliary_loss_mlp": 0.00999539,
+      "balance_loss_clip": 1.00990951,
+      "balance_loss_mlp": 0.99847239,
+      "epoch": 0.7782119882161967,
+      "flos": 56364601530240.0,
+      "grad_norm": 0.6827315615476945,
+      "language_loss": 0.55997384,
+      "learning_rate": 4.940328010601271e-07,
+      "loss": 0.58059084,
+      "num_input_tokens_seen": 139430540,
+      "step": 6472,
+      "time_per_iteration": 3.1873373985290527
+    },
+    {
+      "auxiliary_loss_clip": 0.01195018,
+      "auxiliary_loss_mlp": 0.01027864,
+      "balance_loss_clip": 1.04906094,
+      "balance_loss_mlp": 1.02031851,
+      "epoch": 0.7783322311068358,
+      "flos": 46789986994560.0,
+      "grad_norm": 2.1296044730569634,
+      "language_loss": 0.76703334,
+      "learning_rate": 4.935203213552621e-07,
+      "loss": 0.78926206,
+      "num_input_tokens_seen": 139454280,
+      "step": 6473,
+      "time_per_iteration": 2.871352195739746
+    },
+    {
+      "auxiliary_loss_clip": 0.01185684,
+      "auxiliary_loss_mlp": 0.01022382,
+      "balance_loss_clip": 1.04362082,
+      "balance_loss_mlp": 1.01462162,
+      "epoch": 0.7784524739974749,
+      "flos": 19057864872960.0,
+      "grad_norm": 2.631862998003385,
+      "language_loss": 0.66852969,
+      "learning_rate": 4.930080701821662e-07,
+      "loss": 0.69061035,
+      "num_input_tokens_seen": 139471745,
+      "step": 6474,
+      "time_per_iteration": 2.703529119491577
+    },
+    {
+      "auxiliary_loss_clip": 0.01187084,
+      "auxiliary_loss_mlp": 0.01026388,
+      "balance_loss_clip": 1.04420567,
+      "balance_loss_mlp": 1.01923871,
+      "epoch": 0.778572716888114,
+      "flos": 24791111320320.0,
+      "grad_norm": 2.067056563031982,
+      "language_loss": 0.76755369,
+      "learning_rate": 4.92496047618548e-07,
+      "loss": 0.78968841,
+      "num_input_tokens_seen": 139491505,
+      "step": 6475,
+      "time_per_iteration": 2.7094123363494873
+    },
+    {
+      "auxiliary_loss_clip": 0.01177975,
+      "auxiliary_loss_mlp": 0.01030986,
+      "balance_loss_clip": 1.04714191,
+      "balance_loss_mlp": 1.02358317,
+      "epoch": 0.7786929597787531,
+      "flos": 20078086867200.0,
+      "grad_norm": 2.1523991002433385,
+      "language_loss": 0.77458322,
+      "learning_rate": 4.919842537420811e-07,
+      "loss": 0.79667282,
+      "num_input_tokens_seen": 139508620,
+      "step": 6476,
+      "time_per_iteration": 2.6638078689575195
+    },
+    {
+      "auxiliary_loss_clip": 0.01186734,
+      "auxiliary_loss_mlp": 0.01026891,
+      "balance_loss_clip": 1.04639816,
+      "balance_loss_mlp": 1.01980698,
+      "epoch": 0.7788132026693921,
+      "flos": 21872220318720.0,
+      "grad_norm": 1.53243124168465,
+      "language_loss": 0.79058623,
+      "learning_rate": 4.91472688630404e-07,
+      "loss": 0.81272244,
+      "num_input_tokens_seen": 139529360,
+      "step": 6477,
+      "time_per_iteration": 2.615605592727661
+    },
+    {
+      "auxiliary_loss_clip": 0.01162732,
+      "auxiliary_loss_mlp": 0.01022195,
+      "balance_loss_clip": 1.04433513,
+      "balance_loss_mlp": 1.01535201,
+      "epoch": 0.7789334455600313,
+      "flos": 11181937351680.0,
+      "grad_norm": 2.261334151873999,
+      "language_loss": 0.74232674,
+      "learning_rate": 4.909613523611202e-07,
+      "loss": 0.76417601,
+      "num_input_tokens_seen": 139546240,
+      "step": 6478,
+      "time_per_iteration": 2.599658250808716
+    },
+    {
+      "auxiliary_loss_clip": 0.01196575,
+      "auxiliary_loss_mlp": 0.01378843,
+      "balance_loss_clip": 1.03915858,
+      "balance_loss_mlp": 1.00018954,
+      "epoch": 0.7790536884506704,
+      "flos": 28695427015680.0,
+      "grad_norm": 1.9242898096841963,
+      "language_loss": 0.7470057,
+      "learning_rate": 4.904502450117991e-07,
+      "loss": 0.77275991,
+      "num_input_tokens_seen": 139567200,
+      "step": 6479,
+      "time_per_iteration": 4.850749492645264
+    },
+    {
+      "auxiliary_loss_clip": 0.01182941,
+      "auxiliary_loss_mlp": 0.01028158,
+      "balance_loss_clip": 1.04476237,
+      "balance_loss_mlp": 1.02070761,
+      "epoch": 0.7791739313413094,
+      "flos": 11072302064640.0,
+      "grad_norm": 2.5183346103453847,
+      "language_loss": 0.72089648,
+      "learning_rate": 4.899393666599762e-07,
+      "loss": 0.74300754,
+      "num_input_tokens_seen": 139583775,
+      "step": 6480,
+      "time_per_iteration": 2.614466428756714
+    },
+    {
+      "auxiliary_loss_clip": 0.01166622,
+      "auxiliary_loss_mlp": 0.01027899,
+      "balance_loss_clip": 1.04496384,
+      "balance_loss_mlp": 1.02046061,
+      "epoch": 0.7792941742319486,
+      "flos": 14679276975360.0,
+      "grad_norm": 2.191913429264393,
+      "language_loss": 0.72913599,
+      "learning_rate": 4.894287173831506e-07,
+      "loss": 0.75108123,
+      "num_input_tokens_seen": 139599735,
+      "step": 6481,
+      "time_per_iteration": 2.5843677520751953
+    },
+    {
+      "auxiliary_loss_clip": 0.01184873,
+      "auxiliary_loss_mlp": 0.01025302,
+      "balance_loss_clip": 1.04295063,
+      "balance_loss_mlp": 1.01780391,
+      "epoch": 0.7794144171225876,
+      "flos": 23258874908160.0,
+      "grad_norm": 2.1410838025994843,
+      "language_loss": 0.84010297,
+      "learning_rate": 4.889182972587877e-07,
+      "loss": 0.86220467,
+      "num_input_tokens_seen": 139619030,
+      "step": 6482,
+      "time_per_iteration": 2.6819615364074707
+    },
+    {
+      "auxiliary_loss_clip": 0.01201474,
+      "auxiliary_loss_mlp": 0.01026621,
+      "balance_loss_clip": 1.04381382,
+      "balance_loss_mlp": 1.01980805,
+      "epoch": 0.7795346600132267,
+      "flos": 21507080613120.0,
+      "grad_norm": 2.345281766200352,
+      "language_loss": 0.66336352,
+      "learning_rate": 4.884081063643177e-07,
+      "loss": 0.68564445,
+      "num_input_tokens_seen": 139637690,
+      "step": 6483,
+      "time_per_iteration": 2.7005257606506348
+    },
+    {
+      "auxiliary_loss_clip": 0.01086425,
+      "auxiliary_loss_mlp": 0.01001271,
+      "balance_loss_clip": 1.01447916,
+      "balance_loss_mlp": 1.00020969,
+      "epoch": 0.7796549029038659,
+      "flos": 70052273694720.0,
+      "grad_norm": 0.8536551054328324,
+      "language_loss": 0.52534026,
+      "learning_rate": 4.878981447771353e-07,
+      "loss": 0.54621726,
+      "num_input_tokens_seen": 139692070,
+      "step": 6484,
+      "time_per_iteration": 4.116549491882324
+    },
+    {
+      "auxiliary_loss_clip": 0.01188124,
+      "auxiliary_loss_mlp": 0.01023734,
+      "balance_loss_clip": 1.04340649,
+      "balance_loss_mlp": 1.01647449,
+      "epoch": 0.7797751457945049,
+      "flos": 23989405714560.0,
+      "grad_norm": 1.756243530457855,
+      "language_loss": 0.72972351,
+      "learning_rate": 4.873884125746035e-07,
+      "loss": 0.75184208,
+      "num_input_tokens_seen": 139713745,
+      "step": 6485,
+      "time_per_iteration": 3.595701217651367
+    },
+    {
+      "auxiliary_loss_clip": 0.01180189,
+      "auxiliary_loss_mlp": 0.010219,
+      "balance_loss_clip": 1.04306078,
+      "balance_loss_mlp": 1.01453924,
+      "epoch": 0.779895388685144,
+      "flos": 22674751937280.0,
+      "grad_norm": 4.558458162285522,
+      "language_loss": 0.71955228,
+      "learning_rate": 4.868789098340456e-07,
+      "loss": 0.74157321,
+      "num_input_tokens_seen": 139731650,
+      "step": 6486,
+      "time_per_iteration": 2.6346988677978516
+    },
+    {
+      "auxiliary_loss_clip": 0.01195874,
+      "auxiliary_loss_mlp": 0.01024516,
+      "balance_loss_clip": 1.04376721,
+      "balance_loss_mlp": 1.01679182,
+      "epoch": 0.7800156315757831,
+      "flos": 23768698596480.0,
+      "grad_norm": 2.052581895237823,
+      "language_loss": 0.73192638,
+      "learning_rate": 4.863696366327543e-07,
+      "loss": 0.7541303,
+      "num_input_tokens_seen": 139750820,
+      "step": 6487,
+      "time_per_iteration": 2.655491590499878
+    },
+    {
+      "auxiliary_loss_clip": 0.01175003,
+      "auxiliary_loss_mlp": 0.0102331,
+      "balance_loss_clip": 1.04279912,
+      "balance_loss_mlp": 1.01596701,
+      "epoch": 0.7801358744664222,
+      "flos": 26429714881920.0,
+      "grad_norm": 1.6106738480006915,
+      "language_loss": 0.778988,
+      "learning_rate": 4.85860593047986e-07,
+      "loss": 0.80097115,
+      "num_input_tokens_seen": 139770885,
+      "step": 6488,
+      "time_per_iteration": 2.6947062015533447
+    },
+    {
+      "auxiliary_loss_clip": 0.01183717,
+      "auxiliary_loss_mlp": 0.01023438,
+      "balance_loss_clip": 1.03774595,
+      "balance_loss_mlp": 1.0165689,
+      "epoch": 0.7802561173570612,
+      "flos": 26322162583680.0,
+      "grad_norm": 1.690088140723485,
+      "language_loss": 0.74641955,
+      "learning_rate": 4.853517791569613e-07,
+      "loss": 0.76849109,
+      "num_input_tokens_seen": 139793065,
+      "step": 6489,
+      "time_per_iteration": 2.704256296157837
+    },
+    {
+      "auxiliary_loss_clip": 0.01188403,
+      "auxiliary_loss_mlp": 0.01379015,
+      "balance_loss_clip": 1.04312098,
+      "balance_loss_mlp": 1.00021279,
+      "epoch": 0.7803763602477004,
+      "flos": 40333751596800.0,
+      "grad_norm": 1.7988185341253689,
+      "language_loss": 0.66188747,
+      "learning_rate": 4.848431950368684e-07,
+      "loss": 0.68756163,
+      "num_input_tokens_seen": 139815625,
+      "step": 6490,
+      "time_per_iteration": 2.8354246616363525
+    },
+    {
+      "auxiliary_loss_clip": 0.01062002,
+      "auxiliary_loss_mlp": 0.01373697,
+      "balance_loss_clip": 1.00993371,
+      "balance_loss_mlp": 0.99974138,
+      "epoch": 0.7804966031383395,
+      "flos": 67001448038400.0,
+      "grad_norm": 0.7037861783583087,
+      "language_loss": 0.55749875,
+      "learning_rate": 4.843348407648569e-07,
+      "loss": 0.58185571,
+      "num_input_tokens_seen": 139876905,
+      "step": 6491,
+      "time_per_iteration": 3.1866650581359863
+    },
+    {
+      "auxiliary_loss_clip": 0.01177952,
+      "auxiliary_loss_mlp": 0.01027103,
+      "balance_loss_clip": 1.04288363,
+      "balance_loss_mlp": 1.01997435,
+      "epoch": 0.7806168460289785,
+      "flos": 17740733057280.0,
+      "grad_norm": 2.7971233519071825,
+      "language_loss": 0.8306343,
+      "learning_rate": 4.838267164180457e-07,
+      "loss": 0.85268486,
+      "num_input_tokens_seen": 139892575,
+      "step": 6492,
+      "time_per_iteration": 2.6198651790618896
+    },
+    {
+      "auxiliary_loss_clip": 0.01170383,
+      "auxiliary_loss_mlp": 0.0102564,
+      "balance_loss_clip": 1.04713583,
+      "balance_loss_mlp": 1.01801097,
+      "epoch": 0.7807370889196176,
+      "flos": 23946240545280.0,
+      "grad_norm": 3.6486596351446656,
+      "language_loss": 0.83856881,
+      "learning_rate": 4.833188220735156e-07,
+      "loss": 0.86052901,
+      "num_input_tokens_seen": 139912245,
+      "step": 6493,
+      "time_per_iteration": 2.6483492851257324
+    },
+    {
+      "auxiliary_loss_clip": 0.01175564,
+      "auxiliary_loss_mlp": 0.0101798,
+      "balance_loss_clip": 1.04548693,
+      "balance_loss_mlp": 1.01106536,
+      "epoch": 0.7808573318102567,
+      "flos": 18989024457600.0,
+      "grad_norm": 2.009701798182113,
+      "language_loss": 0.74487036,
+      "learning_rate": 4.828111578083152e-07,
+      "loss": 0.76680577,
+      "num_input_tokens_seen": 139929150,
+      "step": 6494,
+      "time_per_iteration": 2.603726387023926
+    },
+    {
+      "auxiliary_loss_clip": 0.01185572,
+      "auxiliary_loss_mlp": 0.01024296,
+      "balance_loss_clip": 1.04777503,
+      "balance_loss_mlp": 1.01655364,
+      "epoch": 0.7809775747008958,
+      "flos": 23980750536960.0,
+      "grad_norm": 1.9461206581494788,
+      "language_loss": 0.81464851,
+      "learning_rate": 4.823037236994556e-07,
+      "loss": 0.83674717,
+      "num_input_tokens_seen": 139947315,
+      "step": 6495,
+      "time_per_iteration": 2.7006146907806396
+    },
+    {
+      "auxiliary_loss_clip": 0.01075685,
+      "auxiliary_loss_mlp": 0.01002866,
+      "balance_loss_clip": 1.00987625,
+      "balance_loss_mlp": 1.00170994,
+      "epoch": 0.7810978175915348,
+      "flos": 68535875180160.0,
+      "grad_norm": 0.730492321664272,
+      "language_loss": 0.56331116,
+      "learning_rate": 4.817965198239136e-07,
+      "loss": 0.58409667,
+      "num_input_tokens_seen": 140013775,
+      "step": 6496,
+      "time_per_iteration": 3.1725668907165527
+    },
+    {
+      "auxiliary_loss_clip": 0.01192479,
+      "auxiliary_loss_mlp": 0.01023843,
+      "balance_loss_clip": 1.04171193,
+      "balance_loss_mlp": 1.01576066,
+      "epoch": 0.781218060482174,
+      "flos": 19642131498240.0,
+      "grad_norm": 2.229719349929557,
+      "language_loss": 0.74484694,
+      "learning_rate": 4.812895462586331e-07,
+      "loss": 0.76701021,
+      "num_input_tokens_seen": 140031600,
+      "step": 6497,
+      "time_per_iteration": 2.7153406143188477
+    },
+    {
+      "auxiliary_loss_clip": 0.0119923,
+      "auxiliary_loss_mlp": 0.01027649,
+      "balance_loss_clip": 1.04390001,
+      "balance_loss_mlp": 1.02032995,
+      "epoch": 0.7813383033728131,
+      "flos": 25627865621760.0,
+      "grad_norm": 1.6205785202845118,
+      "language_loss": 0.81779373,
+      "learning_rate": 4.807828030805207e-07,
+      "loss": 0.8400625,
+      "num_input_tokens_seen": 140050590,
+      "step": 6498,
+      "time_per_iteration": 2.670456886291504
+    },
+    {
+      "auxiliary_loss_clip": 0.01174537,
+      "auxiliary_loss_mlp": 0.01028744,
+      "balance_loss_clip": 1.04632473,
+      "balance_loss_mlp": 1.02182412,
+      "epoch": 0.7814585462634521,
+      "flos": 20485924865280.0,
+      "grad_norm": 2.502705982246898,
+      "language_loss": 0.67713797,
+      "learning_rate": 4.802762903664495e-07,
+      "loss": 0.69917077,
+      "num_input_tokens_seen": 140069770,
+      "step": 6499,
+      "time_per_iteration": 2.6528306007385254
+    },
+    {
+      "auxiliary_loss_clip": 0.01194755,
+      "auxiliary_loss_mlp": 0.01026721,
+      "balance_loss_clip": 1.04806554,
+      "balance_loss_mlp": 1.0187335,
+      "epoch": 0.7815787891540913,
+      "flos": 22304297018880.0,
+      "grad_norm": 2.1054579732962253,
+      "language_loss": 0.73317051,
+      "learning_rate": 4.797700081932565e-07,
+      "loss": 0.75538528,
+      "num_input_tokens_seen": 140087635,
+      "step": 6500,
+      "time_per_iteration": 2.613574981689453
+    },
+    {
+      "auxiliary_loss_clip": 0.012034,
+      "auxiliary_loss_mlp": 0.01025788,
+      "balance_loss_clip": 1.03837609,
+      "balance_loss_mlp": 1.01908827,
+      "epoch": 0.7816990320447303,
+      "flos": 22600668136320.0,
+      "grad_norm": 2.1839158599306474,
+      "language_loss": 0.81679738,
+      "learning_rate": 4.792639566377442e-07,
+      "loss": 0.83908927,
+      "num_input_tokens_seen": 140105045,
+      "step": 6501,
+      "time_per_iteration": 2.7778027057647705
+    },
+    {
+      "auxiliary_loss_clip": 0.01170045,
+      "auxiliary_loss_mlp": 0.01025664,
+      "balance_loss_clip": 1.04282856,
+      "balance_loss_mlp": 1.01749206,
+      "epoch": 0.7818192749353694,
+      "flos": 24935974871040.0,
+      "grad_norm": 1.7471530542697706,
+      "language_loss": 0.77297199,
+      "learning_rate": 4.78758135776681e-07,
+      "loss": 0.79492903,
+      "num_input_tokens_seen": 140124900,
+      "step": 6502,
+      "time_per_iteration": 2.6232738494873047
+    },
+    {
+      "auxiliary_loss_clip": 0.01189992,
+      "auxiliary_loss_mlp": 0.01026574,
+      "balance_loss_clip": 1.04691243,
+      "balance_loss_mlp": 1.01918042,
+      "epoch": 0.7819395178260086,
+      "flos": 23733039369600.0,
+      "grad_norm": 2.0886322361444116,
+      "language_loss": 0.78836823,
+      "learning_rate": 4.782525456867989e-07,
+      "loss": 0.81053382,
+      "num_input_tokens_seen": 140143755,
+      "step": 6503,
+      "time_per_iteration": 2.6616265773773193
+    },
+    {
+      "auxiliary_loss_clip": 0.0119924,
+      "auxiliary_loss_mlp": 0.01028731,
+      "balance_loss_clip": 1.04426289,
+      "balance_loss_mlp": 1.02079177,
+      "epoch": 0.7820597607166476,
+      "flos": 23221671396480.0,
+      "grad_norm": 1.9290456091081838,
+      "language_loss": 0.83072317,
+      "learning_rate": 4.777471864447959e-07,
+      "loss": 0.85300291,
+      "num_input_tokens_seen": 140164495,
+      "step": 6504,
+      "time_per_iteration": 3.581712007522583
+    },
+    {
+      "auxiliary_loss_clip": 0.01183191,
+      "auxiliary_loss_mlp": 0.01028237,
+      "balance_loss_clip": 1.04167986,
+      "balance_loss_mlp": 1.02067924,
+      "epoch": 0.7821800036072867,
+      "flos": 22309540404480.0,
+      "grad_norm": 1.940157758096377,
+      "language_loss": 0.80771554,
+      "learning_rate": 4.772420581273344e-07,
+      "loss": 0.82982981,
+      "num_input_tokens_seen": 140181980,
+      "step": 6505,
+      "time_per_iteration": 3.6504087448120117
+    },
+    {
+      "auxiliary_loss_clip": 0.0117404,
+      "auxiliary_loss_mlp": 0.01024094,
+      "balance_loss_clip": 1.04661977,
+      "balance_loss_mlp": 1.01702523,
+      "epoch": 0.7823002464979258,
+      "flos": 21544176384000.0,
+      "grad_norm": 2.3511157308403816,
+      "language_loss": 0.76470345,
+      "learning_rate": 4.7673716081104134e-07,
+      "loss": 0.78668481,
+      "num_input_tokens_seen": 140202155,
+      "step": 6506,
+      "time_per_iteration": 2.7539713382720947
+    },
+    {
+      "auxiliary_loss_clip": 0.01176937,
+      "auxiliary_loss_mlp": 0.01025203,
+      "balance_loss_clip": 1.04749179,
+      "balance_loss_mlp": 1.0176872,
+      "epoch": 0.7824204893885649,
+      "flos": 24535642815360.0,
+      "grad_norm": 1.809805224353339,
+      "language_loss": 0.84440452,
+      "learning_rate": 4.762324945725109e-07,
+      "loss": 0.86642593,
+      "num_input_tokens_seen": 140221600,
+      "step": 6507,
+      "time_per_iteration": 2.655078887939453
+    },
+    {
+      "auxiliary_loss_clip": 0.01184238,
+      "auxiliary_loss_mlp": 0.01025511,
+      "balance_loss_clip": 1.04720032,
+      "balance_loss_mlp": 1.01816213,
+      "epoch": 0.782540732279204,
+      "flos": 27415211402880.0,
+      "grad_norm": 1.654393790154856,
+      "language_loss": 0.75577563,
+      "learning_rate": 4.7572805948829844e-07,
+      "loss": 0.7778731,
+      "num_input_tokens_seen": 140241860,
+      "step": 6508,
+      "time_per_iteration": 2.647233486175537
+    },
+    {
+      "auxiliary_loss_clip": 0.01208643,
+      "auxiliary_loss_mlp": 0.01024758,
+      "balance_loss_clip": 1.04271996,
+      "balance_loss_mlp": 1.01791883,
+      "epoch": 0.7826609751698431,
+      "flos": 24353216616960.0,
+      "grad_norm": 6.945013328572358,
+      "language_loss": 0.71314788,
+      "learning_rate": 4.7522385563492795e-07,
+      "loss": 0.73548192,
+      "num_input_tokens_seen": 140262160,
+      "step": 6509,
+      "time_per_iteration": 3.6741676330566406
+    },
+    {
+      "auxiliary_loss_clip": 0.01199192,
+      "auxiliary_loss_mlp": 0.01026234,
+      "balance_loss_clip": 1.04458582,
+      "balance_loss_mlp": 1.01850891,
+      "epoch": 0.7827812180604822,
+      "flos": 23988543788160.0,
+      "grad_norm": 1.8806976213208086,
+      "language_loss": 0.70508152,
+      "learning_rate": 4.747198830888863e-07,
+      "loss": 0.72733581,
+      "num_input_tokens_seen": 140282030,
+      "step": 6510,
+      "time_per_iteration": 3.565354824066162
+    },
+    {
+      "auxiliary_loss_clip": 0.01178934,
+      "auxiliary_loss_mlp": 0.01025921,
+      "balance_loss_clip": 1.04324281,
+      "balance_loss_mlp": 1.01832771,
+      "epoch": 0.7829014609511212,
+      "flos": 27454318335360.0,
+      "grad_norm": 3.1289116438269007,
+      "language_loss": 0.68214703,
+      "learning_rate": 4.742161419266251e-07,
+      "loss": 0.70419556,
+      "num_input_tokens_seen": 140301190,
+      "step": 6511,
+      "time_per_iteration": 2.6582729816436768
+    },
+    {
+      "auxiliary_loss_clip": 0.01179887,
+      "auxiliary_loss_mlp": 0.01021689,
+      "balance_loss_clip": 1.04690456,
+      "balance_loss_mlp": 1.01445341,
+      "epoch": 0.7830217038417604,
+      "flos": 29204532432000.0,
+      "grad_norm": 3.0630456117673446,
+      "language_loss": 0.652125,
+      "learning_rate": 4.7371263222456304e-07,
+      "loss": 0.67414081,
+      "num_input_tokens_seen": 140318510,
+      "step": 6512,
+      "time_per_iteration": 2.6536569595336914
+    },
+    {
+      "auxiliary_loss_clip": 0.01071525,
+      "auxiliary_loss_mlp": 0.0100349,
+      "balance_loss_clip": 1.01024008,
+      "balance_loss_mlp": 1.0023936,
+      "epoch": 0.7831419467323995,
+      "flos": 60950895822720.0,
+      "grad_norm": 0.7995366217263676,
+      "language_loss": 0.61388999,
+      "learning_rate": 4.7320935405908004e-07,
+      "loss": 0.63464016,
+      "num_input_tokens_seen": 140379380,
+      "step": 6513,
+      "time_per_iteration": 3.1528139114379883
+    },
+    {
+      "auxiliary_loss_clip": 0.01174047,
+      "auxiliary_loss_mlp": 0.01027289,
+      "balance_loss_clip": 1.04912972,
+      "balance_loss_mlp": 1.01930213,
+      "epoch": 0.7832621896230385,
+      "flos": 19682531320320.0,
+      "grad_norm": 2.5048065534657864,
+      "language_loss": 0.84388328,
+      "learning_rate": 4.7270630750652475e-07,
+      "loss": 0.8658967,
+      "num_input_tokens_seen": 140395335,
+      "step": 6514,
+      "time_per_iteration": 2.551710844039917
+    },
+    {
+      "auxiliary_loss_clip": 0.01175427,
+      "auxiliary_loss_mlp": 0.01022295,
+      "balance_loss_clip": 1.04569864,
+      "balance_loss_mlp": 1.01512194,
+      "epoch": 0.7833824325136777,
+      "flos": 25009232659200.0,
+      "grad_norm": 1.6353335652188994,
+      "language_loss": 0.80209708,
+      "learning_rate": 4.7220349264320746e-07,
+      "loss": 0.82407439,
+      "num_input_tokens_seen": 140414420,
+      "step": 6515,
+      "time_per_iteration": 2.649829864501953
+    },
+    {
+      "auxiliary_loss_clip": 0.01074467,
+      "auxiliary_loss_mlp": 0.01003261,
+      "balance_loss_clip": 1.01080251,
+      "balance_loss_mlp": 1.00222361,
+      "epoch": 0.7835026754043167,
+      "flos": 68800142517120.0,
+      "grad_norm": 0.7339323807098255,
+      "language_loss": 0.5490067,
+      "learning_rate": 4.71700909545407e-07,
+      "loss": 0.56978393,
+      "num_input_tokens_seen": 140477365,
+      "step": 6516,
+      "time_per_iteration": 3.1929166316986084
+    },
+    {
+      "auxiliary_loss_clip": 0.01177172,
+      "auxiliary_loss_mlp": 0.01021257,
+      "balance_loss_clip": 1.04461908,
+      "balance_loss_mlp": 1.014256,
+      "epoch": 0.7836229182949558,
+      "flos": 19864598382720.0,
+      "grad_norm": 2.025736464088908,
+      "language_loss": 0.76885909,
+      "learning_rate": 4.711985582893627e-07,
+      "loss": 0.79084337,
+      "num_input_tokens_seen": 140495885,
+      "step": 6517,
+      "time_per_iteration": 2.5405473709106445
+    },
+    {
+      "auxiliary_loss_clip": 0.01202291,
+      "auxiliary_loss_mlp": 0.0102693,
+      "balance_loss_clip": 1.0389204,
+      "balance_loss_mlp": 1.01927924,
+      "epoch": 0.783743161185595,
+      "flos": 22965843755520.0,
+      "grad_norm": 1.7141179623498923,
+      "language_loss": 0.71580821,
+      "learning_rate": 4.706964389512811e-07,
+      "loss": 0.73810047,
+      "num_input_tokens_seen": 140515920,
+      "step": 6518,
+      "time_per_iteration": 2.7357771396636963
+    },
+    {
+      "auxiliary_loss_clip": 0.01166863,
+      "auxiliary_loss_mlp": 0.01024535,
+      "balance_loss_clip": 1.04744267,
+      "balance_loss_mlp": 1.01748991,
+      "epoch": 0.783863404076234,
+      "flos": 12458489777280.0,
+      "grad_norm": 2.0105939535127937,
+      "language_loss": 0.87554771,
+      "learning_rate": 4.701945516073345e-07,
+      "loss": 0.89746165,
+      "num_input_tokens_seen": 140533395,
+      "step": 6519,
+      "time_per_iteration": 2.5322999954223633
+    },
+    {
+      "auxiliary_loss_clip": 0.01194298,
+      "auxiliary_loss_mlp": 0.01022805,
+      "balance_loss_clip": 1.04583216,
+      "balance_loss_mlp": 1.01584899,
+      "epoch": 0.7839836469668731,
+      "flos": 24243940465920.0,
+      "grad_norm": 1.854124065142136,
+      "language_loss": 0.75217283,
+      "learning_rate": 4.696928963336577e-07,
+      "loss": 0.77434385,
+      "num_input_tokens_seen": 140552825,
+      "step": 6520,
+      "time_per_iteration": 2.7385470867156982
+    },
+    {
+      "auxiliary_loss_clip": 0.010717,
+      "auxiliary_loss_mlp": 0.01001415,
+      "balance_loss_clip": 1.01038671,
+      "balance_loss_mlp": 1.00036645,
+      "epoch": 0.7841038898575122,
+      "flos": 62121978938880.0,
+      "grad_norm": 0.8550106773846108,
+      "language_loss": 0.60976452,
+      "learning_rate": 4.6919147320635224e-07,
+      "loss": 0.63049573,
+      "num_input_tokens_seen": 140615535,
+      "step": 6521,
+      "time_per_iteration": 3.145781993865967
+    },
+    {
+      "auxiliary_loss_clip": 0.0117739,
+      "auxiliary_loss_mlp": 0.01024378,
+      "balance_loss_clip": 1.04510081,
+      "balance_loss_mlp": 1.01727581,
+      "epoch": 0.7842241327481513,
+      "flos": 20193899293440.0,
+      "grad_norm": 2.680612371431939,
+      "language_loss": 0.7317735,
+      "learning_rate": 4.6869028230148286e-07,
+      "loss": 0.75379121,
+      "num_input_tokens_seen": 140633330,
+      "step": 6522,
+      "time_per_iteration": 2.556544065475464
+    },
+    {
+      "auxiliary_loss_clip": 0.01185162,
+      "auxiliary_loss_mlp": 0.01028285,
+      "balance_loss_clip": 1.03998029,
+      "balance_loss_mlp": 1.02023268,
+      "epoch": 0.7843443756387903,
+      "flos": 28074531496320.0,
+      "grad_norm": 2.5253877097666546,
+      "language_loss": 0.59874034,
+      "learning_rate": 4.6818932369507957e-07,
+      "loss": 0.62087482,
+      "num_input_tokens_seen": 140652830,
+      "step": 6523,
+      "time_per_iteration": 2.7205002307891846
+    },
+    {
+      "auxiliary_loss_clip": 0.01176755,
+      "auxiliary_loss_mlp": 0.01022192,
+      "balance_loss_clip": 1.04620028,
+      "balance_loss_mlp": 1.01438355,
+      "epoch": 0.7844646185294295,
+      "flos": 21323397438720.0,
+      "grad_norm": 1.8746286947138862,
+      "language_loss": 0.89250332,
+      "learning_rate": 4.676885974631386e-07,
+      "loss": 0.91449285,
+      "num_input_tokens_seen": 140671190,
+      "step": 6524,
+      "time_per_iteration": 2.5805256366729736
+    },
+    {
+      "auxiliary_loss_clip": 0.01178006,
+      "auxiliary_loss_mlp": 0.01026542,
+      "balance_loss_clip": 1.04639959,
+      "balance_loss_mlp": 1.0190146,
+      "epoch": 0.7845848614200686,
+      "flos": 23656585271040.0,
+      "grad_norm": 9.174834064220091,
+      "language_loss": 0.81336975,
+      "learning_rate": 4.67188103681619e-07,
+      "loss": 0.83541524,
+      "num_input_tokens_seen": 140690975,
+      "step": 6525,
+      "time_per_iteration": 2.6041951179504395
+    },
+    {
+      "auxiliary_loss_clip": 0.011745,
+      "auxiliary_loss_mlp": 0.01378627,
+      "balance_loss_clip": 1.04832888,
+      "balance_loss_mlp": 1.00013888,
+      "epoch": 0.7847051043107076,
+      "flos": 23402194174080.0,
+      "grad_norm": 2.160017189918886,
+      "language_loss": 0.68902206,
+      "learning_rate": 4.666878424264453e-07,
+      "loss": 0.7145533,
+      "num_input_tokens_seen": 140710930,
+      "step": 6526,
+      "time_per_iteration": 2.6170620918273926
+    },
+    {
+      "auxiliary_loss_clip": 0.01174621,
+      "auxiliary_loss_mlp": 0.01030257,
+      "balance_loss_clip": 1.04340744,
+      "balance_loss_mlp": 1.02371562,
+      "epoch": 0.7848253472013467,
+      "flos": 19022277473280.0,
+      "grad_norm": 1.6166346089666999,
+      "language_loss": 0.73979807,
+      "learning_rate": 4.661878137735069e-07,
+      "loss": 0.76184684,
+      "num_input_tokens_seen": 140729120,
+      "step": 6527,
+      "time_per_iteration": 2.6801581382751465
+    },
+    {
+      "auxiliary_loss_clip": 0.01187344,
+      "auxiliary_loss_mlp": 0.01022813,
+      "balance_loss_clip": 1.04585195,
+      "balance_loss_mlp": 1.01600957,
+      "epoch": 0.7849455900919858,
+      "flos": 21179180332800.0,
+      "grad_norm": 1.849941708481619,
+      "language_loss": 0.74564308,
+      "learning_rate": 4.656880177986571e-07,
+      "loss": 0.76774466,
+      "num_input_tokens_seen": 140747665,
+      "step": 6528,
+      "time_per_iteration": 2.5912561416625977
+    },
+    {
+      "auxiliary_loss_clip": 0.01188218,
+      "auxiliary_loss_mlp": 0.01027854,
+      "balance_loss_clip": 1.04372382,
+      "balance_loss_mlp": 1.02023935,
+      "epoch": 0.7850658329826249,
+      "flos": 19536482620800.0,
+      "grad_norm": 1.8737071475600975,
+      "language_loss": 0.8107723,
+      "learning_rate": 4.6518845457771607e-07,
+      "loss": 0.83293301,
+      "num_input_tokens_seen": 140766525,
+      "step": 6529,
+      "time_per_iteration": 2.6723849773406982
+    },
+    {
+      "auxiliary_loss_clip": 0.01169248,
+      "auxiliary_loss_mlp": 0.01378718,
+      "balance_loss_clip": 1.0456351,
+      "balance_loss_mlp": 1.00017548,
+      "epoch": 0.7851860758732639,
+      "flos": 12495334152960.0,
+      "grad_norm": 4.0816227640846074,
+      "language_loss": 0.79013455,
+      "learning_rate": 4.646891241864652e-07,
+      "loss": 0.81561428,
+      "num_input_tokens_seen": 140785090,
+      "step": 6530,
+      "time_per_iteration": 3.5128448009490967
+    },
+    {
+      "auxiliary_loss_clip": 0.01172215,
+      "auxiliary_loss_mlp": 0.01025013,
+      "balance_loss_clip": 1.04353213,
+      "balance_loss_mlp": 1.01715088,
+      "epoch": 0.7853063187639031,
+      "flos": 22960959505920.0,
+      "grad_norm": 1.7725407880291928,
+      "language_loss": 0.73128593,
+      "learning_rate": 4.6419002670065397e-07,
+      "loss": 0.75325823,
+      "num_input_tokens_seen": 140804670,
+      "step": 6531,
+      "time_per_iteration": 2.5912418365478516
+    },
+    {
+      "auxiliary_loss_clip": 0.01200436,
+      "auxiliary_loss_mlp": 0.01026004,
+      "balance_loss_clip": 1.04630518,
+      "balance_loss_mlp": 1.01830912,
+      "epoch": 0.7854265616545422,
+      "flos": 17347260499200.0,
+      "grad_norm": 2.239026933805067,
+      "language_loss": 0.86548305,
+      "learning_rate": 4.6369116219599445e-07,
+      "loss": 0.88774747,
+      "num_input_tokens_seen": 140820655,
+      "step": 6532,
+      "time_per_iteration": 3.6124420166015625
+    },
+    {
+      "auxiliary_loss_clip": 0.01194972,
+      "auxiliary_loss_mlp": 0.01022177,
+      "balance_loss_clip": 1.04273558,
+      "balance_loss_mlp": 1.01528335,
+      "epoch": 0.7855468045451812,
+      "flos": 23838293197440.0,
+      "grad_norm": 1.721193379499141,
+      "language_loss": 0.79387981,
+      "learning_rate": 4.631925307481637e-07,
+      "loss": 0.8160513,
+      "num_input_tokens_seen": 140840470,
+      "step": 6533,
+      "time_per_iteration": 2.6731767654418945
+    },
+    {
+      "auxiliary_loss_clip": 0.0118595,
+      "auxiliary_loss_mlp": 0.01025622,
+      "balance_loss_clip": 1.04662228,
+      "balance_loss_mlp": 1.01838017,
+      "epoch": 0.7856670474358204,
+      "flos": 25666792986240.0,
+      "grad_norm": 2.1583112998888,
+      "language_loss": 0.75311577,
+      "learning_rate": 4.6269413243280533e-07,
+      "loss": 0.77523148,
+      "num_input_tokens_seen": 140859890,
+      "step": 6534,
+      "time_per_iteration": 2.6787638664245605
+    },
+    {
+      "auxiliary_loss_clip": 0.01190986,
+      "auxiliary_loss_mlp": 0.01023101,
+      "balance_loss_clip": 1.04674911,
+      "balance_loss_mlp": 1.0155369,
+      "epoch": 0.7857872903264594,
+      "flos": 18144656472960.0,
+      "grad_norm": 2.4281077370515725,
+      "language_loss": 0.7494514,
+      "learning_rate": 4.621959673255236e-07,
+      "loss": 0.77159226,
+      "num_input_tokens_seen": 140876190,
+      "step": 6535,
+      "time_per_iteration": 3.532418966293335
+    },
+    {
+      "auxiliary_loss_clip": 0.01200189,
+      "auxiliary_loss_mlp": 0.0103016,
+      "balance_loss_clip": 1.04109812,
+      "balance_loss_mlp": 1.02323055,
+      "epoch": 0.7859075332170985,
+      "flos": 14386138081920.0,
+      "grad_norm": 1.898920771273052,
+      "language_loss": 0.90372968,
+      "learning_rate": 4.6169803550189135e-07,
+      "loss": 0.9260332,
+      "num_input_tokens_seen": 140891885,
+      "step": 6536,
+      "time_per_iteration": 3.5900745391845703
+    },
+    {
+      "auxiliary_loss_clip": 0.01195465,
+      "auxiliary_loss_mlp": 0.01027912,
+      "balance_loss_clip": 1.04218173,
+      "balance_loss_mlp": 1.02006805,
+      "epoch": 0.7860277761077377,
+      "flos": 19864059678720.0,
+      "grad_norm": 3.291537113465824,
+      "language_loss": 0.7737931,
+      "learning_rate": 4.6120033703744355e-07,
+      "loss": 0.79602683,
+      "num_input_tokens_seen": 140910780,
+      "step": 6537,
+      "time_per_iteration": 2.765529155731201
+    },
+    {
+      "auxiliary_loss_clip": 0.01174312,
+      "auxiliary_loss_mlp": 0.01019369,
+      "balance_loss_clip": 1.04204559,
+      "balance_loss_mlp": 1.01269364,
+      "epoch": 0.7861480189983767,
+      "flos": 26396174557440.0,
+      "grad_norm": 1.7724214357521415,
+      "language_loss": 0.78337693,
+      "learning_rate": 4.607028720076822e-07,
+      "loss": 0.80531371,
+      "num_input_tokens_seen": 140927460,
+      "step": 6538,
+      "time_per_iteration": 2.6271867752075195
+    },
+    {
+      "auxiliary_loss_clip": 0.0117916,
+      "auxiliary_loss_mlp": 0.01024766,
+      "balance_loss_clip": 1.04771638,
+      "balance_loss_mlp": 1.01722026,
+      "epoch": 0.7862682618890158,
+      "flos": 24236578177920.0,
+      "grad_norm": 1.8467311074426318,
+      "language_loss": 0.73558581,
+      "learning_rate": 4.6020564048807074e-07,
+      "loss": 0.75762504,
+      "num_input_tokens_seen": 140945135,
+      "step": 6539,
+      "time_per_iteration": 2.6108484268188477
+    },
+    {
+      "auxiliary_loss_clip": 0.0117906,
+      "auxiliary_loss_mlp": 0.01028567,
+      "balance_loss_clip": 1.04628944,
+      "balance_loss_mlp": 1.02101481,
+      "epoch": 0.7863885047796549,
+      "flos": 47551508259840.0,
+      "grad_norm": 2.270394954346918,
+      "language_loss": 0.72006035,
+      "learning_rate": 4.5970864255403883e-07,
+      "loss": 0.74213666,
+      "num_input_tokens_seen": 140966660,
+      "step": 6540,
+      "time_per_iteration": 2.7858376502990723
+    },
+    {
+      "auxiliary_loss_clip": 0.0116249,
+      "auxiliary_loss_mlp": 0.01024138,
+      "balance_loss_clip": 1.04245925,
+      "balance_loss_mlp": 1.01731646,
+      "epoch": 0.786508747670294,
+      "flos": 24389234979840.0,
+      "grad_norm": 2.199026678592603,
+      "language_loss": 0.82550097,
+      "learning_rate": 4.59211878280982e-07,
+      "loss": 0.84736717,
+      "num_input_tokens_seen": 140986175,
+      "step": 6541,
+      "time_per_iteration": 2.6079487800598145
+    },
+    {
+      "auxiliary_loss_clip": 0.01187335,
+      "auxiliary_loss_mlp": 0.01024371,
+      "balance_loss_clip": 1.04484701,
+      "balance_loss_mlp": 1.01710486,
+      "epoch": 0.786628990560933,
+      "flos": 18041234238720.0,
+      "grad_norm": 2.474607503370842,
+      "language_loss": 0.6965273,
+      "learning_rate": 4.587153477442578e-07,
+      "loss": 0.71864438,
+      "num_input_tokens_seen": 141002490,
+      "step": 6542,
+      "time_per_iteration": 2.6154162883758545
+    },
+    {
+      "auxiliary_loss_clip": 0.01173121,
+      "auxiliary_loss_mlp": 0.01022542,
+      "balance_loss_clip": 1.04883099,
+      "balance_loss_mlp": 1.01520503,
+      "epoch": 0.7867492334515722,
+      "flos": 25848860048640.0,
+      "grad_norm": 2.1295968563286216,
+      "language_loss": 0.81235379,
+      "learning_rate": 4.582190510191899e-07,
+      "loss": 0.83431041,
+      "num_input_tokens_seen": 141021150,
+      "step": 6543,
+      "time_per_iteration": 2.5971508026123047
+    },
+    {
+      "auxiliary_loss_clip": 0.0119097,
+      "auxiliary_loss_mlp": 0.01021784,
+      "balance_loss_clip": 1.04369879,
+      "balance_loss_mlp": 1.01473832,
+      "epoch": 0.7868694763422113,
+      "flos": 16580819070720.0,
+      "grad_norm": 2.0427763092068596,
+      "language_loss": 0.87206292,
+      "learning_rate": 4.5772298818106625e-07,
+      "loss": 0.89419043,
+      "num_input_tokens_seen": 141036940,
+      "step": 6544,
+      "time_per_iteration": 2.62319278717041
+    },
+    {
+      "auxiliary_loss_clip": 0.01201806,
+      "auxiliary_loss_mlp": 0.01028362,
+      "balance_loss_clip": 1.04467463,
+      "balance_loss_mlp": 1.02084303,
+      "epoch": 0.7869897192328503,
+      "flos": 29386276272000.0,
+      "grad_norm": 2.4808199886765028,
+      "language_loss": 0.72150576,
+      "learning_rate": 4.572271593051384e-07,
+      "loss": 0.74380749,
+      "num_input_tokens_seen": 141054295,
+      "step": 6545,
+      "time_per_iteration": 2.699183464050293
+    },
+    {
+      "auxiliary_loss_clip": 0.01195535,
+      "auxiliary_loss_mlp": 0.01028597,
+      "balance_loss_clip": 1.04228079,
+      "balance_loss_mlp": 1.02095819,
+      "epoch": 0.7871099621234895,
+      "flos": 17128923678720.0,
+      "grad_norm": 1.5680957976492245,
+      "language_loss": 0.78344077,
+      "learning_rate": 4.567315644666245e-07,
+      "loss": 0.80568206,
+      "num_input_tokens_seen": 141073090,
+      "step": 6546,
+      "time_per_iteration": 2.7189559936523438
+    },
+    {
+      "auxiliary_loss_clip": 0.01191273,
+      "auxiliary_loss_mlp": 0.01029484,
+      "balance_loss_clip": 1.04594731,
+      "balance_loss_mlp": 1.02234364,
+      "epoch": 0.7872302050141285,
+      "flos": 23440187784960.0,
+      "grad_norm": 2.405764514080676,
+      "language_loss": 0.85026419,
+      "learning_rate": 4.5623620374070507e-07,
+      "loss": 0.87247181,
+      "num_input_tokens_seen": 141092405,
+      "step": 6547,
+      "time_per_iteration": 2.6723945140838623
+    },
+    {
+      "auxiliary_loss_clip": 0.01098306,
+      "auxiliary_loss_mlp": 0.01001317,
+      "balance_loss_clip": 1.01080799,
+      "balance_loss_mlp": 1.00010705,
+      "epoch": 0.7873504479047676,
+      "flos": 65959752689280.0,
+      "grad_norm": 0.763017851287178,
+      "language_loss": 0.58417678,
+      "learning_rate": 4.557410772025263e-07,
+      "loss": 0.60517299,
+      "num_input_tokens_seen": 141154355,
+      "step": 6548,
+      "time_per_iteration": 3.3908371925354004
+    },
+    {
+      "auxiliary_loss_clip": 0.01182959,
+      "auxiliary_loss_mlp": 0.01026698,
+      "balance_loss_clip": 1.04416299,
+      "balance_loss_mlp": 1.01964128,
+      "epoch": 0.7874706907954068,
+      "flos": 23258336204160.0,
+      "grad_norm": 1.856231294197791,
+      "language_loss": 0.66029072,
+      "learning_rate": 4.5524618492719803e-07,
+      "loss": 0.68238723,
+      "num_input_tokens_seen": 141173575,
+      "step": 6549,
+      "time_per_iteration": 2.6640703678131104
+    },
+    {
+      "auxiliary_loss_clip": 0.01179154,
+      "auxiliary_loss_mlp": 0.01027879,
+      "balance_loss_clip": 1.04614925,
+      "balance_loss_mlp": 1.02130425,
+      "epoch": 0.7875909336860458,
+      "flos": 28767786963840.0,
+      "grad_norm": 1.5775833740907275,
+      "language_loss": 0.79053229,
+      "learning_rate": 4.54751526989795e-07,
+      "loss": 0.81260264,
+      "num_input_tokens_seen": 141195415,
+      "step": 6550,
+      "time_per_iteration": 2.7189548015594482
+    },
+    {
+      "auxiliary_loss_clip": 0.01178364,
+      "auxiliary_loss_mlp": 0.01024552,
+      "balance_loss_clip": 1.04457402,
+      "balance_loss_mlp": 1.01719713,
+      "epoch": 0.7877111765766849,
+      "flos": 18697286194560.0,
+      "grad_norm": 2.7927240089177783,
+      "language_loss": 0.78957999,
+      "learning_rate": 4.5425710346535775e-07,
+      "loss": 0.81160921,
+      "num_input_tokens_seen": 141213360,
+      "step": 6551,
+      "time_per_iteration": 2.5435359477996826
+    },
+    {
+      "auxiliary_loss_clip": 0.0117835,
+      "auxiliary_loss_mlp": 0.01025967,
+      "balance_loss_clip": 1.04537463,
+      "balance_loss_mlp": 1.01882625,
+      "epoch": 0.787831419467324,
+      "flos": 27592968833280.0,
+      "grad_norm": 2.0477324245703454,
+      "language_loss": 0.81751585,
+      "learning_rate": 4.537629144288877e-07,
+      "loss": 0.83955896,
+      "num_input_tokens_seen": 141230815,
+      "step": 6552,
+      "time_per_iteration": 2.668997049331665
+    },
+    {
+      "auxiliary_loss_clip": 0.01209664,
+      "auxiliary_loss_mlp": 0.01023442,
+      "balance_loss_clip": 1.04063797,
+      "balance_loss_mlp": 1.01576757,
+      "epoch": 0.7879516623579631,
+      "flos": 18150187167360.0,
+      "grad_norm": 1.9485350505461387,
+      "language_loss": 0.75296658,
+      "learning_rate": 4.5326895995535477e-07,
+      "loss": 0.77529764,
+      "num_input_tokens_seen": 141249715,
+      "step": 6553,
+      "time_per_iteration": 2.696263074874878
+    },
+    {
+      "auxiliary_loss_clip": 0.01173194,
+      "auxiliary_loss_mlp": 0.0102393,
+      "balance_loss_clip": 1.04380012,
+      "balance_loss_mlp": 1.01655674,
+      "epoch": 0.7880719052486022,
+      "flos": 20339193807360.0,
+      "grad_norm": 2.2464141432693707,
+      "language_loss": 0.8403852,
+      "learning_rate": 4.527752401196907e-07,
+      "loss": 0.86235648,
+      "num_input_tokens_seen": 141267730,
+      "step": 6554,
+      "time_per_iteration": 2.587174892425537
+    },
+    {
+      "auxiliary_loss_clip": 0.01179425,
+      "auxiliary_loss_mlp": 0.01028015,
+      "balance_loss_clip": 1.04327476,
+      "balance_loss_mlp": 1.02042484,
+      "epoch": 0.7881921481392413,
+      "flos": 21653237053440.0,
+      "grad_norm": 1.7480331838117127,
+      "language_loss": 0.66978115,
+      "learning_rate": 4.5228175499679254e-07,
+      "loss": 0.69185555,
+      "num_input_tokens_seen": 141287315,
+      "step": 6555,
+      "time_per_iteration": 2.651226043701172
+    },
+    {
+      "auxiliary_loss_clip": 0.01075419,
+      "auxiliary_loss_mlp": 0.01002252,
+      "balance_loss_clip": 1.01042557,
+      "balance_loss_mlp": 1.00116718,
+      "epoch": 0.7883123910298804,
+      "flos": 68565860058240.0,
+      "grad_norm": 0.8587976954415776,
+      "language_loss": 0.54595917,
+      "learning_rate": 4.5178850466152174e-07,
+      "loss": 0.56673586,
+      "num_input_tokens_seen": 141346145,
+      "step": 6556,
+      "time_per_iteration": 4.128547668457031
+    },
+    {
+      "auxiliary_loss_clip": 0.01179297,
+      "auxiliary_loss_mlp": 0.01027343,
+      "balance_loss_clip": 1.04208946,
+      "balance_loss_mlp": 1.01992786,
+      "epoch": 0.7884326339205194,
+      "flos": 19318217627520.0,
+      "grad_norm": 2.3006411459409435,
+      "language_loss": 0.81944311,
+      "learning_rate": 4.512954891887031e-07,
+      "loss": 0.84150958,
+      "num_input_tokens_seen": 141364445,
+      "step": 6557,
+      "time_per_iteration": 3.498788356781006
+    },
+    {
+      "auxiliary_loss_clip": 0.01177893,
+      "auxiliary_loss_mlp": 0.01026408,
+      "balance_loss_clip": 1.04384685,
+      "balance_loss_mlp": 1.01881433,
+      "epoch": 0.7885528768111585,
+      "flos": 17784903807360.0,
+      "grad_norm": 2.4598799204765203,
+      "language_loss": 0.83156359,
+      "learning_rate": 4.5080270865312806e-07,
+      "loss": 0.85360658,
+      "num_input_tokens_seen": 141381640,
+      "step": 6558,
+      "time_per_iteration": 2.630612373352051
+    },
+    {
+      "auxiliary_loss_clip": 0.01175734,
+      "auxiliary_loss_mlp": 0.01023815,
+      "balance_loss_clip": 1.0449394,
+      "balance_loss_mlp": 1.01628661,
+      "epoch": 0.7886731197017977,
+      "flos": 18807639753600.0,
+      "grad_norm": 2.2307185238611265,
+      "language_loss": 0.71158445,
+      "learning_rate": 4.5031016312954985e-07,
+      "loss": 0.73357993,
+      "num_input_tokens_seen": 141399955,
+      "step": 6559,
+      "time_per_iteration": 2.5650925636291504
+    },
+    {
+      "auxiliary_loss_clip": 0.0118582,
+      "auxiliary_loss_mlp": 0.01028467,
+      "balance_loss_clip": 1.04768753,
+      "balance_loss_mlp": 1.02062309,
+      "epoch": 0.7887933625924367,
+      "flos": 33365358126720.0,
+      "grad_norm": 4.701101494413159,
+      "language_loss": 0.74503767,
+      "learning_rate": 4.498178526926886e-07,
+      "loss": 0.76718056,
+      "num_input_tokens_seen": 141420820,
+      "step": 6560,
+      "time_per_iteration": 2.7590010166168213
+    },
+    {
+      "auxiliary_loss_clip": 0.01166836,
+      "auxiliary_loss_mlp": 0.01025418,
+      "balance_loss_clip": 1.04705548,
+      "balance_loss_mlp": 1.01823545,
+      "epoch": 0.7889136054830758,
+      "flos": 17019360218880.0,
+      "grad_norm": 2.0778659239382176,
+      "language_loss": 0.7215513,
+      "learning_rate": 4.4932577741722635e-07,
+      "loss": 0.74347389,
+      "num_input_tokens_seen": 141439350,
+      "step": 6561,
+      "time_per_iteration": 3.4208054542541504
+    },
+    {
+      "auxiliary_loss_clip": 0.01183464,
+      "auxiliary_loss_mlp": 0.01027138,
+      "balance_loss_clip": 1.04451919,
+      "balance_loss_mlp": 1.02018762,
+      "epoch": 0.7890338483737149,
+      "flos": 29424629018880.0,
+      "grad_norm": 1.6914578917186245,
+      "language_loss": 0.74195993,
+      "learning_rate": 4.4883393737780985e-07,
+      "loss": 0.76406598,
+      "num_input_tokens_seen": 141460300,
+      "step": 6562,
+      "time_per_iteration": 3.569195032119751
+    },
+    {
+      "auxiliary_loss_clip": 0.01173353,
+      "auxiliary_loss_mlp": 0.01028103,
+      "balance_loss_clip": 1.04592931,
+      "balance_loss_mlp": 1.02095973,
+      "epoch": 0.789154091264354,
+      "flos": 19971576063360.0,
+      "grad_norm": 2.6927739441018876,
+      "language_loss": 0.78254169,
+      "learning_rate": 4.4834233264905254e-07,
+      "loss": 0.80455625,
+      "num_input_tokens_seen": 141477315,
+      "step": 6563,
+      "time_per_iteration": 2.6386008262634277
+    },
+    {
+      "auxiliary_loss_clip": 0.01184513,
+      "auxiliary_loss_mlp": 0.01024336,
+      "balance_loss_clip": 1.04023111,
+      "balance_loss_mlp": 1.01684952,
+      "epoch": 0.789274334154993,
+      "flos": 14537825216640.0,
+      "grad_norm": 2.716035972132253,
+      "language_loss": 0.71367776,
+      "learning_rate": 4.478509633055294e-07,
+      "loss": 0.73576629,
+      "num_input_tokens_seen": 141495025,
+      "step": 6564,
+      "time_per_iteration": 2.623721122741699
+    },
+    {
+      "auxiliary_loss_clip": 0.0119012,
+      "auxiliary_loss_mlp": 0.01030296,
+      "balance_loss_clip": 1.04543853,
+      "balance_loss_mlp": 1.02237475,
+      "epoch": 0.7893945770456322,
+      "flos": 21827403123840.0,
+      "grad_norm": 2.2937157999046907,
+      "language_loss": 0.7991972,
+      "learning_rate": 4.473598294217813e-07,
+      "loss": 0.8214013,
+      "num_input_tokens_seen": 141510450,
+      "step": 6565,
+      "time_per_iteration": 2.6421926021575928
+    },
+    {
+      "auxiliary_loss_clip": 0.01173634,
+      "auxiliary_loss_mlp": 0.01023336,
+      "balance_loss_clip": 1.04545414,
+      "balance_loss_mlp": 1.01656461,
+      "epoch": 0.7895148199362713,
+      "flos": 20740639184640.0,
+      "grad_norm": 2.052051875893698,
+      "language_loss": 0.71563965,
+      "learning_rate": 4.468689310723124e-07,
+      "loss": 0.73760939,
+      "num_input_tokens_seen": 141528265,
+      "step": 6566,
+      "time_per_iteration": 2.590073347091675
+    },
+    {
+      "auxiliary_loss_clip": 0.01200126,
+      "auxiliary_loss_mlp": 0.0102896,
+      "balance_loss_clip": 1.04398406,
+      "balance_loss_mlp": 1.02199793,
+      "epoch": 0.7896350628269103,
+      "flos": 16690669839360.0,
+      "grad_norm": 1.775199848034881,
+      "language_loss": 0.78659016,
+      "learning_rate": 4.463782683315913e-07,
+      "loss": 0.80888104,
+      "num_input_tokens_seen": 141547270,
+      "step": 6567,
+      "time_per_iteration": 2.669591188430786
+    },
+    {
+      "auxiliary_loss_clip": 0.01167212,
+      "auxiliary_loss_mlp": 0.01021473,
+      "balance_loss_clip": 1.04696381,
+      "balance_loss_mlp": 1.01445186,
+      "epoch": 0.7897553057175495,
+      "flos": 22638374438400.0,
+      "grad_norm": 1.6385714605844184,
+      "language_loss": 0.72978753,
+      "learning_rate": 4.458878412740523e-07,
+      "loss": 0.75167441,
+      "num_input_tokens_seen": 141566050,
+      "step": 6568,
+      "time_per_iteration": 2.5307164192199707
+    },
+    {
+      "auxiliary_loss_clip": 0.01171721,
+      "auxiliary_loss_mlp": 0.01022989,
+      "balance_loss_clip": 1.0445466,
+      "balance_loss_mlp": 1.01558053,
+      "epoch": 0.7898755486081885,
+      "flos": 14537573821440.0,
+      "grad_norm": 2.195475415786094,
+      "language_loss": 0.78314853,
+      "learning_rate": 4.453976499740919e-07,
+      "loss": 0.80509555,
+      "num_input_tokens_seen": 141583695,
+      "step": 6569,
+      "time_per_iteration": 2.60705828666687
+    },
+    {
+      "auxiliary_loss_clip": 0.01174204,
+      "auxiliary_loss_mlp": 0.01030312,
+      "balance_loss_clip": 1.04669833,
+      "balance_loss_mlp": 1.02237248,
+      "epoch": 0.7899957914988276,
+      "flos": 17238487138560.0,
+      "grad_norm": 1.7672181147706614,
+      "language_loss": 0.77702451,
+      "learning_rate": 4.4490769450607215e-07,
+      "loss": 0.7990697,
+      "num_input_tokens_seen": 141601320,
+      "step": 6570,
+      "time_per_iteration": 2.5261123180389404
+    },
+    {
+      "auxiliary_loss_clip": 0.0118751,
+      "auxiliary_loss_mlp": 0.01027346,
+      "balance_loss_clip": 1.03876054,
+      "balance_loss_mlp": 1.02004433,
+      "epoch": 0.7901160343894668,
+      "flos": 41279351086080.0,
+      "grad_norm": 4.6734164507503095,
+      "language_loss": 0.72793269,
+      "learning_rate": 4.4441797494431845e-07,
+      "loss": 0.7500813,
+      "num_input_tokens_seen": 141623125,
+      "step": 6571,
+      "time_per_iteration": 2.895033121109009
+    },
+    {
+      "auxiliary_loss_clip": 0.01176588,
+      "auxiliary_loss_mlp": 0.0102233,
+      "balance_loss_clip": 1.0477277,
+      "balance_loss_mlp": 1.01502252,
+      "epoch": 0.7902362772801058,
+      "flos": 16837005847680.0,
+      "grad_norm": 1.9046196800713582,
+      "language_loss": 0.77729893,
+      "learning_rate": 4.439284913631207e-07,
+      "loss": 0.79928809,
+      "num_input_tokens_seen": 141640335,
+      "step": 6572,
+      "time_per_iteration": 2.58984637260437
+    },
+    {
+      "auxiliary_loss_clip": 0.0119932,
+      "auxiliary_loss_mlp": 0.01023744,
+      "balance_loss_clip": 1.04667616,
+      "balance_loss_mlp": 1.01625156,
+      "epoch": 0.7903565201707449,
+      "flos": 27125987091840.0,
+      "grad_norm": 2.078590835339096,
+      "language_loss": 0.83911085,
+      "learning_rate": 4.434392438367347e-07,
+      "loss": 0.86134148,
+      "num_input_tokens_seen": 141659760,
+      "step": 6573,
+      "time_per_iteration": 2.760164499282837
+    },
+    {
+      "auxiliary_loss_clip": 0.01182924,
+      "auxiliary_loss_mlp": 0.01023124,
+      "balance_loss_clip": 1.04614449,
+      "balance_loss_mlp": 1.01579595,
+      "epoch": 0.790476763061384,
+      "flos": 31025167142400.0,
+      "grad_norm": 1.7390457594881292,
+      "language_loss": 0.74168706,
+      "learning_rate": 4.4295023243937677e-07,
+      "loss": 0.76374745,
+      "num_input_tokens_seen": 141679965,
+      "step": 6574,
+      "time_per_iteration": 2.656514883041382
+    },
+    {
+      "auxiliary_loss_clip": 0.01179357,
+      "auxiliary_loss_mlp": 0.0102732,
+      "balance_loss_clip": 1.04796791,
+      "balance_loss_mlp": 1.01967239,
+      "epoch": 0.7905970059520231,
+      "flos": 22089084681600.0,
+      "grad_norm": 2.3743069217852915,
+      "language_loss": 0.8045311,
+      "learning_rate": 4.4246145724523123e-07,
+      "loss": 0.82659781,
+      "num_input_tokens_seen": 141697710,
+      "step": 6575,
+      "time_per_iteration": 2.638209581375122
+    },
+    {
+      "auxiliary_loss_clip": 0.01194111,
+      "auxiliary_loss_mlp": 0.0102043,
+      "balance_loss_clip": 1.04440761,
+      "balance_loss_mlp": 1.01307189,
+      "epoch": 0.7907172488426621,
+      "flos": 20558141159040.0,
+      "grad_norm": 2.7775408082914375,
+      "language_loss": 0.77571392,
+      "learning_rate": 4.41972918328444e-07,
+      "loss": 0.79785931,
+      "num_input_tokens_seen": 141715145,
+      "step": 6576,
+      "time_per_iteration": 2.6436564922332764
+    },
+    {
+      "auxiliary_loss_clip": 0.01174662,
+      "auxiliary_loss_mlp": 0.01029121,
+      "balance_loss_clip": 1.04637575,
+      "balance_loss_mlp": 1.02173257,
+      "epoch": 0.7908374917333013,
+      "flos": 30081542901120.0,
+      "grad_norm": 2.1900254918695197,
+      "language_loss": 0.7706486,
+      "learning_rate": 4.4148461576312646e-07,
+      "loss": 0.79268646,
+      "num_input_tokens_seen": 141734810,
+      "step": 6577,
+      "time_per_iteration": 2.6712112426757812
+    },
+    {
+      "auxiliary_loss_clip": 0.01179505,
+      "auxiliary_loss_mlp": 0.01023074,
+      "balance_loss_clip": 1.04906702,
+      "balance_loss_mlp": 1.01661265,
+      "epoch": 0.7909577346239404,
+      "flos": 20996359084800.0,
+      "grad_norm": 1.4249932509909307,
+      "language_loss": 0.74464035,
+      "learning_rate": 4.4099654962335343e-07,
+      "loss": 0.76666617,
+      "num_input_tokens_seen": 141755260,
+      "step": 6578,
+      "time_per_iteration": 2.625883102416992
+    },
+    {
+      "auxiliary_loss_clip": 0.01194007,
+      "auxiliary_loss_mlp": 0.01027638,
+      "balance_loss_clip": 1.0476526,
+      "balance_loss_mlp": 1.02018785,
+      "epoch": 0.7910779775145794,
+      "flos": 26247935128320.0,
+      "grad_norm": 1.794965503907888,
+      "language_loss": 0.75203103,
+      "learning_rate": 4.405087199831636e-07,
+      "loss": 0.77424753,
+      "num_input_tokens_seen": 141775500,
+      "step": 6579,
+      "time_per_iteration": 2.695620536804199
+    },
+    {
+      "auxiliary_loss_clip": 0.0118872,
+      "auxiliary_loss_mlp": 0.01378501,
+      "balance_loss_clip": 1.04450834,
+      "balance_loss_mlp": 1.00015378,
+      "epoch": 0.7911982204052186,
+      "flos": 22564434291840.0,
+      "grad_norm": 2.398580533613748,
+      "language_loss": 0.67326951,
+      "learning_rate": 4.400211269165619e-07,
+      "loss": 0.69894171,
+      "num_input_tokens_seen": 141791955,
+      "step": 6580,
+      "time_per_iteration": 2.73203444480896
+    },
+    {
+      "auxiliary_loss_clip": 0.01169853,
+      "auxiliary_loss_mlp": 0.01023309,
+      "balance_loss_clip": 1.04930031,
+      "balance_loss_mlp": 1.01676106,
+      "epoch": 0.7913184632958576,
+      "flos": 23112538899840.0,
+      "grad_norm": 1.5188539745241845,
+      "language_loss": 0.76879823,
+      "learning_rate": 4.3953377049751416e-07,
+      "loss": 0.79072988,
+      "num_input_tokens_seen": 141812380,
+      "step": 6581,
+      "time_per_iteration": 2.593618631362915
+    },
+    {
+      "auxiliary_loss_clip": 0.01192617,
+      "auxiliary_loss_mlp": 0.01025662,
+      "balance_loss_clip": 1.04726446,
+      "balance_loss_mlp": 1.01903141,
+      "epoch": 0.7914387061864967,
+      "flos": 12311758719360.0,
+      "grad_norm": 2.410745509972357,
+      "language_loss": 0.78161341,
+      "learning_rate": 4.390466507999537e-07,
+      "loss": 0.80379617,
+      "num_input_tokens_seen": 141828130,
+      "step": 6582,
+      "time_per_iteration": 3.561107873916626
+    },
+    {
+      "auxiliary_loss_clip": 0.01192364,
+      "auxiliary_loss_mlp": 0.01029617,
+      "balance_loss_clip": 1.04226208,
+      "balance_loss_mlp": 1.02223206,
+      "epoch": 0.7915589490771359,
+      "flos": 17603267708160.0,
+      "grad_norm": 3.0777834214794977,
+      "language_loss": 0.76574302,
+      "learning_rate": 4.385597678977748e-07,
+      "loss": 0.78796285,
+      "num_input_tokens_seen": 141846965,
+      "step": 6583,
+      "time_per_iteration": 2.6998610496520996
+    },
+    {
+      "auxiliary_loss_clip": 0.01183577,
+      "auxiliary_loss_mlp": 0.01022922,
+      "balance_loss_clip": 1.04257631,
+      "balance_loss_mlp": 1.01545966,
+      "epoch": 0.7916791919677749,
+      "flos": 25591272641280.0,
+      "grad_norm": 1.7167403904350182,
+      "language_loss": 0.75638878,
+      "learning_rate": 4.3807312186483726e-07,
+      "loss": 0.77845377,
+      "num_input_tokens_seen": 141867685,
+      "step": 6584,
+      "time_per_iteration": 3.649811267852783
+    },
+    {
+      "auxiliary_loss_clip": 0.01176897,
+      "auxiliary_loss_mlp": 0.01028123,
+      "balance_loss_clip": 1.05045223,
+      "balance_loss_mlp": 1.02063656,
+      "epoch": 0.791799434858414,
+      "flos": 18844340474880.0,
+      "grad_norm": 2.2510343992928266,
+      "language_loss": 0.78645098,
+      "learning_rate": 4.375867127749655e-07,
+      "loss": 0.80850112,
+      "num_input_tokens_seen": 141885960,
+      "step": 6585,
+      "time_per_iteration": 2.641653537750244
+    },
+    {
+      "auxiliary_loss_clip": 0.01198815,
+      "auxiliary_loss_mlp": 0.01029376,
+      "balance_loss_clip": 1.04666543,
+      "balance_loss_mlp": 1.02236676,
+      "epoch": 0.7919196777490531,
+      "flos": 25812015672960.0,
+      "grad_norm": 1.8210714196325661,
+      "language_loss": 0.6733588,
+      "learning_rate": 4.3710054070194744e-07,
+      "loss": 0.69564074,
+      "num_input_tokens_seen": 141905655,
+      "step": 6586,
+      "time_per_iteration": 3.5810437202453613
+    },
+    {
+      "auxiliary_loss_clip": 0.01172296,
+      "auxiliary_loss_mlp": 0.01379083,
+      "balance_loss_clip": 1.04866874,
+      "balance_loss_mlp": 1.00018406,
+      "epoch": 0.7920399206396922,
+      "flos": 11947624594560.0,
+      "grad_norm": 3.418295567097442,
+      "language_loss": 0.66005528,
+      "learning_rate": 4.3661460571953455e-07,
+      "loss": 0.68556905,
+      "num_input_tokens_seen": 141922390,
+      "step": 6587,
+      "time_per_iteration": 2.591684579849243
+    },
+    {
+      "auxiliary_loss_clip": 0.01176396,
+      "auxiliary_loss_mlp": 0.01025918,
+      "balance_loss_clip": 1.04293776,
+      "balance_loss_mlp": 1.01868522,
+      "epoch": 0.7921601635303313,
+      "flos": 21579907438080.0,
+      "grad_norm": 1.774689470645247,
+      "language_loss": 0.68676823,
+      "learning_rate": 4.36128907901443e-07,
+      "loss": 0.70879138,
+      "num_input_tokens_seen": 141941985,
+      "step": 6588,
+      "time_per_iteration": 3.4562795162200928
+    },
+    {
+      "auxiliary_loss_clip": 0.01195958,
+      "auxiliary_loss_mlp": 0.01024586,
+      "balance_loss_clip": 1.04201102,
+      "balance_loss_mlp": 1.01768696,
+      "epoch": 0.7922804064209703,
+      "flos": 18113989236480.0,
+      "grad_norm": 2.820393126653126,
+      "language_loss": 0.72505432,
+      "learning_rate": 4.356434473213519e-07,
+      "loss": 0.7472598,
+      "num_input_tokens_seen": 141959435,
+      "step": 6589,
+      "time_per_iteration": 2.654092788696289
+    },
+    {
+      "auxiliary_loss_clip": 0.01187291,
+      "auxiliary_loss_mlp": 0.01023456,
+      "balance_loss_clip": 1.04676104,
+      "balance_loss_mlp": 1.01600504,
+      "epoch": 0.7924006493116095,
+      "flos": 21652806090240.0,
+      "grad_norm": 1.7447366209140691,
+      "language_loss": 0.79556984,
+      "learning_rate": 4.351582240529068e-07,
+      "loss": 0.81767732,
+      "num_input_tokens_seen": 141980265,
+      "step": 6590,
+      "time_per_iteration": 2.691513776779175
+    },
+    {
+      "auxiliary_loss_clip": 0.01089093,
+      "auxiliary_loss_mlp": 0.01002222,
+      "balance_loss_clip": 1.00988436,
+      "balance_loss_mlp": 1.00110722,
+      "epoch": 0.7925208922022485,
+      "flos": 64242755694720.0,
+      "grad_norm": 0.6797048662216247,
+      "language_loss": 0.58182847,
+      "learning_rate": 4.346732381697149e-07,
+      "loss": 0.60274166,
+      "num_input_tokens_seen": 142044395,
+      "step": 6591,
+      "time_per_iteration": 3.2721893787384033
+    },
+    {
+      "auxiliary_loss_clip": 0.01183501,
+      "auxiliary_loss_mlp": 0.01025449,
+      "balance_loss_clip": 1.04690838,
+      "balance_loss_mlp": 1.01767898,
+      "epoch": 0.7926411350928876,
+      "flos": 16941541403520.0,
+      "grad_norm": 1.8176464425311845,
+      "language_loss": 0.81017047,
+      "learning_rate": 4.3418848974534825e-07,
+      "loss": 0.83225995,
+      "num_input_tokens_seen": 142061335,
+      "step": 6592,
+      "time_per_iteration": 2.63669490814209
+    },
+    {
+      "auxiliary_loss_clip": 0.01198343,
+      "auxiliary_loss_mlp": 0.01027481,
+      "balance_loss_clip": 1.04430699,
+      "balance_loss_mlp": 1.0205338,
+      "epoch": 0.7927613779835267,
+      "flos": 34459987144320.0,
+      "grad_norm": 1.9120092130420174,
+      "language_loss": 0.68974435,
+      "learning_rate": 4.3370397885334276e-07,
+      "loss": 0.71200258,
+      "num_input_tokens_seen": 142081965,
+      "step": 6593,
+      "time_per_iteration": 2.7541682720184326
+    },
+    {
+      "auxiliary_loss_clip": 0.01166905,
+      "auxiliary_loss_mlp": 0.01027578,
+      "balance_loss_clip": 1.04416931,
+      "balance_loss_mlp": 1.01983583,
+      "epoch": 0.7928816208741658,
+      "flos": 18951174501120.0,
+      "grad_norm": 2.371817393770312,
+      "language_loss": 0.75321782,
+      "learning_rate": 4.3321970556719777e-07,
+      "loss": 0.7751627,
+      "num_input_tokens_seen": 142100260,
+      "step": 6594,
+      "time_per_iteration": 2.532299518585205
+    },
+    {
+      "auxiliary_loss_clip": 0.01168215,
+      "auxiliary_loss_mlp": 0.01025601,
+      "balance_loss_clip": 1.04668784,
+      "balance_loss_mlp": 1.01841259,
+      "epoch": 0.7930018637648049,
+      "flos": 18623022825600.0,
+      "grad_norm": 2.2557174348332607,
+      "language_loss": 0.71978092,
+      "learning_rate": 4.3273566996037856e-07,
+      "loss": 0.74171907,
+      "num_input_tokens_seen": 142116955,
+      "step": 6595,
+      "time_per_iteration": 2.4938206672668457
+    },
+    {
+      "auxiliary_loss_clip": 0.0118491,
+      "auxiliary_loss_mlp": 0.01024035,
+      "balance_loss_clip": 1.04311121,
+      "balance_loss_mlp": 1.01693654,
+      "epoch": 0.793122106655444,
+      "flos": 24530650824960.0,
+      "grad_norm": 2.522704949213356,
+      "language_loss": 0.80753684,
+      "learning_rate": 4.322518721063113e-07,
+      "loss": 0.82962632,
+      "num_input_tokens_seen": 142135505,
+      "step": 6596,
+      "time_per_iteration": 2.5842292308807373
+    },
+    {
+      "auxiliary_loss_clip": 0.0117786,
+      "auxiliary_loss_mlp": 0.0102736,
+      "balance_loss_clip": 1.04753828,
+      "balance_loss_mlp": 1.01974881,
+      "epoch": 0.7932423495460831,
+      "flos": 34421203434240.0,
+      "grad_norm": 1.9179086007526043,
+      "language_loss": 0.70291579,
+      "learning_rate": 4.3176831207838906e-07,
+      "loss": 0.72496802,
+      "num_input_tokens_seen": 142158915,
+      "step": 6597,
+      "time_per_iteration": 2.600175619125366
+    },
+    {
+      "auxiliary_loss_clip": 0.01178209,
+      "auxiliary_loss_mlp": 0.01026542,
+      "balance_loss_clip": 1.04949391,
+      "balance_loss_mlp": 1.01901948,
+      "epoch": 0.7933625924367221,
+      "flos": 26980333441920.0,
+      "grad_norm": 1.7108631574565893,
+      "language_loss": 0.74572384,
+      "learning_rate": 4.3128498994996685e-07,
+      "loss": 0.7677713,
+      "num_input_tokens_seen": 142178390,
+      "step": 6598,
+      "time_per_iteration": 2.666581153869629
+    },
+    {
+      "auxiliary_loss_clip": 0.01183667,
+      "auxiliary_loss_mlp": 0.01024129,
+      "balance_loss_clip": 1.04767489,
+      "balance_loss_mlp": 1.01656234,
+      "epoch": 0.7934828353273613,
+      "flos": 29568630643200.0,
+      "grad_norm": 2.0635898118113714,
+      "language_loss": 0.7126531,
+      "learning_rate": 4.308019057943646e-07,
+      "loss": 0.73473102,
+      "num_input_tokens_seen": 142200115,
+      "step": 6599,
+      "time_per_iteration": 2.6312830448150635
+    },
+    {
+      "auxiliary_loss_clip": 0.01213026,
+      "auxiliary_loss_mlp": 0.01024333,
+      "balance_loss_clip": 1.04408073,
+      "balance_loss_mlp": 1.0170728,
+      "epoch": 0.7936030782180004,
+      "flos": 28615381557120.0,
+      "grad_norm": 1.7432064497755635,
+      "language_loss": 0.74564683,
+      "learning_rate": 4.3031905968486535e-07,
+      "loss": 0.76802039,
+      "num_input_tokens_seen": 142220945,
+      "step": 6600,
+      "time_per_iteration": 2.866373300552368
+    },
+    {
+      "auxiliary_loss_clip": 0.01208243,
+      "auxiliary_loss_mlp": 0.0102999,
+      "balance_loss_clip": 1.04808915,
+      "balance_loss_mlp": 1.02310824,
+      "epoch": 0.7937233211086394,
+      "flos": 16392574869120.0,
+      "grad_norm": 2.845298431713241,
+      "language_loss": 0.68782264,
+      "learning_rate": 4.298364516947162e-07,
+      "loss": 0.71020502,
+      "num_input_tokens_seen": 142238175,
+      "step": 6601,
+      "time_per_iteration": 2.8154759407043457
+    },
+    {
+      "auxiliary_loss_clip": 0.01196592,
+      "auxiliary_loss_mlp": 0.01022974,
+      "balance_loss_clip": 1.03976607,
+      "balance_loss_mlp": 1.01568401,
+      "epoch": 0.7938435639992786,
+      "flos": 22013420682240.0,
+      "grad_norm": 7.259824487637824,
+      "language_loss": 0.65702534,
+      "learning_rate": 4.293540818971295e-07,
+      "loss": 0.67922097,
+      "num_input_tokens_seen": 142255980,
+      "step": 6602,
+      "time_per_iteration": 2.7059261798858643
+    },
+    {
+      "auxiliary_loss_clip": 0.01184294,
+      "auxiliary_loss_mlp": 0.01028129,
+      "balance_loss_clip": 1.04773378,
+      "balance_loss_mlp": 1.0206573,
+      "epoch": 0.7939638068899176,
+      "flos": 22197032029440.0,
+      "grad_norm": 2.1944821863257062,
+      "language_loss": 0.7682305,
+      "learning_rate": 4.2887195036527934e-07,
+      "loss": 0.79035473,
+      "num_input_tokens_seen": 142274785,
+      "step": 6603,
+      "time_per_iteration": 2.60182523727417
+    },
+    {
+      "auxiliary_loss_clip": 0.01165131,
+      "auxiliary_loss_mlp": 0.01026243,
+      "balance_loss_clip": 1.04201245,
+      "balance_loss_mlp": 1.01885819,
+      "epoch": 0.7940840497805567,
+      "flos": 17745186343680.0,
+      "grad_norm": 2.5751592769213123,
+      "language_loss": 0.73159671,
+      "learning_rate": 4.28390057172306e-07,
+      "loss": 0.75351042,
+      "num_input_tokens_seen": 142291290,
+      "step": 6604,
+      "time_per_iteration": 2.51995587348938
+    },
+    {
+      "auxiliary_loss_clip": 0.01188299,
+      "auxiliary_loss_mlp": 0.01029028,
+      "balance_loss_clip": 1.04159164,
+      "balance_loss_mlp": 1.02152371,
+      "epoch": 0.7942042926711959,
+      "flos": 23805435231360.0,
+      "grad_norm": 2.595000198209462,
+      "language_loss": 0.7265783,
+      "learning_rate": 4.279084023913111e-07,
+      "loss": 0.74875158,
+      "num_input_tokens_seen": 142309165,
+      "step": 6605,
+      "time_per_iteration": 2.701171398162842
+    },
+    {
+      "auxiliary_loss_clip": 0.01176819,
+      "auxiliary_loss_mlp": 0.01022225,
+      "balance_loss_clip": 1.04742086,
+      "balance_loss_mlp": 1.01474476,
+      "epoch": 0.7943245355618349,
+      "flos": 19244959839360.0,
+      "grad_norm": 1.7402377515862053,
+      "language_loss": 0.69369709,
+      "learning_rate": 4.2742698609536096e-07,
+      "loss": 0.71568751,
+      "num_input_tokens_seen": 142327475,
+      "step": 6606,
+      "time_per_iteration": 2.591660261154175
+    },
+    {
+      "auxiliary_loss_clip": 0.01189524,
+      "auxiliary_loss_mlp": 0.01026417,
+      "balance_loss_clip": 1.04584074,
+      "balance_loss_mlp": 1.01919329,
+      "epoch": 0.794444778452474,
+      "flos": 25007616547200.0,
+      "grad_norm": 2.463387752404835,
+      "language_loss": 0.78474283,
+      "learning_rate": 4.2694580835748706e-07,
+      "loss": 0.80690217,
+      "num_input_tokens_seen": 142347335,
+      "step": 6607,
+      "time_per_iteration": 3.590470314025879
+    },
+    {
+      "auxiliary_loss_clip": 0.0118611,
+      "auxiliary_loss_mlp": 0.01027727,
+      "balance_loss_clip": 1.04509735,
+      "balance_loss_mlp": 1.02026999,
+      "epoch": 0.7945650213431131,
+      "flos": 23221491828480.0,
+      "grad_norm": 2.051470550480012,
+      "language_loss": 0.74577367,
+      "learning_rate": 4.264648692506836e-07,
+      "loss": 0.76791203,
+      "num_input_tokens_seen": 142366125,
+      "step": 6608,
+      "time_per_iteration": 2.626291513442993
+    },
+    {
+      "auxiliary_loss_clip": 0.01179282,
+      "auxiliary_loss_mlp": 0.01029252,
+      "balance_loss_clip": 1.04303896,
+      "balance_loss_mlp": 1.02111614,
+      "epoch": 0.7946852642337522,
+      "flos": 26062887237120.0,
+      "grad_norm": 1.7371701757602582,
+      "language_loss": 0.72162104,
+      "learning_rate": 4.2598416884790824e-07,
+      "loss": 0.74370635,
+      "num_input_tokens_seen": 142385175,
+      "step": 6609,
+      "time_per_iteration": 2.6634483337402344
+    },
+    {
+      "auxiliary_loss_clip": 0.01196616,
+      "auxiliary_loss_mlp": 0.01026211,
+      "balance_loss_clip": 1.04586995,
+      "balance_loss_mlp": 1.01871276,
+      "epoch": 0.7948055071243912,
+      "flos": 23769704177280.0,
+      "grad_norm": 1.948155969086376,
+      "language_loss": 0.80738652,
+      "learning_rate": 4.255037072220828e-07,
+      "loss": 0.82961476,
+      "num_input_tokens_seen": 142406545,
+      "step": 6610,
+      "time_per_iteration": 2.6426384449005127
+    },
+    {
+      "auxiliary_loss_clip": 0.01165413,
+      "auxiliary_loss_mlp": 0.01026634,
+      "balance_loss_clip": 1.04555631,
+      "balance_loss_mlp": 1.01997924,
+      "epoch": 0.7949257500150304,
+      "flos": 21980814111360.0,
+      "grad_norm": 1.52395559607123,
+      "language_loss": 0.71461004,
+      "learning_rate": 4.2502348444609293e-07,
+      "loss": 0.73653054,
+      "num_input_tokens_seen": 142426165,
+      "step": 6611,
+      "time_per_iteration": 3.5324366092681885
+    },
+    {
+      "auxiliary_loss_clip": 0.01198268,
+      "auxiliary_loss_mlp": 0.01025731,
+      "balance_loss_clip": 1.03871047,
+      "balance_loss_mlp": 1.01858401,
+      "epoch": 0.7950459929056695,
+      "flos": 25774129802880.0,
+      "grad_norm": 2.676484789852508,
+      "language_loss": 0.69852412,
+      "learning_rate": 4.2454350059278844e-07,
+      "loss": 0.7207641,
+      "num_input_tokens_seen": 142447225,
+      "step": 6612,
+      "time_per_iteration": 3.633481025695801
+    },
+    {
+      "auxiliary_loss_clip": 0.01175663,
+      "auxiliary_loss_mlp": 0.01031377,
+      "balance_loss_clip": 1.04001117,
+      "balance_loss_mlp": 1.0242815,
+      "epoch": 0.7951662357963085,
+      "flos": 22158068751360.0,
+      "grad_norm": 1.7307383020181206,
+      "language_loss": 0.84537339,
+      "learning_rate": 4.240637557349824e-07,
+      "loss": 0.8674438,
+      "num_input_tokens_seen": 142464440,
+      "step": 6613,
+      "time_per_iteration": 2.6198441982269287
+    },
+    {
+      "auxiliary_loss_clip": 0.01170268,
+      "auxiliary_loss_mlp": 0.01025175,
+      "balance_loss_clip": 1.04280508,
+      "balance_loss_mlp": 1.01767659,
+      "epoch": 0.7952864786869477,
+      "flos": 24641938137600.0,
+      "grad_norm": 1.9386601074441554,
+      "language_loss": 0.66041666,
+      "learning_rate": 4.235842499454516e-07,
+      "loss": 0.68237114,
+      "num_input_tokens_seen": 142484355,
+      "step": 6614,
+      "time_per_iteration": 3.592477560043335
+    },
+    {
+      "auxiliary_loss_clip": 0.01187695,
+      "auxiliary_loss_mlp": 0.01025258,
+      "balance_loss_clip": 1.04575205,
+      "balance_loss_mlp": 1.01864791,
+      "epoch": 0.7954067215775867,
+      "flos": 21830922656640.0,
+      "grad_norm": 1.7037821854264663,
+      "language_loss": 0.83274591,
+      "learning_rate": 4.2310498329693687e-07,
+      "loss": 0.85487545,
+      "num_input_tokens_seen": 142505255,
+      "step": 6615,
+      "time_per_iteration": 2.7129902839660645
+    },
+    {
+      "auxiliary_loss_clip": 0.01180834,
+      "auxiliary_loss_mlp": 0.01023136,
+      "balance_loss_clip": 1.04714608,
+      "balance_loss_mlp": 1.01533937,
+      "epoch": 0.7955269644682258,
+      "flos": 24060652341120.0,
+      "grad_norm": 1.5314605982965872,
+      "language_loss": 0.80777562,
+      "learning_rate": 4.2262595586214164e-07,
+      "loss": 0.82981539,
+      "num_input_tokens_seen": 142526350,
+      "step": 6616,
+      "time_per_iteration": 2.6535861492156982
+    },
+    {
+      "auxiliary_loss_clip": 0.01184262,
+      "auxiliary_loss_mlp": 0.01026683,
+      "balance_loss_clip": 1.04901505,
+      "balance_loss_mlp": 1.01882744,
+      "epoch": 0.795647207358865,
+      "flos": 25010741030400.0,
+      "grad_norm": 1.5774007806718935,
+      "language_loss": 0.76806372,
+      "learning_rate": 4.221471677137358e-07,
+      "loss": 0.79017317,
+      "num_input_tokens_seen": 142547165,
+      "step": 6617,
+      "time_per_iteration": 2.6865036487579346
+    },
+    {
+      "auxiliary_loss_clip": 0.0117324,
+      "auxiliary_loss_mlp": 0.01024846,
+      "balance_loss_clip": 1.04401112,
+      "balance_loss_mlp": 1.01796436,
+      "epoch": 0.795767450249504,
+      "flos": 14648358343680.0,
+      "grad_norm": 2.000068828335967,
+      "language_loss": 0.70135748,
+      "learning_rate": 4.216686189243492e-07,
+      "loss": 0.72333837,
+      "num_input_tokens_seen": 142565955,
+      "step": 6618,
+      "time_per_iteration": 2.676116943359375
+    },
+    {
+      "auxiliary_loss_clip": 0.01193381,
+      "auxiliary_loss_mlp": 0.01024041,
+      "balance_loss_clip": 1.04383576,
+      "balance_loss_mlp": 1.01609874,
+      "epoch": 0.7958876931401431,
+      "flos": 18547897530240.0,
+      "grad_norm": 1.7778601861389152,
+      "language_loss": 0.72782463,
+      "learning_rate": 4.211903095665785e-07,
+      "loss": 0.74999887,
+      "num_input_tokens_seen": 142585340,
+      "step": 6619,
+      "time_per_iteration": 2.74676251411438
+    },
+    {
+      "auxiliary_loss_clip": 0.01173645,
+      "auxiliary_loss_mlp": 0.0102541,
+      "balance_loss_clip": 1.04667222,
+      "balance_loss_mlp": 1.01837039,
+      "epoch": 0.7960079360307821,
+      "flos": 21543960902400.0,
+      "grad_norm": 1.8030515652476562,
+      "language_loss": 0.75202608,
+      "learning_rate": 4.2071223971298277e-07,
+      "loss": 0.77401674,
+      "num_input_tokens_seen": 142602525,
+      "step": 6620,
+      "time_per_iteration": 2.5912652015686035
+    },
+    {
+      "auxiliary_loss_clip": 0.01176941,
+      "auxiliary_loss_mlp": 0.01023181,
+      "balance_loss_clip": 1.04512572,
+      "balance_loss_mlp": 1.01539648,
+      "epoch": 0.7961281789214213,
+      "flos": 25481745095040.0,
+      "grad_norm": 2.3917230296741017,
+      "language_loss": 0.61329323,
+      "learning_rate": 4.2023440943608433e-07,
+      "loss": 0.63529444,
+      "num_input_tokens_seen": 142622490,
+      "step": 6621,
+      "time_per_iteration": 2.666325807571411
+    },
+    {
+      "auxiliary_loss_clip": 0.01176334,
+      "auxiliary_loss_mlp": 0.01022243,
+      "balance_loss_clip": 1.04470372,
+      "balance_loss_mlp": 1.01530528,
+      "epoch": 0.7962484218120603,
+      "flos": 21944436612480.0,
+      "grad_norm": 1.6251245236961174,
+      "language_loss": 0.78508013,
+      "learning_rate": 4.1975681880837023e-07,
+      "loss": 0.8070659,
+      "num_input_tokens_seen": 142642495,
+      "step": 6622,
+      "time_per_iteration": 2.5973291397094727
+    },
+    {
+      "auxiliary_loss_clip": 0.01186546,
+      "auxiliary_loss_mlp": 0.01024411,
+      "balance_loss_clip": 1.03967679,
+      "balance_loss_mlp": 1.01687062,
+      "epoch": 0.7963686647026994,
+      "flos": 18876264687360.0,
+      "grad_norm": 2.099675269287625,
+      "language_loss": 0.82211328,
+      "learning_rate": 4.192794679022895e-07,
+      "loss": 0.8442229,
+      "num_input_tokens_seen": 142660820,
+      "step": 6623,
+      "time_per_iteration": 2.6907875537872314
+    },
+    {
+      "auxiliary_loss_clip": 0.01177758,
+      "auxiliary_loss_mlp": 0.01024111,
+      "balance_loss_clip": 1.04478741,
+      "balance_loss_mlp": 1.01708055,
+      "epoch": 0.7964889075933386,
+      "flos": 29716582763520.0,
+      "grad_norm": 1.873055445223322,
+      "language_loss": 0.71923786,
+      "learning_rate": 4.1880235679025743e-07,
+      "loss": 0.74125659,
+      "num_input_tokens_seen": 142680915,
+      "step": 6624,
+      "time_per_iteration": 2.6930031776428223
+    },
+    {
+      "auxiliary_loss_clip": 0.01211173,
+      "auxiliary_loss_mlp": 0.01031062,
+      "balance_loss_clip": 1.03900719,
+      "balance_loss_mlp": 1.02316177,
+      "epoch": 0.7966091504839776,
+      "flos": 29491458272640.0,
+      "grad_norm": 1.7947486550921101,
+      "language_loss": 0.63710177,
+      "learning_rate": 4.1832548554464986e-07,
+      "loss": 0.65952408,
+      "num_input_tokens_seen": 142699210,
+      "step": 6625,
+      "time_per_iteration": 2.833320140838623
+    },
+    {
+      "auxiliary_loss_clip": 0.0107087,
+      "auxiliary_loss_mlp": 0.01000625,
+      "balance_loss_clip": 1.01051116,
+      "balance_loss_mlp": 0.99949819,
+      "epoch": 0.7967293933746167,
+      "flos": 67288697101440.0,
+      "grad_norm": 0.7430004354267146,
+      "language_loss": 0.58767289,
+      "learning_rate": 4.178488542378098e-07,
+      "loss": 0.60838783,
+      "num_input_tokens_seen": 142756790,
+      "step": 6626,
+      "time_per_iteration": 3.1610500812530518
+    },
+    {
+      "auxiliary_loss_clip": 0.0117392,
+      "auxiliary_loss_mlp": 0.01026862,
+      "balance_loss_clip": 1.04890633,
+      "balance_loss_mlp": 1.01931596,
+      "epoch": 0.7968496362652558,
+      "flos": 25554679660800.0,
+      "grad_norm": 1.883394012795927,
+      "language_loss": 0.89086366,
+      "learning_rate": 4.173724629420401e-07,
+      "loss": 0.91287148,
+      "num_input_tokens_seen": 142778150,
+      "step": 6627,
+      "time_per_iteration": 2.6353111267089844
+    },
+    {
+      "auxiliary_loss_clip": 0.0118924,
+      "auxiliary_loss_mlp": 0.01024307,
+      "balance_loss_clip": 1.04420137,
+      "balance_loss_mlp": 1.01652288,
+      "epoch": 0.7969698791558949,
+      "flos": 14501088581760.0,
+      "grad_norm": 2.714473903844997,
+      "language_loss": 0.68418413,
+      "learning_rate": 4.168963117296087e-07,
+      "loss": 0.70631957,
+      "num_input_tokens_seen": 142795485,
+      "step": 6628,
+      "time_per_iteration": 2.665984869003296
+    },
+    {
+      "auxiliary_loss_clip": 0.01168432,
+      "auxiliary_loss_mlp": 0.0103216,
+      "balance_loss_clip": 1.04661381,
+      "balance_loss_mlp": 1.02426267,
+      "epoch": 0.797090122046534,
+      "flos": 22127545169280.0,
+      "grad_norm": 3.722805713508335,
+      "language_loss": 0.7593621,
+      "learning_rate": 4.1642040067274876e-07,
+      "loss": 0.78136808,
+      "num_input_tokens_seen": 142815155,
+      "step": 6629,
+      "time_per_iteration": 2.610027313232422
+    },
+    {
+      "auxiliary_loss_clip": 0.01191749,
+      "auxiliary_loss_mlp": 0.01023323,
+      "balance_loss_clip": 1.04503846,
+      "balance_loss_mlp": 1.01632535,
+      "epoch": 0.7972103649371731,
+      "flos": 19897671830400.0,
+      "grad_norm": 1.6292120512897355,
+      "language_loss": 0.72696477,
+      "learning_rate": 4.1594472984365493e-07,
+      "loss": 0.74911547,
+      "num_input_tokens_seen": 142833840,
+      "step": 6630,
+      "time_per_iteration": 2.738489866256714
+    },
+    {
+      "auxiliary_loss_clip": 0.01172461,
+      "auxiliary_loss_mlp": 0.01021734,
+      "balance_loss_clip": 1.04431152,
+      "balance_loss_mlp": 1.01447392,
+      "epoch": 0.7973306078278122,
+      "flos": 36058621847040.0,
+      "grad_norm": 2.0085560969757594,
+      "language_loss": 0.77744633,
+      "learning_rate": 4.154692993144862e-07,
+      "loss": 0.79938829,
+      "num_input_tokens_seen": 142853610,
+      "step": 6631,
+      "time_per_iteration": 2.7672877311706543
+    },
+    {
+      "auxiliary_loss_clip": 0.01169989,
+      "auxiliary_loss_mlp": 0.01378591,
+      "balance_loss_clip": 1.04840398,
+      "balance_loss_mlp": 1.00016999,
+      "epoch": 0.7974508507184512,
+      "flos": 21360600950400.0,
+      "grad_norm": 2.2677679438394844,
+      "language_loss": 0.71605259,
+      "learning_rate": 4.1499410915736476e-07,
+      "loss": 0.74153841,
+      "num_input_tokens_seen": 142872540,
+      "step": 6632,
+      "time_per_iteration": 2.6503422260284424
+    },
+    {
+      "auxiliary_loss_clip": 0.01076892,
+      "auxiliary_loss_mlp": 0.01002763,
+      "balance_loss_clip": 1.0113039,
+      "balance_loss_mlp": 1.00171399,
+      "epoch": 0.7975710936090904,
+      "flos": 68253115317120.0,
+      "grad_norm": 0.7962151825290252,
+      "language_loss": 0.6422708,
+      "learning_rate": 4.145191594443762e-07,
+      "loss": 0.66306734,
+      "num_input_tokens_seen": 142936895,
+      "step": 6633,
+      "time_per_iteration": 3.3787004947662354
+    },
+    {
+      "auxiliary_loss_clip": 0.01189575,
+      "auxiliary_loss_mlp": 0.01032756,
+      "balance_loss_clip": 1.04367781,
+      "balance_loss_mlp": 1.02456629,
+      "epoch": 0.7976913364997295,
+      "flos": 22492433479680.0,
+      "grad_norm": 2.087528926051694,
+      "language_loss": 0.70532548,
+      "learning_rate": 4.140444502475713e-07,
+      "loss": 0.72754878,
+      "num_input_tokens_seen": 142956445,
+      "step": 6634,
+      "time_per_iteration": 3.496570110321045
+    },
+    {
+      "auxiliary_loss_clip": 0.01170244,
+      "auxiliary_loss_mlp": 0.01029399,
+      "balance_loss_clip": 1.04224181,
+      "balance_loss_mlp": 1.02162647,
+      "epoch": 0.7978115793903685,
+      "flos": 15263220378240.0,
+      "grad_norm": 1.7610432394763473,
+      "language_loss": 0.69895208,
+      "learning_rate": 4.1356998163896216e-07,
+      "loss": 0.7209484,
+      "num_input_tokens_seen": 142973495,
+      "step": 6635,
+      "time_per_iteration": 2.614805221557617
+    },
+    {
+      "auxiliary_loss_clip": 0.01201505,
+      "auxiliary_loss_mlp": 0.01025266,
+      "balance_loss_clip": 1.04493213,
+      "balance_loss_mlp": 1.01812577,
+      "epoch": 0.7979318222810077,
+      "flos": 19719232041600.0,
+      "grad_norm": 1.9790648828300323,
+      "language_loss": 0.75019252,
+      "learning_rate": 4.130957536905255e-07,
+      "loss": 0.77246022,
+      "num_input_tokens_seen": 142991510,
+      "step": 6636,
+      "time_per_iteration": 3.609125852584839
+    },
+    {
+      "auxiliary_loss_clip": 0.01197523,
+      "auxiliary_loss_mlp": 0.01026606,
+      "balance_loss_clip": 1.0469954,
+      "balance_loss_mlp": 1.01860762,
+      "epoch": 0.7980520651716467,
+      "flos": 15560273854080.0,
+      "grad_norm": 3.706311948289481,
+      "language_loss": 0.70972872,
+      "learning_rate": 4.1262176647420134e-07,
+      "loss": 0.73196995,
+      "num_input_tokens_seen": 143009675,
+      "step": 6637,
+      "time_per_iteration": 2.62455677986145
+    },
+    {
+      "auxiliary_loss_clip": 0.01191959,
+      "auxiliary_loss_mlp": 0.010238,
+      "balance_loss_clip": 1.04627752,
+      "balance_loss_mlp": 1.01670063,
+      "epoch": 0.7981723080622858,
+      "flos": 22309432663680.0,
+      "grad_norm": 1.5869992116467089,
+      "language_loss": 0.79586518,
+      "learning_rate": 4.121480200618923e-07,
+      "loss": 0.81802273,
+      "num_input_tokens_seen": 143029330,
+      "step": 6638,
+      "time_per_iteration": 3.6088101863861084
+    },
+    {
+      "auxiliary_loss_clip": 0.01180061,
+      "auxiliary_loss_mlp": 0.01031761,
+      "balance_loss_clip": 1.04420733,
+      "balance_loss_mlp": 1.02462053,
+      "epoch": 0.798292550952925,
+      "flos": 22929573997440.0,
+      "grad_norm": 3.4981375675557818,
+      "language_loss": 0.8013376,
+      "learning_rate": 4.116745145254674e-07,
+      "loss": 0.82345581,
+      "num_input_tokens_seen": 143048865,
+      "step": 6639,
+      "time_per_iteration": 2.6387252807617188
+    },
+    {
+      "auxiliary_loss_clip": 0.0108354,
+      "auxiliary_loss_mlp": 0.01002972,
+      "balance_loss_clip": 1.01061463,
+      "balance_loss_mlp": 1.00187516,
+      "epoch": 0.798412793843564,
+      "flos": 64497936890880.0,
+      "grad_norm": 0.7662256411268438,
+      "language_loss": 0.58114511,
+      "learning_rate": 4.1120124993675476e-07,
+      "loss": 0.60201025,
+      "num_input_tokens_seen": 143113295,
+      "step": 6640,
+      "time_per_iteration": 4.223943710327148
+    },
+    {
+      "auxiliary_loss_clip": 0.01191421,
+      "auxiliary_loss_mlp": 0.01030189,
+      "balance_loss_clip": 1.04397798,
+      "balance_loss_mlp": 1.02189493,
+      "epoch": 0.7985330367342031,
+      "flos": 13586910514560.0,
+      "grad_norm": 1.9114112292312828,
+      "language_loss": 0.61633348,
+      "learning_rate": 4.107282263675498e-07,
+      "loss": 0.63854957,
+      "num_input_tokens_seen": 143130965,
+      "step": 6641,
+      "time_per_iteration": 2.6646525859832764
+    },
+    {
+      "auxiliary_loss_clip": 0.01084816,
+      "auxiliary_loss_mlp": 0.01373946,
+      "balance_loss_clip": 1.01230133,
+      "balance_loss_mlp": 0.99974984,
+      "epoch": 0.7986532796248422,
+      "flos": 67698797656320.0,
+      "grad_norm": 0.7698228774106549,
+      "language_loss": 0.52505529,
+      "learning_rate": 4.1025544388960907e-07,
+      "loss": 0.54964292,
+      "num_input_tokens_seen": 143192005,
+      "step": 6642,
+      "time_per_iteration": 3.2413196563720703
+    },
+    {
+      "auxiliary_loss_clip": 0.01173779,
+      "auxiliary_loss_mlp": 0.01025147,
+      "balance_loss_clip": 1.04585457,
+      "balance_loss_mlp": 1.01734817,
+      "epoch": 0.7987735225154813,
+      "flos": 22455373622400.0,
+      "grad_norm": 2.1747717309599084,
+      "language_loss": 0.7149089,
+      "learning_rate": 4.097829025746538e-07,
+      "loss": 0.73689824,
+      "num_input_tokens_seen": 143213550,
+      "step": 6643,
+      "time_per_iteration": 2.686357259750366
+    },
+    {
+      "auxiliary_loss_clip": 0.01075086,
+      "auxiliary_loss_mlp": 0.01003659,
+      "balance_loss_clip": 1.01078916,
+      "balance_loss_mlp": 1.00252652,
+      "epoch": 0.7988937654061203,
+      "flos": 68864098682880.0,
+      "grad_norm": 0.6596905525554955,
+      "language_loss": 0.6101886,
+      "learning_rate": 4.0931060249436757e-07,
+      "loss": 0.63097596,
+      "num_input_tokens_seen": 143277390,
+      "step": 6644,
+      "time_per_iteration": 3.2335422039031982
+    },
+    {
+      "auxiliary_loss_clip": 0.01176346,
+      "auxiliary_loss_mlp": 0.01029181,
+      "balance_loss_clip": 1.04691446,
+      "balance_loss_mlp": 1.02135468,
+      "epoch": 0.7990140082967595,
+      "flos": 20806893820800.0,
+      "grad_norm": 4.131203547362341,
+      "language_loss": 0.69331133,
+      "learning_rate": 4.088385437203978e-07,
+      "loss": 0.71536654,
+      "num_input_tokens_seen": 143294400,
+      "step": 6645,
+      "time_per_iteration": 2.63961124420166
+    },
+    {
+      "auxiliary_loss_clip": 0.0116904,
+      "auxiliary_loss_mlp": 0.01022081,
+      "balance_loss_clip": 1.04696918,
+      "balance_loss_mlp": 1.01495826,
+      "epoch": 0.7991342511873986,
+      "flos": 18985289443200.0,
+      "grad_norm": 2.03584441657714,
+      "language_loss": 0.77426004,
+      "learning_rate": 4.083667263243564e-07,
+      "loss": 0.79617131,
+      "num_input_tokens_seen": 143312745,
+      "step": 6646,
+      "time_per_iteration": 2.6096558570861816
+    },
+    {
+      "auxiliary_loss_clip": 0.01173367,
+      "auxiliary_loss_mlp": 0.0102784,
+      "balance_loss_clip": 1.04635096,
+      "balance_loss_mlp": 1.02037776,
+      "epoch": 0.7992544940780376,
+      "flos": 20816805974400.0,
+      "grad_norm": 1.6436115830897984,
+      "language_loss": 0.71953112,
+      "learning_rate": 4.0789515037781653e-07,
+      "loss": 0.74154317,
+      "num_input_tokens_seen": 143333470,
+      "step": 6647,
+      "time_per_iteration": 2.641554117202759
+    },
+    {
+      "auxiliary_loss_clip": 0.01181226,
+      "auxiliary_loss_mlp": 0.01027672,
+      "balance_loss_clip": 1.04639423,
+      "balance_loss_mlp": 1.0195713,
+      "epoch": 0.7993747369686768,
+      "flos": 12640772321280.0,
+      "grad_norm": 2.085093732643389,
+      "language_loss": 0.8276912,
+      "learning_rate": 4.0742381595231755e-07,
+      "loss": 0.8497802,
+      "num_input_tokens_seen": 143350195,
+      "step": 6648,
+      "time_per_iteration": 2.6040217876434326
+    },
+    {
+      "auxiliary_loss_clip": 0.01198966,
+      "auxiliary_loss_mlp": 0.01027477,
+      "balance_loss_clip": 1.04352713,
+      "balance_loss_mlp": 1.01989794,
+      "epoch": 0.7994949798593158,
+      "flos": 20078769225600.0,
+      "grad_norm": 2.3845055150044954,
+      "language_loss": 0.78234285,
+      "learning_rate": 4.06952723119359e-07,
+      "loss": 0.80460733,
+      "num_input_tokens_seen": 143370070,
+      "step": 6649,
+      "time_per_iteration": 2.7111332416534424
+    },
+    {
+      "auxiliary_loss_clip": 0.01177272,
+      "auxiliary_loss_mlp": 0.01023968,
+      "balance_loss_clip": 1.04474545,
+      "balance_loss_mlp": 1.01639509,
+      "epoch": 0.7996152227499549,
+      "flos": 38654209509120.0,
+      "grad_norm": 2.3945351769918255,
+      "language_loss": 0.67277026,
+      "learning_rate": 4.0648187195040504e-07,
+      "loss": 0.69478267,
+      "num_input_tokens_seen": 143392275,
+      "step": 6650,
+      "time_per_iteration": 2.822180986404419
+    },
+    {
+      "auxiliary_loss_clip": 0.01070515,
+      "auxiliary_loss_mlp": 0.01000851,
+      "balance_loss_clip": 1.0102489,
+      "balance_loss_mlp": 0.99972481,
+      "epoch": 0.799735465640594,
+      "flos": 70243821947520.0,
+      "grad_norm": 0.809557226809407,
+      "language_loss": 0.6759876,
+      "learning_rate": 4.060112625168848e-07,
+      "loss": 0.69670129,
+      "num_input_tokens_seen": 143457385,
+      "step": 6651,
+      "time_per_iteration": 3.3107452392578125
+    },
+    {
+      "auxiliary_loss_clip": 0.011706,
+      "auxiliary_loss_mlp": 0.01024331,
+      "balance_loss_clip": 1.0487982,
+      "balance_loss_mlp": 1.01694632,
+      "epoch": 0.7998557085312331,
+      "flos": 24240995550720.0,
+      "grad_norm": 1.878179942785847,
+      "language_loss": 0.73971301,
+      "learning_rate": 4.055408948901886e-07,
+      "loss": 0.7616623,
+      "num_input_tokens_seen": 143478785,
+      "step": 6652,
+      "time_per_iteration": 2.610583782196045
+    },
+    {
+      "auxiliary_loss_clip": 0.01183777,
+      "auxiliary_loss_mlp": 0.0102504,
+      "balance_loss_clip": 1.04821038,
+      "balance_loss_mlp": 1.01738667,
+      "epoch": 0.7999759514218722,
+      "flos": 27564025449600.0,
+      "grad_norm": 2.040411237300802,
+      "language_loss": 0.71417493,
+      "learning_rate": 4.050707691416708e-07,
+      "loss": 0.73626304,
+      "num_input_tokens_seen": 143500095,
+      "step": 6653,
+      "time_per_iteration": 2.6376469135284424
+    },
+    {
+      "auxiliary_loss_clip": 0.01070031,
+      "auxiliary_loss_mlp": 0.01000977,
+      "balance_loss_clip": 1.00969911,
+      "balance_loss_mlp": 0.99987471,
+      "epoch": 0.8000961943125112,
+      "flos": 67337428878720.0,
+      "grad_norm": 0.6919983863868606,
+      "language_loss": 0.59800345,
+      "learning_rate": 4.046008853426495e-07,
+      "loss": 0.6187135,
+      "num_input_tokens_seen": 143563410,
+      "step": 6654,
+      "time_per_iteration": 3.286766290664673
+    },
+    {
+      "auxiliary_loss_clip": 0.01191053,
+      "auxiliary_loss_mlp": 0.01022951,
+      "balance_loss_clip": 1.04332805,
+      "balance_loss_mlp": 1.0153513,
+      "epoch": 0.8002164372031504,
+      "flos": 28733815676160.0,
+      "grad_norm": 1.7799164009124988,
+      "language_loss": 0.62179065,
+      "learning_rate": 4.0413124356440464e-07,
+      "loss": 0.64393067,
+      "num_input_tokens_seen": 143587455,
+      "step": 6655,
+      "time_per_iteration": 2.800647735595703
+    },
+    {
+      "auxiliary_loss_clip": 0.0120461,
+      "auxiliary_loss_mlp": 0.01023961,
+      "balance_loss_clip": 1.0407815,
+      "balance_loss_mlp": 1.01657856,
+      "epoch": 0.8003366800937894,
+      "flos": 17639429725440.0,
+      "grad_norm": 2.265879698454381,
+      "language_loss": 0.82592767,
+      "learning_rate": 4.0366184387818223e-07,
+      "loss": 0.84821337,
+      "num_input_tokens_seen": 143605915,
+      "step": 6656,
+      "time_per_iteration": 2.696911096572876
+    },
+    {
+      "auxiliary_loss_clip": 0.0117386,
+      "auxiliary_loss_mlp": 0.01028957,
+      "balance_loss_clip": 1.04862547,
+      "balance_loss_mlp": 1.02088702,
+      "epoch": 0.8004569229844285,
+      "flos": 25995303797760.0,
+      "grad_norm": 1.7468174574396393,
+      "language_loss": 0.85273582,
+      "learning_rate": 4.0319268635518797e-07,
+      "loss": 0.87476397,
+      "num_input_tokens_seen": 143626490,
+      "step": 6657,
+      "time_per_iteration": 307.4063341617584
+    },
+    {
+      "auxiliary_loss_clip": 0.011785,
+      "auxiliary_loss_mlp": 0.01022451,
+      "balance_loss_clip": 1.04580951,
+      "balance_loss_mlp": 1.01489854,
+      "epoch": 0.8005771658750677,
+      "flos": 20812352688000.0,
+      "grad_norm": 1.7229570013442161,
+      "language_loss": 0.75044245,
+      "learning_rate": 4.027237710665943e-07,
+      "loss": 0.772452,
+      "num_input_tokens_seen": 143644955,
+      "step": 6658,
+      "time_per_iteration": 2.7492990493774414
+    },
+    {
+      "auxiliary_loss_clip": 0.01197859,
+      "auxiliary_loss_mlp": 0.01025913,
+      "balance_loss_clip": 1.0410738,
+      "balance_loss_mlp": 1.01853132,
+      "epoch": 0.8006974087657067,
+      "flos": 25812626204160.0,
+      "grad_norm": 1.9863399978797802,
+      "language_loss": 0.69342321,
+      "learning_rate": 4.022550980835344e-07,
+      "loss": 0.71566093,
+      "num_input_tokens_seen": 143667200,
+      "step": 6659,
+      "time_per_iteration": 3.8513407707214355
+    },
+    {
+      "auxiliary_loss_clip": 0.01193242,
+      "auxiliary_loss_mlp": 0.01024432,
+      "balance_loss_clip": 1.0400908,
+      "balance_loss_mlp": 1.01702321,
+      "epoch": 0.8008176516563458,
+      "flos": 17164690646400.0,
+      "grad_norm": 1.9692029496979737,
+      "language_loss": 0.79713416,
+      "learning_rate": 4.017866674771051e-07,
+      "loss": 0.8193109,
+      "num_input_tokens_seen": 143684685,
+      "step": 6660,
+      "time_per_iteration": 2.8338260650634766
+    },
+    {
+      "auxiliary_loss_clip": 0.01193024,
+      "auxiliary_loss_mlp": 0.01025218,
+      "balance_loss_clip": 1.03864563,
+      "balance_loss_mlp": 1.01783311,
+      "epoch": 0.8009378945469849,
+      "flos": 24207311571840.0,
+      "grad_norm": 2.134610572973598,
+      "language_loss": 0.74740505,
+      "learning_rate": 4.013184793183688e-07,
+      "loss": 0.76958746,
+      "num_input_tokens_seen": 143706780,
+      "step": 6661,
+      "time_per_iteration": 2.8819313049316406
+    },
+    {
+      "auxiliary_loss_clip": 0.01175612,
+      "auxiliary_loss_mlp": 0.0102282,
+      "balance_loss_clip": 1.04470372,
+      "balance_loss_mlp": 1.01568866,
+      "epoch": 0.801058137437624,
+      "flos": 19787318271360.0,
+      "grad_norm": 1.7693287857636495,
+      "language_loss": 0.72420835,
+      "learning_rate": 4.008505336783472e-07,
+      "loss": 0.74619269,
+      "num_input_tokens_seen": 143724505,
+      "step": 6662,
+      "time_per_iteration": 3.624565362930298
+    },
+    {
+      "auxiliary_loss_clip": 0.01167499,
+      "auxiliary_loss_mlp": 0.01022403,
+      "balance_loss_clip": 1.04416764,
+      "balance_loss_mlp": 1.01533937,
+      "epoch": 0.801178380328263,
+      "flos": 18659400324480.0,
+      "grad_norm": 1.7749257457562904,
+      "language_loss": 0.80549562,
+      "learning_rate": 4.003828306280284e-07,
+      "loss": 0.8273946,
+      "num_input_tokens_seen": 143742180,
+      "step": 6663,
+      "time_per_iteration": 2.7068324089050293
+    },
+    {
+      "auxiliary_loss_clip": 0.01178441,
+      "auxiliary_loss_mlp": 0.01023138,
+      "balance_loss_clip": 1.04601097,
+      "balance_loss_mlp": 1.01629221,
+      "epoch": 0.8012986232189022,
+      "flos": 15706573948800.0,
+      "grad_norm": 1.6633821460830123,
+      "language_loss": 0.77802742,
+      "learning_rate": 3.999153702383626e-07,
+      "loss": 0.80004323,
+      "num_input_tokens_seen": 143760070,
+      "step": 6664,
+      "time_per_iteration": 3.5669264793395996
+    },
+    {
+      "auxiliary_loss_clip": 0.01180454,
+      "auxiliary_loss_mlp": 0.01026286,
+      "balance_loss_clip": 1.04453087,
+      "balance_loss_mlp": 1.01921344,
+      "epoch": 0.8014188661095413,
+      "flos": 28584139703040.0,
+      "grad_norm": 1.7305170711800884,
+      "language_loss": 0.7384125,
+      "learning_rate": 3.9944815258026263e-07,
+      "loss": 0.76047993,
+      "num_input_tokens_seen": 143781890,
+      "step": 6665,
+      "time_per_iteration": 3.813135862350464
+    },
+    {
+      "auxiliary_loss_clip": 0.0118296,
+      "auxiliary_loss_mlp": 0.01025201,
+      "balance_loss_clip": 1.04843211,
+      "balance_loss_mlp": 1.01768196,
+      "epoch": 0.8015391090001803,
+      "flos": 29310360877440.0,
+      "grad_norm": 1.6701914856006665,
+      "language_loss": 0.82966387,
+      "learning_rate": 3.989811777246057e-07,
+      "loss": 0.85174549,
+      "num_input_tokens_seen": 143802060,
+      "step": 6666,
+      "time_per_iteration": 2.753694534301758
+    },
+    {
+      "auxiliary_loss_clip": 0.01061686,
+      "auxiliary_loss_mlp": 0.01002099,
+      "balance_loss_clip": 1.00987649,
+      "balance_loss_mlp": 1.00104356,
+      "epoch": 0.8016593518908195,
+      "flos": 70397340675840.0,
+      "grad_norm": 0.850182755428802,
+      "language_loss": 0.66203392,
+      "learning_rate": 3.985144457422305e-07,
+      "loss": 0.68267179,
+      "num_input_tokens_seen": 143856345,
+      "step": 6667,
+      "time_per_iteration": 3.1760482788085938
+    },
+    {
+      "auxiliary_loss_clip": 0.01170133,
+      "auxiliary_loss_mlp": 0.01024977,
+      "balance_loss_clip": 1.04866433,
+      "balance_loss_mlp": 1.01741302,
+      "epoch": 0.8017795947814585,
+      "flos": 26026114688640.0,
+      "grad_norm": 2.126673019196033,
+      "language_loss": 0.76925009,
+      "learning_rate": 3.9804795670394096e-07,
+      "loss": 0.79120117,
+      "num_input_tokens_seen": 143876470,
+      "step": 6668,
+      "time_per_iteration": 2.866560459136963
+    },
+    {
+      "auxiliary_loss_clip": 0.01177397,
+      "auxiliary_loss_mlp": 0.01023349,
+      "balance_loss_clip": 1.0449543,
+      "balance_loss_mlp": 1.01630664,
+      "epoch": 0.8018998376720976,
+      "flos": 22087181260800.0,
+      "grad_norm": 1.5356172715519476,
+      "language_loss": 0.70500463,
+      "learning_rate": 3.975817106805022e-07,
+      "loss": 0.72701204,
+      "num_input_tokens_seen": 143895170,
+      "step": 6669,
+      "time_per_iteration": 2.891523838043213
+    },
+    {
+      "auxiliary_loss_clip": 0.01194154,
+      "auxiliary_loss_mlp": 0.0102359,
+      "balance_loss_clip": 1.04303908,
+      "balance_loss_mlp": 1.0162046,
+      "epoch": 0.8020200805627368,
+      "flos": 34568545023360.0,
+      "grad_norm": 1.9575795473990625,
+      "language_loss": 0.65076447,
+      "learning_rate": 3.97115707742645e-07,
+      "loss": 0.67294192,
+      "num_input_tokens_seen": 143915845,
+      "step": 6670,
+      "time_per_iteration": 2.9130656719207764
+    },
+    {
+      "auxiliary_loss_clip": 0.01189812,
+      "auxiliary_loss_mlp": 0.01027803,
+      "balance_loss_clip": 1.04666185,
+      "balance_loss_mlp": 1.02057552,
+      "epoch": 0.8021403234533758,
+      "flos": 20120354196480.0,
+      "grad_norm": 2.2652028414978282,
+      "language_loss": 0.6521287,
+      "learning_rate": 3.966499479610599e-07,
+      "loss": 0.67430484,
+      "num_input_tokens_seen": 143933940,
+      "step": 6671,
+      "time_per_iteration": 2.745119333267212
+    },
+    {
+      "auxiliary_loss_clip": 0.01193452,
+      "auxiliary_loss_mlp": 0.0102572,
+      "balance_loss_clip": 1.0472126,
+      "balance_loss_mlp": 1.01881766,
+      "epoch": 0.8022605663440149,
+      "flos": 27746200252800.0,
+      "grad_norm": 1.9106705792142233,
+      "language_loss": 0.6540482,
+      "learning_rate": 3.9618443140640225e-07,
+      "loss": 0.67623991,
+      "num_input_tokens_seen": 143952850,
+      "step": 6672,
+      "time_per_iteration": 2.8048222064971924
+    },
+    {
+      "auxiliary_loss_clip": 0.0111031,
+      "auxiliary_loss_mlp": 0.01001628,
+      "balance_loss_clip": 1.00928819,
+      "balance_loss_mlp": 1.00054348,
+      "epoch": 0.802380809234654,
+      "flos": 60244998768000.0,
+      "grad_norm": 0.6815217992012726,
+      "language_loss": 0.51407731,
+      "learning_rate": 3.957191581492918e-07,
+      "loss": 0.53519666,
+      "num_input_tokens_seen": 144013610,
+      "step": 6673,
+      "time_per_iteration": 3.4538447856903076
+    },
+    {
+      "auxiliary_loss_clip": 0.01180572,
+      "auxiliary_loss_mlp": 0.01024162,
+      "balance_loss_clip": 1.04354179,
+      "balance_loss_mlp": 1.01653552,
+      "epoch": 0.8025010521252931,
+      "flos": 15080722352640.0,
+      "grad_norm": 4.436350549764229,
+      "language_loss": 0.71162289,
+      "learning_rate": 3.952541282603097e-07,
+      "loss": 0.73367023,
+      "num_input_tokens_seen": 144028715,
+      "step": 6674,
+      "time_per_iteration": 2.856165647506714
+    },
+    {
+      "auxiliary_loss_clip": 0.01176903,
+      "auxiliary_loss_mlp": 0.01029505,
+      "balance_loss_clip": 1.04702187,
+      "balance_loss_mlp": 1.02193213,
+      "epoch": 0.8026212950159322,
+      "flos": 22163527618560.0,
+      "grad_norm": 1.8613093563642165,
+      "language_loss": 0.83691883,
+      "learning_rate": 3.9478934181000013e-07,
+      "loss": 0.85898292,
+      "num_input_tokens_seen": 144048740,
+      "step": 6675,
+      "time_per_iteration": 2.684737205505371
+    },
+    {
+      "auxiliary_loss_clip": 0.01172193,
+      "auxiliary_loss_mlp": 0.01029109,
+      "balance_loss_clip": 1.04813039,
+      "balance_loss_mlp": 1.02130365,
+      "epoch": 0.8027415379065713,
+      "flos": 17675986792320.0,
+      "grad_norm": 2.3486319741332347,
+      "language_loss": 0.84135413,
+      "learning_rate": 3.943247988688714e-07,
+      "loss": 0.86336708,
+      "num_input_tokens_seen": 144067435,
+      "step": 6676,
+      "time_per_iteration": 2.7193856239318848
+    },
+    {
+      "auxiliary_loss_clip": 0.01177261,
+      "auxiliary_loss_mlp": 0.01024726,
+      "balance_loss_clip": 1.04523134,
+      "balance_loss_mlp": 1.01766038,
+      "epoch": 0.8028617807972104,
+      "flos": 21979593048960.0,
+      "grad_norm": 2.9300497984366154,
+      "language_loss": 0.72121263,
+      "learning_rate": 3.938604995073933e-07,
+      "loss": 0.74323255,
+      "num_input_tokens_seen": 144085905,
+      "step": 6677,
+      "time_per_iteration": 2.677034616470337
+    },
+    {
+      "auxiliary_loss_clip": 0.01188256,
+      "auxiliary_loss_mlp": 0.01027429,
+      "balance_loss_clip": 1.04415131,
+      "balance_loss_mlp": 1.0194304,
+      "epoch": 0.8029820236878494,
+      "flos": 26428457905920.0,
+      "grad_norm": 1.6382563319557568,
+      "language_loss": 0.65123481,
+      "learning_rate": 3.9339644379600157e-07,
+      "loss": 0.67339164,
+      "num_input_tokens_seen": 144105735,
+      "step": 6678,
+      "time_per_iteration": 2.689809799194336
+    },
+    {
+      "auxiliary_loss_clip": 0.01179801,
+      "auxiliary_loss_mlp": 0.01030123,
+      "balance_loss_clip": 1.0477246,
+      "balance_loss_mlp": 1.02265787,
+      "epoch": 0.8031022665784886,
+      "flos": 17676489582720.0,
+      "grad_norm": 2.0556143756131497,
+      "language_loss": 0.71000493,
+      "learning_rate": 3.929326318050907e-07,
+      "loss": 0.73210418,
+      "num_input_tokens_seen": 144123405,
+      "step": 6679,
+      "time_per_iteration": 2.674198865890503
+    },
+    {
+      "auxiliary_loss_clip": 0.01164935,
+      "auxiliary_loss_mlp": 0.01019718,
+      "balance_loss_clip": 1.04483175,
+      "balance_loss_mlp": 1.01245832,
+      "epoch": 0.8032225094691277,
+      "flos": 15450279431040.0,
+      "grad_norm": 1.918581955357316,
+      "language_loss": 0.79030538,
+      "learning_rate": 3.924690636050225e-07,
+      "loss": 0.81215191,
+      "num_input_tokens_seen": 144140815,
+      "step": 6680,
+      "time_per_iteration": 2.611178159713745
+    },
+    {
+      "auxiliary_loss_clip": 0.01178709,
+      "auxiliary_loss_mlp": 0.01024566,
+      "balance_loss_clip": 1.04655576,
+      "balance_loss_mlp": 1.01698458,
+      "epoch": 0.8033427523597667,
+      "flos": 26179202453760.0,
+      "grad_norm": 2.1706352359625427,
+      "language_loss": 0.7298032,
+      "learning_rate": 3.9200573926611915e-07,
+      "loss": 0.75183594,
+      "num_input_tokens_seen": 144162230,
+      "step": 6681,
+      "time_per_iteration": 2.6927876472473145
+    },
+    {
+      "auxiliary_loss_clip": 0.01175683,
+      "auxiliary_loss_mlp": 0.01023255,
+      "balance_loss_clip": 1.04761171,
+      "balance_loss_mlp": 1.01578617,
+      "epoch": 0.8034629952504058,
+      "flos": 21324905809920.0,
+      "grad_norm": 1.8298362586492758,
+      "language_loss": 0.72961789,
+      "learning_rate": 3.9154265885866613e-07,
+      "loss": 0.7516073,
+      "num_input_tokens_seen": 144181540,
+      "step": 6682,
+      "time_per_iteration": 2.6644155979156494
+    },
+    {
+      "auxiliary_loss_clip": 0.01175798,
+      "auxiliary_loss_mlp": 0.01028058,
+      "balance_loss_clip": 1.0468384,
+      "balance_loss_mlp": 1.02025533,
+      "epoch": 0.8035832381410449,
+      "flos": 21651585027840.0,
+      "grad_norm": 2.822590207695377,
+      "language_loss": 0.74665624,
+      "learning_rate": 3.9107982245291394e-07,
+      "loss": 0.76869476,
+      "num_input_tokens_seen": 144199665,
+      "step": 6683,
+      "time_per_iteration": 2.6910362243652344
+    },
+    {
+      "auxiliary_loss_clip": 0.01197476,
+      "auxiliary_loss_mlp": 0.01026663,
+      "balance_loss_clip": 1.04704261,
+      "balance_loss_mlp": 1.01887238,
+      "epoch": 0.803703481031684,
+      "flos": 20518818744960.0,
+      "grad_norm": 2.518874754802626,
+      "language_loss": 0.77406859,
+      "learning_rate": 3.9061723011907245e-07,
+      "loss": 0.79630995,
+      "num_input_tokens_seen": 144219020,
+      "step": 6684,
+      "time_per_iteration": 2.8464081287384033
+    },
+    {
+      "auxiliary_loss_clip": 0.01183285,
+      "auxiliary_loss_mlp": 0.01026404,
+      "balance_loss_clip": 1.0442791,
+      "balance_loss_mlp": 1.01870561,
+      "epoch": 0.803823723922323,
+      "flos": 22854807838080.0,
+      "grad_norm": 1.6550360634541825,
+      "language_loss": 0.794191,
+      "learning_rate": 3.901548819273179e-07,
+      "loss": 0.81628788,
+      "num_input_tokens_seen": 144239035,
+      "step": 6685,
+      "time_per_iteration": 2.726590871810913
+    },
+    {
+      "auxiliary_loss_clip": 0.0117937,
+      "auxiliary_loss_mlp": 0.0102299,
+      "balance_loss_clip": 1.0480485,
+      "balance_loss_mlp": 1.01541138,
+      "epoch": 0.8039439668129622,
+      "flos": 21362145235200.0,
+      "grad_norm": 2.2198293643166984,
+      "language_loss": 0.69319504,
+      "learning_rate": 3.896927779477881e-07,
+      "loss": 0.71521866,
+      "num_input_tokens_seen": 144258295,
+      "step": 6686,
+      "time_per_iteration": 3.641242742538452
+    },
+    {
+      "auxiliary_loss_clip": 0.01196881,
+      "auxiliary_loss_mlp": 0.01027436,
+      "balance_loss_clip": 1.04406667,
+      "balance_loss_mlp": 1.02070665,
+      "epoch": 0.8040642097036013,
+      "flos": 23802382575360.0,
+      "grad_norm": 1.9997926554895902,
+      "language_loss": 0.67022091,
+      "learning_rate": 3.892309182505833e-07,
+      "loss": 0.69246411,
+      "num_input_tokens_seen": 144276110,
+      "step": 6687,
+      "time_per_iteration": 2.8539016246795654
+    },
+    {
+      "auxiliary_loss_clip": 0.01167834,
+      "auxiliary_loss_mlp": 0.01024161,
+      "balance_loss_clip": 1.04604912,
+      "balance_loss_mlp": 1.01674008,
+      "epoch": 0.8041844525942403,
+      "flos": 25922046009600.0,
+      "grad_norm": 2.0467995044983316,
+      "language_loss": 0.86144149,
+      "learning_rate": 3.887693029057675e-07,
+      "loss": 0.8833614,
+      "num_input_tokens_seen": 144295620,
+      "step": 6688,
+      "time_per_iteration": 3.576885223388672
+    },
+    {
+      "auxiliary_loss_clip": 0.01188573,
+      "auxiliary_loss_mlp": 0.01029227,
+      "balance_loss_clip": 1.04509163,
+      "balance_loss_mlp": 1.02238989,
+      "epoch": 0.8043046954848795,
+      "flos": 25191120153600.0,
+      "grad_norm": 1.7033613585774283,
+      "language_loss": 0.81551623,
+      "learning_rate": 3.8830793198336684e-07,
+      "loss": 0.83769429,
+      "num_input_tokens_seen": 144315210,
+      "step": 6689,
+      "time_per_iteration": 2.781257152557373
+    },
+    {
+      "auxiliary_loss_clip": 0.01183199,
+      "auxiliary_loss_mlp": 0.01026595,
+      "balance_loss_clip": 1.04733276,
+      "balance_loss_mlp": 1.01907849,
+      "epoch": 0.8044249383755185,
+      "flos": 41719185123840.0,
+      "grad_norm": 1.7111153680562978,
+      "language_loss": 0.70232201,
+      "learning_rate": 3.878468055533721e-07,
+      "loss": 0.72441995,
+      "num_input_tokens_seen": 144337750,
+      "step": 6690,
+      "time_per_iteration": 3.722419500350952
+    },
+    {
+      "auxiliary_loss_clip": 0.01204101,
+      "auxiliary_loss_mlp": 0.01026163,
+      "balance_loss_clip": 1.04607522,
+      "balance_loss_mlp": 1.01883781,
+      "epoch": 0.8045451812661576,
+      "flos": 20631434860800.0,
+      "grad_norm": 2.726487110104339,
+      "language_loss": 0.8479048,
+      "learning_rate": 3.8738592368573464e-07,
+      "loss": 0.87020743,
+      "num_input_tokens_seen": 144355305,
+      "step": 6691,
+      "time_per_iteration": 4.169808626174927
+    },
+    {
+      "auxiliary_loss_clip": 0.01183208,
+      "auxiliary_loss_mlp": 0.01026137,
+      "balance_loss_clip": 1.04287314,
+      "balance_loss_mlp": 1.01815021,
+      "epoch": 0.8046654241567968,
+      "flos": 29711806254720.0,
+      "grad_norm": 1.9553449670526881,
+      "language_loss": 0.88148975,
+      "learning_rate": 3.8692528645037137e-07,
+      "loss": 0.90358329,
+      "num_input_tokens_seen": 144374485,
+      "step": 6692,
+      "time_per_iteration": 2.816972017288208
+    },
+    {
+      "auxiliary_loss_clip": 0.01168891,
+      "auxiliary_loss_mlp": 0.01025415,
+      "balance_loss_clip": 1.0477829,
+      "balance_loss_mlp": 1.01792264,
+      "epoch": 0.8047856670474358,
+      "flos": 17671389851520.0,
+      "grad_norm": 2.775963079016379,
+      "language_loss": 0.77278733,
+      "learning_rate": 3.8646489391715907e-07,
+      "loss": 0.79473037,
+      "num_input_tokens_seen": 144388780,
+      "step": 6693,
+      "time_per_iteration": 2.7103848457336426
+    },
+    {
+      "auxiliary_loss_clip": 0.01187067,
+      "auxiliary_loss_mlp": 0.01026434,
+      "balance_loss_clip": 1.04488492,
+      "balance_loss_mlp": 1.01884019,
+      "epoch": 0.8049059099380749,
+      "flos": 17120699464320.0,
+      "grad_norm": 2.874523221546739,
+      "language_loss": 0.8779974,
+      "learning_rate": 3.8600474615593903e-07,
+      "loss": 0.90013236,
+      "num_input_tokens_seen": 144403395,
+      "step": 6694,
+      "time_per_iteration": 2.730607032775879
+    },
+    {
+      "auxiliary_loss_clip": 0.01101235,
+      "auxiliary_loss_mlp": 0.01002475,
+      "balance_loss_clip": 1.01047611,
+      "balance_loss_mlp": 1.00145578,
+      "epoch": 0.805026152828714,
+      "flos": 62212903240320.0,
+      "grad_norm": 0.7872742303112844,
+      "language_loss": 0.59724963,
+      "learning_rate": 3.8554484323651605e-07,
+      "loss": 0.61828673,
+      "num_input_tokens_seen": 144465265,
+      "step": 6695,
+      "time_per_iteration": 3.364107131958008
+    },
+    {
+      "auxiliary_loss_clip": 0.01176855,
+      "auxiliary_loss_mlp": 0.01378612,
+      "balance_loss_clip": 1.04757357,
+      "balance_loss_mlp": 1.00018835,
+      "epoch": 0.8051463957193531,
+      "flos": 21688608971520.0,
+      "grad_norm": 1.618805441405211,
+      "language_loss": 0.79333866,
+      "learning_rate": 3.85085185228657e-07,
+      "loss": 0.81889331,
+      "num_input_tokens_seen": 144484235,
+      "step": 6696,
+      "time_per_iteration": 2.703706979751587
+    },
+    {
+      "auxiliary_loss_clip": 0.01178696,
+      "auxiliary_loss_mlp": 0.01024365,
+      "balance_loss_clip": 1.04270649,
+      "balance_loss_mlp": 1.01751316,
+      "epoch": 0.8052666386099921,
+      "flos": 32051458535040.0,
+      "grad_norm": 2.040498312791058,
+      "language_loss": 0.7323246,
+      "learning_rate": 3.8462577220209114e-07,
+      "loss": 0.75435525,
+      "num_input_tokens_seen": 144504610,
+      "step": 6697,
+      "time_per_iteration": 2.853018045425415
+    },
+    {
+      "auxiliary_loss_clip": 0.01061667,
+      "auxiliary_loss_mlp": 0.01001411,
+      "balance_loss_clip": 1.00993729,
+      "balance_loss_mlp": 1.00032032,
+      "epoch": 0.8053868815006313,
+      "flos": 67157875768320.0,
+      "grad_norm": 0.7157614234459486,
+      "language_loss": 0.59025323,
+      "learning_rate": 3.8416660422651127e-07,
+      "loss": 0.61088407,
+      "num_input_tokens_seen": 144574260,
+      "step": 6698,
+      "time_per_iteration": 3.3085501194000244
+    },
+    {
+      "auxiliary_loss_clip": 0.01198337,
+      "auxiliary_loss_mlp": 0.01025217,
+      "balance_loss_clip": 1.04223418,
+      "balance_loss_mlp": 1.01768339,
+      "epoch": 0.8055071243912704,
+      "flos": 23837000307840.0,
+      "grad_norm": 1.8907755949829919,
+      "language_loss": 0.681292,
+      "learning_rate": 3.837076813715723e-07,
+      "loss": 0.70352757,
+      "num_input_tokens_seen": 144594145,
+      "step": 6699,
+      "time_per_iteration": 2.7370262145996094
+    },
+    {
+      "auxiliary_loss_clip": 0.01186499,
+      "auxiliary_loss_mlp": 0.01026082,
+      "balance_loss_clip": 1.03966832,
+      "balance_loss_mlp": 1.01825619,
+      "epoch": 0.8056273672819094,
+      "flos": 21324510760320.0,
+      "grad_norm": 1.9121611437758343,
+      "language_loss": 0.75083005,
+      "learning_rate": 3.832490037068941e-07,
+      "loss": 0.77295589,
+      "num_input_tokens_seen": 144612935,
+      "step": 6700,
+      "time_per_iteration": 2.707075595855713
+    },
+    {
+      "auxiliary_loss_clip": 0.01211243,
+      "auxiliary_loss_mlp": 0.01022655,
+      "balance_loss_clip": 1.04179239,
+      "balance_loss_mlp": 1.01530004,
+      "epoch": 0.8057476101725486,
+      "flos": 25768383626880.0,
+      "grad_norm": 1.8873833472743327,
+      "language_loss": 0.75823951,
+      "learning_rate": 3.827905713020554e-07,
+      "loss": 0.78057849,
+      "num_input_tokens_seen": 144630580,
+      "step": 6701,
+      "time_per_iteration": 2.8350324630737305
+    },
+    {
+      "auxiliary_loss_clip": 0.0119332,
+      "auxiliary_loss_mlp": 0.01029628,
+      "balance_loss_clip": 1.03977263,
+      "balance_loss_mlp": 1.02137852,
+      "epoch": 0.8058678530631876,
+      "flos": 24535283679360.0,
+      "grad_norm": 1.9499236551492072,
+      "language_loss": 0.68982673,
+      "learning_rate": 3.823323842266017e-07,
+      "loss": 0.71205616,
+      "num_input_tokens_seen": 144649975,
+      "step": 6702,
+      "time_per_iteration": 2.8080222606658936
+    },
+    {
+      "auxiliary_loss_clip": 0.01176885,
+      "auxiliary_loss_mlp": 0.0102601,
+      "balance_loss_clip": 1.04377007,
+      "balance_loss_mlp": 1.01840985,
+      "epoch": 0.8059880959538267,
+      "flos": 24753728240640.0,
+      "grad_norm": 2.7979901325062513,
+      "language_loss": 0.72786361,
+      "learning_rate": 3.818744425500393e-07,
+      "loss": 0.74989259,
+      "num_input_tokens_seen": 144667990,
+      "step": 6703,
+      "time_per_iteration": 2.6565802097320557
+    },
+    {
+      "auxiliary_loss_clip": 0.01186476,
+      "auxiliary_loss_mlp": 0.01025525,
+      "balance_loss_clip": 1.04133785,
+      "balance_loss_mlp": 1.01816654,
+      "epoch": 0.8061083388444659,
+      "flos": 22196349671040.0,
+      "grad_norm": 1.7536817987698978,
+      "language_loss": 0.80409873,
+      "learning_rate": 3.8141674634183675e-07,
+      "loss": 0.82621872,
+      "num_input_tokens_seen": 144687020,
+      "step": 6704,
+      "time_per_iteration": 2.71921706199646
+    },
+    {
+      "auxiliary_loss_clip": 0.01202717,
+      "auxiliary_loss_mlp": 0.0102764,
+      "balance_loss_clip": 1.04281712,
+      "balance_loss_mlp": 1.02048767,
+      "epoch": 0.8062285817351049,
+      "flos": 30044195735040.0,
+      "grad_norm": 1.9357401136825914,
+      "language_loss": 0.66201049,
+      "learning_rate": 3.809592956714278e-07,
+      "loss": 0.68431413,
+      "num_input_tokens_seen": 144710255,
+      "step": 6705,
+      "time_per_iteration": 2.8006253242492676
+    },
+    {
+      "auxiliary_loss_clip": 0.01180213,
+      "auxiliary_loss_mlp": 0.01027492,
+      "balance_loss_clip": 1.04728723,
+      "balance_loss_mlp": 1.02041435,
+      "epoch": 0.806348824625744,
+      "flos": 22782591544320.0,
+      "grad_norm": 2.054529265073439,
+      "language_loss": 0.74869347,
+      "learning_rate": 3.805020906082057e-07,
+      "loss": 0.77077055,
+      "num_input_tokens_seen": 144728830,
+      "step": 6706,
+      "time_per_iteration": 2.644230842590332
+    },
+    {
+      "auxiliary_loss_clip": 0.01189984,
+      "auxiliary_loss_mlp": 0.01029535,
+      "balance_loss_clip": 1.04538345,
+      "balance_loss_mlp": 1.02174211,
+      "epoch": 0.8064690675163831,
+      "flos": 23404600385280.0,
+      "grad_norm": 3.1711331181146485,
+      "language_loss": 0.80997217,
+      "learning_rate": 3.8004513122152917e-07,
+      "loss": 0.83216739,
+      "num_input_tokens_seen": 144747140,
+      "step": 6707,
+      "time_per_iteration": 2.6177916526794434
+    },
+    {
+      "auxiliary_loss_clip": 0.01175881,
+      "auxiliary_loss_mlp": 0.01031594,
+      "balance_loss_clip": 1.04401731,
+      "balance_loss_mlp": 1.02465916,
+      "epoch": 0.8065893104070222,
+      "flos": 24060903736320.0,
+      "grad_norm": 1.7130475813715904,
+      "language_loss": 0.67098659,
+      "learning_rate": 3.79588417580718e-07,
+      "loss": 0.69306135,
+      "num_input_tokens_seen": 144765250,
+      "step": 6708,
+      "time_per_iteration": 2.73946475982666
+    },
+    {
+      "auxiliary_loss_clip": 0.01180601,
+      "auxiliary_loss_mlp": 0.0102755,
+      "balance_loss_clip": 1.04804504,
+      "balance_loss_mlp": 1.0196104,
+      "epoch": 0.8067095532976613,
+      "flos": 22305410340480.0,
+      "grad_norm": 1.899720841683008,
+      "language_loss": 0.76202643,
+      "learning_rate": 3.791319497550558e-07,
+      "loss": 0.78410792,
+      "num_input_tokens_seen": 144783080,
+      "step": 6709,
+      "time_per_iteration": 2.583484411239624
+    },
+    {
+      "auxiliary_loss_clip": 0.01201439,
+      "auxiliary_loss_mlp": 0.01378622,
+      "balance_loss_clip": 1.04361284,
+      "balance_loss_mlp": 1.00020087,
+      "epoch": 0.8068297961883004,
+      "flos": 17129498296320.0,
+      "grad_norm": 2.041657762191672,
+      "language_loss": 0.70990795,
+      "learning_rate": 3.78675727813788e-07,
+      "loss": 0.73570853,
+      "num_input_tokens_seen": 144800645,
+      "step": 6710,
+      "time_per_iteration": 2.7450015544891357
+    },
+    {
+      "auxiliary_loss_clip": 0.01186923,
+      "auxiliary_loss_mlp": 0.0102626,
+      "balance_loss_clip": 1.04620278,
+      "balance_loss_mlp": 1.01842761,
+      "epoch": 0.8069500390789395,
+      "flos": 22018843635840.0,
+      "grad_norm": 1.595267089465208,
+      "language_loss": 0.73299491,
+      "learning_rate": 3.782197518261225e-07,
+      "loss": 0.75512671,
+      "num_input_tokens_seen": 144820085,
+      "step": 6711,
+      "time_per_iteration": 3.6461050510406494
+    },
+    {
+      "auxiliary_loss_clip": 0.01190398,
+      "auxiliary_loss_mlp": 0.01026043,
+      "balance_loss_clip": 1.04495513,
+      "balance_loss_mlp": 1.01880741,
+      "epoch": 0.8070702819695785,
+      "flos": 19244241567360.0,
+      "grad_norm": 2.0939056813260564,
+      "language_loss": 0.95425653,
+      "learning_rate": 3.777640218612319e-07,
+      "loss": 0.97642088,
+      "num_input_tokens_seen": 144838070,
+      "step": 6712,
+      "time_per_iteration": 2.661470890045166
+    },
+    {
+      "auxiliary_loss_clip": 0.01170667,
+      "auxiliary_loss_mlp": 0.01021033,
+      "balance_loss_clip": 1.04449058,
+      "balance_loss_mlp": 1.01412749,
+      "epoch": 0.8071905248602176,
+      "flos": 21544320038400.0,
+      "grad_norm": 2.1385575453982324,
+      "language_loss": 0.72488815,
+      "learning_rate": 3.773085379882488e-07,
+      "loss": 0.74680519,
+      "num_input_tokens_seen": 144857125,
+      "step": 6713,
+      "time_per_iteration": 3.522981643676758
+    },
+    {
+      "auxiliary_loss_clip": 0.01178251,
+      "auxiliary_loss_mlp": 0.01378989,
+      "balance_loss_clip": 1.04567182,
+      "balance_loss_mlp": 1.00020897,
+      "epoch": 0.8073107677508568,
+      "flos": 37268309105280.0,
+      "grad_norm": 2.0309640355657503,
+      "language_loss": 0.75501132,
+      "learning_rate": 3.768533002762715e-07,
+      "loss": 0.78058374,
+      "num_input_tokens_seen": 144880660,
+      "step": 6714,
+      "time_per_iteration": 2.751783847808838
+    },
+    {
+      "auxiliary_loss_clip": 0.01186982,
+      "auxiliary_loss_mlp": 0.01026151,
+      "balance_loss_clip": 1.04296136,
+      "balance_loss_mlp": 1.01889157,
+      "epoch": 0.8074310106414958,
+      "flos": 28366269759360.0,
+      "grad_norm": 2.254232688551718,
+      "language_loss": 0.77008343,
+      "learning_rate": 3.763983087943572e-07,
+      "loss": 0.79221481,
+      "num_input_tokens_seen": 144900050,
+      "step": 6715,
+      "time_per_iteration": 3.643699884414673
+    },
+    {
+      "auxiliary_loss_clip": 0.01164271,
+      "auxiliary_loss_mlp": 0.01378455,
+      "balance_loss_clip": 1.04214525,
+      "balance_loss_mlp": 1.00017667,
+      "epoch": 0.8075512535321349,
+      "flos": 24281646768000.0,
+      "grad_norm": 1.640089796358983,
+      "language_loss": 0.81149834,
+      "learning_rate": 3.759435636115282e-07,
+      "loss": 0.83692563,
+      "num_input_tokens_seen": 144920835,
+      "step": 6716,
+      "time_per_iteration": 2.6827890872955322
+    },
+    {
+      "auxiliary_loss_clip": 0.01207571,
+      "auxiliary_loss_mlp": 0.01378657,
+      "balance_loss_clip": 1.04081392,
+      "balance_loss_mlp": 1.00019372,
+      "epoch": 0.807671496422774,
+      "flos": 26030855283840.0,
+      "grad_norm": 1.7649368406984485,
+      "language_loss": 0.73175514,
+      "learning_rate": 3.7548906479676967e-07,
+      "loss": 0.75761741,
+      "num_input_tokens_seen": 144940430,
+      "step": 6717,
+      "time_per_iteration": 2.774108409881592
+    },
+    {
+      "auxiliary_loss_clip": 0.01177921,
+      "auxiliary_loss_mlp": 0.0102283,
+      "balance_loss_clip": 1.04299927,
+      "balance_loss_mlp": 1.01530242,
+      "epoch": 0.8077917393134131,
+      "flos": 23730740899200.0,
+      "grad_norm": 2.6348743314670364,
+      "language_loss": 0.71431762,
+      "learning_rate": 3.7503481241902855e-07,
+      "loss": 0.7363252,
+      "num_input_tokens_seen": 144960405,
+      "step": 6718,
+      "time_per_iteration": 3.724104642868042
+    },
+    {
+      "auxiliary_loss_clip": 0.01183578,
+      "auxiliary_loss_mlp": 0.01378646,
+      "balance_loss_clip": 1.04303205,
+      "balance_loss_mlp": 1.00021219,
+      "epoch": 0.8079119822040521,
+      "flos": 18402028398720.0,
+      "grad_norm": 2.996324496282965,
+      "language_loss": 0.79974794,
+      "learning_rate": 3.745808065472145e-07,
+      "loss": 0.82537019,
+      "num_input_tokens_seen": 144977700,
+      "step": 6719,
+      "time_per_iteration": 2.6432206630706787
+    },
+    {
+      "auxiliary_loss_clip": 0.0117403,
+      "auxiliary_loss_mlp": 0.01024082,
+      "balance_loss_clip": 1.04860008,
+      "balance_loss_mlp": 1.01708138,
+      "epoch": 0.8080322250946913,
+      "flos": 23621787970560.0,
+      "grad_norm": 1.5993410775272359,
+      "language_loss": 0.7625103,
+      "learning_rate": 3.741270472501994e-07,
+      "loss": 0.78449142,
+      "num_input_tokens_seen": 144998340,
+      "step": 6720,
+      "time_per_iteration": 2.697406053543091
+    },
+    {
+      "auxiliary_loss_clip": 0.01185479,
+      "auxiliary_loss_mlp": 0.01027743,
+      "balance_loss_clip": 1.04631925,
+      "balance_loss_mlp": 1.02055156,
+      "epoch": 0.8081524679853304,
+      "flos": 22820692896000.0,
+      "grad_norm": 1.706918027198962,
+      "language_loss": 0.72551739,
+      "learning_rate": 3.736735345968183e-07,
+      "loss": 0.74764955,
+      "num_input_tokens_seen": 145017950,
+      "step": 6721,
+      "time_per_iteration": 2.777252435684204
+    },
+    {
+      "auxiliary_loss_clip": 0.01179442,
+      "auxiliary_loss_mlp": 0.01027763,
+      "balance_loss_clip": 1.04708076,
+      "balance_loss_mlp": 1.01980543,
+      "epoch": 0.8082727108759694,
+      "flos": 17640004343040.0,
+      "grad_norm": 1.6016982959758694,
+      "language_loss": 0.78766632,
+      "learning_rate": 3.7322026865586986e-07,
+      "loss": 0.8097384,
+      "num_input_tokens_seen": 145036985,
+      "step": 6722,
+      "time_per_iteration": 2.678046703338623
+    },
+    {
+      "auxiliary_loss_clip": 0.01185062,
+      "auxiliary_loss_mlp": 0.01028034,
+      "balance_loss_clip": 1.04826927,
+      "balance_loss_mlp": 1.02065527,
+      "epoch": 0.8083929537666086,
+      "flos": 25958172113280.0,
+      "grad_norm": 1.948268680248792,
+      "language_loss": 0.72991186,
+      "learning_rate": 3.7276724949611206e-07,
+      "loss": 0.75204283,
+      "num_input_tokens_seen": 145057095,
+      "step": 6723,
+      "time_per_iteration": 2.693758487701416
+    },
+    {
+      "auxiliary_loss_clip": 0.01191229,
+      "auxiliary_loss_mlp": 0.01032083,
+      "balance_loss_clip": 1.04664898,
+      "balance_loss_mlp": 1.02455544,
+      "epoch": 0.8085131966572476,
+      "flos": 27089178629760.0,
+      "grad_norm": 1.7635380928611826,
+      "language_loss": 0.75188541,
+      "learning_rate": 3.723144771862694e-07,
+      "loss": 0.77411854,
+      "num_input_tokens_seen": 145077735,
+      "step": 6724,
+      "time_per_iteration": 2.6665568351745605
+    },
+    {
+      "auxiliary_loss_clip": 0.01198483,
+      "auxiliary_loss_mlp": 0.01030012,
+      "balance_loss_clip": 1.04265499,
+      "balance_loss_mlp": 1.02257288,
+      "epoch": 0.8086334395478867,
+      "flos": 23988543788160.0,
+      "grad_norm": 1.6443262824305431,
+      "language_loss": 0.76816225,
+      "learning_rate": 3.718619517950263e-07,
+      "loss": 0.79044712,
+      "num_input_tokens_seen": 145098330,
+      "step": 6725,
+      "time_per_iteration": 2.742957830429077
+    },
+    {
+      "auxiliary_loss_clip": 0.01171164,
+      "auxiliary_loss_mlp": 0.01027171,
+      "balance_loss_clip": 1.05038786,
+      "balance_loss_mlp": 1.02027178,
+      "epoch": 0.8087536824385259,
+      "flos": 20405879406720.0,
+      "grad_norm": 1.9758975946894146,
+      "language_loss": 0.77036512,
+      "learning_rate": 3.714096733910301e-07,
+      "loss": 0.79234844,
+      "num_input_tokens_seen": 145115855,
+      "step": 6726,
+      "time_per_iteration": 2.5627596378326416
+    },
+    {
+      "auxiliary_loss_clip": 0.01183638,
+      "auxiliary_loss_mlp": 0.01028692,
+      "balance_loss_clip": 1.04633594,
+      "balance_loss_mlp": 1.02079725,
+      "epoch": 0.8088739253291649,
+      "flos": 25919639798400.0,
+      "grad_norm": 1.917312894484014,
+      "language_loss": 0.70450163,
+      "learning_rate": 3.709576420428926e-07,
+      "loss": 0.72662497,
+      "num_input_tokens_seen": 145136655,
+      "step": 6727,
+      "time_per_iteration": 2.6903958320617676
+    },
+    {
+      "auxiliary_loss_clip": 0.01187588,
+      "auxiliary_loss_mlp": 0.01024078,
+      "balance_loss_clip": 1.0433805,
+      "balance_loss_mlp": 1.01664519,
+      "epoch": 0.808994168219804,
+      "flos": 28402072640640.0,
+      "grad_norm": 2.9409774859445195,
+      "language_loss": 0.73571235,
+      "learning_rate": 3.7050585781918463e-07,
+      "loss": 0.75782901,
+      "num_input_tokens_seen": 145156955,
+      "step": 6728,
+      "time_per_iteration": 2.686544418334961
+    },
+    {
+      "auxiliary_loss_clip": 0.01180723,
+      "auxiliary_loss_mlp": 0.01021963,
+      "balance_loss_clip": 1.04528594,
+      "balance_loss_mlp": 1.01386833,
+      "epoch": 0.8091144111104431,
+      "flos": 17421056991360.0,
+      "grad_norm": 2.151207910580529,
+      "language_loss": 0.69111043,
+      "learning_rate": 3.700543207884428e-07,
+      "loss": 0.71313727,
+      "num_input_tokens_seen": 145173865,
+      "step": 6729,
+      "time_per_iteration": 2.657184362411499
+    },
+    {
+      "auxiliary_loss_clip": 0.01174838,
+      "auxiliary_loss_mlp": 0.01023033,
+      "balance_loss_clip": 1.04599214,
+      "balance_loss_mlp": 1.01619315,
+      "epoch": 0.8092346540010822,
+      "flos": 32153803361280.0,
+      "grad_norm": 2.146551726247815,
+      "language_loss": 0.70997608,
+      "learning_rate": 3.6960303101916466e-07,
+      "loss": 0.73195469,
+      "num_input_tokens_seen": 145193780,
+      "step": 6730,
+      "time_per_iteration": 2.725419521331787
+    },
+    {
+      "auxiliary_loss_clip": 0.01061311,
+      "auxiliary_loss_mlp": 0.01373674,
+      "balance_loss_clip": 1.00950289,
+      "balance_loss_mlp": 0.99966735,
+      "epoch": 0.8093548968917212,
+      "flos": 58035093390720.0,
+      "grad_norm": 0.7437503926691309,
+      "language_loss": 0.55588228,
+      "learning_rate": 3.6915198857981047e-07,
+      "loss": 0.58023208,
+      "num_input_tokens_seen": 145258980,
+      "step": 6731,
+      "time_per_iteration": 3.2206203937530518
+    },
+    {
+      "auxiliary_loss_clip": 0.0119102,
+      "auxiliary_loss_mlp": 0.01026751,
+      "balance_loss_clip": 1.04252493,
+      "balance_loss_mlp": 1.01876354,
+      "epoch": 0.8094751397823604,
+      "flos": 27381599251200.0,
+      "grad_norm": 1.6587135150570513,
+      "language_loss": 0.67772949,
+      "learning_rate": 3.687011935388027e-07,
+      "loss": 0.69990724,
+      "num_input_tokens_seen": 145281875,
+      "step": 6732,
+      "time_per_iteration": 2.7843375205993652
+    },
+    {
+      "auxiliary_loss_clip": 0.01177637,
+      "auxiliary_loss_mlp": 0.01023523,
+      "balance_loss_clip": 1.04656339,
+      "balance_loss_mlp": 1.01606631,
+      "epoch": 0.8095953826729995,
+      "flos": 24061083304320.0,
+      "grad_norm": 1.8218816256301043,
+      "language_loss": 0.73020113,
+      "learning_rate": 3.6825064596452646e-07,
+      "loss": 0.75221276,
+      "num_input_tokens_seen": 145302220,
+      "step": 6733,
+      "time_per_iteration": 2.665332317352295
+    },
+    {
+      "auxiliary_loss_clip": 0.01176559,
+      "auxiliary_loss_mlp": 0.01025493,
+      "balance_loss_clip": 1.04528737,
+      "balance_loss_mlp": 1.01861453,
+      "epoch": 0.8097156255636385,
+      "flos": 23951412103680.0,
+      "grad_norm": 1.837899416443552,
+      "language_loss": 0.70888567,
+      "learning_rate": 3.678003459253305e-07,
+      "loss": 0.73090613,
+      "num_input_tokens_seen": 145323070,
+      "step": 6734,
+      "time_per_iteration": 2.7115371227264404
+    },
+    {
+      "auxiliary_loss_clip": 0.01194419,
+      "auxiliary_loss_mlp": 0.01027312,
+      "balance_loss_clip": 1.044155,
+      "balance_loss_mlp": 1.01934254,
+      "epoch": 0.8098358684542777,
+      "flos": 21799142098560.0,
+      "grad_norm": 2.0766246157908075,
+      "language_loss": 0.74246526,
+      "learning_rate": 3.673502934895236e-07,
+      "loss": 0.76468253,
+      "num_input_tokens_seen": 145342575,
+      "step": 6735,
+      "time_per_iteration": 2.684704303741455
+    },
+    {
+      "auxiliary_loss_clip": 0.01060798,
+      "auxiliary_loss_mlp": 0.01001467,
+      "balance_loss_clip": 1.00919211,
+      "balance_loss_mlp": 1.0003581,
+      "epoch": 0.8099561113449167,
+      "flos": 68809515966720.0,
+      "grad_norm": 0.6834630502142522,
+      "language_loss": 0.57962614,
+      "learning_rate": 3.669004887253802e-07,
+      "loss": 0.60024875,
+      "num_input_tokens_seen": 145408865,
+      "step": 6736,
+      "time_per_iteration": 3.3269622325897217
+    },
+    {
+      "auxiliary_loss_clip": 0.01190867,
+      "auxiliary_loss_mlp": 0.01023754,
+      "balance_loss_clip": 1.04634309,
+      "balance_loss_mlp": 1.01693487,
+      "epoch": 0.8100763542355558,
+      "flos": 23586056916480.0,
+      "grad_norm": 1.6188472999278725,
+      "language_loss": 0.79029542,
+      "learning_rate": 3.664509317011335e-07,
+      "loss": 0.81244165,
+      "num_input_tokens_seen": 145429200,
+      "step": 6737,
+      "time_per_iteration": 3.5980141162872314
+    },
+    {
+      "auxiliary_loss_clip": 0.01179083,
+      "auxiliary_loss_mlp": 0.01030383,
+      "balance_loss_clip": 1.05000973,
+      "balance_loss_mlp": 1.02165699,
+      "epoch": 0.810196597126195,
+      "flos": 31650408207360.0,
+      "grad_norm": 2.006162711744843,
+      "language_loss": 0.73870927,
+      "learning_rate": 3.6600162248498134e-07,
+      "loss": 0.76080394,
+      "num_input_tokens_seen": 145452830,
+      "step": 6738,
+      "time_per_iteration": 2.6932904720306396
+    },
+    {
+      "auxiliary_loss_clip": 0.01194562,
+      "auxiliary_loss_mlp": 0.01022613,
+      "balance_loss_clip": 1.03839338,
+      "balance_loss_mlp": 1.01555932,
+      "epoch": 0.810316840016834,
+      "flos": 24900459298560.0,
+      "grad_norm": 1.7387583624898002,
+      "language_loss": 0.76116508,
+      "learning_rate": 3.6555256114508426e-07,
+      "loss": 0.78333682,
+      "num_input_tokens_seen": 145472625,
+      "step": 6739,
+      "time_per_iteration": 3.701145648956299
+    },
+    {
+      "auxiliary_loss_clip": 0.01184765,
+      "auxiliary_loss_mlp": 0.01026991,
+      "balance_loss_clip": 1.04218721,
+      "balance_loss_mlp": 1.01982641,
+      "epoch": 0.8104370829074731,
+      "flos": 27965003950080.0,
+      "grad_norm": 1.8243446737625204,
+      "language_loss": 0.72603166,
+      "learning_rate": 3.651037477495642e-07,
+      "loss": 0.74814922,
+      "num_input_tokens_seen": 145494075,
+      "step": 6740,
+      "time_per_iteration": 2.841630697250366
+    },
+    {
+      "auxiliary_loss_clip": 0.01168906,
+      "auxiliary_loss_mlp": 0.01029145,
+      "balance_loss_clip": 1.04781628,
+      "balance_loss_mlp": 1.02136099,
+      "epoch": 0.8105573257981122,
+      "flos": 24640752988800.0,
+      "grad_norm": 2.0296447649828866,
+      "language_loss": 0.68397653,
+      "learning_rate": 3.6465518236650584e-07,
+      "loss": 0.705957,
+      "num_input_tokens_seen": 145514220,
+      "step": 6741,
+      "time_per_iteration": 2.6423258781433105
+    },
+    {
+      "auxiliary_loss_clip": 0.01191309,
+      "auxiliary_loss_mlp": 0.01022808,
+      "balance_loss_clip": 1.04144323,
+      "balance_loss_mlp": 1.01562262,
+      "epoch": 0.8106775686887513,
+      "flos": 26358935132160.0,
+      "grad_norm": 1.9808425587849716,
+      "language_loss": 0.78405643,
+      "learning_rate": 3.642068650639558e-07,
+      "loss": 0.80619758,
+      "num_input_tokens_seen": 145533965,
+      "step": 6742,
+      "time_per_iteration": 3.6227593421936035
+    },
+    {
+      "auxiliary_loss_clip": 0.01176827,
+      "auxiliary_loss_mlp": 0.01023458,
+      "balance_loss_clip": 1.03979278,
+      "balance_loss_mlp": 1.01620078,
+      "epoch": 0.8107978115793903,
+      "flos": 27271892136960.0,
+      "grad_norm": 1.7187116744086237,
+      "language_loss": 0.64352381,
+      "learning_rate": 3.6375879590992334e-07,
+      "loss": 0.66552663,
+      "num_input_tokens_seen": 145554310,
+      "step": 6743,
+      "time_per_iteration": 3.663438081741333
+    },
+    {
+      "auxiliary_loss_clip": 0.01181386,
+      "auxiliary_loss_mlp": 0.0102204,
+      "balance_loss_clip": 1.04396296,
+      "balance_loss_mlp": 1.01418984,
+      "epoch": 0.8109180544700295,
+      "flos": 24934322845440.0,
+      "grad_norm": 1.6958962937694855,
+      "language_loss": 0.80884522,
+      "learning_rate": 3.6331097497238173e-07,
+      "loss": 0.83087945,
+      "num_input_tokens_seen": 145573755,
+      "step": 6744,
+      "time_per_iteration": 2.671671152114868
+    },
+    {
+      "auxiliary_loss_clip": 0.01192705,
+      "auxiliary_loss_mlp": 0.01023621,
+      "balance_loss_clip": 1.04221106,
+      "balance_loss_mlp": 1.01658154,
+      "epoch": 0.8110382973606686,
+      "flos": 21105383840640.0,
+      "grad_norm": 2.751432755712013,
+      "language_loss": 0.79963696,
+      "learning_rate": 3.628634023192627e-07,
+      "loss": 0.82180023,
+      "num_input_tokens_seen": 145594000,
+      "step": 6745,
+      "time_per_iteration": 2.752230167388916
+    },
+    {
+      "auxiliary_loss_clip": 0.01177908,
+      "auxiliary_loss_mlp": 0.01027437,
+      "balance_loss_clip": 1.04414058,
+      "balance_loss_mlp": 1.01992726,
+      "epoch": 0.8111585402513076,
+      "flos": 15414081500160.0,
+      "grad_norm": 2.1381144492296555,
+      "language_loss": 0.75248134,
+      "learning_rate": 3.624160780184644e-07,
+      "loss": 0.77453476,
+      "num_input_tokens_seen": 145611215,
+      "step": 6746,
+      "time_per_iteration": 2.6439640522003174
+    },
+    {
+      "auxiliary_loss_clip": 0.01178563,
+      "auxiliary_loss_mlp": 0.01022536,
+      "balance_loss_clip": 1.04160786,
+      "balance_loss_mlp": 1.01487124,
+      "epoch": 0.8112787831419467,
+      "flos": 24095736950400.0,
+      "grad_norm": 1.8107025202083291,
+      "language_loss": 0.74539173,
+      "learning_rate": 3.6196900213784496e-07,
+      "loss": 0.76740265,
+      "num_input_tokens_seen": 145630530,
+      "step": 6747,
+      "time_per_iteration": 2.6895008087158203
+    },
+    {
+      "auxiliary_loss_clip": 0.01178338,
+      "auxiliary_loss_mlp": 0.01027622,
+      "balance_loss_clip": 1.04611659,
+      "balance_loss_mlp": 1.02009976,
+      "epoch": 0.8113990260325858,
+      "flos": 20483374999680.0,
+      "grad_norm": 1.8394142351798117,
+      "language_loss": 0.86593878,
+      "learning_rate": 3.6152217474522527e-07,
+      "loss": 0.88799834,
+      "num_input_tokens_seen": 145647345,
+      "step": 6748,
+      "time_per_iteration": 2.61057186126709
+    },
+    {
+      "auxiliary_loss_clip": 0.01179667,
+      "auxiliary_loss_mlp": 0.01027055,
+      "balance_loss_clip": 1.0497576,
+      "balance_loss_mlp": 1.01992083,
+      "epoch": 0.8115192689232249,
+      "flos": 24901141656960.0,
+      "grad_norm": 1.6472571646446563,
+      "language_loss": 0.72848713,
+      "learning_rate": 3.6107559590838975e-07,
+      "loss": 0.75055438,
+      "num_input_tokens_seen": 145666330,
+      "step": 6749,
+      "time_per_iteration": 2.667677640914917
+    },
+    {
+      "auxiliary_loss_clip": 0.01203712,
+      "auxiliary_loss_mlp": 0.01024444,
+      "balance_loss_clip": 1.0389564,
+      "balance_loss_mlp": 1.01686883,
+      "epoch": 0.811639511813864,
+      "flos": 24057204635520.0,
+      "grad_norm": 3.096697262801433,
+      "language_loss": 0.66553712,
+      "learning_rate": 3.606292656950822e-07,
+      "loss": 0.68781871,
+      "num_input_tokens_seen": 145684740,
+      "step": 6750,
+      "time_per_iteration": 2.7862775325775146
+    },
+    {
+      "auxiliary_loss_clip": 0.01180985,
+      "auxiliary_loss_mlp": 0.01024579,
+      "balance_loss_clip": 1.04245448,
+      "balance_loss_mlp": 1.01693761,
+      "epoch": 0.8117597547045031,
+      "flos": 23185150243200.0,
+      "grad_norm": 6.204242285313564,
+      "language_loss": 0.86452842,
+      "learning_rate": 3.601831841730121e-07,
+      "loss": 0.88658404,
+      "num_input_tokens_seen": 145702660,
+      "step": 6751,
+      "time_per_iteration": 2.725001811981201
+    },
+    {
+      "auxiliary_loss_clip": 0.01175271,
+      "auxiliary_loss_mlp": 0.01025012,
+      "balance_loss_clip": 1.04600167,
+      "balance_loss_mlp": 1.01778793,
+      "epoch": 0.8118799975951422,
+      "flos": 23040250778880.0,
+      "grad_norm": 1.7619238649156088,
+      "language_loss": 0.72619134,
+      "learning_rate": 3.5973735140984916e-07,
+      "loss": 0.74819416,
+      "num_input_tokens_seen": 145722830,
+      "step": 6752,
+      "time_per_iteration": 2.608283758163452
+    },
+    {
+      "auxiliary_loss_clip": 0.0120026,
+      "auxiliary_loss_mlp": 0.01379,
+      "balance_loss_clip": 1.04021418,
+      "balance_loss_mlp": 1.00014114,
+      "epoch": 0.8120002404857812,
+      "flos": 24639962889600.0,
+      "grad_norm": 2.271021410568505,
+      "language_loss": 0.79047036,
+      "learning_rate": 3.5929176747322607e-07,
+      "loss": 0.81626296,
+      "num_input_tokens_seen": 145741935,
+      "step": 6753,
+      "time_per_iteration": 2.7652857303619385
+    },
+    {
+      "auxiliary_loss_clip": 0.01089233,
+      "auxiliary_loss_mlp": 0.01001354,
+      "balance_loss_clip": 1.01007283,
+      "balance_loss_mlp": 1.00026309,
+      "epoch": 0.8121204833764204,
+      "flos": 57415742156160.0,
+      "grad_norm": 0.8079103512860845,
+      "language_loss": 0.56255603,
+      "learning_rate": 3.588464324307372e-07,
+      "loss": 0.58346188,
+      "num_input_tokens_seen": 145805560,
+      "step": 6754,
+      "time_per_iteration": 3.34719181060791
+    },
+    {
+      "auxiliary_loss_clip": 0.0117886,
+      "auxiliary_loss_mlp": 0.01028646,
+      "balance_loss_clip": 1.04540324,
+      "balance_loss_mlp": 1.02121639,
+      "epoch": 0.8122407262670595,
+      "flos": 19464589549440.0,
+      "grad_norm": 1.81246091503928,
+      "language_loss": 0.75224912,
+      "learning_rate": 3.584013463499391e-07,
+      "loss": 0.77432418,
+      "num_input_tokens_seen": 145824180,
+      "step": 6755,
+      "time_per_iteration": 2.716376543045044
+    },
+    {
+      "auxiliary_loss_clip": 0.01088404,
+      "auxiliary_loss_mlp": 0.01001049,
+      "balance_loss_clip": 1.01070666,
+      "balance_loss_mlp": 0.99995196,
+      "epoch": 0.8123609691576985,
+      "flos": 56425325472000.0,
+      "grad_norm": 0.7303219970506862,
+      "language_loss": 0.64430243,
+      "learning_rate": 3.579565092983521e-07,
+      "loss": 0.66519696,
+      "num_input_tokens_seen": 145885300,
+      "step": 6756,
+      "time_per_iteration": 3.143256664276123
+    },
+    {
+      "auxiliary_loss_clip": 0.01168096,
+      "auxiliary_loss_mlp": 0.01027691,
+      "balance_loss_clip": 1.04754972,
+      "balance_loss_mlp": 1.02035332,
+      "epoch": 0.8124812120483377,
+      "flos": 20631973564800.0,
+      "grad_norm": 2.0199240248579358,
+      "language_loss": 0.83485627,
+      "learning_rate": 3.575119213434565e-07,
+      "loss": 0.85681415,
+      "num_input_tokens_seen": 145903815,
+      "step": 6757,
+      "time_per_iteration": 2.5444040298461914
+    },
+    {
+      "auxiliary_loss_clip": 0.0117684,
+      "auxiliary_loss_mlp": 0.01027642,
+      "balance_loss_clip": 1.04679644,
+      "balance_loss_mlp": 1.02050757,
+      "epoch": 0.8126014549389767,
+      "flos": 22492397566080.0,
+      "grad_norm": 1.8435174507660308,
+      "language_loss": 0.81692988,
+      "learning_rate": 3.5706758255269765e-07,
+      "loss": 0.83897471,
+      "num_input_tokens_seen": 145922270,
+      "step": 6758,
+      "time_per_iteration": 2.8257861137390137
+    },
+    {
+      "auxiliary_loss_clip": 0.01191578,
+      "auxiliary_loss_mlp": 0.01023922,
+      "balance_loss_clip": 1.04604042,
+      "balance_loss_mlp": 1.01624513,
+      "epoch": 0.8127216978296158,
+      "flos": 23287961946240.0,
+      "grad_norm": 2.0932574179505465,
+      "language_loss": 0.69706631,
+      "learning_rate": 3.566234929934795e-07,
+      "loss": 0.71922135,
+      "num_input_tokens_seen": 145941470,
+      "step": 6759,
+      "time_per_iteration": 2.704735517501831
+    },
+    {
+      "auxiliary_loss_clip": 0.01176764,
+      "auxiliary_loss_mlp": 0.01024437,
+      "balance_loss_clip": 1.04883528,
+      "balance_loss_mlp": 1.01714778,
+      "epoch": 0.812841940720255,
+      "flos": 25154994049920.0,
+      "grad_norm": 1.5255887593905724,
+      "language_loss": 0.71850061,
+      "learning_rate": 3.561796527331706e-07,
+      "loss": 0.74051261,
+      "num_input_tokens_seen": 145963145,
+      "step": 6760,
+      "time_per_iteration": 2.6909942626953125
+    },
+    {
+      "auxiliary_loss_clip": 0.01196183,
+      "auxiliary_loss_mlp": 0.01023947,
+      "balance_loss_clip": 1.04314208,
+      "balance_loss_mlp": 1.01618624,
+      "epoch": 0.812962183610894,
+      "flos": 26648446752000.0,
+      "grad_norm": 2.9016142271158065,
+      "language_loss": 0.77685291,
+      "learning_rate": 3.5573606183910163e-07,
+      "loss": 0.79905427,
+      "num_input_tokens_seen": 145983150,
+      "step": 6761,
+      "time_per_iteration": 2.727367877960205
+    },
+    {
+      "auxiliary_loss_clip": 0.01181791,
+      "auxiliary_loss_mlp": 0.01027051,
+      "balance_loss_clip": 1.04434264,
+      "balance_loss_mlp": 1.01920366,
+      "epoch": 0.8130824265015331,
+      "flos": 24966965329920.0,
+      "grad_norm": 1.77631300415274,
+      "language_loss": 0.78715312,
+      "learning_rate": 3.5529272037856493e-07,
+      "loss": 0.80924153,
+      "num_input_tokens_seen": 146001365,
+      "step": 6762,
+      "time_per_iteration": 2.6960389614105225
+    },
+    {
+      "auxiliary_loss_clip": 0.01127621,
+      "auxiliary_loss_mlp": 0.01000755,
+      "balance_loss_clip": 1.00930369,
+      "balance_loss_mlp": 0.99957466,
+      "epoch": 0.8132026693921722,
+      "flos": 67622918175360.0,
+      "grad_norm": 0.7469081443854303,
+      "language_loss": 0.53842545,
+      "learning_rate": 3.548496284188149e-07,
+      "loss": 0.55970919,
+      "num_input_tokens_seen": 146061570,
+      "step": 6763,
+      "time_per_iteration": 4.339489459991455
+    },
+    {
+      "auxiliary_loss_clip": 0.01195901,
+      "auxiliary_loss_mlp": 0.01027539,
+      "balance_loss_clip": 1.04256058,
+      "balance_loss_mlp": 1.02023101,
+      "epoch": 0.8133229122828113,
+      "flos": 19495149045120.0,
+      "grad_norm": 1.7913038234015388,
+      "language_loss": 0.79336548,
+      "learning_rate": 3.544067860270681e-07,
+      "loss": 0.81559992,
+      "num_input_tokens_seen": 146079145,
+      "step": 6764,
+      "time_per_iteration": 3.007920742034912
+    },
+    {
+      "auxiliary_loss_clip": 0.01198551,
+      "auxiliary_loss_mlp": 0.01026424,
+      "balance_loss_clip": 1.04355896,
+      "balance_loss_mlp": 1.01828778,
+      "epoch": 0.8134431551734503,
+      "flos": 20668135582080.0,
+      "grad_norm": 1.7014625040205797,
+      "language_loss": 0.71105421,
+      "learning_rate": 3.539641932705029e-07,
+      "loss": 0.7333039,
+      "num_input_tokens_seen": 146097625,
+      "step": 6765,
+      "time_per_iteration": 3.764756917953491
+    },
+    {
+      "auxiliary_loss_clip": 0.01171721,
+      "auxiliary_loss_mlp": 0.01024193,
+      "balance_loss_clip": 1.04746985,
+      "balance_loss_mlp": 1.01655746,
+      "epoch": 0.8135633980640895,
+      "flos": 21507332008320.0,
+      "grad_norm": 2.4512489610771935,
+      "language_loss": 0.77417862,
+      "learning_rate": 3.53521850216262e-07,
+      "loss": 0.79613769,
+      "num_input_tokens_seen": 146117195,
+      "step": 6766,
+      "time_per_iteration": 2.6159098148345947
+    },
+    {
+      "auxiliary_loss_clip": 0.01170602,
+      "auxiliary_loss_mlp": 0.01023829,
+      "balance_loss_clip": 1.04821849,
+      "balance_loss_mlp": 1.01704633,
+      "epoch": 0.8136836409547286,
+      "flos": 20554442058240.0,
+      "grad_norm": 3.518878611624651,
+      "language_loss": 0.77058065,
+      "learning_rate": 3.530797569314461e-07,
+      "loss": 0.79252499,
+      "num_input_tokens_seen": 146136220,
+      "step": 6767,
+      "time_per_iteration": 2.552089214324951
+    },
+    {
+      "auxiliary_loss_clip": 0.01167995,
+      "auxiliary_loss_mlp": 0.01025011,
+      "balance_loss_clip": 1.04715514,
+      "balance_loss_mlp": 1.0169462,
+      "epoch": 0.8138038838453676,
+      "flos": 20299045380480.0,
+      "grad_norm": 1.815878760668647,
+      "language_loss": 0.77562499,
+      "learning_rate": 3.5263791348312235e-07,
+      "loss": 0.79755497,
+      "num_input_tokens_seen": 146155415,
+      "step": 6768,
+      "time_per_iteration": 3.4656145572662354
+    },
+    {
+      "auxiliary_loss_clip": 0.01185153,
+      "auxiliary_loss_mlp": 0.01022631,
+      "balance_loss_clip": 1.04376292,
+      "balance_loss_mlp": 1.015553,
+      "epoch": 0.8139241267360068,
+      "flos": 29789840551680.0,
+      "grad_norm": 2.0607606499952436,
+      "language_loss": 0.70859146,
+      "learning_rate": 3.521963199383171e-07,
+      "loss": 0.73066932,
+      "num_input_tokens_seen": 146178370,
+      "step": 6769,
+      "time_per_iteration": 2.6893527507781982
+    },
+    {
+      "auxiliary_loss_clip": 0.012038,
+      "auxiliary_loss_mlp": 0.01025856,
+      "balance_loss_clip": 1.04185867,
+      "balance_loss_mlp": 1.01802969,
+      "epoch": 0.8140443696266458,
+      "flos": 19713270384000.0,
+      "grad_norm": 2.1556421904190506,
+      "language_loss": 0.7676686,
+      "learning_rate": 3.517549763640197e-07,
+      "loss": 0.78996515,
+      "num_input_tokens_seen": 146196010,
+      "step": 6770,
+      "time_per_iteration": 3.6428956985473633
+    },
+    {
+      "auxiliary_loss_clip": 0.01175526,
+      "auxiliary_loss_mlp": 0.01378319,
+      "balance_loss_clip": 1.04820275,
+      "balance_loss_mlp": 1.00022626,
+      "epoch": 0.8141646125172849,
+      "flos": 27160568910720.0,
+      "grad_norm": 2.0095077667702976,
+      "language_loss": 0.71201205,
+      "learning_rate": 3.513138828271829e-07,
+      "loss": 0.7375505,
+      "num_input_tokens_seen": 146215880,
+      "step": 6771,
+      "time_per_iteration": 2.6628313064575195
+    },
+    {
+      "auxiliary_loss_clip": 0.01190351,
+      "auxiliary_loss_mlp": 0.0102619,
+      "balance_loss_clip": 1.04312921,
+      "balance_loss_mlp": 1.01895106,
+      "epoch": 0.8142848554079241,
+      "flos": 39673102700160.0,
+      "grad_norm": 1.9824687527967813,
+      "language_loss": 0.70343554,
+      "learning_rate": 3.508730393947179e-07,
+      "loss": 0.72560096,
+      "num_input_tokens_seen": 146239135,
+      "step": 6772,
+      "time_per_iteration": 2.919008731842041
+    },
+    {
+      "auxiliary_loss_clip": 0.01193671,
+      "auxiliary_loss_mlp": 0.01029166,
+      "balance_loss_clip": 1.0449872,
+      "balance_loss_mlp": 1.02214193,
+      "epoch": 0.8144050982985631,
+      "flos": 22237288197120.0,
+      "grad_norm": 1.6289832778919884,
+      "language_loss": 0.71860033,
+      "learning_rate": 3.504324461335024e-07,
+      "loss": 0.74082869,
+      "num_input_tokens_seen": 146259245,
+      "step": 6773,
+      "time_per_iteration": 2.807884931564331
+    },
+    {
+      "auxiliary_loss_clip": 0.01190919,
+      "auxiliary_loss_mlp": 0.01033304,
+      "balance_loss_clip": 1.03938544,
+      "balance_loss_mlp": 1.02535832,
+      "epoch": 0.8145253411892022,
+      "flos": 23038239617280.0,
+      "grad_norm": 1.591941684886825,
+      "language_loss": 0.88246727,
+      "learning_rate": 3.499921031103732e-07,
+      "loss": 0.90470946,
+      "num_input_tokens_seen": 146280015,
+      "step": 6774,
+      "time_per_iteration": 2.740774393081665
+    },
+    {
+      "auxiliary_loss_clip": 0.01202764,
+      "auxiliary_loss_mlp": 0.01025166,
+      "balance_loss_clip": 1.04152203,
+      "balance_loss_mlp": 1.01810849,
+      "epoch": 0.8146455840798413,
+      "flos": 24827668387200.0,
+      "grad_norm": 1.848634634811731,
+      "language_loss": 0.78263408,
+      "learning_rate": 3.4955201039212987e-07,
+      "loss": 0.80491334,
+      "num_input_tokens_seen": 146300935,
+      "step": 6775,
+      "time_per_iteration": 2.7437400817871094
+    },
+    {
+      "auxiliary_loss_clip": 0.01183392,
+      "auxiliary_loss_mlp": 0.01025959,
+      "balance_loss_clip": 1.04811335,
+      "balance_loss_mlp": 1.01849008,
+      "epoch": 0.8147658269704804,
+      "flos": 19974520978560.0,
+      "grad_norm": 1.998627274710677,
+      "language_loss": 0.65875793,
+      "learning_rate": 3.4911216804553465e-07,
+      "loss": 0.68085146,
+      "num_input_tokens_seen": 146319835,
+      "step": 6776,
+      "time_per_iteration": 2.576672315597534
+    },
+    {
+      "auxiliary_loss_clip": 0.01184343,
+      "auxiliary_loss_mlp": 0.01025389,
+      "balance_loss_clip": 1.04332328,
+      "balance_loss_mlp": 1.01721156,
+      "epoch": 0.8148860698611194,
+      "flos": 21178031097600.0,
+      "grad_norm": 1.841404435448948,
+      "language_loss": 0.699368,
+      "learning_rate": 3.4867257613731017e-07,
+      "loss": 0.72146535,
+      "num_input_tokens_seen": 146339030,
+      "step": 6777,
+      "time_per_iteration": 2.663876533508301
+    },
+    {
+      "auxiliary_loss_clip": 0.01187098,
+      "auxiliary_loss_mlp": 0.01024246,
+      "balance_loss_clip": 1.04387975,
+      "balance_loss_mlp": 1.0168848,
+      "epoch": 0.8150063127517585,
+      "flos": 19606903234560.0,
+      "grad_norm": 1.9941495919010455,
+      "language_loss": 0.85392225,
+      "learning_rate": 3.4823323473414343e-07,
+      "loss": 0.87603569,
+      "num_input_tokens_seen": 146358550,
+      "step": 6778,
+      "time_per_iteration": 2.673208236694336
+    },
+    {
+      "auxiliary_loss_clip": 0.01198606,
+      "auxiliary_loss_mlp": 0.0102543,
+      "balance_loss_clip": 1.04220104,
+      "balance_loss_mlp": 1.01767504,
+      "epoch": 0.8151265556423977,
+      "flos": 22638374438400.0,
+      "grad_norm": 1.907169601332972,
+      "language_loss": 0.75990903,
+      "learning_rate": 3.477941439026812e-07,
+      "loss": 0.78214943,
+      "num_input_tokens_seen": 146376770,
+      "step": 6779,
+      "time_per_iteration": 2.6518542766571045
+    },
+    {
+      "auxiliary_loss_clip": 0.01188179,
+      "auxiliary_loss_mlp": 0.01024371,
+      "balance_loss_clip": 1.0462079,
+      "balance_loss_mlp": 1.01728964,
+      "epoch": 0.8152467985330367,
+      "flos": 17968048277760.0,
+      "grad_norm": 1.7739973685145949,
+      "language_loss": 0.7307018,
+      "learning_rate": 3.473553037095349e-07,
+      "loss": 0.75282729,
+      "num_input_tokens_seen": 146395795,
+      "step": 6780,
+      "time_per_iteration": 2.6152660846710205
+    },
+    {
+      "auxiliary_loss_clip": 0.0117661,
+      "auxiliary_loss_mlp": 0.0102568,
+      "balance_loss_clip": 1.04231679,
+      "balance_loss_mlp": 1.01897144,
+      "epoch": 0.8153670414236758,
+      "flos": 24969012405120.0,
+      "grad_norm": 1.8580582276935202,
+      "language_loss": 0.83349615,
+      "learning_rate": 3.469167142212743e-07,
+      "loss": 0.85551906,
+      "num_input_tokens_seen": 146417640,
+      "step": 6781,
+      "time_per_iteration": 2.6838977336883545
+    },
+    {
+      "auxiliary_loss_clip": 0.01179914,
+      "auxiliary_loss_mlp": 0.01028764,
+      "balance_loss_clip": 1.04737258,
+      "balance_loss_mlp": 1.02083683,
+      "epoch": 0.8154872843143149,
+      "flos": 31066069754880.0,
+      "grad_norm": 2.7888005074937467,
+      "language_loss": 0.63328236,
+      "learning_rate": 3.4647837550443337e-07,
+      "loss": 0.65536916,
+      "num_input_tokens_seen": 146436205,
+      "step": 6782,
+      "time_per_iteration": 2.6742122173309326
+    },
+    {
+      "auxiliary_loss_clip": 0.01198772,
+      "auxiliary_loss_mlp": 0.01022158,
+      "balance_loss_clip": 1.04397845,
+      "balance_loss_mlp": 1.01483893,
+      "epoch": 0.815607527204954,
+      "flos": 19391654983680.0,
+      "grad_norm": 2.0432860583690196,
+      "language_loss": 0.74703395,
+      "learning_rate": 3.460402876255086e-07,
+      "loss": 0.7692433,
+      "num_input_tokens_seen": 146453595,
+      "step": 6783,
+      "time_per_iteration": 2.621577024459839
+    },
+    {
+      "auxiliary_loss_clip": 0.01179755,
+      "auxiliary_loss_mlp": 0.01029362,
+      "balance_loss_clip": 1.04558039,
+      "balance_loss_mlp": 1.02195573,
+      "epoch": 0.815727770095593,
+      "flos": 26140418743680.0,
+      "grad_norm": 2.1423414047358778,
+      "language_loss": 0.71495306,
+      "learning_rate": 3.456024506509574e-07,
+      "loss": 0.73704422,
+      "num_input_tokens_seen": 146474515,
+      "step": 6784,
+      "time_per_iteration": 2.738609790802002
+    },
+    {
+      "auxiliary_loss_clip": 0.01180917,
+      "auxiliary_loss_mlp": 0.01378806,
+      "balance_loss_clip": 1.04946351,
+      "balance_loss_mlp": 1.00015593,
+      "epoch": 0.8158480129862322,
+      "flos": 25337527989120.0,
+      "grad_norm": 1.6307192198881377,
+      "language_loss": 0.74061549,
+      "learning_rate": 3.4516486464719873e-07,
+      "loss": 0.7662127,
+      "num_input_tokens_seen": 146493905,
+      "step": 6785,
+      "time_per_iteration": 2.6153531074523926
+    },
+    {
+      "auxiliary_loss_clip": 0.01198809,
+      "auxiliary_loss_mlp": 0.01023558,
+      "balance_loss_clip": 1.04109454,
+      "balance_loss_mlp": 1.01593411,
+      "epoch": 0.8159682558768713,
+      "flos": 34423645559040.0,
+      "grad_norm": 1.6105150182693326,
+      "language_loss": 0.62279356,
+      "learning_rate": 3.4472752968061445e-07,
+      "loss": 0.64501721,
+      "num_input_tokens_seen": 146518335,
+      "step": 6786,
+      "time_per_iteration": 2.887395143508911
+    },
+    {
+      "auxiliary_loss_clip": 0.01179442,
+      "auxiliary_loss_mlp": 0.01020959,
+      "balance_loss_clip": 1.04577911,
+      "balance_loss_mlp": 1.01387787,
+      "epoch": 0.8160884987675103,
+      "flos": 18653223185280.0,
+      "grad_norm": 1.9244716295352724,
+      "language_loss": 0.73884487,
+      "learning_rate": 3.442904458175475e-07,
+      "loss": 0.76084888,
+      "num_input_tokens_seen": 146535655,
+      "step": 6787,
+      "time_per_iteration": 2.5896332263946533
+    },
+    {
+      "auxiliary_loss_clip": 0.01174106,
+      "auxiliary_loss_mlp": 0.01026991,
+      "balance_loss_clip": 1.04554486,
+      "balance_loss_mlp": 1.01906335,
+      "epoch": 0.8162087416581495,
+      "flos": 31430527102080.0,
+      "grad_norm": 1.7002594761290957,
+      "language_loss": 0.76393539,
+      "learning_rate": 3.438536131243044e-07,
+      "loss": 0.78594637,
+      "num_input_tokens_seen": 146556815,
+      "step": 6788,
+      "time_per_iteration": 2.7216198444366455
+    },
+    {
+      "auxiliary_loss_clip": 0.01191129,
+      "auxiliary_loss_mlp": 0.01026601,
+      "balance_loss_clip": 1.04624343,
+      "balance_loss_mlp": 1.01887584,
+      "epoch": 0.8163289845487885,
+      "flos": 37593910915200.0,
+      "grad_norm": 2.1447591603502913,
+      "language_loss": 0.61855394,
+      "learning_rate": 3.434170316671503e-07,
+      "loss": 0.64073122,
+      "num_input_tokens_seen": 146581845,
+      "step": 6789,
+      "time_per_iteration": 3.749073028564453
+    },
+    {
+      "auxiliary_loss_clip": 0.01194857,
+      "auxiliary_loss_mlp": 0.01030026,
+      "balance_loss_clip": 1.04951751,
+      "balance_loss_mlp": 1.0228858,
+      "epoch": 0.8164492274394276,
+      "flos": 13953989554560.0,
+      "grad_norm": 2.4423669321312365,
+      "language_loss": 0.89387131,
+      "learning_rate": 3.4298070151231583e-07,
+      "loss": 0.91612011,
+      "num_input_tokens_seen": 146597245,
+      "step": 6790,
+      "time_per_iteration": 2.6269102096557617
+    },
+    {
+      "auxiliary_loss_clip": 0.0119152,
+      "auxiliary_loss_mlp": 0.01026514,
+      "balance_loss_clip": 1.04507911,
+      "balance_loss_mlp": 1.01927829,
+      "epoch": 0.8165694703300668,
+      "flos": 28986554747520.0,
+      "grad_norm": 2.3666922319743926,
+      "language_loss": 0.60379249,
+      "learning_rate": 3.425446227259916e-07,
+      "loss": 0.62597281,
+      "num_input_tokens_seen": 146618210,
+      "step": 6791,
+      "time_per_iteration": 3.6640524864196777
+    },
+    {
+      "auxiliary_loss_clip": 0.0118787,
+      "auxiliary_loss_mlp": 0.01026672,
+      "balance_loss_clip": 1.04540396,
+      "balance_loss_mlp": 1.01909661,
+      "epoch": 0.8166897132207058,
+      "flos": 25118365155840.0,
+      "grad_norm": 2.6137601386152802,
+      "language_loss": 0.82624936,
+      "learning_rate": 3.421087953743296e-07,
+      "loss": 0.84839475,
+      "num_input_tokens_seen": 146637975,
+      "step": 6792,
+      "time_per_iteration": 2.652768850326538
+    },
+    {
+      "auxiliary_loss_clip": 0.01177151,
+      "auxiliary_loss_mlp": 0.01021532,
+      "balance_loss_clip": 1.04482293,
+      "balance_loss_mlp": 1.01395595,
+      "epoch": 0.8168099561113449,
+      "flos": 23148593176320.0,
+      "grad_norm": 2.3637924385442934,
+      "language_loss": 0.800883,
+      "learning_rate": 3.416732195234464e-07,
+      "loss": 0.8228699,
+      "num_input_tokens_seen": 146658030,
+      "step": 6793,
+      "time_per_iteration": 3.477916955947876
+    },
+    {
+      "auxiliary_loss_clip": 0.01180098,
+      "auxiliary_loss_mlp": 0.01024431,
+      "balance_loss_clip": 1.04511738,
+      "balance_loss_mlp": 1.01701021,
+      "epoch": 0.816930199001984,
+      "flos": 18407666833920.0,
+      "grad_norm": 1.5687416712609483,
+      "language_loss": 0.79627299,
+      "learning_rate": 3.4123789523941613e-07,
+      "loss": 0.81831825,
+      "num_input_tokens_seen": 146677855,
+      "step": 6794,
+      "time_per_iteration": 2.596734046936035
+    },
+    {
+      "auxiliary_loss_clip": 0.01169598,
+      "auxiliary_loss_mlp": 0.01025562,
+      "balance_loss_clip": 1.04340506,
+      "balance_loss_mlp": 1.01847792,
+      "epoch": 0.8170504418926231,
+      "flos": 21251324799360.0,
+      "grad_norm": 1.435668973465011,
+      "language_loss": 0.6319375,
+      "learning_rate": 3.4080282258827884e-07,
+      "loss": 0.65388918,
+      "num_input_tokens_seen": 146696230,
+      "step": 6795,
+      "time_per_iteration": 2.5916574001312256
+    },
+    {
+      "auxiliary_loss_clip": 0.01178422,
+      "auxiliary_loss_mlp": 0.01024026,
+      "balance_loss_clip": 1.04518187,
+      "balance_loss_mlp": 1.0163641,
+      "epoch": 0.8171706847832622,
+      "flos": 19099234362240.0,
+      "grad_norm": 2.0157597058966576,
+      "language_loss": 0.72412932,
+      "learning_rate": 3.403680016360342e-07,
+      "loss": 0.74615377,
+      "num_input_tokens_seen": 146714835,
+      "step": 6796,
+      "time_per_iteration": 3.522017478942871
+    },
+    {
+      "auxiliary_loss_clip": 0.01171226,
+      "auxiliary_loss_mlp": 0.0102611,
+      "balance_loss_clip": 1.04753947,
+      "balance_loss_mlp": 1.01839721,
+      "epoch": 0.8172909276739013,
+      "flos": 21470128496640.0,
+      "grad_norm": 4.5091854611458135,
+      "language_loss": 0.67422599,
+      "learning_rate": 3.3993343244864403e-07,
+      "loss": 0.69619936,
+      "num_input_tokens_seen": 146734425,
+      "step": 6797,
+      "time_per_iteration": 2.571536064147949
+    },
+    {
+      "auxiliary_loss_clip": 0.01177034,
+      "auxiliary_loss_mlp": 0.01024028,
+      "balance_loss_clip": 1.04707193,
+      "balance_loss_mlp": 1.01710248,
+      "epoch": 0.8174111705645404,
+      "flos": 27599792417280.0,
+      "grad_norm": 1.83921431585598,
+      "language_loss": 0.72960448,
+      "learning_rate": 3.394991150920323e-07,
+      "loss": 0.75161505,
+      "num_input_tokens_seen": 146757545,
+      "step": 6798,
+      "time_per_iteration": 2.6633148193359375
+    },
+    {
+      "auxiliary_loss_clip": 0.01204973,
+      "auxiliary_loss_mlp": 0.01378927,
+      "balance_loss_clip": 1.04216659,
+      "balance_loss_mlp": 1.00023341,
+      "epoch": 0.8175314134551794,
+      "flos": 14064594508800.0,
+      "grad_norm": 2.3715153067947203,
+      "language_loss": 0.74411476,
+      "learning_rate": 3.3906504963208396e-07,
+      "loss": 0.76995373,
+      "num_input_tokens_seen": 146774240,
+      "step": 6799,
+      "time_per_iteration": 2.650131940841675
+    },
+    {
+      "auxiliary_loss_clip": 0.01199865,
+      "auxiliary_loss_mlp": 0.01027935,
+      "balance_loss_clip": 1.04483223,
+      "balance_loss_mlp": 1.01991236,
+      "epoch": 0.8176516563458186,
+      "flos": 22708076780160.0,
+      "grad_norm": 1.8943169223853389,
+      "language_loss": 0.66553777,
+      "learning_rate": 3.3863123613464774e-07,
+      "loss": 0.68781579,
+      "num_input_tokens_seen": 146793140,
+      "step": 6800,
+      "time_per_iteration": 2.748990058898926
+    },
+    {
+      "auxiliary_loss_clip": 0.01185122,
+      "auxiliary_loss_mlp": 0.01020319,
+      "balance_loss_clip": 1.04039049,
+      "balance_loss_mlp": 1.01330984,
+      "epoch": 0.8177718992364577,
+      "flos": 21945406279680.0,
+      "grad_norm": 1.7671091812290007,
+      "language_loss": 0.74949801,
+      "learning_rate": 3.381976746655317e-07,
+      "loss": 0.77155244,
+      "num_input_tokens_seen": 146812895,
+      "step": 6801,
+      "time_per_iteration": 2.648547410964966
+    },
+    {
+      "auxiliary_loss_clip": 0.01198796,
+      "auxiliary_loss_mlp": 0.0102625,
+      "balance_loss_clip": 1.04466224,
+      "balance_loss_mlp": 1.01895738,
+      "epoch": 0.8178921421270967,
+      "flos": 22017443005440.0,
+      "grad_norm": 2.3921760493324684,
+      "language_loss": 0.67310047,
+      "learning_rate": 3.3776436529050756e-07,
+      "loss": 0.695351,
+      "num_input_tokens_seen": 146832445,
+      "step": 6802,
+      "time_per_iteration": 2.7594518661499023
+    },
+    {
+      "auxiliary_loss_clip": 0.01166323,
+      "auxiliary_loss_mlp": 0.01023187,
+      "balance_loss_clip": 1.04605079,
+      "balance_loss_mlp": 1.01576328,
+      "epoch": 0.8180123850177359,
+      "flos": 33183111496320.0,
+      "grad_norm": 1.601077061215155,
+      "language_loss": 0.72424001,
+      "learning_rate": 3.373313080753073e-07,
+      "loss": 0.74613506,
+      "num_input_tokens_seen": 146856505,
+      "step": 6803,
+      "time_per_iteration": 2.7148542404174805
+    },
+    {
+      "auxiliary_loss_clip": 0.0117175,
+      "auxiliary_loss_mlp": 0.01026805,
+      "balance_loss_clip": 1.04362893,
+      "balance_loss_mlp": 1.01946735,
+      "epoch": 0.8181326279083749,
+      "flos": 22091167670400.0,
+      "grad_norm": 4.315331894532294,
+      "language_loss": 0.77506983,
+      "learning_rate": 3.3689850308562527e-07,
+      "loss": 0.79705542,
+      "num_input_tokens_seen": 146876950,
+      "step": 6804,
+      "time_per_iteration": 2.5617611408233643
+    },
+    {
+      "auxiliary_loss_clip": 0.01198269,
+      "auxiliary_loss_mlp": 0.01032538,
+      "balance_loss_clip": 1.04624653,
+      "balance_loss_mlp": 1.02456307,
+      "epoch": 0.818252870799014,
+      "flos": 15705747936000.0,
+      "grad_norm": 4.4341297386166705,
+      "language_loss": 0.77515131,
+      "learning_rate": 3.364659503871183e-07,
+      "loss": 0.79745936,
+      "num_input_tokens_seen": 146894885,
+      "step": 6805,
+      "time_per_iteration": 2.6887927055358887
+    },
+    {
+      "auxiliary_loss_clip": 0.01189829,
+      "auxiliary_loss_mlp": 0.01020268,
+      "balance_loss_clip": 1.03996527,
+      "balance_loss_mlp": 1.01324606,
+      "epoch": 0.8183731136896532,
+      "flos": 18770687637120.0,
+      "grad_norm": 1.8306359286088558,
+      "language_loss": 0.83754414,
+      "learning_rate": 3.3603365004540417e-07,
+      "loss": 0.85964513,
+      "num_input_tokens_seen": 146913180,
+      "step": 6806,
+      "time_per_iteration": 2.6526472568511963
+    },
+    {
+      "auxiliary_loss_clip": 0.01165737,
+      "auxiliary_loss_mlp": 0.01026317,
+      "balance_loss_clip": 1.04556715,
+      "balance_loss_mlp": 1.01905465,
+      "epoch": 0.8184933565802922,
+      "flos": 26541792293760.0,
+      "grad_norm": 1.8526125960837552,
+      "language_loss": 0.77332366,
+      "learning_rate": 3.356016021260624e-07,
+      "loss": 0.79524422,
+      "num_input_tokens_seen": 146933510,
+      "step": 6807,
+      "time_per_iteration": 2.559506893157959
+    },
+    {
+      "auxiliary_loss_clip": 0.01177411,
+      "auxiliary_loss_mlp": 0.01025857,
+      "balance_loss_clip": 1.04736423,
+      "balance_loss_mlp": 1.01791739,
+      "epoch": 0.8186135994709313,
+      "flos": 17530117660800.0,
+      "grad_norm": 2.553150768275218,
+      "language_loss": 0.66085738,
+      "learning_rate": 3.35169806694634e-07,
+      "loss": 0.68289006,
+      "num_input_tokens_seen": 146951760,
+      "step": 6808,
+      "time_per_iteration": 2.519566535949707
+    },
+    {
+      "auxiliary_loss_clip": 0.01097761,
+      "auxiliary_loss_mlp": 0.01001757,
+      "balance_loss_clip": 1.01176858,
+      "balance_loss_mlp": 1.00049388,
+      "epoch": 0.8187338423615703,
+      "flos": 63480300675840.0,
+      "grad_norm": 0.7153608823735254,
+      "language_loss": 0.6059984,
+      "learning_rate": 3.3473826381662186e-07,
+      "loss": 0.62699354,
+      "num_input_tokens_seen": 147022900,
+      "step": 6809,
+      "time_per_iteration": 3.3827404975891113
+    },
+    {
+      "auxiliary_loss_clip": 0.01172023,
+      "auxiliary_loss_mlp": 0.01025061,
+      "balance_loss_clip": 1.04618609,
+      "balance_loss_mlp": 1.01834679,
+      "epoch": 0.8188540852522095,
+      "flos": 17529974006400.0,
+      "grad_norm": 2.701214168638009,
+      "language_loss": 0.81382346,
+      "learning_rate": 3.3430697355749216e-07,
+      "loss": 0.83579433,
+      "num_input_tokens_seen": 147040590,
+      "step": 6810,
+      "time_per_iteration": 2.60941743850708
+    },
+    {
+      "auxiliary_loss_clip": 0.01197038,
+      "auxiliary_loss_mlp": 0.01023336,
+      "balance_loss_clip": 1.04120553,
+      "balance_loss_mlp": 1.01618087,
+      "epoch": 0.8189743281428485,
+      "flos": 14392530702720.0,
+      "grad_norm": 2.048142443476825,
+      "language_loss": 0.75500411,
+      "learning_rate": 3.3387593598266907e-07,
+      "loss": 0.77720779,
+      "num_input_tokens_seen": 147057200,
+      "step": 6811,
+      "time_per_iteration": 2.808011293411255
+    },
+    {
+      "auxiliary_loss_clip": 0.01183607,
+      "auxiliary_loss_mlp": 0.01024322,
+      "balance_loss_clip": 1.04031396,
+      "balance_loss_mlp": 1.01717877,
+      "epoch": 0.8190945710334876,
+      "flos": 25080479285760.0,
+      "grad_norm": 1.6131038233828658,
+      "language_loss": 0.78050834,
+      "learning_rate": 3.3344515115754225e-07,
+      "loss": 0.80258763,
+      "num_input_tokens_seen": 147076180,
+      "step": 6812,
+      "time_per_iteration": 2.682234764099121
+    },
+    {
+      "auxiliary_loss_clip": 0.01197458,
+      "auxiliary_loss_mlp": 0.01025592,
+      "balance_loss_clip": 1.04195046,
+      "balance_loss_mlp": 1.01818347,
+      "epoch": 0.8192148139241268,
+      "flos": 21507152440320.0,
+      "grad_norm": 2.312192809872238,
+      "language_loss": 0.80039251,
+      "learning_rate": 3.33014619147461e-07,
+      "loss": 0.82262295,
+      "num_input_tokens_seen": 147094205,
+      "step": 6813,
+      "time_per_iteration": 2.658773899078369
+    },
+    {
+      "auxiliary_loss_clip": 0.01185575,
+      "auxiliary_loss_mlp": 0.01027747,
+      "balance_loss_clip": 1.04667735,
+      "balance_loss_mlp": 1.02009988,
+      "epoch": 0.8193350568147658,
+      "flos": 23952166289280.0,
+      "grad_norm": 1.8164484239401593,
+      "language_loss": 0.712879,
+      "learning_rate": 3.325843400177362e-07,
+      "loss": 0.73501223,
+      "num_input_tokens_seen": 147115545,
+      "step": 6814,
+      "time_per_iteration": 3.5702383518218994
+    },
+    {
+      "auxiliary_loss_clip": 0.01178176,
+      "auxiliary_loss_mlp": 0.0137865,
+      "balance_loss_clip": 1.04528308,
+      "balance_loss_mlp": 1.00018501,
+      "epoch": 0.8194552997054049,
+      "flos": 20559469962240.0,
+      "grad_norm": 1.8534045241897683,
+      "language_loss": 0.73534262,
+      "learning_rate": 3.32154313833642e-07,
+      "loss": 0.76091087,
+      "num_input_tokens_seen": 147135700,
+      "step": 6815,
+      "time_per_iteration": 2.669865369796753
+    },
+    {
+      "auxiliary_loss_clip": 0.01168752,
+      "auxiliary_loss_mlp": 0.01026785,
+      "balance_loss_clip": 1.04649055,
+      "balance_loss_mlp": 1.01920927,
+      "epoch": 0.819575542596044,
+      "flos": 26031753123840.0,
+      "grad_norm": 1.9552884746915313,
+      "language_loss": 0.59347576,
+      "learning_rate": 3.3172454066041164e-07,
+      "loss": 0.61543113,
+      "num_input_tokens_seen": 147155205,
+      "step": 6816,
+      "time_per_iteration": 2.7069101333618164
+    },
+    {
+      "auxiliary_loss_clip": 0.01213726,
+      "auxiliary_loss_mlp": 0.0137832,
+      "balance_loss_clip": 1.04429173,
+      "balance_loss_mlp": 1.00013208,
+      "epoch": 0.8196957854866831,
+      "flos": 29096944220160.0,
+      "grad_norm": 1.8732880594637833,
+      "language_loss": 0.76021719,
+      "learning_rate": 3.3129502056324234e-07,
+      "loss": 0.7861377,
+      "num_input_tokens_seen": 147176570,
+      "step": 6817,
+      "time_per_iteration": 3.745703935623169
+    },
+    {
+      "auxiliary_loss_clip": 0.01143025,
+      "auxiliary_loss_mlp": 0.01002197,
+      "balance_loss_clip": 1.01614475,
+      "balance_loss_mlp": 1.00094557,
+      "epoch": 0.8198160283773221,
+      "flos": 69033631898880.0,
+      "grad_norm": 0.7921421323506861,
+      "language_loss": 0.59680545,
+      "learning_rate": 3.3086575360729165e-07,
+      "loss": 0.61825764,
+      "num_input_tokens_seen": 147234105,
+      "step": 6818,
+      "time_per_iteration": 3.3272712230682373
+    },
+    {
+      "auxiliary_loss_clip": 0.01184426,
+      "auxiliary_loss_mlp": 0.01025036,
+      "balance_loss_clip": 1.04562974,
+      "balance_loss_mlp": 1.01732278,
+      "epoch": 0.8199362712679613,
+      "flos": 16618058496000.0,
+      "grad_norm": 1.6512305356836317,
+      "language_loss": 0.71375072,
+      "learning_rate": 3.3043673985767906e-07,
+      "loss": 0.73584533,
+      "num_input_tokens_seen": 147253170,
+      "step": 6819,
+      "time_per_iteration": 4.340892791748047
+    },
+    {
+      "auxiliary_loss_clip": 0.01180028,
+      "auxiliary_loss_mlp": 0.01024396,
+      "balance_loss_clip": 1.03814304,
+      "balance_loss_mlp": 1.01668286,
+      "epoch": 0.8200565141586004,
+      "flos": 21757664868480.0,
+      "grad_norm": 1.8561295664845325,
+      "language_loss": 0.77447104,
+      "learning_rate": 3.3000797937948564e-07,
+      "loss": 0.79651523,
+      "num_input_tokens_seen": 147271465,
+      "step": 6820,
+      "time_per_iteration": 2.7023589611053467
+    },
+    {
+      "auxiliary_loss_clip": 0.01101445,
+      "auxiliary_loss_mlp": 0.01000524,
+      "balance_loss_clip": 1.01029229,
+      "balance_loss_mlp": 0.9994213,
+      "epoch": 0.8201767570492394,
+      "flos": 69807112392960.0,
+      "grad_norm": 0.9352811776441952,
+      "language_loss": 0.65007555,
+      "learning_rate": 3.295794722377534e-07,
+      "loss": 0.67109525,
+      "num_input_tokens_seen": 147335070,
+      "step": 6821,
+      "time_per_iteration": 3.239522933959961
+    },
+    {
+      "auxiliary_loss_clip": 0.01167692,
+      "auxiliary_loss_mlp": 0.01022259,
+      "balance_loss_clip": 1.04753494,
+      "balance_loss_mlp": 1.01540399,
+      "epoch": 0.8202969999398786,
+      "flos": 23111892455040.0,
+      "grad_norm": 1.5975145266732045,
+      "language_loss": 0.79818726,
+      "learning_rate": 3.291512184974876e-07,
+      "loss": 0.82008672,
+      "num_input_tokens_seen": 147355460,
+      "step": 6822,
+      "time_per_iteration": 3.844017267227173
+    },
+    {
+      "auxiliary_loss_clip": 0.01182599,
+      "auxiliary_loss_mlp": 0.01026094,
+      "balance_loss_clip": 1.042377,
+      "balance_loss_mlp": 1.01805949,
+      "epoch": 0.8204172428305176,
+      "flos": 28220616109440.0,
+      "grad_norm": 5.96703920149104,
+      "language_loss": 0.66542667,
+      "learning_rate": 3.2872321822365346e-07,
+      "loss": 0.68751365,
+      "num_input_tokens_seen": 147375675,
+      "step": 6823,
+      "time_per_iteration": 2.692232370376587
+    },
+    {
+      "auxiliary_loss_clip": 0.01176435,
+      "auxiliary_loss_mlp": 0.01025476,
+      "balance_loss_clip": 1.04690909,
+      "balance_loss_mlp": 1.01826632,
+      "epoch": 0.8205374857211567,
+      "flos": 20887011106560.0,
+      "grad_norm": 1.8522631859747873,
+      "language_loss": 0.7332046,
+      "learning_rate": 3.282954714811783e-07,
+      "loss": 0.75522363,
+      "num_input_tokens_seen": 147394580,
+      "step": 6824,
+      "time_per_iteration": 2.593578815460205
+    },
+    {
+      "auxiliary_loss_clip": 0.01170356,
+      "auxiliary_loss_mlp": 0.01023524,
+      "balance_loss_clip": 1.04146051,
+      "balance_loss_mlp": 1.01619864,
+      "epoch": 0.8206577286117959,
+      "flos": 13152140294400.0,
+      "grad_norm": 2.3144148322492124,
+      "language_loss": 0.70373774,
+      "learning_rate": 3.2786797833495093e-07,
+      "loss": 0.72567654,
+      "num_input_tokens_seen": 147409935,
+      "step": 6825,
+      "time_per_iteration": 2.605731964111328
+    },
+    {
+      "auxiliary_loss_clip": 0.01166473,
+      "auxiliary_loss_mlp": 0.01024908,
+      "balance_loss_clip": 1.0469172,
+      "balance_loss_mlp": 1.01726127,
+      "epoch": 0.8207779715024349,
+      "flos": 25265634917760.0,
+      "grad_norm": 2.005163227958599,
+      "language_loss": 0.72764945,
+      "learning_rate": 3.274407388498213e-07,
+      "loss": 0.74956328,
+      "num_input_tokens_seen": 147428065,
+      "step": 6826,
+      "time_per_iteration": 2.5779502391815186
+    },
+    {
+      "auxiliary_loss_clip": 0.01186598,
+      "auxiliary_loss_mlp": 0.01026034,
+      "balance_loss_clip": 1.04106593,
+      "balance_loss_mlp": 1.01867831,
+      "epoch": 0.820898214393074,
+      "flos": 19610243199360.0,
+      "grad_norm": 2.0366048021729273,
+      "language_loss": 0.74171209,
+      "learning_rate": 3.270137530906021e-07,
+      "loss": 0.76383841,
+      "num_input_tokens_seen": 147447300,
+      "step": 6827,
+      "time_per_iteration": 2.7670819759368896
+    },
+    {
+      "auxiliary_loss_clip": 0.01194637,
+      "auxiliary_loss_mlp": 0.01025972,
+      "balance_loss_clip": 1.04284382,
+      "balance_loss_mlp": 1.01912379,
+      "epoch": 0.8210184572837131,
+      "flos": 15596615439360.0,
+      "grad_norm": 1.8017601452938392,
+      "language_loss": 0.83554029,
+      "learning_rate": 3.265870211220665e-07,
+      "loss": 0.85774636,
+      "num_input_tokens_seen": 147465135,
+      "step": 6828,
+      "time_per_iteration": 2.6955573558807373
+    },
+    {
+      "auxiliary_loss_clip": 0.01189237,
+      "auxiliary_loss_mlp": 0.01032058,
+      "balance_loss_clip": 1.04279935,
+      "balance_loss_mlp": 1.02386844,
+      "epoch": 0.8211387001743522,
+      "flos": 20813932886400.0,
+      "grad_norm": 1.7962935402271936,
+      "language_loss": 0.81406903,
+      "learning_rate": 3.2616054300894934e-07,
+      "loss": 0.83628201,
+      "num_input_tokens_seen": 147484585,
+      "step": 6829,
+      "time_per_iteration": 2.724874496459961
+    },
+    {
+      "auxiliary_loss_clip": 0.01172008,
+      "auxiliary_loss_mlp": 0.01028638,
+      "balance_loss_clip": 1.0432514,
+      "balance_loss_mlp": 1.0210799,
+      "epoch": 0.8212589430649913,
+      "flos": 27704579368320.0,
+      "grad_norm": 2.2764507841487975,
+      "language_loss": 0.84217358,
+      "learning_rate": 3.2573431881594693e-07,
+      "loss": 0.86418003,
+      "num_input_tokens_seen": 147504130,
+      "step": 6830,
+      "time_per_iteration": 2.7000339031219482
+    },
+    {
+      "auxiliary_loss_clip": 0.01209,
+      "auxiliary_loss_mlp": 0.01023995,
+      "balance_loss_clip": 1.03784561,
+      "balance_loss_mlp": 1.01681828,
+      "epoch": 0.8213791859556304,
+      "flos": 22455625017600.0,
+      "grad_norm": 4.795970438253891,
+      "language_loss": 0.65948379,
+      "learning_rate": 3.2530834860771663e-07,
+      "loss": 0.68181372,
+      "num_input_tokens_seen": 147523510,
+      "step": 6831,
+      "time_per_iteration": 2.7982165813446045
+    },
+    {
+      "auxiliary_loss_clip": 0.01175774,
+      "auxiliary_loss_mlp": 0.01023613,
+      "balance_loss_clip": 1.04409635,
+      "balance_loss_mlp": 1.01640117,
+      "epoch": 0.8214994288462695,
+      "flos": 16654471908480.0,
+      "grad_norm": 2.2775949829586146,
+      "language_loss": 0.74008441,
+      "learning_rate": 3.248826324488794e-07,
+      "loss": 0.76207829,
+      "num_input_tokens_seen": 147540805,
+      "step": 6832,
+      "time_per_iteration": 2.6004128456115723
+    },
+    {
+      "auxiliary_loss_clip": 0.01171527,
+      "auxiliary_loss_mlp": 0.01023579,
+      "balance_loss_clip": 1.05133545,
+      "balance_loss_mlp": 1.01646173,
+      "epoch": 0.8216196717369085,
+      "flos": 25221787390080.0,
+      "grad_norm": 1.7381784606969222,
+      "language_loss": 0.87610841,
+      "learning_rate": 3.244571704040138e-07,
+      "loss": 0.89805943,
+      "num_input_tokens_seen": 147560965,
+      "step": 6833,
+      "time_per_iteration": 2.576399564743042
+    },
+    {
+      "auxiliary_loss_clip": 0.01171188,
+      "auxiliary_loss_mlp": 0.01025974,
+      "balance_loss_clip": 1.04318368,
+      "balance_loss_mlp": 1.01860714,
+      "epoch": 0.8217399146275477,
+      "flos": 25371930240000.0,
+      "grad_norm": 1.8798124087293955,
+      "language_loss": 0.73354995,
+      "learning_rate": 3.2403196253766374e-07,
+      "loss": 0.75552154,
+      "num_input_tokens_seen": 147580045,
+      "step": 6834,
+      "time_per_iteration": 2.6006972789764404
+    },
+    {
+      "auxiliary_loss_clip": 0.01172315,
+      "auxiliary_loss_mlp": 0.01029218,
+      "balance_loss_clip": 1.04540515,
+      "balance_loss_mlp": 1.02131426,
+      "epoch": 0.8218601575181868,
+      "flos": 25629625388160.0,
+      "grad_norm": 4.0387588329419675,
+      "language_loss": 0.7900008,
+      "learning_rate": 3.2360700891433254e-07,
+      "loss": 0.81201613,
+      "num_input_tokens_seen": 147599070,
+      "step": 6835,
+      "time_per_iteration": 2.6510047912597656
+    },
+    {
+      "auxiliary_loss_clip": 0.01111527,
+      "auxiliary_loss_mlp": 0.0100133,
+      "balance_loss_clip": 1.01030517,
+      "balance_loss_mlp": 1.00023937,
+      "epoch": 0.8219804004088258,
+      "flos": 67660229427840.0,
+      "grad_norm": 0.7887561933563185,
+      "language_loss": 0.57251251,
+      "learning_rate": 3.231823095984847e-07,
+      "loss": 0.59364104,
+      "num_input_tokens_seen": 147653710,
+      "step": 6836,
+      "time_per_iteration": 3.247420310974121
+    },
+    {
+      "auxiliary_loss_clip": 0.01185129,
+      "auxiliary_loss_mlp": 0.0102362,
+      "balance_loss_clip": 1.04487622,
+      "balance_loss_mlp": 1.01613665,
+      "epoch": 0.822100643299465,
+      "flos": 19464266327040.0,
+      "grad_norm": 3.192707214188195,
+      "language_loss": 0.7613194,
+      "learning_rate": 3.2275786465454814e-07,
+      "loss": 0.78340685,
+      "num_input_tokens_seen": 147670360,
+      "step": 6837,
+      "time_per_iteration": 2.5911359786987305
+    },
+    {
+      "auxiliary_loss_clip": 0.01193319,
+      "auxiliary_loss_mlp": 0.01025417,
+      "balance_loss_clip": 1.04275656,
+      "balance_loss_mlp": 1.01844907,
+      "epoch": 0.822220886190104,
+      "flos": 24681368292480.0,
+      "grad_norm": 2.156621346921314,
+      "language_loss": 0.75865883,
+      "learning_rate": 3.2233367414690917e-07,
+      "loss": 0.78084612,
+      "num_input_tokens_seen": 147692550,
+      "step": 6838,
+      "time_per_iteration": 2.7003393173217773
+    },
+    {
+      "auxiliary_loss_clip": 0.01188812,
+      "auxiliary_loss_mlp": 0.01023407,
+      "balance_loss_clip": 1.0409081,
+      "balance_loss_mlp": 1.01654959,
+      "epoch": 0.8223411290807431,
+      "flos": 27819062991360.0,
+      "grad_norm": 2.411845257529495,
+      "language_loss": 0.84604335,
+      "learning_rate": 3.219097381399183e-07,
+      "loss": 0.86816549,
+      "num_input_tokens_seen": 147709725,
+      "step": 6839,
+      "time_per_iteration": 2.6967222690582275
+    },
+    {
+      "auxiliary_loss_clip": 0.01194628,
+      "auxiliary_loss_mlp": 0.01028697,
+      "balance_loss_clip": 1.04638016,
+      "balance_loss_mlp": 1.02084088,
+      "epoch": 0.8224613719713821,
+      "flos": 23218546913280.0,
+      "grad_norm": 1.8146422403726723,
+      "language_loss": 0.80708504,
+      "learning_rate": 3.2148605669788584e-07,
+      "loss": 0.82931828,
+      "num_input_tokens_seen": 147729615,
+      "step": 6840,
+      "time_per_iteration": 3.7106094360351562
+    },
+    {
+      "auxiliary_loss_clip": 0.01190713,
+      "auxiliary_loss_mlp": 0.01023431,
+      "balance_loss_clip": 1.04722309,
+      "balance_loss_mlp": 1.01628494,
+      "epoch": 0.8225816148620213,
+      "flos": 15706250726400.0,
+      "grad_norm": 2.9995740477423842,
+      "language_loss": 0.77188623,
+      "learning_rate": 3.2106262988508405e-07,
+      "loss": 0.79402769,
+      "num_input_tokens_seen": 147747665,
+      "step": 6841,
+      "time_per_iteration": 2.6343886852264404
+    },
+    {
+      "auxiliary_loss_clip": 0.01184456,
+      "auxiliary_loss_mlp": 0.01023587,
+      "balance_loss_clip": 1.04304123,
+      "balance_loss_mlp": 1.0155642,
+      "epoch": 0.8227018577526604,
+      "flos": 18515111391360.0,
+      "grad_norm": 2.3707507652976885,
+      "language_loss": 0.74553752,
+      "learning_rate": 3.206394577657465e-07,
+      "loss": 0.76761794,
+      "num_input_tokens_seen": 147765445,
+      "step": 6842,
+      "time_per_iteration": 3.5090503692626953
+    },
+    {
+      "auxiliary_loss_clip": 0.01181017,
+      "auxiliary_loss_mlp": 0.01024756,
+      "balance_loss_clip": 1.04712653,
+      "balance_loss_mlp": 1.01676869,
+      "epoch": 0.8228221006432994,
+      "flos": 22236785406720.0,
+      "grad_norm": 3.146165252630284,
+      "language_loss": 0.73078507,
+      "learning_rate": 3.202165404040675e-07,
+      "loss": 0.75284278,
+      "num_input_tokens_seen": 147783365,
+      "step": 6843,
+      "time_per_iteration": 2.6358165740966797
+    },
+    {
+      "auxiliary_loss_clip": 0.01210171,
+      "auxiliary_loss_mlp": 0.01031166,
+      "balance_loss_clip": 1.0414108,
+      "balance_loss_mlp": 1.02378964,
+      "epoch": 0.8229423435339386,
+      "flos": 24097532630400.0,
+      "grad_norm": 1.8659956347301117,
+      "language_loss": 0.74721718,
+      "learning_rate": 3.1979387786420396e-07,
+      "loss": 0.76963055,
+      "num_input_tokens_seen": 147803605,
+      "step": 6844,
+      "time_per_iteration": 3.6882050037384033
+    },
+    {
+      "auxiliary_loss_clip": 0.01184213,
+      "auxiliary_loss_mlp": 0.01027384,
+      "balance_loss_clip": 1.04237044,
+      "balance_loss_mlp": 1.01961756,
+      "epoch": 0.8230625864245776,
+      "flos": 23878549365120.0,
+      "grad_norm": 2.37076023758627,
+      "language_loss": 0.82055211,
+      "learning_rate": 3.1937147021027346e-07,
+      "loss": 0.842668,
+      "num_input_tokens_seen": 147822060,
+      "step": 6845,
+      "time_per_iteration": 2.6491644382476807
+    },
+    {
+      "auxiliary_loss_clip": 0.01175546,
+      "auxiliary_loss_mlp": 0.01023904,
+      "balance_loss_clip": 1.04599571,
+      "balance_loss_mlp": 1.01710653,
+      "epoch": 0.8231828293152167,
+      "flos": 16581106379520.0,
+      "grad_norm": 2.1082281361922255,
+      "language_loss": 0.76839095,
+      "learning_rate": 3.189493175063547e-07,
+      "loss": 0.79038548,
+      "num_input_tokens_seen": 147839295,
+      "step": 6846,
+      "time_per_iteration": 2.5499484539031982
+    },
+    {
+      "auxiliary_loss_clip": 0.0118871,
+      "auxiliary_loss_mlp": 0.01031362,
+      "balance_loss_clip": 1.04691458,
+      "balance_loss_mlp": 1.02390838,
+      "epoch": 0.8233030722058559,
+      "flos": 18880071528960.0,
+      "grad_norm": 2.0479634298537284,
+      "language_loss": 0.6727941,
+      "learning_rate": 3.1852741981648776e-07,
+      "loss": 0.69499487,
+      "num_input_tokens_seen": 147857945,
+      "step": 6847,
+      "time_per_iteration": 3.577348232269287
+    },
+    {
+      "auxiliary_loss_clip": 0.01180902,
+      "auxiliary_loss_mlp": 0.01026244,
+      "balance_loss_clip": 1.04146791,
+      "balance_loss_mlp": 1.01861429,
+      "epoch": 0.8234233150964949,
+      "flos": 28439024757120.0,
+      "grad_norm": 2.139389605975689,
+      "language_loss": 0.69940269,
+      "learning_rate": 3.1810577720467404e-07,
+      "loss": 0.72147417,
+      "num_input_tokens_seen": 147879675,
+      "step": 6848,
+      "time_per_iteration": 2.717810869216919
+    },
+    {
+      "auxiliary_loss_clip": 0.01191001,
+      "auxiliary_loss_mlp": 0.01023671,
+      "balance_loss_clip": 1.04575682,
+      "balance_loss_mlp": 1.01605678,
+      "epoch": 0.823543557987134,
+      "flos": 33765941577600.0,
+      "grad_norm": 1.5389512136548067,
+      "language_loss": 0.5654012,
+      "learning_rate": 3.176843897348769e-07,
+      "loss": 0.5875479,
+      "num_input_tokens_seen": 147902870,
+      "step": 6849,
+      "time_per_iteration": 2.746870756149292
+    },
+    {
+      "auxiliary_loss_clip": 0.01178843,
+      "auxiliary_loss_mlp": 0.01025055,
+      "balance_loss_clip": 1.04315364,
+      "balance_loss_mlp": 1.01722312,
+      "epoch": 0.8236638008777731,
+      "flos": 17092366611840.0,
+      "grad_norm": 2.516299634646279,
+      "language_loss": 0.7546109,
+      "learning_rate": 3.1726325747102034e-07,
+      "loss": 0.77664989,
+      "num_input_tokens_seen": 147921245,
+      "step": 6850,
+      "time_per_iteration": 2.594120502471924
+    },
+    {
+      "auxiliary_loss_clip": 0.01192685,
+      "auxiliary_loss_mlp": 0.01028707,
+      "balance_loss_clip": 1.03778899,
+      "balance_loss_mlp": 1.02116656,
+      "epoch": 0.8237840437684122,
+      "flos": 61639982334720.0,
+      "grad_norm": 1.4892238917091112,
+      "language_loss": 0.64348745,
+      "learning_rate": 3.1684238047698974e-07,
+      "loss": 0.66570139,
+      "num_input_tokens_seen": 147949515,
+      "step": 6851,
+      "time_per_iteration": 3.0726592540740967
+    },
+    {
+      "auxiliary_loss_clip": 0.01188395,
+      "auxiliary_loss_mlp": 0.01024303,
+      "balance_loss_clip": 1.04418099,
+      "balance_loss_mlp": 1.01609576,
+      "epoch": 0.8239042866590512,
+      "flos": 27309023821440.0,
+      "grad_norm": 1.8891808940419812,
+      "language_loss": 0.52930236,
+      "learning_rate": 3.1642175881663155e-07,
+      "loss": 0.55142933,
+      "num_input_tokens_seen": 147969245,
+      "step": 6852,
+      "time_per_iteration": 2.6852948665618896
+    },
+    {
+      "auxiliary_loss_clip": 0.01166836,
+      "auxiliary_loss_mlp": 0.01023681,
+      "balance_loss_clip": 1.04617405,
+      "balance_loss_mlp": 1.01666594,
+      "epoch": 0.8240245295496904,
+      "flos": 21726351187200.0,
+      "grad_norm": 2.539309160039073,
+      "language_loss": 0.84084386,
+      "learning_rate": 3.160013925537537e-07,
+      "loss": 0.86274904,
+      "num_input_tokens_seen": 147990080,
+      "step": 6853,
+      "time_per_iteration": 2.562659740447998
+    },
+    {
+      "auxiliary_loss_clip": 0.01197317,
+      "auxiliary_loss_mlp": 0.01026624,
+      "balance_loss_clip": 1.0433023,
+      "balance_loss_mlp": 1.01919687,
+      "epoch": 0.8241447724403295,
+      "flos": 20009318279040.0,
+      "grad_norm": 1.980028039383439,
+      "language_loss": 0.75664598,
+      "learning_rate": 3.155812817521266e-07,
+      "loss": 0.77888536,
+      "num_input_tokens_seen": 148010455,
+      "step": 6854,
+      "time_per_iteration": 2.727858304977417
+    },
+    {
+      "auxiliary_loss_clip": 0.01191402,
+      "auxiliary_loss_mlp": 0.01029056,
+      "balance_loss_clip": 1.04854488,
+      "balance_loss_mlp": 1.02099752,
+      "epoch": 0.8242650153309685,
+      "flos": 22272983337600.0,
+      "grad_norm": 2.148909028694383,
+      "language_loss": 0.7793715,
+      "learning_rate": 3.151614264754787e-07,
+      "loss": 0.80157608,
+      "num_input_tokens_seen": 148028400,
+      "step": 6855,
+      "time_per_iteration": 2.649226188659668
+    },
+    {
+      "auxiliary_loss_clip": 0.01169103,
+      "auxiliary_loss_mlp": 0.0102798,
+      "balance_loss_clip": 1.04619956,
+      "balance_loss_mlp": 1.02005291,
+      "epoch": 0.8243852582216077,
+      "flos": 22309971367680.0,
+      "grad_norm": 2.443813375902508,
+      "language_loss": 0.79790807,
+      "learning_rate": 3.147418267875035e-07,
+      "loss": 0.81987888,
+      "num_input_tokens_seen": 148046530,
+      "step": 6856,
+      "time_per_iteration": 2.54933500289917
+    },
+    {
+      "auxiliary_loss_clip": 0.01205538,
+      "auxiliary_loss_mlp": 0.01378669,
+      "balance_loss_clip": 1.03685832,
+      "balance_loss_mlp": 1.0002079,
+      "epoch": 0.8245055011122467,
+      "flos": 24645421756800.0,
+      "grad_norm": 2.3826956315913286,
+      "language_loss": 0.65668476,
+      "learning_rate": 3.1432248275185315e-07,
+      "loss": 0.68252683,
+      "num_input_tokens_seen": 148067040,
+      "step": 6857,
+      "time_per_iteration": 2.7996926307678223
+    },
+    {
+      "auxiliary_loss_clip": 0.01174304,
+      "auxiliary_loss_mlp": 0.01022796,
+      "balance_loss_clip": 1.04623222,
+      "balance_loss_mlp": 1.01533914,
+      "epoch": 0.8246257440028858,
+      "flos": 17487275713920.0,
+      "grad_norm": 2.0402862992023127,
+      "language_loss": 0.77311176,
+      "learning_rate": 3.139033944321412e-07,
+      "loss": 0.79508269,
+      "num_input_tokens_seen": 148084400,
+      "step": 6858,
+      "time_per_iteration": 2.5857789516448975
+    },
+    {
+      "auxiliary_loss_clip": 0.01180849,
+      "auxiliary_loss_mlp": 0.01024647,
+      "balance_loss_clip": 1.04626131,
+      "balance_loss_mlp": 1.0170089,
+      "epoch": 0.824745986893525,
+      "flos": 25010130499200.0,
+      "grad_norm": 1.6854980339698884,
+      "language_loss": 0.78614062,
+      "learning_rate": 3.1348456189194507e-07,
+      "loss": 0.80819559,
+      "num_input_tokens_seen": 148104860,
+      "step": 6859,
+      "time_per_iteration": 2.6488406658172607
+    },
+    {
+      "auxiliary_loss_clip": 0.01180048,
+      "auxiliary_loss_mlp": 0.01019812,
+      "balance_loss_clip": 1.03841984,
+      "balance_loss_mlp": 1.01235533,
+      "epoch": 0.824866229784164,
+      "flos": 18772698798720.0,
+      "grad_norm": 1.6780405010793704,
+      "language_loss": 0.82845622,
+      "learning_rate": 3.1306598519479876e-07,
+      "loss": 0.85045481,
+      "num_input_tokens_seen": 148124680,
+      "step": 6860,
+      "time_per_iteration": 2.659665107727051
+    },
+    {
+      "auxiliary_loss_clip": 0.01182046,
+      "auxiliary_loss_mlp": 0.01027377,
+      "balance_loss_clip": 1.04423094,
+      "balance_loss_mlp": 1.02024555,
+      "epoch": 0.8249864726748031,
+      "flos": 23842171866240.0,
+      "grad_norm": 1.7307309108459399,
+      "language_loss": 0.78164345,
+      "learning_rate": 3.1264766440420177e-07,
+      "loss": 0.80373764,
+      "num_input_tokens_seen": 148147150,
+      "step": 6861,
+      "time_per_iteration": 2.804492235183716
+    },
+    {
+      "auxiliary_loss_clip": 0.01175126,
+      "auxiliary_loss_mlp": 0.01025805,
+      "balance_loss_clip": 1.04682887,
+      "balance_loss_mlp": 1.01887918,
+      "epoch": 0.8251067155654422,
+      "flos": 20303103617280.0,
+      "grad_norm": 3.2916627317110625,
+      "language_loss": 0.68670726,
+      "learning_rate": 3.122295995836124e-07,
+      "loss": 0.70871657,
+      "num_input_tokens_seen": 148167020,
+      "step": 6862,
+      "time_per_iteration": 2.617769956588745
+    },
+    {
+      "auxiliary_loss_clip": 0.01179157,
+      "auxiliary_loss_mlp": 0.01027182,
+      "balance_loss_clip": 1.04305959,
+      "balance_loss_mlp": 1.01951122,
+      "epoch": 0.8252269584560813,
+      "flos": 25009699536000.0,
+      "grad_norm": 2.02742754705961,
+      "language_loss": 0.77248549,
+      "learning_rate": 3.118117907964508e-07,
+      "loss": 0.79454899,
+      "num_input_tokens_seen": 148188965,
+      "step": 6863,
+      "time_per_iteration": 2.687734603881836
+    },
+    {
+      "auxiliary_loss_clip": 0.01199006,
+      "auxiliary_loss_mlp": 0.01022086,
+      "balance_loss_clip": 1.04216528,
+      "balance_loss_mlp": 1.01528525,
+      "epoch": 0.8253472013467203,
+      "flos": 17128564542720.0,
+      "grad_norm": 1.9985237902147104,
+      "language_loss": 0.80462933,
+      "learning_rate": 3.1139423810609856e-07,
+      "loss": 0.82684028,
+      "num_input_tokens_seen": 148205660,
+      "step": 6864,
+      "time_per_iteration": 2.6780688762664795
+    },
+    {
+      "auxiliary_loss_clip": 0.01168068,
+      "auxiliary_loss_mlp": 0.01023252,
+      "balance_loss_clip": 1.04568231,
+      "balance_loss_mlp": 1.01631761,
+      "epoch": 0.8254674442373595,
+      "flos": 22414794232320.0,
+      "grad_norm": 1.9604287208189846,
+      "language_loss": 0.74965405,
+      "learning_rate": 3.1097694157589714e-07,
+      "loss": 0.77156734,
+      "num_input_tokens_seen": 148225545,
+      "step": 6865,
+      "time_per_iteration": 2.6366288661956787
+    },
+    {
+      "auxiliary_loss_clip": 0.01172748,
+      "auxiliary_loss_mlp": 0.01022577,
+      "balance_loss_clip": 1.04536569,
+      "balance_loss_mlp": 1.01520991,
+      "epoch": 0.8255876871279986,
+      "flos": 24786765774720.0,
+      "grad_norm": 6.573915213335645,
+      "language_loss": 0.76189834,
+      "learning_rate": 3.105599012691511e-07,
+      "loss": 0.78385156,
+      "num_input_tokens_seen": 148243975,
+      "step": 6866,
+      "time_per_iteration": 2.59333872795105
+    },
+    {
+      "auxiliary_loss_clip": 0.0117301,
+      "auxiliary_loss_mlp": 0.01019116,
+      "balance_loss_clip": 1.04441404,
+      "balance_loss_mlp": 1.01209509,
+      "epoch": 0.8257079300186376,
+      "flos": 27455431656960.0,
+      "grad_norm": 1.4876219520013207,
+      "language_loss": 0.82357931,
+      "learning_rate": 3.101431172491249e-07,
+      "loss": 0.84550059,
+      "num_input_tokens_seen": 148265520,
+      "step": 6867,
+      "time_per_iteration": 3.5268776416778564
+    },
+    {
+      "auxiliary_loss_clip": 0.01194986,
+      "auxiliary_loss_mlp": 0.01378963,
+      "balance_loss_clip": 1.04060221,
+      "balance_loss_mlp": 1.00013447,
+      "epoch": 0.8258281729092768,
+      "flos": 16471866142080.0,
+      "grad_norm": 2.0619550415163346,
+      "language_loss": 0.71553922,
+      "learning_rate": 3.097265895790444e-07,
+      "loss": 0.74127877,
+      "num_input_tokens_seen": 148283730,
+      "step": 6868,
+      "time_per_iteration": 3.585637092590332
+    },
+    {
+      "auxiliary_loss_clip": 0.0119313,
+      "auxiliary_loss_mlp": 0.01027813,
+      "balance_loss_clip": 1.04341388,
+      "balance_loss_mlp": 1.02056789,
+      "epoch": 0.8259484157999158,
+      "flos": 21433822824960.0,
+      "grad_norm": 2.297688652447442,
+      "language_loss": 0.8323518,
+      "learning_rate": 3.093103183220962e-07,
+      "loss": 0.85456121,
+      "num_input_tokens_seen": 148303775,
+      "step": 6869,
+      "time_per_iteration": 2.6441543102264404
+    },
+    {
+      "auxiliary_loss_clip": 0.01074843,
+      "auxiliary_loss_mlp": 0.01001395,
+      "balance_loss_clip": 1.01002765,
+      "balance_loss_mlp": 1.00029278,
+      "epoch": 0.8260686586905549,
+      "flos": 58322342453760.0,
+      "grad_norm": 0.8225716634762177,
+      "language_loss": 0.59377176,
+      "learning_rate": 3.0889430354142796e-07,
+      "loss": 0.61453414,
+      "num_input_tokens_seen": 148365285,
+      "step": 6870,
+      "time_per_iteration": 3.1616368293762207
+    },
+    {
+      "auxiliary_loss_clip": 0.0119553,
+      "auxiliary_loss_mlp": 0.0102248,
+      "balance_loss_clip": 1.04000616,
+      "balance_loss_mlp": 1.01539934,
+      "epoch": 0.826188901581194,
+      "flos": 27527288814720.0,
+      "grad_norm": 2.0873796887568656,
+      "language_loss": 0.69968671,
+      "learning_rate": 3.084785453001497e-07,
+      "loss": 0.72186685,
+      "num_input_tokens_seen": 148386200,
+      "step": 6871,
+      "time_per_iteration": 3.6963188648223877
+    },
+    {
+      "auxiliary_loss_clip": 0.01188384,
+      "auxiliary_loss_mlp": 0.01378685,
+      "balance_loss_clip": 1.04834378,
+      "balance_loss_mlp": 1.0001967,
+      "epoch": 0.8263091444718331,
+      "flos": 23696051339520.0,
+      "grad_norm": 2.0987153215769396,
+      "language_loss": 0.81813705,
+      "learning_rate": 3.080630436613314e-07,
+      "loss": 0.8438077,
+      "num_input_tokens_seen": 148403970,
+      "step": 6872,
+      "time_per_iteration": 2.6352624893188477
+    },
+    {
+      "auxiliary_loss_clip": 0.01164238,
+      "auxiliary_loss_mlp": 0.01021291,
+      "balance_loss_clip": 1.04230654,
+      "balance_loss_mlp": 1.01436758,
+      "epoch": 0.8264293873624722,
+      "flos": 17165157523200.0,
+      "grad_norm": 1.9893736326093892,
+      "language_loss": 0.85717529,
+      "learning_rate": 3.076477986880039e-07,
+      "loss": 0.87903059,
+      "num_input_tokens_seen": 148421765,
+      "step": 6873,
+      "time_per_iteration": 3.4868412017822266
+    },
+    {
+      "auxiliary_loss_clip": 0.01186283,
+      "auxiliary_loss_mlp": 0.01028374,
+      "balance_loss_clip": 1.04566669,
+      "balance_loss_mlp": 1.02066088,
+      "epoch": 0.8265496302531112,
+      "flos": 24098645952000.0,
+      "grad_norm": 2.221685859161567,
+      "language_loss": 0.69536126,
+      "learning_rate": 3.0723281044315986e-07,
+      "loss": 0.71750778,
+      "num_input_tokens_seen": 148443720,
+      "step": 6874,
+      "time_per_iteration": 2.628588914871216
+    },
+    {
+      "auxiliary_loss_clip": 0.01163224,
+      "auxiliary_loss_mlp": 0.01020044,
+      "balance_loss_clip": 1.04434252,
+      "balance_loss_mlp": 1.01358235,
+      "epoch": 0.8266698731437504,
+      "flos": 14099894599680.0,
+      "grad_norm": 2.171033904147911,
+      "language_loss": 0.7641539,
+      "learning_rate": 3.068180789897521e-07,
+      "loss": 0.78598654,
+      "num_input_tokens_seen": 148462130,
+      "step": 6875,
+      "time_per_iteration": 2.5293545722961426
+    },
+    {
+      "auxiliary_loss_clip": 0.0117889,
+      "auxiliary_loss_mlp": 0.01022678,
+      "balance_loss_clip": 1.04464984,
+      "balance_loss_mlp": 1.01545727,
+      "epoch": 0.8267901160343895,
+      "flos": 30777563715840.0,
+      "grad_norm": 1.4248993276690562,
+      "language_loss": 0.81495863,
+      "learning_rate": 3.064036043906966e-07,
+      "loss": 0.83697432,
+      "num_input_tokens_seen": 148485570,
+      "step": 6876,
+      "time_per_iteration": 2.717259168624878
+    },
+    {
+      "auxiliary_loss_clip": 0.01198431,
+      "auxiliary_loss_mlp": 0.01030171,
+      "balance_loss_clip": 1.04127276,
+      "balance_loss_mlp": 1.02224326,
+      "epoch": 0.8269103589250285,
+      "flos": 40624915242240.0,
+      "grad_norm": 2.2299543382624547,
+      "language_loss": 0.6807729,
+      "learning_rate": 3.059893867088668e-07,
+      "loss": 0.7030589,
+      "num_input_tokens_seen": 148509715,
+      "step": 6877,
+      "time_per_iteration": 2.8231875896453857
+    },
+    {
+      "auxiliary_loss_clip": 0.01174594,
+      "auxiliary_loss_mlp": 0.0102286,
+      "balance_loss_clip": 1.04571652,
+      "balance_loss_mlp": 1.01530194,
+      "epoch": 0.8270306018156677,
+      "flos": 30263645877120.0,
+      "grad_norm": 1.9863622464100361,
+      "language_loss": 0.66931945,
+      "learning_rate": 3.055754260071004e-07,
+      "loss": 0.69129395,
+      "num_input_tokens_seen": 148532010,
+      "step": 6878,
+      "time_per_iteration": 2.676929473876953
+    },
+    {
+      "auxiliary_loss_clip": 0.01177318,
+      "auxiliary_loss_mlp": 0.01026682,
+      "balance_loss_clip": 1.04557025,
+      "balance_loss_mlp": 1.01971769,
+      "epoch": 0.8271508447063067,
+      "flos": 25226599812480.0,
+      "grad_norm": 3.990933754117971,
+      "language_loss": 0.73590887,
+      "learning_rate": 3.051617223481948e-07,
+      "loss": 0.75794888,
+      "num_input_tokens_seen": 148553330,
+      "step": 6879,
+      "time_per_iteration": 2.6198081970214844
+    },
+    {
+      "auxiliary_loss_clip": 0.01203703,
+      "auxiliary_loss_mlp": 0.01028706,
+      "balance_loss_clip": 1.04308391,
+      "balance_loss_mlp": 1.02098083,
+      "epoch": 0.8272710875969458,
+      "flos": 17566602900480.0,
+      "grad_norm": 2.059877419558502,
+      "language_loss": 0.75097513,
+      "learning_rate": 3.047482757949078e-07,
+      "loss": 0.77329928,
+      "num_input_tokens_seen": 148570960,
+      "step": 6880,
+      "time_per_iteration": 2.6559531688690186
+    },
+    {
+      "auxiliary_loss_clip": 0.01191096,
+      "auxiliary_loss_mlp": 0.01378239,
+      "balance_loss_clip": 1.04201531,
+      "balance_loss_mlp": 1.00019252,
+      "epoch": 0.827391330487585,
+      "flos": 19755465886080.0,
+      "grad_norm": 1.869827403505638,
+      "language_loss": 0.85788113,
+      "learning_rate": 3.043350864099605e-07,
+      "loss": 0.88357449,
+      "num_input_tokens_seen": 148589520,
+      "step": 6881,
+      "time_per_iteration": 2.6387150287628174
+    },
+    {
+      "auxiliary_loss_clip": 0.01177965,
+      "auxiliary_loss_mlp": 0.0102594,
+      "balance_loss_clip": 1.04458499,
+      "balance_loss_mlp": 1.01890326,
+      "epoch": 0.827511573378224,
+      "flos": 16835174254080.0,
+      "grad_norm": 2.2065371541973353,
+      "language_loss": 0.80711174,
+      "learning_rate": 3.039221542560315e-07,
+      "loss": 0.8291508,
+      "num_input_tokens_seen": 148606085,
+      "step": 6882,
+      "time_per_iteration": 2.616635322570801
+    },
+    {
+      "auxiliary_loss_clip": 0.01175992,
+      "auxiliary_loss_mlp": 0.01028795,
+      "balance_loss_clip": 1.04577684,
+      "balance_loss_mlp": 1.02144265,
+      "epoch": 0.8276318162688631,
+      "flos": 18369242259840.0,
+      "grad_norm": 2.4326930401326026,
+      "language_loss": 0.7415213,
+      "learning_rate": 3.0350947939576356e-07,
+      "loss": 0.76356912,
+      "num_input_tokens_seen": 148625240,
+      "step": 6883,
+      "time_per_iteration": 2.636768341064453
+    },
+    {
+      "auxiliary_loss_clip": 0.01181879,
+      "auxiliary_loss_mlp": 0.01026488,
+      "balance_loss_clip": 1.046206,
+      "balance_loss_mlp": 1.01907277,
+      "epoch": 0.8277520591595022,
+      "flos": 19352691705600.0,
+      "grad_norm": 1.6735190109618676,
+      "language_loss": 0.72023982,
+      "learning_rate": 3.0309706189175876e-07,
+      "loss": 0.74232352,
+      "num_input_tokens_seen": 148645075,
+      "step": 6884,
+      "time_per_iteration": 2.636002540588379
+    },
+    {
+      "auxiliary_loss_clip": 0.0108681,
+      "auxiliary_loss_mlp": 0.01003184,
+      "balance_loss_clip": 1.00992346,
+      "balance_loss_mlp": 1.0021708,
+      "epoch": 0.8278723020501413,
+      "flos": 67918858329600.0,
+      "grad_norm": 0.7749153162803333,
+      "language_loss": 0.574202,
+      "learning_rate": 3.0268490180658045e-07,
+      "loss": 0.59510195,
+      "num_input_tokens_seen": 148707855,
+      "step": 6885,
+      "time_per_iteration": 3.211604118347168
+    },
+    {
+      "auxiliary_loss_clip": 0.01171166,
+      "auxiliary_loss_mlp": 0.01024949,
+      "balance_loss_clip": 1.04908824,
+      "balance_loss_mlp": 1.01737928,
+      "epoch": 0.8279925449407803,
+      "flos": 18185738653440.0,
+      "grad_norm": 2.146882675967367,
+      "language_loss": 0.7915715,
+      "learning_rate": 3.0227299920275305e-07,
+      "loss": 0.81353265,
+      "num_input_tokens_seen": 148724170,
+      "step": 6886,
+      "time_per_iteration": 2.579195737838745
+    },
+    {
+      "auxiliary_loss_clip": 0.01201009,
+      "auxiliary_loss_mlp": 0.01025877,
+      "balance_loss_clip": 1.04588354,
+      "balance_loss_mlp": 1.01773489,
+      "epoch": 0.8281127878314195,
+      "flos": 20631434860800.0,
+      "grad_norm": 2.485592463509054,
+      "language_loss": 0.85565448,
+      "learning_rate": 3.018613541427613e-07,
+      "loss": 0.87792325,
+      "num_input_tokens_seen": 148743690,
+      "step": 6887,
+      "time_per_iteration": 2.6960692405700684
+    },
+    {
+      "auxiliary_loss_clip": 0.01166099,
+      "auxiliary_loss_mlp": 0.01027834,
+      "balance_loss_clip": 1.04460025,
+      "balance_loss_mlp": 1.02075315,
+      "epoch": 0.8282330307220586,
+      "flos": 18004282122240.0,
+      "grad_norm": 1.6152483072945694,
+      "language_loss": 0.73451054,
+      "learning_rate": 3.0144996668905243e-07,
+      "loss": 0.75644994,
+      "num_input_tokens_seen": 148761070,
+      "step": 6888,
+      "time_per_iteration": 2.6534008979797363
+    },
+    {
+      "auxiliary_loss_clip": 0.01210648,
+      "auxiliary_loss_mlp": 0.01378733,
+      "balance_loss_clip": 1.03777802,
+      "balance_loss_mlp": 1.00020266,
+      "epoch": 0.8283532736126976,
+      "flos": 20084120352000.0,
+      "grad_norm": 1.8850587926143185,
+      "language_loss": 0.82475424,
+      "learning_rate": 3.010388369040331e-07,
+      "loss": 0.85064805,
+      "num_input_tokens_seen": 148779730,
+      "step": 6889,
+      "time_per_iteration": 2.7285306453704834
+    },
+    {
+      "auxiliary_loss_clip": 0.01178949,
+      "auxiliary_loss_mlp": 0.01027155,
+      "balance_loss_clip": 1.04746735,
+      "balance_loss_mlp": 1.01982951,
+      "epoch": 0.8284735165033368,
+      "flos": 31868421805440.0,
+      "grad_norm": 1.665385625881463,
+      "language_loss": 0.83032316,
+      "learning_rate": 3.0062796485007156e-07,
+      "loss": 0.85238421,
+      "num_input_tokens_seen": 148800670,
+      "step": 6890,
+      "time_per_iteration": 2.7322092056274414
+    },
+    {
+      "auxiliary_loss_clip": 0.01168026,
+      "auxiliary_loss_mlp": 0.01378927,
+      "balance_loss_clip": 1.04568696,
+      "balance_loss_mlp": 1.00019884,
+      "epoch": 0.8285937593939758,
+      "flos": 26651319840000.0,
+      "grad_norm": 2.3779970494854625,
+      "language_loss": 0.65590066,
+      "learning_rate": 3.002173505894965e-07,
+      "loss": 0.68137014,
+      "num_input_tokens_seen": 148819820,
+      "step": 6891,
+      "time_per_iteration": 2.622018337249756
+    },
+    {
+      "auxiliary_loss_clip": 0.01178822,
+      "auxiliary_loss_mlp": 0.01028726,
+      "balance_loss_clip": 1.04424787,
+      "balance_loss_mlp": 1.02056658,
+      "epoch": 0.8287140022846149,
+      "flos": 20193683811840.0,
+      "grad_norm": 2.9148508421697414,
+      "language_loss": 0.62712812,
+      "learning_rate": 2.998069941845973e-07,
+      "loss": 0.6492036,
+      "num_input_tokens_seen": 148838890,
+      "step": 6892,
+      "time_per_iteration": 3.5314855575561523
+    },
+    {
+      "auxiliary_loss_clip": 0.01060801,
+      "auxiliary_loss_mlp": 0.01002905,
+      "balance_loss_clip": 1.00942934,
+      "balance_loss_mlp": 1.00183773,
+      "epoch": 0.8288342451752541,
+      "flos": 70755980019840.0,
+      "grad_norm": 0.7061893796176267,
+      "language_loss": 0.57438266,
+      "learning_rate": 2.993968956976258e-07,
+      "loss": 0.5950197,
+      "num_input_tokens_seen": 148906635,
+      "step": 6893,
+      "time_per_iteration": 3.2609429359436035
+    },
+    {
+      "auxiliary_loss_clip": 0.01174282,
+      "auxiliary_loss_mlp": 0.01028164,
+      "balance_loss_clip": 1.04833913,
+      "balance_loss_mlp": 1.0200932,
+      "epoch": 0.8289544880658931,
+      "flos": 24572235795840.0,
+      "grad_norm": 4.488401555038412,
+      "language_loss": 0.70076096,
+      "learning_rate": 2.9898705519079313e-07,
+      "loss": 0.72278535,
+      "num_input_tokens_seen": 148925740,
+      "step": 6894,
+      "time_per_iteration": 3.5120251178741455
+    },
+    {
+      "auxiliary_loss_clip": 0.01178362,
+      "auxiliary_loss_mlp": 0.01024047,
+      "balance_loss_clip": 1.04308939,
+      "balance_loss_mlp": 1.01671851,
+      "epoch": 0.8290747309565322,
+      "flos": 22273378387200.0,
+      "grad_norm": 1.665227310638405,
+      "language_loss": 0.74652553,
+      "learning_rate": 2.985774727262715e-07,
+      "loss": 0.76854962,
+      "num_input_tokens_seen": 148944585,
+      "step": 6895,
+      "time_per_iteration": 2.6334421634674072
+    },
+    {
+      "auxiliary_loss_clip": 0.01166323,
+      "auxiliary_loss_mlp": 0.01025662,
+      "balance_loss_clip": 1.04552794,
+      "balance_loss_mlp": 1.01869178,
+      "epoch": 0.8291949738471713,
+      "flos": 23255570856960.0,
+      "grad_norm": 1.646394548842829,
+      "language_loss": 0.81449842,
+      "learning_rate": 2.981681483661949e-07,
+      "loss": 0.83641827,
+      "num_input_tokens_seen": 148964170,
+      "step": 6896,
+      "time_per_iteration": 2.5668222904205322
+    },
+    {
+      "auxiliary_loss_clip": 0.01182881,
+      "auxiliary_loss_mlp": 0.01023252,
+      "balance_loss_clip": 1.05015409,
+      "balance_loss_mlp": 1.01568222,
+      "epoch": 0.8293152167378104,
+      "flos": 52555768185600.0,
+      "grad_norm": 1.5721382283084278,
+      "language_loss": 0.7097851,
+      "learning_rate": 2.9775908217265633e-07,
+      "loss": 0.73184639,
+      "num_input_tokens_seen": 148989405,
+      "step": 6897,
+      "time_per_iteration": 3.745338201522827
+    },
+    {
+      "auxiliary_loss_clip": 0.01122253,
+      "auxiliary_loss_mlp": 0.01001086,
+      "balance_loss_clip": 1.0093987,
+      "balance_loss_mlp": 0.99988824,
+      "epoch": 0.8294354596284494,
+      "flos": 63356156294400.0,
+      "grad_norm": 0.8542182553235683,
+      "language_loss": 0.5041697,
+      "learning_rate": 2.9735027420771253e-07,
+      "loss": 0.52540308,
+      "num_input_tokens_seen": 149049740,
+      "step": 6898,
+      "time_per_iteration": 3.3843648433685303
+    },
+    {
+      "auxiliary_loss_clip": 0.01183021,
+      "auxiliary_loss_mlp": 0.01022134,
+      "balance_loss_clip": 1.04868591,
+      "balance_loss_mlp": 1.01540422,
+      "epoch": 0.8295557025190886,
+      "flos": 24827021942400.0,
+      "grad_norm": 1.8671913769681294,
+      "language_loss": 0.71548712,
+      "learning_rate": 2.969417245333774e-07,
+      "loss": 0.73753858,
+      "num_input_tokens_seen": 149069120,
+      "step": 6899,
+      "time_per_iteration": 4.178526163101196
+    },
+    {
+      "auxiliary_loss_clip": 0.01189574,
+      "auxiliary_loss_mlp": 0.01021095,
+      "balance_loss_clip": 1.04370165,
+      "balance_loss_mlp": 1.01408851,
+      "epoch": 0.8296759454097277,
+      "flos": 25118580637440.0,
+      "grad_norm": 3.2085127581738724,
+      "language_loss": 0.78339672,
+      "learning_rate": 2.9653343321162915e-07,
+      "loss": 0.80550343,
+      "num_input_tokens_seen": 149088630,
+      "step": 6900,
+      "time_per_iteration": 2.691709041595459
+    },
+    {
+      "auxiliary_loss_clip": 0.01195264,
+      "auxiliary_loss_mlp": 0.01024225,
+      "balance_loss_clip": 1.04490435,
+      "balance_loss_mlp": 1.01611853,
+      "epoch": 0.8297961883003667,
+      "flos": 24132581326080.0,
+      "grad_norm": 1.962970047190695,
+      "language_loss": 0.64980531,
+      "learning_rate": 2.9612540030440446e-07,
+      "loss": 0.67200017,
+      "num_input_tokens_seen": 149109175,
+      "step": 6901,
+      "time_per_iteration": 2.7056055068969727
+    },
+    {
+      "auxiliary_loss_clip": 0.01086577,
+      "auxiliary_loss_mlp": 0.01000702,
+      "balance_loss_clip": 1.00934124,
+      "balance_loss_mlp": 0.99965906,
+      "epoch": 0.8299164311910058,
+      "flos": 67446561375360.0,
+      "grad_norm": 0.8671253988904755,
+      "language_loss": 0.64080286,
+      "learning_rate": 2.9571762587360206e-07,
+      "loss": 0.66167563,
+      "num_input_tokens_seen": 149165560,
+      "step": 6902,
+      "time_per_iteration": 3.133528470993042
+    },
+    {
+      "auxiliary_loss_clip": 0.01195597,
+      "auxiliary_loss_mlp": 0.01026237,
+      "balance_loss_clip": 1.03604984,
+      "balance_loss_mlp": 1.0188694,
+      "epoch": 0.8300366740816449,
+      "flos": 25228682801280.0,
+      "grad_norm": 1.6604532657425135,
+      "language_loss": 0.73935705,
+      "learning_rate": 2.953101099810806e-07,
+      "loss": 0.76157546,
+      "num_input_tokens_seen": 149185165,
+      "step": 6903,
+      "time_per_iteration": 2.7080941200256348
+    },
+    {
+      "auxiliary_loss_clip": 0.01171231,
+      "auxiliary_loss_mlp": 0.01021991,
+      "balance_loss_clip": 1.04622614,
+      "balance_loss_mlp": 1.01473403,
+      "epoch": 0.830156916972284,
+      "flos": 18041018757120.0,
+      "grad_norm": 2.053573435014479,
+      "language_loss": 0.82728809,
+      "learning_rate": 2.9490285268865965e-07,
+      "loss": 0.84922028,
+      "num_input_tokens_seen": 149202655,
+      "step": 6904,
+      "time_per_iteration": 2.6784980297088623
+    },
+    {
+      "auxiliary_loss_clip": 0.011837,
+      "auxiliary_loss_mlp": 0.01024707,
+      "balance_loss_clip": 1.04897082,
+      "balance_loss_mlp": 1.01667845,
+      "epoch": 0.830277159862923,
+      "flos": 26322485806080.0,
+      "grad_norm": 2.339964613138459,
+      "language_loss": 0.7954824,
+      "learning_rate": 2.9449585405812085e-07,
+      "loss": 0.81756651,
+      "num_input_tokens_seen": 149220035,
+      "step": 6905,
+      "time_per_iteration": 2.587489128112793
+    },
+    {
+      "auxiliary_loss_clip": 0.01200067,
+      "auxiliary_loss_mlp": 0.01026092,
+      "balance_loss_clip": 1.04489994,
+      "balance_loss_mlp": 1.01862359,
+      "epoch": 0.8303974027535622,
+      "flos": 19938861751680.0,
+      "grad_norm": 1.9000166248093133,
+      "language_loss": 0.73895699,
+      "learning_rate": 2.940891141512043e-07,
+      "loss": 0.76121855,
+      "num_input_tokens_seen": 149238055,
+      "step": 6906,
+      "time_per_iteration": 2.6284894943237305
+    },
+    {
+      "auxiliary_loss_clip": 0.01182614,
+      "auxiliary_loss_mlp": 0.01026424,
+      "balance_loss_clip": 1.04277408,
+      "balance_loss_mlp": 1.01893759,
+      "epoch": 0.8305176456442013,
+      "flos": 17165552572800.0,
+      "grad_norm": 2.082016004276685,
+      "language_loss": 0.72049117,
+      "learning_rate": 2.9368263302961385e-07,
+      "loss": 0.74258143,
+      "num_input_tokens_seen": 149256755,
+      "step": 6907,
+      "time_per_iteration": 2.586228370666504
+    },
+    {
+      "auxiliary_loss_clip": 0.01208241,
+      "auxiliary_loss_mlp": 0.01027678,
+      "balance_loss_clip": 1.03718591,
+      "balance_loss_mlp": 1.02050757,
+      "epoch": 0.8306378885348403,
+      "flos": 25627614226560.0,
+      "grad_norm": 1.7103817384316966,
+      "language_loss": 0.79866982,
+      "learning_rate": 2.9327641075501075e-07,
+      "loss": 0.82102901,
+      "num_input_tokens_seen": 149275745,
+      "step": 6908,
+      "time_per_iteration": 2.7999424934387207
+    },
+    {
+      "auxiliary_loss_clip": 0.01174362,
+      "auxiliary_loss_mlp": 0.01027243,
+      "balance_loss_clip": 1.04032052,
+      "balance_loss_mlp": 1.01931512,
+      "epoch": 0.8307581314254795,
+      "flos": 33947864985600.0,
+      "grad_norm": 2.325125728898319,
+      "language_loss": 0.66747761,
+      "learning_rate": 2.9287044738901866e-07,
+      "loss": 0.68949366,
+      "num_input_tokens_seen": 149293730,
+      "step": 6909,
+      "time_per_iteration": 2.7434558868408203
+    },
+    {
+      "auxiliary_loss_clip": 0.0117916,
+      "auxiliary_loss_mlp": 0.01378667,
+      "balance_loss_clip": 1.04614592,
+      "balance_loss_mlp": 1.0001936,
+      "epoch": 0.8308783743161186,
+      "flos": 17562724231680.0,
+      "grad_norm": 2.9768974665843477,
+      "language_loss": 0.90834129,
+      "learning_rate": 2.9246474299322274e-07,
+      "loss": 0.93391955,
+      "num_input_tokens_seen": 149309290,
+      "step": 6910,
+      "time_per_iteration": 2.6441333293914795
+    },
+    {
+      "auxiliary_loss_clip": 0.0109716,
+      "auxiliary_loss_mlp": 0.01003542,
+      "balance_loss_clip": 1.01009357,
+      "balance_loss_mlp": 1.00238609,
+      "epoch": 0.8309986172067576,
+      "flos": 69412885649280.0,
+      "grad_norm": 0.8882694239954934,
+      "language_loss": 0.63216597,
+      "learning_rate": 2.920592976291678e-07,
+      "loss": 0.65317297,
+      "num_input_tokens_seen": 149366620,
+      "step": 6911,
+      "time_per_iteration": 3.18229079246521
+    },
+    {
+      "auxiliary_loss_clip": 0.01173989,
+      "auxiliary_loss_mlp": 0.01025921,
+      "balance_loss_clip": 1.04591537,
+      "balance_loss_mlp": 1.01853275,
+      "epoch": 0.8311188600973968,
+      "flos": 22309755886080.0,
+      "grad_norm": 1.8658193903517848,
+      "language_loss": 0.80568045,
+      "learning_rate": 2.916541113583595e-07,
+      "loss": 0.82767951,
+      "num_input_tokens_seen": 149385120,
+      "step": 6912,
+      "time_per_iteration": 2.60840106010437
+    },
+    {
+      "auxiliary_loss_clip": 0.01202023,
+      "auxiliary_loss_mlp": 0.01022809,
+      "balance_loss_clip": 1.04623079,
+      "balance_loss_mlp": 1.01565063,
+      "epoch": 0.8312391029880358,
+      "flos": 18770077105920.0,
+      "grad_norm": 2.6049761612753644,
+      "language_loss": 0.6614269,
+      "learning_rate": 2.912491842422642e-07,
+      "loss": 0.68367517,
+      "num_input_tokens_seen": 149402825,
+      "step": 6913,
+      "time_per_iteration": 2.6721935272216797
+    },
+    {
+      "auxiliary_loss_clip": 0.01177136,
+      "auxiliary_loss_mlp": 0.01024203,
+      "balance_loss_clip": 1.04646122,
+      "balance_loss_mlp": 1.01748586,
+      "epoch": 0.8313593458786749,
+      "flos": 20376648714240.0,
+      "grad_norm": 1.6320299300842072,
+      "language_loss": 0.71043628,
+      "learning_rate": 2.9084451634230857e-07,
+      "loss": 0.73244965,
+      "num_input_tokens_seen": 149422125,
+      "step": 6914,
+      "time_per_iteration": 2.6295714378356934
+    },
+    {
+      "auxiliary_loss_clip": 0.01191533,
+      "auxiliary_loss_mlp": 0.01023917,
+      "balance_loss_clip": 1.04265344,
+      "balance_loss_mlp": 1.01617122,
+      "epoch": 0.831479588769314,
+      "flos": 32124069878400.0,
+      "grad_norm": 3.7209750276400744,
+      "language_loss": 0.71331704,
+      "learning_rate": 2.9044010771988125e-07,
+      "loss": 0.73547155,
+      "num_input_tokens_seen": 149441940,
+      "step": 6915,
+      "time_per_iteration": 2.910135507583618
+    },
+    {
+      "auxiliary_loss_clip": 0.01175727,
+      "auxiliary_loss_mlp": 0.01027081,
+      "balance_loss_clip": 1.04221463,
+      "balance_loss_mlp": 1.01945758,
+      "epoch": 0.8315998316599531,
+      "flos": 45185929338240.0,
+      "grad_norm": 1.7373500314275234,
+      "language_loss": 0.71829396,
+      "learning_rate": 2.900359584363303e-07,
+      "loss": 0.74032199,
+      "num_input_tokens_seen": 149465045,
+      "step": 6916,
+      "time_per_iteration": 2.81333065032959
+    },
+    {
+      "auxiliary_loss_clip": 0.01200741,
+      "auxiliary_loss_mlp": 0.01034379,
+      "balance_loss_clip": 1.0449208,
+      "balance_loss_mlp": 1.02649379,
+      "epoch": 0.8317200745505922,
+      "flos": 18363747479040.0,
+      "grad_norm": 2.6438972378565344,
+      "language_loss": 0.8437103,
+      "learning_rate": 2.8963206855296494e-07,
+      "loss": 0.86606157,
+      "num_input_tokens_seen": 149481285,
+      "step": 6917,
+      "time_per_iteration": 2.701179265975952
+    },
+    {
+      "auxiliary_loss_clip": 0.01178918,
+      "auxiliary_loss_mlp": 0.01023054,
+      "balance_loss_clip": 1.0455029,
+      "balance_loss_mlp": 1.01595187,
+      "epoch": 0.8318403174412313,
+      "flos": 24206557386240.0,
+      "grad_norm": 1.7516744923082073,
+      "language_loss": 0.7677753,
+      "learning_rate": 2.892284381310548e-07,
+      "loss": 0.78979498,
+      "num_input_tokens_seen": 149502700,
+      "step": 6918,
+      "time_per_iteration": 3.5262908935546875
+    },
+    {
+      "auxiliary_loss_clip": 0.01181085,
+      "auxiliary_loss_mlp": 0.01019554,
+      "balance_loss_clip": 1.04310739,
+      "balance_loss_mlp": 1.01187706,
+      "epoch": 0.8319605603318704,
+      "flos": 22418780641920.0,
+      "grad_norm": 3.598014432396304,
+      "language_loss": 0.72304595,
+      "learning_rate": 2.888250672318302e-07,
+      "loss": 0.74505234,
+      "num_input_tokens_seen": 149520100,
+      "step": 6919,
+      "time_per_iteration": 3.5482192039489746
+    },
+    {
+      "auxiliary_loss_clip": 0.01169248,
+      "auxiliary_loss_mlp": 0.01028934,
+      "balance_loss_clip": 1.04819012,
+      "balance_loss_mlp": 1.02099419,
+      "epoch": 0.8320808032225094,
+      "flos": 37414501459200.0,
+      "grad_norm": 1.7197235509215016,
+      "language_loss": 0.68553543,
+      "learning_rate": 2.884219559164831e-07,
+      "loss": 0.70751721,
+      "num_input_tokens_seen": 149543245,
+      "step": 6920,
+      "time_per_iteration": 2.6813721656799316
+    },
+    {
+      "auxiliary_loss_clip": 0.01176092,
+      "auxiliary_loss_mlp": 0.01025483,
+      "balance_loss_clip": 1.04600286,
+      "balance_loss_mlp": 1.01789188,
+      "epoch": 0.8322010461131486,
+      "flos": 12787395638400.0,
+      "grad_norm": 2.699605975305065,
+      "language_loss": 0.81376749,
+      "learning_rate": 2.880191042461635e-07,
+      "loss": 0.83578324,
+      "num_input_tokens_seen": 149559185,
+      "step": 6921,
+      "time_per_iteration": 2.7025792598724365
+    },
+    {
+      "auxiliary_loss_clip": 0.01208592,
+      "auxiliary_loss_mlp": 0.01023843,
+      "balance_loss_clip": 1.04134595,
+      "balance_loss_mlp": 1.01696455,
+      "epoch": 0.8323212890037877,
+      "flos": 15815455050240.0,
+      "grad_norm": 1.7641058143551054,
+      "language_loss": 0.80547482,
+      "learning_rate": 2.876165122819849e-07,
+      "loss": 0.82779914,
+      "num_input_tokens_seen": 149577165,
+      "step": 6922,
+      "time_per_iteration": 2.8098697662353516
+    },
+    {
+      "auxiliary_loss_clip": 0.01168295,
+      "auxiliary_loss_mlp": 0.01023918,
+      "balance_loss_clip": 1.04878104,
+      "balance_loss_mlp": 1.01650012,
+      "epoch": 0.8324415318944267,
+      "flos": 21719276208000.0,
+      "grad_norm": 1.7484702794609057,
+      "language_loss": 0.79294133,
+      "learning_rate": 2.872141800850201e-07,
+      "loss": 0.81486344,
+      "num_input_tokens_seen": 149594340,
+      "step": 6923,
+      "time_per_iteration": 3.4586594104766846
+    },
+    {
+      "auxiliary_loss_clip": 0.01168202,
+      "auxiliary_loss_mlp": 0.01024549,
+      "balance_loss_clip": 1.04741907,
+      "balance_loss_mlp": 1.01662731,
+      "epoch": 0.8325617747850659,
+      "flos": 34198700636160.0,
+      "grad_norm": 1.9188281940012035,
+      "language_loss": 0.73473376,
+      "learning_rate": 2.868121077163024e-07,
+      "loss": 0.7566613,
+      "num_input_tokens_seen": 149613895,
+      "step": 6924,
+      "time_per_iteration": 2.7562918663024902
+    },
+    {
+      "auxiliary_loss_clip": 0.01177707,
+      "auxiliary_loss_mlp": 0.01022498,
+      "balance_loss_clip": 1.04434872,
+      "balance_loss_mlp": 1.01491642,
+      "epoch": 0.8326820176757049,
+      "flos": 18369457741440.0,
+      "grad_norm": 1.9966778690574103,
+      "language_loss": 0.72695768,
+      "learning_rate": 2.864102952368257e-07,
+      "loss": 0.74895978,
+      "num_input_tokens_seen": 149631820,
+      "step": 6925,
+      "time_per_iteration": 3.5453805923461914
+    },
+    {
+      "auxiliary_loss_clip": 0.01188214,
+      "auxiliary_loss_mlp": 0.01025892,
+      "balance_loss_clip": 1.03720784,
+      "balance_loss_mlp": 1.01817632,
+      "epoch": 0.832802260566344,
+      "flos": 35991325716480.0,
+      "grad_norm": 1.242888384609189,
+      "language_loss": 0.59206218,
+      "learning_rate": 2.860087427075444e-07,
+      "loss": 0.61420321,
+      "num_input_tokens_seen": 149656070,
+      "step": 6926,
+      "time_per_iteration": 2.8745954036712646
+    },
+    {
+      "auxiliary_loss_clip": 0.01179622,
+      "auxiliary_loss_mlp": 0.01027789,
+      "balance_loss_clip": 1.04466796,
+      "balance_loss_mlp": 1.02070498,
+      "epoch": 0.8329225034569832,
+      "flos": 14244434928000.0,
+      "grad_norm": 3.392930872311364,
+      "language_loss": 0.86458695,
+      "learning_rate": 2.856074501893744e-07,
+      "loss": 0.88666105,
+      "num_input_tokens_seen": 149671270,
+      "step": 6927,
+      "time_per_iteration": 2.703157663345337
+    },
+    {
+      "auxiliary_loss_clip": 0.01180241,
+      "auxiliary_loss_mlp": 0.01026343,
+      "balance_loss_clip": 1.0474509,
+      "balance_loss_mlp": 1.01904702,
+      "epoch": 0.8330427463476222,
+      "flos": 18077468083200.0,
+      "grad_norm": 1.6891502401705625,
+      "language_loss": 0.81495512,
+      "learning_rate": 2.8520641774319054e-07,
+      "loss": 0.83702099,
+      "num_input_tokens_seen": 149689360,
+      "step": 6928,
+      "time_per_iteration": 2.5668718814849854
+    },
+    {
+      "auxiliary_loss_clip": 0.01186207,
+      "auxiliary_loss_mlp": 0.01021828,
+      "balance_loss_clip": 1.04209399,
+      "balance_loss_mlp": 1.0138377,
+      "epoch": 0.8331629892382613,
+      "flos": 18040839189120.0,
+      "grad_norm": 2.6161127026247297,
+      "language_loss": 0.75957161,
+      "learning_rate": 2.848056454298309e-07,
+      "loss": 0.78165197,
+      "num_input_tokens_seen": 149706685,
+      "step": 6929,
+      "time_per_iteration": 2.6248111724853516
+    },
+    {
+      "auxiliary_loss_clip": 0.011853,
+      "auxiliary_loss_mlp": 0.01022682,
+      "balance_loss_clip": 1.04534483,
+      "balance_loss_mlp": 1.01528561,
+      "epoch": 0.8332832321289004,
+      "flos": 17457398576640.0,
+      "grad_norm": 2.728468348929177,
+      "language_loss": 0.65264511,
+      "learning_rate": 2.844051333100905e-07,
+      "loss": 0.67472494,
+      "num_input_tokens_seen": 149724230,
+      "step": 6930,
+      "time_per_iteration": 2.6229724884033203
+    },
+    {
+      "auxiliary_loss_clip": 0.0118836,
+      "auxiliary_loss_mlp": 0.01021644,
+      "balance_loss_clip": 1.04912901,
+      "balance_loss_mlp": 1.0151,
+      "epoch": 0.8334034750195395,
+      "flos": 15084852416640.0,
+      "grad_norm": 1.8126382894537756,
+      "language_loss": 0.8389045,
+      "learning_rate": 2.840048814447269e-07,
+      "loss": 0.86100459,
+      "num_input_tokens_seen": 149742395,
+      "step": 6931,
+      "time_per_iteration": 2.6134331226348877
+    },
+    {
+      "auxiliary_loss_clip": 0.01174425,
+      "auxiliary_loss_mlp": 0.01027877,
+      "balance_loss_clip": 1.04158664,
+      "balance_loss_mlp": 1.02005935,
+      "epoch": 0.8335237179101785,
+      "flos": 19427170556160.0,
+      "grad_norm": 2.2798944923051927,
+      "language_loss": 0.73728633,
+      "learning_rate": 2.836048898944587e-07,
+      "loss": 0.75930935,
+      "num_input_tokens_seen": 149760820,
+      "step": 6932,
+      "time_per_iteration": 2.6459667682647705
+    },
+    {
+      "auxiliary_loss_clip": 0.01180794,
+      "auxiliary_loss_mlp": 0.01024731,
+      "balance_loss_clip": 1.04153454,
+      "balance_loss_mlp": 1.01777458,
+      "epoch": 0.8336439608008177,
+      "flos": 21762046327680.0,
+      "grad_norm": 2.392058994420174,
+      "language_loss": 0.72290075,
+      "learning_rate": 2.832051587199642e-07,
+      "loss": 0.74495596,
+      "num_input_tokens_seen": 149778075,
+      "step": 6933,
+      "time_per_iteration": 2.6325974464416504
+    },
+    {
+      "auxiliary_loss_clip": 0.01074041,
+      "auxiliary_loss_mlp": 0.01000867,
+      "balance_loss_clip": 1.00880241,
+      "balance_loss_mlp": 0.99976426,
+      "epoch": 0.8337642036914568,
+      "flos": 59702783990400.0,
+      "grad_norm": 0.8045411684192689,
+      "language_loss": 0.57788742,
+      "learning_rate": 2.828056879818821e-07,
+      "loss": 0.59863651,
+      "num_input_tokens_seen": 149837150,
+      "step": 6934,
+      "time_per_iteration": 3.1450114250183105
+    },
+    {
+      "auxiliary_loss_clip": 0.01187799,
+      "auxiliary_loss_mlp": 0.01021922,
+      "balance_loss_clip": 1.03754961,
+      "balance_loss_mlp": 1.01528811,
+      "epoch": 0.8338844465820958,
+      "flos": 27162185022720.0,
+      "grad_norm": 1.8175949265227225,
+      "language_loss": 0.83343679,
+      "learning_rate": 2.824064777408117e-07,
+      "loss": 0.85553396,
+      "num_input_tokens_seen": 149856940,
+      "step": 6935,
+      "time_per_iteration": 2.7079203128814697
+    },
+    {
+      "auxiliary_loss_clip": 0.0117684,
+      "auxiliary_loss_mlp": 0.01025599,
+      "balance_loss_clip": 1.04756296,
+      "balance_loss_mlp": 1.01707554,
+      "epoch": 0.8340046894727349,
+      "flos": 30481264425600.0,
+      "grad_norm": 1.6578624644738784,
+      "language_loss": 0.75796103,
+      "learning_rate": 2.8200752805731263e-07,
+      "loss": 0.77998543,
+      "num_input_tokens_seen": 149879930,
+      "step": 6936,
+      "time_per_iteration": 2.693403720855713
+    },
+    {
+      "auxiliary_loss_clip": 0.0117737,
+      "auxiliary_loss_mlp": 0.01024806,
+      "balance_loss_clip": 1.04693079,
+      "balance_loss_mlp": 1.01716137,
+      "epoch": 0.834124932363374,
+      "flos": 27126166659840.0,
+      "grad_norm": 1.920936241952421,
+      "language_loss": 0.81221068,
+      "learning_rate": 2.8160883899190625e-07,
+      "loss": 0.83423245,
+      "num_input_tokens_seen": 149903200,
+      "step": 6937,
+      "time_per_iteration": 2.7562575340270996
+    },
+    {
+      "auxiliary_loss_clip": 0.01184809,
+      "auxiliary_loss_mlp": 0.01026225,
+      "balance_loss_clip": 1.0445267,
+      "balance_loss_mlp": 1.01828229,
+      "epoch": 0.8342451752540131,
+      "flos": 24569865498240.0,
+      "grad_norm": 2.0123997330603336,
+      "language_loss": 0.73423672,
+      "learning_rate": 2.8121041060507234e-07,
+      "loss": 0.75634712,
+      "num_input_tokens_seen": 149922230,
+      "step": 6938,
+      "time_per_iteration": 2.7542836666107178
+    },
+    {
+      "auxiliary_loss_clip": 0.01182228,
+      "auxiliary_loss_mlp": 0.01028272,
+      "balance_loss_clip": 1.04641867,
+      "balance_loss_mlp": 1.02058911,
+      "epoch": 0.8343654181446521,
+      "flos": 26615085995520.0,
+      "grad_norm": 1.7898351705806401,
+      "language_loss": 0.71323895,
+      "learning_rate": 2.808122429572528e-07,
+      "loss": 0.73534393,
+      "num_input_tokens_seen": 149942435,
+      "step": 6939,
+      "time_per_iteration": 2.669241189956665
+    },
+    {
+      "auxiliary_loss_clip": 0.01200877,
+      "auxiliary_loss_mlp": 0.0102638,
+      "balance_loss_clip": 1.04320443,
+      "balance_loss_mlp": 1.01924825,
+      "epoch": 0.8344856610352913,
+      "flos": 20777268078720.0,
+      "grad_norm": 2.7639710366952674,
+      "language_loss": 0.75945878,
+      "learning_rate": 2.804143361088489e-07,
+      "loss": 0.78173143,
+      "num_input_tokens_seen": 149961615,
+      "step": 6940,
+      "time_per_iteration": 2.693439483642578
+    },
+    {
+      "auxiliary_loss_clip": 0.01177777,
+      "auxiliary_loss_mlp": 0.01028144,
+      "balance_loss_clip": 1.04286289,
+      "balance_loss_mlp": 1.02060997,
+      "epoch": 0.8346059039259304,
+      "flos": 26095960684800.0,
+      "grad_norm": 2.4647365935489165,
+      "language_loss": 0.78062391,
+      "learning_rate": 2.8001669012022277e-07,
+      "loss": 0.80268312,
+      "num_input_tokens_seen": 149979585,
+      "step": 6941,
+      "time_per_iteration": 2.69897723197937
+    },
+    {
+      "auxiliary_loss_clip": 0.01176567,
+      "auxiliary_loss_mlp": 0.01025656,
+      "balance_loss_clip": 1.04896152,
+      "balance_loss_mlp": 1.01836085,
+      "epoch": 0.8347261468165694,
+      "flos": 29027708755200.0,
+      "grad_norm": 1.7043869043047628,
+      "language_loss": 0.68999445,
+      "learning_rate": 2.7961930505169795e-07,
+      "loss": 0.7120167,
+      "num_input_tokens_seen": 150003830,
+      "step": 6942,
+      "time_per_iteration": 2.7214033603668213
+    },
+    {
+      "auxiliary_loss_clip": 0.011808,
+      "auxiliary_loss_mlp": 0.01378979,
+      "balance_loss_clip": 1.04843402,
+      "balance_loss_mlp": 1.00018311,
+      "epoch": 0.8348463897072086,
+      "flos": 26396461866240.0,
+      "grad_norm": 1.846709155984776,
+      "language_loss": 0.7668519,
+      "learning_rate": 2.792221809635558e-07,
+      "loss": 0.79244965,
+      "num_input_tokens_seen": 150024460,
+      "step": 6943,
+      "time_per_iteration": 2.6753835678100586
+    },
+    {
+      "auxiliary_loss_clip": 0.01227744,
+      "auxiliary_loss_mlp": 0.0102097,
+      "balance_loss_clip": 1.04187727,
+      "balance_loss_mlp": 1.0137136,
+      "epoch": 0.8349666325978476,
+      "flos": 23367720096000.0,
+      "grad_norm": 2.4912278864250816,
+      "language_loss": 0.75163722,
+      "learning_rate": 2.788253179160411e-07,
+      "loss": 0.77412438,
+      "num_input_tokens_seen": 150045620,
+      "step": 6944,
+      "time_per_iteration": 3.7965590953826904
+    },
+    {
+      "auxiliary_loss_clip": 0.01186374,
+      "auxiliary_loss_mlp": 0.01028358,
+      "balance_loss_clip": 1.04538369,
+      "balance_loss_mlp": 1.02169752,
+      "epoch": 0.8350868754884867,
+      "flos": 12896528135040.0,
+      "grad_norm": 2.150626993081801,
+      "language_loss": 0.65044737,
+      "learning_rate": 2.7842871596935725e-07,
+      "loss": 0.67259473,
+      "num_input_tokens_seen": 150064135,
+      "step": 6945,
+      "time_per_iteration": 3.8992578983306885
+    },
+    {
+      "auxiliary_loss_clip": 0.011823,
+      "auxiliary_loss_mlp": 0.01027739,
+      "balance_loss_clip": 1.04607642,
+      "balance_loss_mlp": 1.01974654,
+      "epoch": 0.8352071183791259,
+      "flos": 26505522535680.0,
+      "grad_norm": 1.751833517084248,
+      "language_loss": 0.69189537,
+      "learning_rate": 2.780323751836682e-07,
+      "loss": 0.71399575,
+      "num_input_tokens_seen": 150085350,
+      "step": 6946,
+      "time_per_iteration": 2.653759002685547
+    },
+    {
+      "auxiliary_loss_clip": 0.01181799,
+      "auxiliary_loss_mlp": 0.01378487,
+      "balance_loss_clip": 1.04115725,
+      "balance_loss_mlp": 1.00015652,
+      "epoch": 0.8353273612697649,
+      "flos": 20668063754880.0,
+      "grad_norm": 1.540783380888081,
+      "language_loss": 0.78556043,
+      "learning_rate": 2.7763629561909876e-07,
+      "loss": 0.81116325,
+      "num_input_tokens_seen": 150106180,
+      "step": 6947,
+      "time_per_iteration": 2.6653549671173096
+    },
+    {
+      "auxiliary_loss_clip": 0.0116592,
+      "auxiliary_loss_mlp": 0.01026035,
+      "balance_loss_clip": 1.04629076,
+      "balance_loss_mlp": 1.01883435,
+      "epoch": 0.835447604160404,
+      "flos": 19754137082880.0,
+      "grad_norm": 10.335253144073139,
+      "language_loss": 0.7681464,
+      "learning_rate": 2.772404773357335e-07,
+      "loss": 0.79006588,
+      "num_input_tokens_seen": 150125585,
+      "step": 6948,
+      "time_per_iteration": 2.648625612258911
+    },
+    {
+      "auxiliary_loss_clip": 0.01184185,
+      "auxiliary_loss_mlp": 0.01023544,
+      "balance_loss_clip": 1.04186893,
+      "balance_loss_mlp": 1.01634407,
+      "epoch": 0.8355678470510431,
+      "flos": 23435842239360.0,
+      "grad_norm": 1.8456759721420875,
+      "language_loss": 0.78267348,
+      "learning_rate": 2.7684492039361853e-07,
+      "loss": 0.80475074,
+      "num_input_tokens_seen": 150144810,
+      "step": 6949,
+      "time_per_iteration": 3.6135144233703613
+    },
+    {
+      "auxiliary_loss_clip": 0.01172282,
+      "auxiliary_loss_mlp": 0.01025724,
+      "balance_loss_clip": 1.05133772,
+      "balance_loss_mlp": 1.01877105,
+      "epoch": 0.8356880899416822,
+      "flos": 21214588164480.0,
+      "grad_norm": 3.1979963673121614,
+      "language_loss": 0.83776706,
+      "learning_rate": 2.764496248527586e-07,
+      "loss": 0.85974711,
+      "num_input_tokens_seen": 150163785,
+      "step": 6950,
+      "time_per_iteration": 2.671732187271118
+    },
+    {
+      "auxiliary_loss_clip": 0.01202687,
+      "auxiliary_loss_mlp": 0.01029374,
+      "balance_loss_clip": 1.04300117,
+      "balance_loss_mlp": 1.02201879,
+      "epoch": 0.8358083328323213,
+      "flos": 28037543466240.0,
+      "grad_norm": 2.092637242396246,
+      "language_loss": 0.78612751,
+      "learning_rate": 2.760545907731211e-07,
+      "loss": 0.80844808,
+      "num_input_tokens_seen": 150184360,
+      "step": 6951,
+      "time_per_iteration": 2.789229154586792
+    },
+    {
+      "auxiliary_loss_clip": 0.01175773,
+      "auxiliary_loss_mlp": 0.01021672,
+      "balance_loss_clip": 1.04330587,
+      "balance_loss_mlp": 1.01424575,
+      "epoch": 0.8359285757229604,
+      "flos": 27783655159680.0,
+      "grad_norm": 1.7924023581003437,
+      "language_loss": 0.67957759,
+      "learning_rate": 2.75659818214631e-07,
+      "loss": 0.70155203,
+      "num_input_tokens_seen": 150205465,
+      "step": 6952,
+      "time_per_iteration": 3.5284221172332764
+    },
+    {
+      "auxiliary_loss_clip": 0.01188696,
+      "auxiliary_loss_mlp": 0.01028496,
+      "balance_loss_clip": 1.04498613,
+      "balance_loss_mlp": 1.02162385,
+      "epoch": 0.8360488186135995,
+      "flos": 21435115714560.0,
+      "grad_norm": 2.3057421280712966,
+      "language_loss": 0.7821368,
+      "learning_rate": 2.752653072371749e-07,
+      "loss": 0.80430871,
+      "num_input_tokens_seen": 150224900,
+      "step": 6953,
+      "time_per_iteration": 2.8793702125549316
+    },
+    {
+      "auxiliary_loss_clip": 0.01189508,
+      "auxiliary_loss_mlp": 0.01024581,
+      "balance_loss_clip": 1.04441619,
+      "balance_loss_mlp": 1.01801825,
+      "epoch": 0.8361690615042385,
+      "flos": 27632327160960.0,
+      "grad_norm": 1.7112220122146444,
+      "language_loss": 0.74869716,
+      "learning_rate": 2.7487105790060105e-07,
+      "loss": 0.77083802,
+      "num_input_tokens_seen": 150244310,
+      "step": 6954,
+      "time_per_iteration": 2.7228808403015137
+    },
+    {
+      "auxiliary_loss_clip": 0.01177955,
+      "auxiliary_loss_mlp": 0.01024264,
+      "balance_loss_clip": 1.04462743,
+      "balance_loss_mlp": 1.01741552,
+      "epoch": 0.8362893043948777,
+      "flos": 39202529598720.0,
+      "grad_norm": 1.854674708725108,
+      "language_loss": 0.69218922,
+      "learning_rate": 2.7447707026471587e-07,
+      "loss": 0.7142114,
+      "num_input_tokens_seen": 150267285,
+      "step": 6955,
+      "time_per_iteration": 2.7869839668273926
+    },
+    {
+      "auxiliary_loss_clip": 0.01192566,
+      "auxiliary_loss_mlp": 0.01021126,
+      "balance_loss_clip": 1.04120803,
+      "balance_loss_mlp": 1.01420259,
+      "epoch": 0.8364095472855168,
+      "flos": 24785329230720.0,
+      "grad_norm": 2.2302564010965407,
+      "language_loss": 0.80135339,
+      "learning_rate": 2.740833443892874e-07,
+      "loss": 0.82349032,
+      "num_input_tokens_seen": 150285455,
+      "step": 6956,
+      "time_per_iteration": 2.7111668586730957
+    },
+    {
+      "auxiliary_loss_clip": 0.01184855,
+      "auxiliary_loss_mlp": 0.01020681,
+      "balance_loss_clip": 1.04360604,
+      "balance_loss_mlp": 1.01334345,
+      "epoch": 0.8365297901761558,
+      "flos": 22743412784640.0,
+      "grad_norm": 1.8866187415628786,
+      "language_loss": 0.80004025,
+      "learning_rate": 2.7368988033404327e-07,
+      "loss": 0.82209563,
+      "num_input_tokens_seen": 150302970,
+      "step": 6957,
+      "time_per_iteration": 2.66463303565979
+    },
+    {
+      "auxiliary_loss_clip": 0.01194415,
+      "auxiliary_loss_mlp": 0.01027644,
+      "balance_loss_clip": 1.04248977,
+      "balance_loss_mlp": 1.02064693,
+      "epoch": 0.836650033066795,
+      "flos": 28396003242240.0,
+      "grad_norm": 1.4572565963441617,
+      "language_loss": 0.84420705,
+      "learning_rate": 2.732966781586712e-07,
+      "loss": 0.86642766,
+      "num_input_tokens_seen": 150322715,
+      "step": 6958,
+      "time_per_iteration": 2.751164436340332
+    },
+    {
+      "auxiliary_loss_clip": 0.01169423,
+      "auxiliary_loss_mlp": 0.01025573,
+      "balance_loss_clip": 1.04355812,
+      "balance_loss_mlp": 1.01804233,
+      "epoch": 0.836770275957434,
+      "flos": 22236857233920.0,
+      "grad_norm": 1.5755474781326202,
+      "language_loss": 0.6647433,
+      "learning_rate": 2.729037379228205e-07,
+      "loss": 0.68669331,
+      "num_input_tokens_seen": 150342900,
+      "step": 6959,
+      "time_per_iteration": 2.630934715270996
+    },
+    {
+      "auxiliary_loss_clip": 0.01186368,
+      "auxiliary_loss_mlp": 0.01023946,
+      "balance_loss_clip": 1.04725039,
+      "balance_loss_mlp": 1.01619697,
+      "epoch": 0.8368905188480731,
+      "flos": 22491930689280.0,
+      "grad_norm": 1.5869722625305738,
+      "language_loss": 0.80651116,
+      "learning_rate": 2.725110596860998e-07,
+      "loss": 0.82861435,
+      "num_input_tokens_seen": 150363580,
+      "step": 6960,
+      "time_per_iteration": 2.7457423210144043
+    },
+    {
+      "auxiliary_loss_clip": 0.01202573,
+      "auxiliary_loss_mlp": 0.01023513,
+      "balance_loss_clip": 1.04434729,
+      "balance_loss_mlp": 1.01626801,
+      "epoch": 0.8370107617387123,
+      "flos": 13370405287680.0,
+      "grad_norm": 2.1679447408548556,
+      "language_loss": 0.70072842,
+      "learning_rate": 2.7211864350807776e-07,
+      "loss": 0.7229892,
+      "num_input_tokens_seen": 150381780,
+      "step": 6961,
+      "time_per_iteration": 2.665884017944336
+    },
+    {
+      "auxiliary_loss_clip": 0.01168371,
+      "auxiliary_loss_mlp": 0.01026067,
+      "balance_loss_clip": 1.04792929,
+      "balance_loss_mlp": 1.01782084,
+      "epoch": 0.8371310046293513,
+      "flos": 25261289372160.0,
+      "grad_norm": 1.8416720619075055,
+      "language_loss": 0.73583251,
+      "learning_rate": 2.717264894482836e-07,
+      "loss": 0.75777686,
+      "num_input_tokens_seen": 150402120,
+      "step": 6962,
+      "time_per_iteration": 2.639270782470703
+    },
+    {
+      "auxiliary_loss_clip": 0.01184348,
+      "auxiliary_loss_mlp": 0.01028566,
+      "balance_loss_clip": 1.0498879,
+      "balance_loss_mlp": 1.02065063,
+      "epoch": 0.8372512475199904,
+      "flos": 19792705311360.0,
+      "grad_norm": 3.4990941033461267,
+      "language_loss": 0.81014043,
+      "learning_rate": 2.7133459756620646e-07,
+      "loss": 0.83226955,
+      "num_input_tokens_seen": 150419315,
+      "step": 6963,
+      "time_per_iteration": 2.5663492679595947
+    },
+    {
+      "auxiliary_loss_clip": 0.01170291,
+      "auxiliary_loss_mlp": 0.01023362,
+      "balance_loss_clip": 1.04448414,
+      "balance_loss_mlp": 1.01573849,
+      "epoch": 0.8373714904106295,
+      "flos": 19391224020480.0,
+      "grad_norm": 1.613283915612607,
+      "language_loss": 0.73854864,
+      "learning_rate": 2.7094296792129733e-07,
+      "loss": 0.76048511,
+      "num_input_tokens_seen": 150438915,
+      "step": 6964,
+      "time_per_iteration": 2.6290717124938965
+    },
+    {
+      "auxiliary_loss_clip": 0.01175888,
+      "auxiliary_loss_mlp": 0.01023438,
+      "balance_loss_clip": 1.04435587,
+      "balance_loss_mlp": 1.01640785,
+      "epoch": 0.8374917333012686,
+      "flos": 14975935401600.0,
+      "grad_norm": 2.054177559905409,
+      "language_loss": 0.75458717,
+      "learning_rate": 2.7055160057296424e-07,
+      "loss": 0.77658045,
+      "num_input_tokens_seen": 150456155,
+      "step": 6965,
+      "time_per_iteration": 2.574399709701538
+    },
+    {
+      "auxiliary_loss_clip": 0.0119366,
+      "auxiliary_loss_mlp": 0.01027526,
+      "balance_loss_clip": 1.04280722,
+      "balance_loss_mlp": 1.02047753,
+      "epoch": 0.8376119761919076,
+      "flos": 30331839847680.0,
+      "grad_norm": 1.61114141117464,
+      "language_loss": 0.72292036,
+      "learning_rate": 2.7016049558057896e-07,
+      "loss": 0.74513221,
+      "num_input_tokens_seen": 150478115,
+      "step": 6966,
+      "time_per_iteration": 2.7754411697387695
+    },
+    {
+      "auxiliary_loss_clip": 0.01176294,
+      "auxiliary_loss_mlp": 0.01024533,
+      "balance_loss_clip": 1.0463388,
+      "balance_loss_mlp": 1.01684976,
+      "epoch": 0.8377322190825467,
+      "flos": 29423336129280.0,
+      "grad_norm": 1.6325340480384816,
+      "language_loss": 0.70443785,
+      "learning_rate": 2.6976965300347074e-07,
+      "loss": 0.72644609,
+      "num_input_tokens_seen": 150500725,
+      "step": 6967,
+      "time_per_iteration": 2.714664936065674
+    },
+    {
+      "auxiliary_loss_clip": 0.01178334,
+      "auxiliary_loss_mlp": 0.01022391,
+      "balance_loss_clip": 1.04173589,
+      "balance_loss_mlp": 1.01569772,
+      "epoch": 0.8378524619731859,
+      "flos": 26687086807680.0,
+      "grad_norm": 2.409486607852809,
+      "language_loss": 0.69888949,
+      "learning_rate": 2.693790729009309e-07,
+      "loss": 0.72089672,
+      "num_input_tokens_seen": 150522335,
+      "step": 6968,
+      "time_per_iteration": 2.7437684535980225
+    },
+    {
+      "auxiliary_loss_clip": 0.01187391,
+      "auxiliary_loss_mlp": 0.01024138,
+      "balance_loss_clip": 1.04496634,
+      "balance_loss_mlp": 1.01728976,
+      "epoch": 0.8379727048638249,
+      "flos": 20703866636160.0,
+      "grad_norm": 2.425576174782614,
+      "language_loss": 0.88589156,
+      "learning_rate": 2.6898875533220946e-07,
+      "loss": 0.90800685,
+      "num_input_tokens_seen": 150541640,
+      "step": 6969,
+      "time_per_iteration": 2.630267858505249
+    },
+    {
+      "auxiliary_loss_clip": 0.0116282,
+      "auxiliary_loss_mlp": 0.01026061,
+      "balance_loss_clip": 1.04637408,
+      "balance_loss_mlp": 1.01947498,
+      "epoch": 0.838092947754464,
+      "flos": 20084084438400.0,
+      "grad_norm": 1.6812327260311877,
+      "language_loss": 0.82068825,
+      "learning_rate": 2.685987003565171e-07,
+      "loss": 0.84257704,
+      "num_input_tokens_seen": 150559680,
+      "step": 6970,
+      "time_per_iteration": 3.468018054962158
+    },
+    {
+      "auxiliary_loss_clip": 0.0118863,
+      "auxiliary_loss_mlp": 0.01024739,
+      "balance_loss_clip": 1.04642236,
+      "balance_loss_mlp": 1.01749134,
+      "epoch": 0.8382131906451031,
+      "flos": 18113270964480.0,
+      "grad_norm": 2.3115752878090694,
+      "language_loss": 0.75606525,
+      "learning_rate": 2.6820890803302566e-07,
+      "loss": 0.77819896,
+      "num_input_tokens_seen": 150575205,
+      "step": 6971,
+      "time_per_iteration": 3.686236619949341
+    },
+    {
+      "auxiliary_loss_clip": 0.0118658,
+      "auxiliary_loss_mlp": 0.0102792,
+      "balance_loss_clip": 1.04680645,
+      "balance_loss_mlp": 1.02094376,
+      "epoch": 0.8383334335357422,
+      "flos": 17092653920640.0,
+      "grad_norm": 2.4411000176743807,
+      "language_loss": 0.81571114,
+      "learning_rate": 2.6781937842086557e-07,
+      "loss": 0.83785617,
+      "num_input_tokens_seen": 150593995,
+      "step": 6972,
+      "time_per_iteration": 2.6264572143554688
+    },
+    {
+      "auxiliary_loss_clip": 0.01179649,
+      "auxiliary_loss_mlp": 0.01026645,
+      "balance_loss_clip": 1.04545569,
+      "balance_loss_mlp": 1.01879478,
+      "epoch": 0.8384536764263812,
+      "flos": 20704728562560.0,
+      "grad_norm": 1.8695046955317511,
+      "language_loss": 0.6721983,
+      "learning_rate": 2.6743011157912933e-07,
+      "loss": 0.69426125,
+      "num_input_tokens_seen": 150613715,
+      "step": 6973,
+      "time_per_iteration": 2.6335339546203613
+    },
+    {
+      "auxiliary_loss_clip": 0.011966,
+      "auxiliary_loss_mlp": 0.01023806,
+      "balance_loss_clip": 1.03790641,
+      "balance_loss_mlp": 1.01583362,
+      "epoch": 0.8385739193170204,
+      "flos": 28986842056320.0,
+      "grad_norm": 2.0009519018099113,
+      "language_loss": 0.65089262,
+      "learning_rate": 2.6704110756686725e-07,
+      "loss": 0.67309672,
+      "num_input_tokens_seen": 150634540,
+      "step": 6974,
+      "time_per_iteration": 2.7746825218200684
+    },
+    {
+      "auxiliary_loss_clip": 0.0117915,
+      "auxiliary_loss_mlp": 0.01378695,
+      "balance_loss_clip": 1.04223013,
+      "balance_loss_mlp": 1.00018632,
+      "epoch": 0.8386941622076595,
+      "flos": 23438068882560.0,
+      "grad_norm": 1.6658354247429985,
+      "language_loss": 0.83861649,
+      "learning_rate": 2.6665236644309085e-07,
+      "loss": 0.86419493,
+      "num_input_tokens_seen": 150654850,
+      "step": 6975,
+      "time_per_iteration": 3.6557085514068604
+    },
+    {
+      "auxiliary_loss_clip": 0.01174451,
+      "auxiliary_loss_mlp": 0.01027699,
+      "balance_loss_clip": 1.04379189,
+      "balance_loss_mlp": 1.02062702,
+      "epoch": 0.8388144050982985,
+      "flos": 23002724044800.0,
+      "grad_norm": 1.9990634652157493,
+      "language_loss": 0.79849297,
+      "learning_rate": 2.662638882667727e-07,
+      "loss": 0.8205145,
+      "num_input_tokens_seen": 150673790,
+      "step": 6976,
+      "time_per_iteration": 2.6167569160461426
+    },
+    {
+      "auxiliary_loss_clip": 0.01171024,
+      "auxiliary_loss_mlp": 0.01030317,
+      "balance_loss_clip": 1.0471344,
+      "balance_loss_mlp": 1.02228189,
+      "epoch": 0.8389346479889377,
+      "flos": 24280353878400.0,
+      "grad_norm": 2.0288264831879075,
+      "language_loss": 0.72937876,
+      "learning_rate": 2.658756730968443e-07,
+      "loss": 0.75139225,
+      "num_input_tokens_seen": 150692255,
+      "step": 6977,
+      "time_per_iteration": 2.5466606616973877
+    },
+    {
+      "auxiliary_loss_clip": 0.0119231,
+      "auxiliary_loss_mlp": 0.01024139,
+      "balance_loss_clip": 1.0482223,
+      "balance_loss_mlp": 1.01726377,
+      "epoch": 0.8390548908795767,
+      "flos": 21215019127680.0,
+      "grad_norm": 2.019652835103244,
+      "language_loss": 0.88360941,
+      "learning_rate": 2.654877209921975e-07,
+      "loss": 0.90577388,
+      "num_input_tokens_seen": 150709790,
+      "step": 6978,
+      "time_per_iteration": 3.621208667755127
+    },
+    {
+      "auxiliary_loss_clip": 0.01206296,
+      "auxiliary_loss_mlp": 0.0102532,
+      "balance_loss_clip": 1.04050362,
+      "balance_loss_mlp": 1.01721978,
+      "epoch": 0.8391751337702158,
+      "flos": 35627299332480.0,
+      "grad_norm": 3.1036861284554162,
+      "language_loss": 0.62693119,
+      "learning_rate": 2.651000320116843e-07,
+      "loss": 0.64924729,
+      "num_input_tokens_seen": 150730675,
+      "step": 6979,
+      "time_per_iteration": 2.9585678577423096
+    },
+    {
+      "auxiliary_loss_clip": 0.0118863,
+      "auxiliary_loss_mlp": 0.01378715,
+      "balance_loss_clip": 1.04101419,
+      "balance_loss_mlp": 1.00020885,
+      "epoch": 0.839295376660855,
+      "flos": 21325229032320.0,
+      "grad_norm": 1.7557445085467398,
+      "language_loss": 0.76271689,
+      "learning_rate": 2.647126062141163e-07,
+      "loss": 0.78839028,
+      "num_input_tokens_seen": 150749750,
+      "step": 6980,
+      "time_per_iteration": 2.676874876022339
+    },
+    {
+      "auxiliary_loss_clip": 0.01186144,
+      "auxiliary_loss_mlp": 0.01024143,
+      "balance_loss_clip": 1.04248321,
+      "balance_loss_mlp": 1.01635313,
+      "epoch": 0.839415619551494,
+      "flos": 18442535961600.0,
+      "grad_norm": 1.7460414539694302,
+      "language_loss": 0.84013152,
+      "learning_rate": 2.643254436582669e-07,
+      "loss": 0.86223441,
+      "num_input_tokens_seen": 150769240,
+      "step": 6981,
+      "time_per_iteration": 2.674426794052124
+    },
+    {
+      "auxiliary_loss_clip": 0.01206662,
+      "auxiliary_loss_mlp": 0.01025166,
+      "balance_loss_clip": 1.04320478,
+      "balance_loss_mlp": 1.01757824,
+      "epoch": 0.8395358624421331,
+      "flos": 23221958705280.0,
+      "grad_norm": 2.012333913919314,
+      "language_loss": 0.82279205,
+      "learning_rate": 2.6393854440286743e-07,
+      "loss": 0.8451103,
+      "num_input_tokens_seen": 150788410,
+      "step": 6982,
+      "time_per_iteration": 2.7669150829315186
+    },
+    {
+      "auxiliary_loss_clip": 0.01166822,
+      "auxiliary_loss_mlp": 0.01028022,
+      "balance_loss_clip": 1.04801106,
+      "balance_loss_mlp": 1.02095246,
+      "epoch": 0.8396561053327722,
+      "flos": 24381657210240.0,
+      "grad_norm": 2.3321812869227188,
+      "language_loss": 0.7072103,
+      "learning_rate": 2.6355190850661045e-07,
+      "loss": 0.72915876,
+      "num_input_tokens_seen": 150805245,
+      "step": 6983,
+      "time_per_iteration": 2.586242198944092
+    },
+    {
+      "auxiliary_loss_clip": 0.01184866,
+      "auxiliary_loss_mlp": 0.01021782,
+      "balance_loss_clip": 1.04645157,
+      "balance_loss_mlp": 1.01439738,
+      "epoch": 0.8397763482234113,
+      "flos": 22237755073920.0,
+      "grad_norm": 1.4521223980280331,
+      "language_loss": 0.86480236,
+      "learning_rate": 2.631655360281486e-07,
+      "loss": 0.88686883,
+      "num_input_tokens_seen": 150824920,
+      "step": 6984,
+      "time_per_iteration": 2.6822683811187744
+    },
+    {
+      "auxiliary_loss_clip": 0.01184379,
+      "auxiliary_loss_mlp": 0.01378935,
+      "balance_loss_clip": 1.04786038,
+      "balance_loss_mlp": 1.00016165,
+      "epoch": 0.8398965911140504,
+      "flos": 22163743100160.0,
+      "grad_norm": 2.1330161738345343,
+      "language_loss": 0.65934324,
+      "learning_rate": 2.6277942702609323e-07,
+      "loss": 0.68497634,
+      "num_input_tokens_seen": 150844400,
+      "step": 6985,
+      "time_per_iteration": 2.713224172592163
+    },
+    {
+      "auxiliary_loss_clip": 0.01197208,
+      "auxiliary_loss_mlp": 0.01026561,
+      "balance_loss_clip": 1.04482913,
+      "balance_loss_mlp": 1.01887846,
+      "epoch": 0.8400168340046895,
+      "flos": 21542775753600.0,
+      "grad_norm": 2.0242558863854487,
+      "language_loss": 0.88117278,
+      "learning_rate": 2.623935815590186e-07,
+      "loss": 0.90341043,
+      "num_input_tokens_seen": 150862780,
+      "step": 6986,
+      "time_per_iteration": 2.6612610816955566
+    },
+    {
+      "auxiliary_loss_clip": 0.01189947,
+      "auxiliary_loss_mlp": 0.01029345,
+      "balance_loss_clip": 1.04860544,
+      "balance_loss_mlp": 1.02182937,
+      "epoch": 0.8401370768953286,
+      "flos": 22491966602880.0,
+      "grad_norm": 2.4121009850914295,
+      "language_loss": 0.8099094,
+      "learning_rate": 2.6200799968545516e-07,
+      "loss": 0.8321023,
+      "num_input_tokens_seen": 150883075,
+      "step": 6987,
+      "time_per_iteration": 2.6701202392578125
+    },
+    {
+      "auxiliary_loss_clip": 0.010843,
+      "auxiliary_loss_mlp": 0.01001857,
+      "balance_loss_clip": 1.01178789,
+      "balance_loss_mlp": 1.00068915,
+      "epoch": 0.8402573197859676,
+      "flos": 59238890818560.0,
+      "grad_norm": 0.7971750444381227,
+      "language_loss": 0.56450117,
+      "learning_rate": 2.616226814638969e-07,
+      "loss": 0.58536267,
+      "num_input_tokens_seen": 150948180,
+      "step": 6988,
+      "time_per_iteration": 3.235410451889038
+    },
+    {
+      "auxiliary_loss_clip": 0.0118774,
+      "auxiliary_loss_mlp": 0.01026194,
+      "balance_loss_clip": 1.04569018,
+      "balance_loss_mlp": 1.01894021,
+      "epoch": 0.8403775626766068,
+      "flos": 22674608282880.0,
+      "grad_norm": 1.967577196576237,
+      "language_loss": 0.77185524,
+      "learning_rate": 2.612376269527954e-07,
+      "loss": 0.79399455,
+      "num_input_tokens_seen": 150967885,
+      "step": 6989,
+      "time_per_iteration": 2.701538562774658
+    },
+    {
+      "auxiliary_loss_clip": 0.01183218,
+      "auxiliary_loss_mlp": 0.01027234,
+      "balance_loss_clip": 1.04576874,
+      "balance_loss_mlp": 1.01952744,
+      "epoch": 0.8404978055672458,
+      "flos": 19609704495360.0,
+      "grad_norm": 1.9018177541859729,
+      "language_loss": 0.67712903,
+      "learning_rate": 2.608528362105635e-07,
+      "loss": 0.69923353,
+      "num_input_tokens_seen": 150987255,
+      "step": 6990,
+      "time_per_iteration": 2.669032573699951
+    },
+    {
+      "auxiliary_loss_clip": 0.011958,
+      "auxiliary_loss_mlp": 0.01026583,
+      "balance_loss_clip": 1.04111004,
+      "balance_loss_mlp": 1.01991606,
+      "epoch": 0.8406180484578849,
+      "flos": 27526929678720.0,
+      "grad_norm": 1.8177741234862173,
+      "language_loss": 0.7356869,
+      "learning_rate": 2.6046830929557374e-07,
+      "loss": 0.75791073,
+      "num_input_tokens_seen": 151006905,
+      "step": 6991,
+      "time_per_iteration": 2.6937270164489746
+    },
+    {
+      "auxiliary_loss_clip": 0.01189802,
+      "auxiliary_loss_mlp": 0.0102379,
+      "balance_loss_clip": 1.04436624,
+      "balance_loss_mlp": 1.01662207,
+      "epoch": 0.8407382913485241,
+      "flos": 22127473342080.0,
+      "grad_norm": 1.8936703574562286,
+      "language_loss": 0.84746027,
+      "learning_rate": 2.6008404626615776e-07,
+      "loss": 0.86959624,
+      "num_input_tokens_seen": 151025405,
+      "step": 6992,
+      "time_per_iteration": 2.6795594692230225
+    },
+    {
+      "auxiliary_loss_clip": 0.01180799,
+      "auxiliary_loss_mlp": 0.01025493,
+      "balance_loss_clip": 1.04785895,
+      "balance_loss_mlp": 1.01864719,
+      "epoch": 0.8408585342391631,
+      "flos": 13918473982080.0,
+      "grad_norm": 3.5515954838108508,
+      "language_loss": 0.74308479,
+      "learning_rate": 2.597000471806092e-07,
+      "loss": 0.76514769,
+      "num_input_tokens_seen": 151041970,
+      "step": 6993,
+      "time_per_iteration": 2.6334187984466553
+    },
+    {
+      "auxiliary_loss_clip": 0.01183402,
+      "auxiliary_loss_mlp": 0.01030954,
+      "balance_loss_clip": 1.04828918,
+      "balance_loss_mlp": 1.02286005,
+      "epoch": 0.8409787771298022,
+      "flos": 20187865808640.0,
+      "grad_norm": 2.2783776627196275,
+      "language_loss": 0.72728813,
+      "learning_rate": 2.593163120971793e-07,
+      "loss": 0.74943167,
+      "num_input_tokens_seen": 151060835,
+      "step": 6994,
+      "time_per_iteration": 2.663815498352051
+    },
+    {
+      "auxiliary_loss_clip": 0.01191555,
+      "auxiliary_loss_mlp": 0.0102437,
+      "balance_loss_clip": 1.03786361,
+      "balance_loss_mlp": 1.01736045,
+      "epoch": 0.8410990200204413,
+      "flos": 23142523777920.0,
+      "grad_norm": 1.8927665101861464,
+      "language_loss": 0.68959022,
+      "learning_rate": 2.5893284107408165e-07,
+      "loss": 0.71174943,
+      "num_input_tokens_seen": 151078205,
+      "step": 6995,
+      "time_per_iteration": 2.7393176555633545
+    },
+    {
+      "auxiliary_loss_clip": 0.01202207,
+      "auxiliary_loss_mlp": 0.01023422,
+      "balance_loss_clip": 1.0416714,
+      "balance_loss_mlp": 1.01551259,
+      "epoch": 0.8412192629110804,
+      "flos": 24027219757440.0,
+      "grad_norm": 1.9450423127361867,
+      "language_loss": 0.78318048,
+      "learning_rate": 2.5854963416948726e-07,
+      "loss": 0.80543679,
+      "num_input_tokens_seen": 151100470,
+      "step": 6996,
+      "time_per_iteration": 3.8072009086608887
+    },
+    {
+      "auxiliary_loss_clip": 0.01196966,
+      "auxiliary_loss_mlp": 0.01023748,
+      "balance_loss_clip": 1.03607821,
+      "balance_loss_mlp": 1.01632726,
+      "epoch": 0.8413395058017195,
+      "flos": 25591703604480.0,
+      "grad_norm": 1.7911617534155846,
+      "language_loss": 0.69751954,
+      "learning_rate": 2.5816669144152816e-07,
+      "loss": 0.71972668,
+      "num_input_tokens_seen": 151121650,
+      "step": 6997,
+      "time_per_iteration": 2.772547721862793
+    },
+    {
+      "auxiliary_loss_clip": 0.01060707,
+      "auxiliary_loss_mlp": 0.01002299,
+      "balance_loss_clip": 1.00942314,
+      "balance_loss_mlp": 1.00126827,
+      "epoch": 0.8414597486923585,
+      "flos": 63635396624640.0,
+      "grad_norm": 0.85243210809405,
+      "language_loss": 0.66335237,
+      "learning_rate": 2.5778401294829777e-07,
+      "loss": 0.68398243,
+      "num_input_tokens_seen": 151180390,
+      "step": 6998,
+      "time_per_iteration": 3.2006399631500244
+    },
+    {
+      "auxiliary_loss_clip": 0.01172585,
+      "auxiliary_loss_mlp": 0.01378484,
+      "balance_loss_clip": 1.04494667,
+      "balance_loss_mlp": 1.0001725,
+      "epoch": 0.8415799915829977,
+      "flos": 19098731571840.0,
+      "grad_norm": 1.8922417952484634,
+      "language_loss": 0.65173328,
+      "learning_rate": 2.574015987478473e-07,
+      "loss": 0.67724395,
+      "num_input_tokens_seen": 151198520,
+      "step": 6999,
+      "time_per_iteration": 2.5915369987487793
+    },
+    {
+      "auxiliary_loss_clip": 0.01193045,
+      "auxiliary_loss_mlp": 0.01023573,
+      "balance_loss_clip": 1.04543817,
+      "balance_loss_mlp": 1.01569307,
+      "epoch": 0.8417002344736367,
+      "flos": 19821612781440.0,
+      "grad_norm": 2.212099102069244,
+      "language_loss": 0.86835837,
+      "learning_rate": 2.570194488981887e-07,
+      "loss": 0.89052463,
+      "num_input_tokens_seen": 151215065,
+      "step": 7000,
+      "time_per_iteration": 2.5784637928009033
+    },
+    {
+      "auxiliary_loss_clip": 0.01060754,
+      "auxiliary_loss_mlp": 0.01002591,
+      "balance_loss_clip": 1.00946546,
+      "balance_loss_mlp": 1.00153565,
+      "epoch": 0.8418204773642758,
+      "flos": 62161516834560.0,
+      "grad_norm": 0.8442122769135412,
+      "language_loss": 0.60325325,
+      "learning_rate": 2.566375634572939e-07,
+      "loss": 0.6238867,
+      "num_input_tokens_seen": 151275705,
+      "step": 7001,
+      "time_per_iteration": 3.932056188583374
+    },
+    {
+      "auxiliary_loss_clip": 0.01197614,
+      "auxiliary_loss_mlp": 0.01028583,
+      "balance_loss_clip": 1.04157829,
+      "balance_loss_mlp": 1.02137113,
+      "epoch": 0.841940720254915,
+      "flos": 17092905315840.0,
+      "grad_norm": 6.110566904974112,
+      "language_loss": 0.76275545,
+      "learning_rate": 2.562559424830943e-07,
+      "loss": 0.78501737,
+      "num_input_tokens_seen": 151293665,
+      "step": 7002,
+      "time_per_iteration": 2.6920642852783203
+    },
+    {
+      "auxiliary_loss_clip": 0.01179444,
+      "auxiliary_loss_mlp": 0.01020941,
+      "balance_loss_clip": 1.04272044,
+      "balance_loss_mlp": 1.01321936,
+      "epoch": 0.842060963145554,
+      "flos": 16283586026880.0,
+      "grad_norm": 2.0935913870723692,
+      "language_loss": 0.70482564,
+      "learning_rate": 2.5587458603348256e-07,
+      "loss": 0.72682953,
+      "num_input_tokens_seen": 151310955,
+      "step": 7003,
+      "time_per_iteration": 2.6165051460266113
+    },
+    {
+      "auxiliary_loss_clip": 0.01187318,
+      "auxiliary_loss_mlp": 0.01028547,
+      "balance_loss_clip": 1.04161441,
+      "balance_loss_mlp": 1.02083373,
+      "epoch": 0.8421812060361931,
+      "flos": 21908238681600.0,
+      "grad_norm": 3.384536650548104,
+      "language_loss": 0.84200585,
+      "learning_rate": 2.554934941663085e-07,
+      "loss": 0.86416459,
+      "num_input_tokens_seen": 151328490,
+      "step": 7004,
+      "time_per_iteration": 3.635490655899048
+    },
+    {
+      "auxiliary_loss_clip": 0.01193247,
+      "auxiliary_loss_mlp": 0.01023452,
+      "balance_loss_clip": 1.04267895,
+      "balance_loss_mlp": 1.01558435,
+      "epoch": 0.8423014489268322,
+      "flos": 27777693502080.0,
+      "grad_norm": 2.2245329135729897,
+      "language_loss": 0.73287827,
+      "learning_rate": 2.5511266693938484e-07,
+      "loss": 0.75504529,
+      "num_input_tokens_seen": 151346950,
+      "step": 7005,
+      "time_per_iteration": 2.7007925510406494
+    },
+    {
+      "auxiliary_loss_clip": 0.01184233,
+      "auxiliary_loss_mlp": 0.01024659,
+      "balance_loss_clip": 1.04656386,
+      "balance_loss_mlp": 1.01688039,
+      "epoch": 0.8424216918174713,
+      "flos": 25117610970240.0,
+      "grad_norm": 1.6088726759794558,
+      "language_loss": 0.77761871,
+      "learning_rate": 2.547321044104822e-07,
+      "loss": 0.79970765,
+      "num_input_tokens_seen": 151368445,
+      "step": 7006,
+      "time_per_iteration": 2.6963112354278564
+    },
+    {
+      "auxiliary_loss_clip": 0.01173801,
+      "auxiliary_loss_mlp": 0.01027953,
+      "balance_loss_clip": 1.05033565,
+      "balance_loss_mlp": 1.02053201,
+      "epoch": 0.8425419347081103,
+      "flos": 24748448941440.0,
+      "grad_norm": 1.716323902495106,
+      "language_loss": 0.76865226,
+      "learning_rate": 2.5435180663733113e-07,
+      "loss": 0.7906698,
+      "num_input_tokens_seen": 151388745,
+      "step": 7007,
+      "time_per_iteration": 2.673840284347534
+    },
+    {
+      "auxiliary_loss_clip": 0.01206823,
+      "auxiliary_loss_mlp": 0.01024135,
+      "balance_loss_clip": 1.03930199,
+      "balance_loss_mlp": 1.01644337,
+      "epoch": 0.8426621775987495,
+      "flos": 24820916630400.0,
+      "grad_norm": 2.611717955304855,
+      "language_loss": 0.72042537,
+      "learning_rate": 2.539717736776241e-07,
+      "loss": 0.74273491,
+      "num_input_tokens_seen": 151404970,
+      "step": 7008,
+      "time_per_iteration": 2.869875192642212
+    },
+    {
+      "auxiliary_loss_clip": 0.01174639,
+      "auxiliary_loss_mlp": 0.01023158,
+      "balance_loss_clip": 1.04713511,
+      "balance_loss_mlp": 1.01583004,
+      "epoch": 0.8427824204893886,
+      "flos": 23550074467200.0,
+      "grad_norm": 1.7727618647494383,
+      "language_loss": 0.76364243,
+      "learning_rate": 2.535920055890097e-07,
+      "loss": 0.78562045,
+      "num_input_tokens_seen": 151426265,
+      "step": 7009,
+      "time_per_iteration": 2.6795923709869385
+    },
+    {
+      "auxiliary_loss_clip": 0.01196384,
+      "auxiliary_loss_mlp": 0.0102611,
+      "balance_loss_clip": 1.04075694,
+      "balance_loss_mlp": 1.01790833,
+      "epoch": 0.8429026633800276,
+      "flos": 16143858120960.0,
+      "grad_norm": 2.142241107328737,
+      "language_loss": 0.64548635,
+      "learning_rate": 2.5321250242910006e-07,
+      "loss": 0.66771126,
+      "num_input_tokens_seen": 151444180,
+      "step": 7010,
+      "time_per_iteration": 2.720486879348755
+    },
+    {
+      "auxiliary_loss_clip": 0.01168905,
+      "auxiliary_loss_mlp": 0.01032877,
+      "balance_loss_clip": 1.04939663,
+      "balance_loss_mlp": 1.02519989,
+      "epoch": 0.8430229062706668,
+      "flos": 22198540400640.0,
+      "grad_norm": 1.8202671695956036,
+      "language_loss": 0.86573207,
+      "learning_rate": 2.5283326425546493e-07,
+      "loss": 0.88774991,
+      "num_input_tokens_seen": 151463290,
+      "step": 7011,
+      "time_per_iteration": 2.578160285949707
+    },
+    {
+      "auxiliary_loss_clip": 0.01190956,
+      "auxiliary_loss_mlp": 0.01024311,
+      "balance_loss_clip": 1.04635024,
+      "balance_loss_mlp": 1.01748967,
+      "epoch": 0.8431431491613058,
+      "flos": 35330317683840.0,
+      "grad_norm": 2.40232543104635,
+      "language_loss": 0.69079232,
+      "learning_rate": 2.5245429112563443e-07,
+      "loss": 0.71294498,
+      "num_input_tokens_seen": 151483965,
+      "step": 7012,
+      "time_per_iteration": 2.7652063369750977
+    },
+    {
+      "auxiliary_loss_clip": 0.01176613,
+      "auxiliary_loss_mlp": 0.01027471,
+      "balance_loss_clip": 1.04708421,
+      "balance_loss_mlp": 1.01999664,
+      "epoch": 0.8432633920519449,
+      "flos": 25812374808960.0,
+      "grad_norm": 1.906066378071046,
+      "language_loss": 0.81856263,
+      "learning_rate": 2.5207558309709865e-07,
+      "loss": 0.84060347,
+      "num_input_tokens_seen": 151503700,
+      "step": 7013,
+      "time_per_iteration": 2.662374973297119
+    },
+    {
+      "auxiliary_loss_clip": 0.01101795,
+      "auxiliary_loss_mlp": 0.01373712,
+      "balance_loss_clip": 1.00891972,
+      "balance_loss_mlp": 0.99977535,
+      "epoch": 0.8433836349425841,
+      "flos": 64959531592320.0,
+      "grad_norm": 0.6579082955463176,
+      "language_loss": 0.56316084,
+      "learning_rate": 2.516971402273065e-07,
+      "loss": 0.5879159,
+      "num_input_tokens_seen": 151569765,
+      "step": 7014,
+      "time_per_iteration": 3.2437400817871094
+    },
+    {
+      "auxiliary_loss_clip": 0.01184177,
+      "auxiliary_loss_mlp": 0.01023026,
+      "balance_loss_clip": 1.04217625,
+      "balance_loss_mlp": 1.01614141,
+      "epoch": 0.8435038778332231,
+      "flos": 20229989483520.0,
+      "grad_norm": 2.19634932737461,
+      "language_loss": 0.67718327,
+      "learning_rate": 2.513189625736687e-07,
+      "loss": 0.69925523,
+      "num_input_tokens_seen": 151586660,
+      "step": 7015,
+      "time_per_iteration": 2.7147512435913086
+    },
+    {
+      "auxiliary_loss_clip": 0.01197885,
+      "auxiliary_loss_mlp": 0.01027766,
+      "balance_loss_clip": 1.04295921,
+      "balance_loss_mlp": 1.02019596,
+      "epoch": 0.8436241207238622,
+      "flos": 20992229020800.0,
+      "grad_norm": 2.414486238599894,
+      "language_loss": 0.71518111,
+      "learning_rate": 2.509410501935534e-07,
+      "loss": 0.73743761,
+      "num_input_tokens_seen": 151602295,
+      "step": 7016,
+      "time_per_iteration": 2.643181085586548
+    },
+    {
+      "auxiliary_loss_clip": 0.01187872,
+      "auxiliary_loss_mlp": 0.01022471,
+      "balance_loss_clip": 1.04434967,
+      "balance_loss_mlp": 1.01488626,
+      "epoch": 0.8437443636145013,
+      "flos": 14682257804160.0,
+      "grad_norm": 2.9385297940623,
+      "language_loss": 0.7554307,
+      "learning_rate": 2.5056340314429116e-07,
+      "loss": 0.77753407,
+      "num_input_tokens_seen": 151619760,
+      "step": 7017,
+      "time_per_iteration": 2.6350185871124268
+    },
+    {
+      "auxiliary_loss_clip": 0.01203509,
+      "auxiliary_loss_mlp": 0.01024656,
+      "balance_loss_clip": 1.03872466,
+      "balance_loss_mlp": 1.016922,
+      "epoch": 0.8438646065051404,
+      "flos": 21608814908160.0,
+      "grad_norm": 2.2797483251783377,
+      "language_loss": 0.80652249,
+      "learning_rate": 2.5018602148316904e-07,
+      "loss": 0.82880414,
+      "num_input_tokens_seen": 151635795,
+      "step": 7018,
+      "time_per_iteration": 2.6828248500823975
+    },
+    {
+      "auxiliary_loss_clip": 0.01169612,
+      "auxiliary_loss_mlp": 0.01026144,
+      "balance_loss_clip": 1.05164289,
+      "balance_loss_mlp": 1.0193615,
+      "epoch": 0.8439848493957794,
+      "flos": 23289937194240.0,
+      "grad_norm": 2.1389433763513717,
+      "language_loss": 0.804277,
+      "learning_rate": 2.498089052674359e-07,
+      "loss": 0.82623452,
+      "num_input_tokens_seen": 151653770,
+      "step": 7019,
+      "time_per_iteration": 2.6180505752563477
+    },
+    {
+      "auxiliary_loss_clip": 0.01176941,
+      "auxiliary_loss_mlp": 0.01029318,
+      "balance_loss_clip": 1.04709101,
+      "balance_loss_mlp": 1.02177525,
+      "epoch": 0.8441050922864186,
+      "flos": 19719339782400.0,
+      "grad_norm": 1.847444414038663,
+      "language_loss": 0.75464427,
+      "learning_rate": 2.494320545543007e-07,
+      "loss": 0.77670693,
+      "num_input_tokens_seen": 151673340,
+      "step": 7020,
+      "time_per_iteration": 2.5861854553222656
+    },
+    {
+      "auxiliary_loss_clip": 0.01170721,
+      "auxiliary_loss_mlp": 0.01026943,
+      "balance_loss_clip": 1.04662585,
+      "balance_loss_mlp": 1.01878309,
+      "epoch": 0.8442253351770577,
+      "flos": 21835268202240.0,
+      "grad_norm": 4.53619579488249,
+      "language_loss": 0.66860384,
+      "learning_rate": 2.490554694009308e-07,
+      "loss": 0.69058049,
+      "num_input_tokens_seen": 151694205,
+      "step": 7021,
+      "time_per_iteration": 2.624830722808838
+    },
+    {
+      "auxiliary_loss_clip": 0.01179296,
+      "auxiliary_loss_mlp": 0.01029506,
+      "balance_loss_clip": 1.04495192,
+      "balance_loss_mlp": 1.02267551,
+      "epoch": 0.8443455780676967,
+      "flos": 34346365447680.0,
+      "grad_norm": 1.535426423146779,
+      "language_loss": 0.78192568,
+      "learning_rate": 2.4867914986445426e-07,
+      "loss": 0.80401373,
+      "num_input_tokens_seen": 151716595,
+      "step": 7022,
+      "time_per_iteration": 4.535080194473267
+    },
+    {
+      "auxiliary_loss_clip": 0.01186148,
+      "auxiliary_loss_mlp": 0.01020693,
+      "balance_loss_clip": 1.04210329,
+      "balance_loss_mlp": 1.01382685,
+      "epoch": 0.8444658209583359,
+      "flos": 48214599281280.0,
+      "grad_norm": 2.115380131273959,
+      "language_loss": 0.71067649,
+      "learning_rate": 2.483030960019581e-07,
+      "loss": 0.73274493,
+      "num_input_tokens_seen": 151740525,
+      "step": 7023,
+      "time_per_iteration": 2.8734636306762695
+    },
+    {
+      "auxiliary_loss_clip": 0.01107752,
+      "auxiliary_loss_mlp": 0.01001032,
+      "balance_loss_clip": 1.00986409,
+      "balance_loss_mlp": 0.99995309,
+      "epoch": 0.8445860638489749,
+      "flos": 68484773105280.0,
+      "grad_norm": 0.7412955507372794,
+      "language_loss": 0.5547471,
+      "learning_rate": 2.479273078704891e-07,
+      "loss": 0.57583487,
+      "num_input_tokens_seen": 151793890,
+      "step": 7024,
+      "time_per_iteration": 3.3374950885772705
+    },
+    {
+      "auxiliary_loss_clip": 0.0110346,
+      "auxiliary_loss_mlp": 0.01002058,
+      "balance_loss_clip": 1.01057291,
+      "balance_loss_mlp": 1.00075293,
+      "epoch": 0.844706306739614,
+      "flos": 62833331882880.0,
+      "grad_norm": 0.7843080718754644,
+      "language_loss": 0.64684463,
+      "learning_rate": 2.475517855270552e-07,
+      "loss": 0.66789973,
+      "num_input_tokens_seen": 151853970,
+      "step": 7025,
+      "time_per_iteration": 3.80672025680542
+    },
+    {
+      "auxiliary_loss_clip": 0.01166472,
+      "auxiliary_loss_mlp": 0.01028777,
+      "balance_loss_clip": 1.04725385,
+      "balance_loss_mlp": 1.0215348,
+      "epoch": 0.8448265496302532,
+      "flos": 14976114969600.0,
+      "grad_norm": 1.822197727638569,
+      "language_loss": 0.73031437,
+      "learning_rate": 2.4717652902862143e-07,
+      "loss": 0.75226688,
+      "num_input_tokens_seen": 151872945,
+      "step": 7026,
+      "time_per_iteration": 2.5323221683502197
+    },
+    {
+      "auxiliary_loss_clip": 0.01190512,
+      "auxiliary_loss_mlp": 0.01024954,
+      "balance_loss_clip": 1.04506254,
+      "balance_loss_mlp": 1.01713431,
+      "epoch": 0.8449467925208922,
+      "flos": 23441265192960.0,
+      "grad_norm": 1.9401042881517747,
+      "language_loss": 0.81221133,
+      "learning_rate": 2.4680153843211495e-07,
+      "loss": 0.83436596,
+      "num_input_tokens_seen": 151892875,
+      "step": 7027,
+      "time_per_iteration": 3.7263236045837402
+    },
+    {
+      "auxiliary_loss_clip": 0.01185397,
+      "auxiliary_loss_mlp": 0.0102622,
+      "balance_loss_clip": 1.04679918,
+      "balance_loss_mlp": 1.01862335,
+      "epoch": 0.8450670354115313,
+      "flos": 22748045639040.0,
+      "grad_norm": 1.6788906808750963,
+      "language_loss": 0.72230399,
+      "learning_rate": 2.464268137944212e-07,
+      "loss": 0.74442011,
+      "num_input_tokens_seen": 151914170,
+      "step": 7028,
+      "time_per_iteration": 2.735118865966797
+    },
+    {
+      "auxiliary_loss_clip": 0.01187634,
+      "auxiliary_loss_mlp": 0.0103007,
+      "balance_loss_clip": 1.03886771,
+      "balance_loss_mlp": 1.02219605,
+      "epoch": 0.8451872783021703,
+      "flos": 29825571605760.0,
+      "grad_norm": 1.9762510134569795,
+      "language_loss": 0.78206348,
+      "learning_rate": 2.46052355172385e-07,
+      "loss": 0.80424052,
+      "num_input_tokens_seen": 151932210,
+      "step": 7029,
+      "time_per_iteration": 2.733365774154663
+    },
+    {
+      "auxiliary_loss_clip": 0.01169439,
+      "auxiliary_loss_mlp": 0.0102706,
+      "balance_loss_clip": 1.04865313,
+      "balance_loss_mlp": 1.01958597,
+      "epoch": 0.8453075211928095,
+      "flos": 21870029589120.0,
+      "grad_norm": 2.40243499115462,
+      "language_loss": 0.74648333,
+      "learning_rate": 2.456781626228128e-07,
+      "loss": 0.76844835,
+      "num_input_tokens_seen": 151951715,
+      "step": 7030,
+      "time_per_iteration": 3.507667303085327
+    },
+    {
+      "auxiliary_loss_clip": 0.01110807,
+      "auxiliary_loss_mlp": 0.01373649,
+      "balance_loss_clip": 1.00883567,
+      "balance_loss_mlp": 0.99973357,
+      "epoch": 0.8454277640834486,
+      "flos": 58751869288320.0,
+      "grad_norm": 0.9155304949602574,
+      "language_loss": 0.66331899,
+      "learning_rate": 2.453042362024675e-07,
+      "loss": 0.68816352,
+      "num_input_tokens_seen": 152004960,
+      "step": 7031,
+      "time_per_iteration": 3.289062976837158
+    },
+    {
+      "auxiliary_loss_clip": 0.01165687,
+      "auxiliary_loss_mlp": 0.01029476,
+      "balance_loss_clip": 1.04512024,
+      "balance_loss_mlp": 1.02217448,
+      "epoch": 0.8455480069740876,
+      "flos": 27090076469760.0,
+      "grad_norm": 1.4940787279424292,
+      "language_loss": 0.73364139,
+      "learning_rate": 2.449305759680751e-07,
+      "loss": 0.75559294,
+      "num_input_tokens_seen": 152026285,
+      "step": 7032,
+      "time_per_iteration": 2.6056556701660156
+    },
+    {
+      "auxiliary_loss_clip": 0.01191513,
+      "auxiliary_loss_mlp": 0.01022658,
+      "balance_loss_clip": 1.04426122,
+      "balance_loss_mlp": 1.01549983,
+      "epoch": 0.8456682498647268,
+      "flos": 27198670262400.0,
+      "grad_norm": 1.5921569446964896,
+      "language_loss": 0.75170839,
+      "learning_rate": 2.445571819763188e-07,
+      "loss": 0.77385008,
+      "num_input_tokens_seen": 152048585,
+      "step": 7033,
+      "time_per_iteration": 2.716874837875366
+    },
+    {
+      "auxiliary_loss_clip": 0.0116642,
+      "auxiliary_loss_mlp": 0.01023404,
+      "balance_loss_clip": 1.04703331,
+      "balance_loss_mlp": 1.01607561,
+      "epoch": 0.8457884927553658,
+      "flos": 20631901737600.0,
+      "grad_norm": 1.8886722913489704,
+      "language_loss": 0.58599174,
+      "learning_rate": 2.4418405428384227e-07,
+      "loss": 0.60788989,
+      "num_input_tokens_seen": 152068795,
+      "step": 7034,
+      "time_per_iteration": 2.544949769973755
+    },
+    {
+      "auxiliary_loss_clip": 0.01166794,
+      "auxiliary_loss_mlp": 0.01379052,
+      "balance_loss_clip": 1.04668248,
+      "balance_loss_mlp": 1.00014555,
+      "epoch": 0.8459087356460049,
+      "flos": 15299023259520.0,
+      "grad_norm": 1.6825371153150337,
+      "language_loss": 0.71696746,
+      "learning_rate": 2.4381119294724864e-07,
+      "loss": 0.74242598,
+      "num_input_tokens_seen": 152086240,
+      "step": 7035,
+      "time_per_iteration": 2.639983892440796
+    },
+    {
+      "auxiliary_loss_clip": 0.01167493,
+      "auxiliary_loss_mlp": 0.01026806,
+      "balance_loss_clip": 1.04655218,
+      "balance_loss_mlp": 1.01967716,
+      "epoch": 0.846028978536644,
+      "flos": 18843155326080.0,
+      "grad_norm": 2.1650477928426373,
+      "language_loss": 0.5355382,
+      "learning_rate": 2.434385980231004e-07,
+      "loss": 0.55748117,
+      "num_input_tokens_seen": 152105080,
+      "step": 7036,
+      "time_per_iteration": 2.5691113471984863
+    },
+    {
+      "auxiliary_loss_clip": 0.0117714,
+      "auxiliary_loss_mlp": 0.01024401,
+      "balance_loss_clip": 1.04664493,
+      "balance_loss_mlp": 1.01730561,
+      "epoch": 0.8461492214272831,
+      "flos": 52661740285440.0,
+      "grad_norm": 1.5960164636352512,
+      "language_loss": 0.65628129,
+      "learning_rate": 2.4306626956792043e-07,
+      "loss": 0.67829669,
+      "num_input_tokens_seen": 152130025,
+      "step": 7037,
+      "time_per_iteration": 2.949506998062134
+    },
+    {
+      "auxiliary_loss_clip": 0.01177111,
+      "auxiliary_loss_mlp": 0.01030613,
+      "balance_loss_clip": 1.04475355,
+      "balance_loss_mlp": 1.02323973,
+      "epoch": 0.8462694643179222,
+      "flos": 18588405093120.0,
+      "grad_norm": 1.6825936085052944,
+      "language_loss": 0.75582492,
+      "learning_rate": 2.4269420763819017e-07,
+      "loss": 0.77790213,
+      "num_input_tokens_seen": 152148070,
+      "step": 7038,
+      "time_per_iteration": 2.5992705821990967
+    },
+    {
+      "auxiliary_loss_clip": 0.01172882,
+      "auxiliary_loss_mlp": 0.01026547,
+      "balance_loss_clip": 1.04438663,
+      "balance_loss_mlp": 1.01974583,
+      "epoch": 0.8463897072085613,
+      "flos": 24387080163840.0,
+      "grad_norm": 3.031235098650313,
+      "language_loss": 0.83713293,
+      "learning_rate": 2.4232241229035223e-07,
+      "loss": 0.85912716,
+      "num_input_tokens_seen": 152165825,
+      "step": 7039,
+      "time_per_iteration": 2.7175228595733643
+    },
+    {
+      "auxiliary_loss_clip": 0.0107465,
+      "auxiliary_loss_mlp": 0.01000634,
+      "balance_loss_clip": 1.0098269,
+      "balance_loss_mlp": 0.99949521,
+      "epoch": 0.8465099500992004,
+      "flos": 68702140258560.0,
+      "grad_norm": 0.7904345853028937,
+      "language_loss": 0.56737083,
+      "learning_rate": 2.419508835808064e-07,
+      "loss": 0.58812362,
+      "num_input_tokens_seen": 152222380,
+      "step": 7040,
+      "time_per_iteration": 3.208669424057007
+    },
+    {
+      "auxiliary_loss_clip": 0.01185023,
+      "auxiliary_loss_mlp": 0.01024519,
+      "balance_loss_clip": 1.04470158,
+      "balance_loss_mlp": 1.01693988,
+      "epoch": 0.8466301929898394,
+      "flos": 13735724561280.0,
+      "grad_norm": 2.6306803456346195,
+      "language_loss": 0.63012147,
+      "learning_rate": 2.415796215659134e-07,
+      "loss": 0.65221685,
+      "num_input_tokens_seen": 152239085,
+      "step": 7041,
+      "time_per_iteration": 2.572829246520996
+    },
+    {
+      "auxiliary_loss_clip": 0.01192764,
+      "auxiliary_loss_mlp": 0.01028283,
+      "balance_loss_clip": 1.04018879,
+      "balance_loss_mlp": 1.02093649,
+      "epoch": 0.8467504358804786,
+      "flos": 19241260738560.0,
+      "grad_norm": 1.9753615759914238,
+      "language_loss": 0.77116573,
+      "learning_rate": 2.412086263019939e-07,
+      "loss": 0.79337621,
+      "num_input_tokens_seen": 152257110,
+      "step": 7042,
+      "time_per_iteration": 2.6696815490722656
+    },
+    {
+      "auxiliary_loss_clip": 0.01163469,
+      "auxiliary_loss_mlp": 0.01022519,
+      "balance_loss_clip": 1.04704309,
+      "balance_loss_mlp": 1.01564956,
+      "epoch": 0.8468706787711177,
+      "flos": 21324115710720.0,
+      "grad_norm": 1.6225801289086463,
+      "language_loss": 0.80061442,
+      "learning_rate": 2.408378978453276e-07,
+      "loss": 0.82247436,
+      "num_input_tokens_seen": 152277230,
+      "step": 7043,
+      "time_per_iteration": 2.5780715942382812
+    },
+    {
+      "auxiliary_loss_clip": 0.01074487,
+      "auxiliary_loss_mlp": 0.01002352,
+      "balance_loss_clip": 1.00942576,
+      "balance_loss_mlp": 1.00123739,
+      "epoch": 0.8469909216617567,
+      "flos": 64877439058560.0,
+      "grad_norm": 0.8111084117805586,
+      "language_loss": 0.63983548,
+      "learning_rate": 2.404674362521533e-07,
+      "loss": 0.66060388,
+      "num_input_tokens_seen": 152335725,
+      "step": 7044,
+      "time_per_iteration": 3.0881388187408447
+    },
+    {
+      "auxiliary_loss_clip": 0.0117335,
+      "auxiliary_loss_mlp": 0.01021624,
+      "balance_loss_clip": 1.04638147,
+      "balance_loss_mlp": 1.01455212,
+      "epoch": 0.8471111645523959,
+      "flos": 19280583152640.0,
+      "grad_norm": 2.575126342702655,
+      "language_loss": 0.74955684,
+      "learning_rate": 2.4009724157866997e-07,
+      "loss": 0.77150655,
+      "num_input_tokens_seen": 152352785,
+      "step": 7045,
+      "time_per_iteration": 2.573145627975464
+    },
+    {
+      "auxiliary_loss_clip": 0.01165788,
+      "auxiliary_loss_mlp": 0.01026153,
+      "balance_loss_clip": 1.04683423,
+      "balance_loss_mlp": 1.01945353,
+      "epoch": 0.8472314074430349,
+      "flos": 22015826893440.0,
+      "grad_norm": 2.656479974821828,
+      "language_loss": 0.76327819,
+      "learning_rate": 2.3972731388103564e-07,
+      "loss": 0.78519756,
+      "num_input_tokens_seen": 152371265,
+      "step": 7046,
+      "time_per_iteration": 2.575348377227783
+    },
+    {
+      "auxiliary_loss_clip": 0.01118753,
+      "auxiliary_loss_mlp": 0.01001544,
+      "balance_loss_clip": 1.00854731,
+      "balance_loss_mlp": 1.00038743,
+      "epoch": 0.847351650333674,
+      "flos": 57882580243200.0,
+      "grad_norm": 0.8049783265480821,
+      "language_loss": 0.62395555,
+      "learning_rate": 2.393576532153687e-07,
+      "loss": 0.64515853,
+      "num_input_tokens_seen": 152435050,
+      "step": 7047,
+      "time_per_iteration": 3.6716067790985107
+    },
+    {
+      "auxiliary_loss_clip": 0.01072419,
+      "auxiliary_loss_mlp": 0.0100167,
+      "balance_loss_clip": 1.00947165,
+      "balance_loss_mlp": 1.00056124,
+      "epoch": 0.8474718932243132,
+      "flos": 41284238313600.0,
+      "grad_norm": 0.9324146578953956,
+      "language_loss": 0.57804579,
+      "learning_rate": 2.389882596377453e-07,
+      "loss": 0.59878665,
+      "num_input_tokens_seen": 152489315,
+      "step": 7048,
+      "time_per_iteration": 5.4601476192474365
+    },
+    {
+      "auxiliary_loss_clip": 0.01165971,
+      "auxiliary_loss_mlp": 0.0102637,
+      "balance_loss_clip": 1.04590058,
+      "balance_loss_mlp": 1.01880598,
+      "epoch": 0.8475921361149522,
+      "flos": 38180906974080.0,
+      "grad_norm": 1.811981254549643,
+      "language_loss": 0.76199883,
+      "learning_rate": 2.386191332042031e-07,
+      "loss": 0.7839222,
+      "num_input_tokens_seen": 152511210,
+      "step": 7049,
+      "time_per_iteration": 2.706230640411377
+    },
+    {
+      "auxiliary_loss_clip": 0.01172107,
+      "auxiliary_loss_mlp": 0.01029403,
+      "balance_loss_clip": 1.0486021,
+      "balance_loss_mlp": 1.02156472,
+      "epoch": 0.8477123790055913,
+      "flos": 25375054723200.0,
+      "grad_norm": 1.8029175273874884,
+      "language_loss": 0.72635901,
+      "learning_rate": 2.3825027397073794e-07,
+      "loss": 0.7483741,
+      "num_input_tokens_seen": 152531685,
+      "step": 7050,
+      "time_per_iteration": 2.6450352668762207
+    },
+    {
+      "auxiliary_loss_clip": 0.01178347,
+      "auxiliary_loss_mlp": 0.01027712,
+      "balance_loss_clip": 1.05033302,
+      "balance_loss_mlp": 1.01954031,
+      "epoch": 0.8478326218962304,
+      "flos": 30225185389440.0,
+      "grad_norm": 1.9408064025115461,
+      "language_loss": 0.66906434,
+      "learning_rate": 2.3788168199330515e-07,
+      "loss": 0.69112492,
+      "num_input_tokens_seen": 152553245,
+      "step": 7051,
+      "time_per_iteration": 2.6512303352355957
+    },
+    {
+      "auxiliary_loss_clip": 0.01167082,
+      "auxiliary_loss_mlp": 0.01023565,
+      "balance_loss_clip": 1.03913939,
+      "balance_loss_mlp": 1.01677573,
+      "epoch": 0.8479528647868695,
+      "flos": 38213800853760.0,
+      "grad_norm": 1.8568332546004354,
+      "language_loss": 0.72674227,
+      "learning_rate": 2.3751335732782074e-07,
+      "loss": 0.7486487,
+      "num_input_tokens_seen": 152574505,
+      "step": 7052,
+      "time_per_iteration": 2.841672897338867
+    },
+    {
+      "auxiliary_loss_clip": 0.01178566,
+      "auxiliary_loss_mlp": 0.01027413,
+      "balance_loss_clip": 1.04980016,
+      "balance_loss_mlp": 1.0200932,
+      "epoch": 0.8480731076775085,
+      "flos": 20957790856320.0,
+      "grad_norm": 1.7588110952475406,
+      "language_loss": 0.79451036,
+      "learning_rate": 2.371453000301582e-07,
+      "loss": 0.81657016,
+      "num_input_tokens_seen": 152593190,
+      "step": 7053,
+      "time_per_iteration": 3.517390251159668
+    },
+    {
+      "auxiliary_loss_clip": 0.01192557,
+      "auxiliary_loss_mlp": 0.01028568,
+      "balance_loss_clip": 1.04348969,
+      "balance_loss_mlp": 1.02085495,
+      "epoch": 0.8481933505681477,
+      "flos": 32596510487040.0,
+      "grad_norm": 1.985953538720378,
+      "language_loss": 0.74191558,
+      "learning_rate": 2.3677751015615222e-07,
+      "loss": 0.76412678,
+      "num_input_tokens_seen": 152615265,
+      "step": 7054,
+      "time_per_iteration": 2.7640230655670166
+    },
+    {
+      "auxiliary_loss_clip": 0.01170513,
+      "auxiliary_loss_mlp": 0.01027522,
+      "balance_loss_clip": 1.04102421,
+      "balance_loss_mlp": 1.01986027,
+      "epoch": 0.8483135934587868,
+      "flos": 20741177888640.0,
+      "grad_norm": 2.6189318063887277,
+      "language_loss": 0.85435343,
+      "learning_rate": 2.3640998776159593e-07,
+      "loss": 0.87633383,
+      "num_input_tokens_seen": 152632770,
+      "step": 7055,
+      "time_per_iteration": 2.7030186653137207
+    },
+    {
+      "auxiliary_loss_clip": 0.01187901,
+      "auxiliary_loss_mlp": 0.01025886,
+      "balance_loss_clip": 1.04577065,
+      "balance_loss_mlp": 1.01896858,
+      "epoch": 0.8484338363494258,
+      "flos": 21653057485440.0,
+      "grad_norm": 1.725428733302246,
+      "language_loss": 0.81433225,
+      "learning_rate": 2.3604273290224253e-07,
+      "loss": 0.83647013,
+      "num_input_tokens_seen": 152653485,
+      "step": 7056,
+      "time_per_iteration": 3.6215198040008545
+    },
+    {
+      "auxiliary_loss_clip": 0.01189871,
+      "auxiliary_loss_mlp": 0.01026294,
+      "balance_loss_clip": 1.04715133,
+      "balance_loss_mlp": 1.01839399,
+      "epoch": 0.848554079240065,
+      "flos": 15013964926080.0,
+      "grad_norm": 1.8205863402186915,
+      "language_loss": 0.74659342,
+      "learning_rate": 2.356757456338039e-07,
+      "loss": 0.76875508,
+      "num_input_tokens_seen": 152670970,
+      "step": 7057,
+      "time_per_iteration": 2.7038474082946777
+    },
+    {
+      "auxiliary_loss_clip": 0.01089566,
+      "auxiliary_loss_mlp": 0.01002255,
+      "balance_loss_clip": 1.01700473,
+      "balance_loss_mlp": 1.00119388,
+      "epoch": 0.848674322130704,
+      "flos": 68060453742720.0,
+      "grad_norm": 0.7523407753838783,
+      "language_loss": 0.59070301,
+      "learning_rate": 2.3530902601195147e-07,
+      "loss": 0.61162126,
+      "num_input_tokens_seen": 152739460,
+      "step": 7058,
+      "time_per_iteration": 3.3138270378112793
+    },
+    {
+      "auxiliary_loss_clip": 0.01176932,
+      "auxiliary_loss_mlp": 0.01024255,
+      "balance_loss_clip": 1.04739475,
+      "balance_loss_mlp": 1.01597595,
+      "epoch": 0.8487945650213431,
+      "flos": 18475788977280.0,
+      "grad_norm": 3.9438700579114583,
+      "language_loss": 0.78546405,
+      "learning_rate": 2.34942574092317e-07,
+      "loss": 0.80747592,
+      "num_input_tokens_seen": 152754710,
+      "step": 7059,
+      "time_per_iteration": 2.6098203659057617
+    },
+    {
+      "auxiliary_loss_clip": 0.01181159,
+      "auxiliary_loss_mlp": 0.01023606,
+      "balance_loss_clip": 1.04642344,
+      "balance_loss_mlp": 1.01686192,
+      "epoch": 0.8489148079119821,
+      "flos": 23473189405440.0,
+      "grad_norm": 5.545137229990216,
+      "language_loss": 0.76794356,
+      "learning_rate": 2.3457638993049045e-07,
+      "loss": 0.78999114,
+      "num_input_tokens_seen": 152772700,
+      "step": 7060,
+      "time_per_iteration": 2.6561036109924316
+    },
+    {
+      "auxiliary_loss_clip": 0.01216711,
+      "auxiliary_loss_mlp": 0.01029565,
+      "balance_loss_clip": 1.04524899,
+      "balance_loss_mlp": 1.02123809,
+      "epoch": 0.8490350508026213,
+      "flos": 19937604775680.0,
+      "grad_norm": 2.0114488233966274,
+      "language_loss": 0.64232588,
+      "learning_rate": 2.3421047358202252e-07,
+      "loss": 0.66478872,
+      "num_input_tokens_seen": 152791550,
+      "step": 7061,
+      "time_per_iteration": 2.7233998775482178
+    },
+    {
+      "auxiliary_loss_clip": 0.01180275,
+      "auxiliary_loss_mlp": 0.0102818,
+      "balance_loss_clip": 1.04668057,
+      "balance_loss_mlp": 1.02108669,
+      "epoch": 0.8491552936932604,
+      "flos": 24279958828800.0,
+      "grad_norm": 2.3183562453720965,
+      "language_loss": 0.8328613,
+      "learning_rate": 2.3384482510242144e-07,
+      "loss": 0.85494578,
+      "num_input_tokens_seen": 152809410,
+      "step": 7062,
+      "time_per_iteration": 2.647160291671753
+    },
+    {
+      "auxiliary_loss_clip": 0.01168994,
+      "auxiliary_loss_mlp": 0.01026949,
+      "balance_loss_clip": 1.04568863,
+      "balance_loss_mlp": 1.01936102,
+      "epoch": 0.8492755365838994,
+      "flos": 22522526098560.0,
+      "grad_norm": 2.1090199878984555,
+      "language_loss": 0.775374,
+      "learning_rate": 2.3347944454715575e-07,
+      "loss": 0.79733342,
+      "num_input_tokens_seen": 152825800,
+      "step": 7063,
+      "time_per_iteration": 2.5842573642730713
+    },
+    {
+      "auxiliary_loss_clip": 0.0117038,
+      "auxiliary_loss_mlp": 0.01026517,
+      "balance_loss_clip": 1.04754972,
+      "balance_loss_mlp": 1.01903677,
+      "epoch": 0.8493957794745386,
+      "flos": 26980441182720.0,
+      "grad_norm": 2.067267506876012,
+      "language_loss": 0.67494655,
+      "learning_rate": 2.331143319716542e-07,
+      "loss": 0.69691557,
+      "num_input_tokens_seen": 152845330,
+      "step": 7064,
+      "time_per_iteration": 2.7201452255249023
+    },
+    {
+      "auxiliary_loss_clip": 0.01200444,
+      "auxiliary_loss_mlp": 0.01022677,
+      "balance_loss_clip": 1.04447901,
+      "balance_loss_mlp": 1.01500583,
+      "epoch": 0.8495160223651776,
+      "flos": 29861985018240.0,
+      "grad_norm": 2.1583679380545546,
+      "language_loss": 0.66170037,
+      "learning_rate": 2.3274948743130363e-07,
+      "loss": 0.68393159,
+      "num_input_tokens_seen": 152865165,
+      "step": 7065,
+      "time_per_iteration": 2.7227060794830322
+    },
+    {
+      "auxiliary_loss_clip": 0.01167062,
+      "auxiliary_loss_mlp": 0.01022448,
+      "balance_loss_clip": 1.04578972,
+      "balance_loss_mlp": 1.01534581,
+      "epoch": 0.8496362652558167,
+      "flos": 23075443128960.0,
+      "grad_norm": 1.6091396653482641,
+      "language_loss": 0.79238951,
+      "learning_rate": 2.3238491098145085e-07,
+      "loss": 0.81428468,
+      "num_input_tokens_seen": 152884695,
+      "step": 7066,
+      "time_per_iteration": 2.689392566680908
+    },
+    {
+      "auxiliary_loss_clip": 0.01176749,
+      "auxiliary_loss_mlp": 0.01024491,
+      "balance_loss_clip": 1.04586124,
+      "balance_loss_mlp": 1.01655734,
+      "epoch": 0.8497565081464559,
+      "flos": 14609107756800.0,
+      "grad_norm": 2.375074856686803,
+      "language_loss": 0.73014903,
+      "learning_rate": 2.3202060267740141e-07,
+      "loss": 0.75216144,
+      "num_input_tokens_seen": 152902220,
+      "step": 7067,
+      "time_per_iteration": 2.6238157749176025
+    },
+    {
+      "auxiliary_loss_clip": 0.01195817,
+      "auxiliary_loss_mlp": 0.01023153,
+      "balance_loss_clip": 1.03834879,
+      "balance_loss_mlp": 1.01591063,
+      "epoch": 0.8498767510370949,
+      "flos": 21136446126720.0,
+      "grad_norm": 2.1124079276169083,
+      "language_loss": 0.7711193,
+      "learning_rate": 2.3165656257442044e-07,
+      "loss": 0.79330897,
+      "num_input_tokens_seen": 152920740,
+      "step": 7068,
+      "time_per_iteration": 2.753187656402588
+    },
+    {
+      "auxiliary_loss_clip": 0.01173473,
+      "auxiliary_loss_mlp": 0.01022336,
+      "balance_loss_clip": 1.0461545,
+      "balance_loss_mlp": 1.01563692,
+      "epoch": 0.849996993927734,
+      "flos": 23654538195840.0,
+      "grad_norm": 1.794731198712494,
+      "language_loss": 0.90245414,
+      "learning_rate": 2.31292790727734e-07,
+      "loss": 0.92441225,
+      "num_input_tokens_seen": 152938305,
+      "step": 7069,
+      "time_per_iteration": 2.625326156616211
+    },
+    {
+      "auxiliary_loss_clip": 0.01165426,
+      "auxiliary_loss_mlp": 0.01026738,
+      "balance_loss_clip": 1.04609251,
+      "balance_loss_mlp": 1.01968408,
+      "epoch": 0.8501172368183731,
+      "flos": 20558069331840.0,
+      "grad_norm": 2.258666903410028,
+      "language_loss": 0.80129361,
+      "learning_rate": 2.3092928719252392e-07,
+      "loss": 0.82321525,
+      "num_input_tokens_seen": 152956705,
+      "step": 7070,
+      "time_per_iteration": 2.689514636993408
+    },
+    {
+      "auxiliary_loss_clip": 0.01172815,
+      "auxiliary_loss_mlp": 0.01022874,
+      "balance_loss_clip": 1.04466796,
+      "balance_loss_mlp": 1.01587987,
+      "epoch": 0.8502374797090122,
+      "flos": 22272624201600.0,
+      "grad_norm": 2.2916350938927077,
+      "language_loss": 0.78391802,
+      "learning_rate": 2.3056605202393475e-07,
+      "loss": 0.80587494,
+      "num_input_tokens_seen": 152974265,
+      "step": 7071,
+      "time_per_iteration": 2.60034441947937
+    },
+    {
+      "auxiliary_loss_clip": 0.01169274,
+      "auxiliary_loss_mlp": 0.01378905,
+      "balance_loss_clip": 1.04214752,
+      "balance_loss_mlp": 1.00013614,
+      "epoch": 0.8503577225996513,
+      "flos": 23659817495040.0,
+      "grad_norm": 1.9805254950018771,
+      "language_loss": 0.66783911,
+      "learning_rate": 2.3020308527706888e-07,
+      "loss": 0.69332093,
+      "num_input_tokens_seen": 152993680,
+      "step": 7072,
+      "time_per_iteration": 2.67438006401062
+    },
+    {
+      "auxiliary_loss_clip": 0.01189954,
+      "auxiliary_loss_mlp": 0.01024917,
+      "balance_loss_clip": 1.04427373,
+      "balance_loss_mlp": 1.01774979,
+      "epoch": 0.8504779654902904,
+      "flos": 26758513002240.0,
+      "grad_norm": 4.388238043720553,
+      "language_loss": 0.88753629,
+      "learning_rate": 2.2984038700698715e-07,
+      "loss": 0.90968496,
+      "num_input_tokens_seen": 153012990,
+      "step": 7073,
+      "time_per_iteration": 2.663034200668335
+    },
+    {
+      "auxiliary_loss_clip": 0.01173286,
+      "auxiliary_loss_mlp": 0.01025755,
+      "balance_loss_clip": 1.04590249,
+      "balance_loss_mlp": 1.01870418,
+      "epoch": 0.8505982083809295,
+      "flos": 26468247196800.0,
+      "grad_norm": 1.6420025619604774,
+      "language_loss": 0.78789985,
+      "learning_rate": 2.2947795726871222e-07,
+      "loss": 0.80989027,
+      "num_input_tokens_seen": 153034015,
+      "step": 7074,
+      "time_per_iteration": 4.565369606018066
+    },
+    {
+      "auxiliary_loss_clip": 0.01178137,
+      "auxiliary_loss_mlp": 0.01378663,
+      "balance_loss_clip": 1.05079341,
+      "balance_loss_mlp": 1.0001471,
+      "epoch": 0.8507184512715685,
+      "flos": 20303390926080.0,
+      "grad_norm": 1.727833459516524,
+      "language_loss": 0.85765696,
+      "learning_rate": 2.2911579611722253e-07,
+      "loss": 0.88322496,
+      "num_input_tokens_seen": 153053160,
+      "step": 7075,
+      "time_per_iteration": 2.7492356300354004
+    },
+    {
+      "auxiliary_loss_clip": 0.01181775,
+      "auxiliary_loss_mlp": 0.01027679,
+      "balance_loss_clip": 1.04383969,
+      "balance_loss_mlp": 1.02102697,
+      "epoch": 0.8508386941622077,
+      "flos": 19025186474880.0,
+      "grad_norm": 1.7596662087668948,
+      "language_loss": 0.87428045,
+      "learning_rate": 2.2875390360745905e-07,
+      "loss": 0.89637506,
+      "num_input_tokens_seen": 153072565,
+      "step": 7076,
+      "time_per_iteration": 2.888784885406494
+    },
+    {
+      "auxiliary_loss_clip": 0.01200617,
+      "auxiliary_loss_mlp": 0.01034547,
+      "balance_loss_clip": 1.04436266,
+      "balance_loss_mlp": 1.02678657,
+      "epoch": 0.8509589370528468,
+      "flos": 16433405654400.0,
+      "grad_norm": 1.9305850566477587,
+      "language_loss": 0.7759949,
+      "learning_rate": 2.2839227979432008e-07,
+      "loss": 0.79834652,
+      "num_input_tokens_seen": 153090215,
+      "step": 7077,
+      "time_per_iteration": 2.6786420345306396
+    },
+    {
+      "auxiliary_loss_clip": 0.01186577,
+      "auxiliary_loss_mlp": 0.01025114,
+      "balance_loss_clip": 1.04473054,
+      "balance_loss_mlp": 1.01755941,
+      "epoch": 0.8510791799434858,
+      "flos": 18259714713600.0,
+      "grad_norm": 2.0870518915557685,
+      "language_loss": 0.85083985,
+      "learning_rate": 2.2803092473266373e-07,
+      "loss": 0.87295681,
+      "num_input_tokens_seen": 153107740,
+      "step": 7078,
+      "time_per_iteration": 2.7659378051757812
+    },
+    {
+      "auxiliary_loss_clip": 0.01171503,
+      "auxiliary_loss_mlp": 0.01028722,
+      "balance_loss_clip": 1.04990077,
+      "balance_loss_mlp": 1.02072322,
+      "epoch": 0.851199422834125,
+      "flos": 23441372933760.0,
+      "grad_norm": 2.1957613963214153,
+      "language_loss": 0.86583543,
+      "learning_rate": 2.2766983847730724e-07,
+      "loss": 0.88783765,
+      "num_input_tokens_seen": 153127410,
+      "step": 7079,
+      "time_per_iteration": 3.5401265621185303
+    },
+    {
+      "auxiliary_loss_clip": 0.01203513,
+      "auxiliary_loss_mlp": 0.0102331,
+      "balance_loss_clip": 1.04273808,
+      "balance_loss_mlp": 1.01531076,
+      "epoch": 0.851319665724764,
+      "flos": 16289404030080.0,
+      "grad_norm": 3.726224109329892,
+      "language_loss": 0.66530502,
+      "learning_rate": 2.2730902108302663e-07,
+      "loss": 0.68757319,
+      "num_input_tokens_seen": 153144325,
+      "step": 7080,
+      "time_per_iteration": 2.6827566623687744
+    },
+    {
+      "auxiliary_loss_clip": 0.01175063,
+      "auxiliary_loss_mlp": 0.01025427,
+      "balance_loss_clip": 1.04238474,
+      "balance_loss_mlp": 1.01779127,
+      "epoch": 0.8514399086154031,
+      "flos": 18989347680000.0,
+      "grad_norm": 1.7377097480134704,
+      "language_loss": 0.68725473,
+      "learning_rate": 2.269484726045583e-07,
+      "loss": 0.70925963,
+      "num_input_tokens_seen": 153163240,
+      "step": 7081,
+      "time_per_iteration": 2.6621015071868896
+    },
+    {
+      "auxiliary_loss_clip": 0.01201481,
+      "auxiliary_loss_mlp": 0.01021241,
+      "balance_loss_clip": 1.04636741,
+      "balance_loss_mlp": 1.01438904,
+      "epoch": 0.8515601515060423,
+      "flos": 24571194301440.0,
+      "grad_norm": 1.5893197439241176,
+      "language_loss": 0.79264724,
+      "learning_rate": 2.2658819309659672e-07,
+      "loss": 0.81487447,
+      "num_input_tokens_seen": 153183440,
+      "step": 7082,
+      "time_per_iteration": 3.6198153495788574
+    },
+    {
+      "auxiliary_loss_clip": 0.01183071,
+      "auxiliary_loss_mlp": 0.01018352,
+      "balance_loss_clip": 1.04656315,
+      "balance_loss_mlp": 1.01193309,
+      "epoch": 0.8516803943966813,
+      "flos": 19529443555200.0,
+      "grad_norm": 2.7434865664545116,
+      "language_loss": 0.84952915,
+      "learning_rate": 2.2622818261379706e-07,
+      "loss": 0.87154341,
+      "num_input_tokens_seen": 153200460,
+      "step": 7083,
+      "time_per_iteration": 2.663966178894043
+    },
+    {
+      "auxiliary_loss_clip": 0.01180865,
+      "auxiliary_loss_mlp": 0.01025491,
+      "balance_loss_clip": 1.04283428,
+      "balance_loss_mlp": 1.01837087,
+      "epoch": 0.8518006372873204,
+      "flos": 20265792364800.0,
+      "grad_norm": 1.718393879087239,
+      "language_loss": 0.75073969,
+      "learning_rate": 2.2586844121077142e-07,
+      "loss": 0.77280319,
+      "num_input_tokens_seen": 153218970,
+      "step": 7084,
+      "time_per_iteration": 2.613914966583252
+    },
+    {
+      "auxiliary_loss_clip": 0.0120178,
+      "auxiliary_loss_mlp": 0.01022575,
+      "balance_loss_clip": 1.04008782,
+      "balance_loss_mlp": 1.01528549,
+      "epoch": 0.8519208801779595,
+      "flos": 24133227770880.0,
+      "grad_norm": 1.639957564534775,
+      "language_loss": 0.71877486,
+      "learning_rate": 2.2550896894209215e-07,
+      "loss": 0.74101847,
+      "num_input_tokens_seen": 153238485,
+      "step": 7085,
+      "time_per_iteration": 2.7337658405303955
+    },
+    {
+      "auxiliary_loss_clip": 0.0112331,
+      "auxiliary_loss_mlp": 0.01000628,
+      "balance_loss_clip": 1.0097847,
+      "balance_loss_mlp": 0.99937612,
+      "epoch": 0.8520411230685986,
+      "flos": 63035223252480.0,
+      "grad_norm": 0.6807112239517664,
+      "language_loss": 0.56609982,
+      "learning_rate": 2.2514976586229184e-07,
+      "loss": 0.58733916,
+      "num_input_tokens_seen": 153306430,
+      "step": 7086,
+      "time_per_iteration": 3.562818765640259
+    },
+    {
+      "auxiliary_loss_clip": 0.01074046,
+      "auxiliary_loss_mlp": 0.01001339,
+      "balance_loss_clip": 1.00939775,
+      "balance_loss_mlp": 1.00021291,
+      "epoch": 0.8521613659592376,
+      "flos": 65836865283840.0,
+      "grad_norm": 0.7492460442448982,
+      "language_loss": 0.54642314,
+      "learning_rate": 2.247908320258609e-07,
+      "loss": 0.567177,
+      "num_input_tokens_seen": 153366520,
+      "step": 7087,
+      "time_per_iteration": 3.3080649375915527
+    },
+    {
+      "auxiliary_loss_clip": 0.01197629,
+      "auxiliary_loss_mlp": 0.01028855,
+      "balance_loss_clip": 1.04286599,
+      "balance_loss_mlp": 1.02094591,
+      "epoch": 0.8522816088498768,
+      "flos": 23112323418240.0,
+      "grad_norm": 2.0991664194267226,
+      "language_loss": 0.79556811,
+      "learning_rate": 2.2443216748724914e-07,
+      "loss": 0.81783295,
+      "num_input_tokens_seen": 153387230,
+      "step": 7088,
+      "time_per_iteration": 2.7592086791992188
+    },
+    {
+      "auxiliary_loss_clip": 0.01182134,
+      "auxiliary_loss_mlp": 0.01378907,
+      "balance_loss_clip": 1.04784417,
+      "balance_loss_mlp": 1.00010121,
+      "epoch": 0.8524018517405159,
+      "flos": 31758140073600.0,
+      "grad_norm": 2.341376807450982,
+      "language_loss": 0.74246937,
+      "learning_rate": 2.2407377230086588e-07,
+      "loss": 0.76807976,
+      "num_input_tokens_seen": 153409585,
+      "step": 7089,
+      "time_per_iteration": 2.697312593460083
+    },
+    {
+      "auxiliary_loss_clip": 0.01190882,
+      "auxiliary_loss_mlp": 0.01032683,
+      "balance_loss_clip": 1.04440618,
+      "balance_loss_mlp": 1.02520216,
+      "epoch": 0.8525220946311549,
+      "flos": 18690318956160.0,
+      "grad_norm": 1.8686242113160094,
+      "language_loss": 0.83472699,
+      "learning_rate": 2.23715646521079e-07,
+      "loss": 0.85696268,
+      "num_input_tokens_seen": 153427105,
+      "step": 7090,
+      "time_per_iteration": 2.7150912284851074
+    },
+    {
+      "auxiliary_loss_clip": 0.01180315,
+      "auxiliary_loss_mlp": 0.0137912,
+      "balance_loss_clip": 1.04540646,
+      "balance_loss_mlp": 1.00010991,
+      "epoch": 0.852642337521794,
+      "flos": 21793216354560.0,
+      "grad_norm": 1.8401347052734673,
+      "language_loss": 0.84508562,
+      "learning_rate": 2.2335779020221724e-07,
+      "loss": 0.87068003,
+      "num_input_tokens_seen": 153443725,
+      "step": 7091,
+      "time_per_iteration": 2.5974068641662598
+    },
+    {
+      "auxiliary_loss_clip": 0.01074342,
+      "auxiliary_loss_mlp": 0.01001066,
+      "balance_loss_clip": 1.01496887,
+      "balance_loss_mlp": 1.00010061,
+      "epoch": 0.8527625804124331,
+      "flos": 69040132260480.0,
+      "grad_norm": 1.1125827964916415,
+      "language_loss": 0.56480068,
+      "learning_rate": 2.2300020339856497e-07,
+      "loss": 0.58555478,
+      "num_input_tokens_seen": 153506410,
+      "step": 7092,
+      "time_per_iteration": 3.3915176391601562
+    },
+    {
+      "auxiliary_loss_clip": 0.01182742,
+      "auxiliary_loss_mlp": 0.01022352,
+      "balance_loss_clip": 1.04394197,
+      "balance_loss_mlp": 1.01502609,
+      "epoch": 0.8528828233030722,
+      "flos": 26979399688320.0,
+      "grad_norm": 2.2823620829318996,
+      "language_loss": 0.77892751,
+      "learning_rate": 2.2264288616436966e-07,
+      "loss": 0.80097842,
+      "num_input_tokens_seen": 153526665,
+      "step": 7093,
+      "time_per_iteration": 2.7462124824523926
+    },
+    {
+      "auxiliary_loss_clip": 0.0118057,
+      "auxiliary_loss_mlp": 0.01027872,
+      "balance_loss_clip": 1.04388785,
+      "balance_loss_mlp": 1.01993322,
+      "epoch": 0.8530030661937112,
+      "flos": 17487598936320.0,
+      "grad_norm": 2.0084559703681926,
+      "language_loss": 0.72747439,
+      "learning_rate": 2.222858385538351e-07,
+      "loss": 0.74955881,
+      "num_input_tokens_seen": 153543465,
+      "step": 7094,
+      "time_per_iteration": 2.6940994262695312
+    },
+    {
+      "auxiliary_loss_clip": 0.01171988,
+      "auxiliary_loss_mlp": 0.01030775,
+      "balance_loss_clip": 1.04506254,
+      "balance_loss_mlp": 1.0239408,
+      "epoch": 0.8531233090843504,
+      "flos": 22160798184960.0,
+      "grad_norm": 2.424829084211818,
+      "language_loss": 0.68159425,
+      "learning_rate": 2.2192906062112527e-07,
+      "loss": 0.70362186,
+      "num_input_tokens_seen": 153563340,
+      "step": 7095,
+      "time_per_iteration": 2.6850638389587402
+    },
+    {
+      "auxiliary_loss_clip": 0.01168206,
+      "auxiliary_loss_mlp": 0.01026071,
+      "balance_loss_clip": 1.04675841,
+      "balance_loss_mlp": 1.01865649,
+      "epoch": 0.8532435519749895,
+      "flos": 37635388145280.0,
+      "grad_norm": 2.2966292894433997,
+      "language_loss": 0.70525765,
+      "learning_rate": 2.2157255242036377e-07,
+      "loss": 0.72720039,
+      "num_input_tokens_seen": 153587005,
+      "step": 7096,
+      "time_per_iteration": 2.7396697998046875
+    },
+    {
+      "auxiliary_loss_clip": 0.01189568,
+      "auxiliary_loss_mlp": 0.0102653,
+      "balance_loss_clip": 1.04377878,
+      "balance_loss_mlp": 1.01928532,
+      "epoch": 0.8533637948656285,
+      "flos": 21398163598080.0,
+      "grad_norm": 1.6252669384473406,
+      "language_loss": 0.74612355,
+      "learning_rate": 2.2121631400563135e-07,
+      "loss": 0.7682845,
+      "num_input_tokens_seen": 153606835,
+      "step": 7097,
+      "time_per_iteration": 2.701582193374634
+    },
+    {
+      "auxiliary_loss_clip": 0.01076118,
+      "auxiliary_loss_mlp": 0.0100136,
+      "balance_loss_clip": 1.01673913,
+      "balance_loss_mlp": 1.00029874,
+      "epoch": 0.8534840377562677,
+      "flos": 53345122490880.0,
+      "grad_norm": 0.7720794952733137,
+      "language_loss": 0.52947617,
+      "learning_rate": 2.208603454309701e-07,
+      "loss": 0.55025089,
+      "num_input_tokens_seen": 153664925,
+      "step": 7098,
+      "time_per_iteration": 3.1659090518951416
+    },
+    {
+      "auxiliary_loss_clip": 0.01201766,
+      "auxiliary_loss_mlp": 0.01028293,
+      "balance_loss_clip": 1.04187083,
+      "balance_loss_mlp": 1.02053249,
+      "epoch": 0.8536042806469067,
+      "flos": 20814148368000.0,
+      "grad_norm": 1.8047696033765863,
+      "language_loss": 0.71316433,
+      "learning_rate": 2.2050464675037994e-07,
+      "loss": 0.73546493,
+      "num_input_tokens_seen": 153683550,
+      "step": 7099,
+      "time_per_iteration": 2.763566493988037
+    },
+    {
+      "auxiliary_loss_clip": 0.01184578,
+      "auxiliary_loss_mlp": 0.01023058,
+      "balance_loss_clip": 1.04442489,
+      "balance_loss_mlp": 1.01556587,
+      "epoch": 0.8537245235375458,
+      "flos": 24681368292480.0,
+      "grad_norm": 2.426271440888175,
+      "language_loss": 0.7310735,
+      "learning_rate": 2.2014921801782016e-07,
+      "loss": 0.75314987,
+      "num_input_tokens_seen": 153703040,
+      "step": 7100,
+      "time_per_iteration": 4.774994850158691
+    },
+    {
+      "auxiliary_loss_clip": 0.0118417,
+      "auxiliary_loss_mlp": 0.01023301,
+      "balance_loss_clip": 1.04127574,
+      "balance_loss_mlp": 1.015818,
+      "epoch": 0.853844766428185,
+      "flos": 24384817607040.0,
+      "grad_norm": 2.5384511849347096,
+      "language_loss": 0.74126333,
+      "learning_rate": 2.1979405928720872e-07,
+      "loss": 0.76333803,
+      "num_input_tokens_seen": 153722695,
+      "step": 7101,
+      "time_per_iteration": 2.667436122894287
+    },
+    {
+      "auxiliary_loss_clip": 0.01189564,
+      "auxiliary_loss_mlp": 0.01031864,
+      "balance_loss_clip": 1.04502678,
+      "balance_loss_mlp": 1.02494955,
+      "epoch": 0.853965009318824,
+      "flos": 20955707867520.0,
+      "grad_norm": 1.6060212920153274,
+      "language_loss": 0.79238802,
+      "learning_rate": 2.1943917061242257e-07,
+      "loss": 0.81460232,
+      "num_input_tokens_seen": 153742550,
+      "step": 7102,
+      "time_per_iteration": 2.715902805328369
+    },
+    {
+      "auxiliary_loss_clip": 0.01183556,
+      "auxiliary_loss_mlp": 0.01378882,
+      "balance_loss_clip": 1.0463382,
+      "balance_loss_mlp": 1.00015438,
+      "epoch": 0.8540852522094631,
+      "flos": 24201816791040.0,
+      "grad_norm": 1.6555908481381723,
+      "language_loss": 0.66610694,
+      "learning_rate": 2.1908455204729903e-07,
+      "loss": 0.69173133,
+      "num_input_tokens_seen": 153761700,
+      "step": 7103,
+      "time_per_iteration": 2.772773027420044
+    },
+    {
+      "auxiliary_loss_clip": 0.01182904,
+      "auxiliary_loss_mlp": 0.01027352,
+      "balance_loss_clip": 1.04287601,
+      "balance_loss_mlp": 1.02021766,
+      "epoch": 0.8542054951001022,
+      "flos": 25082921410560.0,
+      "grad_norm": 2.7739083188641573,
+      "language_loss": 0.78420484,
+      "learning_rate": 2.1873020364563265e-07,
+      "loss": 0.80630744,
+      "num_input_tokens_seen": 153780765,
+      "step": 7104,
+      "time_per_iteration": 3.6080472469329834
+    },
+    {
+      "auxiliary_loss_clip": 0.01174043,
+      "auxiliary_loss_mlp": 0.01022089,
+      "balance_loss_clip": 1.04668641,
+      "balance_loss_mlp": 1.01448345,
+      "epoch": 0.8543257379907413,
+      "flos": 24316551809280.0,
+      "grad_norm": 2.3730281019705632,
+      "language_loss": 0.76110065,
+      "learning_rate": 2.183761254611789e-07,
+      "loss": 0.78306198,
+      "num_input_tokens_seen": 153801090,
+      "step": 7105,
+      "time_per_iteration": 2.6630208492279053
+    },
+    {
+      "auxiliary_loss_clip": 0.01175291,
+      "auxiliary_loss_mlp": 0.01024651,
+      "balance_loss_clip": 1.04695415,
+      "balance_loss_mlp": 1.01745105,
+      "epoch": 0.8544459808813804,
+      "flos": 55286630467200.0,
+      "grad_norm": 2.023728812119525,
+      "language_loss": 0.70162594,
+      "learning_rate": 2.1802231754764987e-07,
+      "loss": 0.72362536,
+      "num_input_tokens_seen": 153826530,
+      "step": 7106,
+      "time_per_iteration": 2.8877880573272705
+    },
+    {
+      "auxiliary_loss_clip": 0.01184589,
+      "auxiliary_loss_mlp": 0.01019594,
+      "balance_loss_clip": 1.04301643,
+      "balance_loss_mlp": 1.01233387,
+      "epoch": 0.8545662237720195,
+      "flos": 25776248705280.0,
+      "grad_norm": 2.1654229787203656,
+      "language_loss": 0.76279342,
+      "learning_rate": 2.17668779958718e-07,
+      "loss": 0.78483534,
+      "num_input_tokens_seen": 153849110,
+      "step": 7107,
+      "time_per_iteration": 2.661689043045044
+    },
+    {
+      "auxiliary_loss_clip": 0.01169238,
+      "auxiliary_loss_mlp": 0.01024006,
+      "balance_loss_clip": 1.04869211,
+      "balance_loss_mlp": 1.01700532,
+      "epoch": 0.8546864666626586,
+      "flos": 11108320427520.0,
+      "grad_norm": 2.4143600506090874,
+      "language_loss": 0.80456841,
+      "learning_rate": 2.1731551274801553e-07,
+      "loss": 0.82650089,
+      "num_input_tokens_seen": 153865550,
+      "step": 7108,
+      "time_per_iteration": 3.445105791091919
+    },
+    {
+      "auxiliary_loss_clip": 0.01187221,
+      "auxiliary_loss_mlp": 0.01022053,
+      "balance_loss_clip": 1.04571104,
+      "balance_loss_mlp": 1.01470995,
+      "epoch": 0.8548067095532976,
+      "flos": 25520169669120.0,
+      "grad_norm": 2.357848665113171,
+      "language_loss": 0.61585689,
+      "learning_rate": 2.169625159691324e-07,
+      "loss": 0.63794965,
+      "num_input_tokens_seen": 153885425,
+      "step": 7109,
+      "time_per_iteration": 2.6490166187286377
+    },
+    {
+      "auxiliary_loss_clip": 0.0120932,
+      "auxiliary_loss_mlp": 0.01024592,
+      "balance_loss_clip": 1.04194355,
+      "balance_loss_mlp": 1.01732075,
+      "epoch": 0.8549269524439368,
+      "flos": 24717853532160.0,
+      "grad_norm": 2.167988412900692,
+      "language_loss": 0.74224436,
+      "learning_rate": 2.1660978967561784e-07,
+      "loss": 0.76458347,
+      "num_input_tokens_seen": 153904760,
+      "step": 7110,
+      "time_per_iteration": 2.7770512104034424
+    },
+    {
+      "auxiliary_loss_clip": 0.01166339,
+      "auxiliary_loss_mlp": 0.01023961,
+      "balance_loss_clip": 1.04501653,
+      "balance_loss_mlp": 1.01645696,
+      "epoch": 0.8550471953345758,
+      "flos": 19825599191040.0,
+      "grad_norm": 2.287886138313883,
+      "language_loss": 0.7878359,
+      "learning_rate": 2.1625733392098035e-07,
+      "loss": 0.80973887,
+      "num_input_tokens_seen": 153920370,
+      "step": 7111,
+      "time_per_iteration": 2.58793568611145
+    },
+    {
+      "auxiliary_loss_clip": 0.01165456,
+      "auxiliary_loss_mlp": 0.01021976,
+      "balance_loss_clip": 1.04554486,
+      "balance_loss_mlp": 1.01502645,
+      "epoch": 0.8551674382252149,
+      "flos": 22820441500800.0,
+      "grad_norm": 1.9460917477766035,
+      "language_loss": 0.79608339,
+      "learning_rate": 2.159051487586867e-07,
+      "loss": 0.8179577,
+      "num_input_tokens_seen": 153940500,
+      "step": 7112,
+      "time_per_iteration": 2.6385529041290283
+    },
+    {
+      "auxiliary_loss_clip": 0.01187247,
+      "auxiliary_loss_mlp": 0.01025356,
+      "balance_loss_clip": 1.04531646,
+      "balance_loss_mlp": 1.0176549,
+      "epoch": 0.8552876811158541,
+      "flos": 20631255292800.0,
+      "grad_norm": 2.1751915099090073,
+      "language_loss": 0.72333956,
+      "learning_rate": 2.155532342421642e-07,
+      "loss": 0.74546564,
+      "num_input_tokens_seen": 153958500,
+      "step": 7113,
+      "time_per_iteration": 2.7068850994110107
+    },
+    {
+      "auxiliary_loss_clip": 0.01178668,
+      "auxiliary_loss_mlp": 0.01029901,
+      "balance_loss_clip": 1.04656255,
+      "balance_loss_mlp": 1.02240884,
+      "epoch": 0.8554079240064931,
+      "flos": 23112359331840.0,
+      "grad_norm": 1.8403504092206282,
+      "language_loss": 0.78155851,
+      "learning_rate": 2.1520159042479636e-07,
+      "loss": 0.80364418,
+      "num_input_tokens_seen": 153976790,
+      "step": 7114,
+      "time_per_iteration": 2.6477653980255127
+    },
+    {
+      "auxiliary_loss_clip": 0.01176483,
+      "auxiliary_loss_mlp": 0.01027737,
+      "balance_loss_clip": 1.0473932,
+      "balance_loss_mlp": 1.02044189,
+      "epoch": 0.8555281668971322,
+      "flos": 22128047959680.0,
+      "grad_norm": 2.0796658694340975,
+      "language_loss": 0.71083623,
+      "learning_rate": 2.148502173599287e-07,
+      "loss": 0.73287839,
+      "num_input_tokens_seen": 153994930,
+      "step": 7115,
+      "time_per_iteration": 2.6386325359344482
+    },
+    {
+      "auxiliary_loss_clip": 0.01178604,
+      "auxiliary_loss_mlp": 0.01020882,
+      "balance_loss_clip": 1.04380798,
+      "balance_loss_mlp": 1.0137651,
+      "epoch": 0.8556484097877713,
+      "flos": 31139040234240.0,
+      "grad_norm": 1.7333638127360975,
+      "language_loss": 0.6574055,
+      "learning_rate": 2.1449911510086372e-07,
+      "loss": 0.67940032,
+      "num_input_tokens_seen": 154014400,
+      "step": 7116,
+      "time_per_iteration": 2.750997304916382
+    },
+    {
+      "auxiliary_loss_clip": 0.01173334,
+      "auxiliary_loss_mlp": 0.0102483,
+      "balance_loss_clip": 1.04471838,
+      "balance_loss_mlp": 1.01779974,
+      "epoch": 0.8557686526784104,
+      "flos": 24316551809280.0,
+      "grad_norm": 2.092015430555334,
+      "language_loss": 0.76868153,
+      "learning_rate": 2.141482837008628e-07,
+      "loss": 0.79066318,
+      "num_input_tokens_seen": 154034940,
+      "step": 7117,
+      "time_per_iteration": 2.6195414066314697
+    },
+    {
+      "auxiliary_loss_clip": 0.01166512,
+      "auxiliary_loss_mlp": 0.01024115,
+      "balance_loss_clip": 1.04398799,
+      "balance_loss_mlp": 1.01704597,
+      "epoch": 0.8558888955690495,
+      "flos": 17712723427200.0,
+      "grad_norm": 2.3186169408934862,
+      "language_loss": 0.71990991,
+      "learning_rate": 2.1379772321314826e-07,
+      "loss": 0.74181616,
+      "num_input_tokens_seen": 154052985,
+      "step": 7118,
+      "time_per_iteration": 2.623929738998413
+    },
+    {
+      "auxiliary_loss_clip": 0.0120338,
+      "auxiliary_loss_mlp": 0.01025813,
+      "balance_loss_clip": 1.04180849,
+      "balance_loss_mlp": 1.01824045,
+      "epoch": 0.8560091384596886,
+      "flos": 19171702051200.0,
+      "grad_norm": 1.9566379634145779,
+      "language_loss": 0.81631351,
+      "learning_rate": 2.1344743369089802e-07,
+      "loss": 0.8386054,
+      "num_input_tokens_seen": 154068765,
+      "step": 7119,
+      "time_per_iteration": 2.7446062564849854
+    },
+    {
+      "auxiliary_loss_clip": 0.01183498,
+      "auxiliary_loss_mlp": 0.01026577,
+      "balance_loss_clip": 1.04363251,
+      "balance_loss_mlp": 1.01955247,
+      "epoch": 0.8561293813503277,
+      "flos": 23914855036800.0,
+      "grad_norm": 1.743847628748894,
+      "language_loss": 0.81959343,
+      "learning_rate": 2.130974151872522e-07,
+      "loss": 0.84169412,
+      "num_input_tokens_seen": 154089100,
+      "step": 7120,
+      "time_per_iteration": 2.7340519428253174
+    },
+    {
+      "auxiliary_loss_clip": 0.01194371,
+      "auxiliary_loss_mlp": 0.01026367,
+      "balance_loss_clip": 1.04333174,
+      "balance_loss_mlp": 1.01871967,
+      "epoch": 0.8562496242409667,
+      "flos": 22529206028160.0,
+      "grad_norm": 1.8074213474736256,
+      "language_loss": 0.78776777,
+      "learning_rate": 2.1274766775530773e-07,
+      "loss": 0.80997521,
+      "num_input_tokens_seen": 154108965,
+      "step": 7121,
+      "time_per_iteration": 2.7567012310028076
+    },
+    {
+      "auxiliary_loss_clip": 0.01168434,
+      "auxiliary_loss_mlp": 0.01024885,
+      "balance_loss_clip": 1.04515862,
+      "balance_loss_mlp": 1.01736343,
+      "epoch": 0.8563698671316058,
+      "flos": 14712745472640.0,
+      "grad_norm": 2.1437907905707436,
+      "language_loss": 0.7955097,
+      "learning_rate": 2.1239819144812077e-07,
+      "loss": 0.81744283,
+      "num_input_tokens_seen": 154123425,
+      "step": 7122,
+      "time_per_iteration": 2.590430736541748
+    },
+    {
+      "auxiliary_loss_clip": 0.0118518,
+      "auxiliary_loss_mlp": 0.01025757,
+      "balance_loss_clip": 1.04139137,
+      "balance_loss_mlp": 1.01799607,
+      "epoch": 0.856490110022245,
+      "flos": 39167768211840.0,
+      "grad_norm": 6.27711536254312,
+      "language_loss": 0.69982916,
+      "learning_rate": 2.1204898631870716e-07,
+      "loss": 0.72193855,
+      "num_input_tokens_seen": 154148315,
+      "step": 7123,
+      "time_per_iteration": 2.8663082122802734
+    },
+    {
+      "auxiliary_loss_clip": 0.01186085,
+      "auxiliary_loss_mlp": 0.01025983,
+      "balance_loss_clip": 1.04616845,
+      "balance_loss_mlp": 1.01877999,
+      "epoch": 0.856610352912884,
+      "flos": 29059345658880.0,
+      "grad_norm": 1.8487635647934075,
+      "language_loss": 0.75970584,
+      "learning_rate": 2.1170005242004006e-07,
+      "loss": 0.7818265,
+      "num_input_tokens_seen": 154169665,
+      "step": 7124,
+      "time_per_iteration": 2.783012866973877
+    },
+    {
+      "auxiliary_loss_clip": 0.01189421,
+      "auxiliary_loss_mlp": 0.0102175,
+      "balance_loss_clip": 1.04393971,
+      "balance_loss_mlp": 1.01495469,
+      "epoch": 0.8567305958035231,
+      "flos": 23878333883520.0,
+      "grad_norm": 2.259000435116814,
+      "language_loss": 0.78072196,
+      "learning_rate": 2.1135138980505384e-07,
+      "loss": 0.80283368,
+      "num_input_tokens_seen": 154190335,
+      "step": 7125,
+      "time_per_iteration": 2.715985059738159
+    },
+    {
+      "auxiliary_loss_clip": 0.01183917,
+      "auxiliary_loss_mlp": 0.01022785,
+      "balance_loss_clip": 1.04728568,
+      "balance_loss_mlp": 1.0150125,
+      "epoch": 0.8568508386941622,
+      "flos": 22200120599040.0,
+      "grad_norm": 1.7527196863849852,
+      "language_loss": 0.72734606,
+      "learning_rate": 2.110029985266395e-07,
+      "loss": 0.74941307,
+      "num_input_tokens_seen": 154210040,
+      "step": 7126,
+      "time_per_iteration": 4.434968948364258
+    },
+    {
+      "auxiliary_loss_clip": 0.01187447,
+      "auxiliary_loss_mlp": 0.01028666,
+      "balance_loss_clip": 1.04270172,
+      "balance_loss_mlp": 1.02134669,
+      "epoch": 0.8569710815848013,
+      "flos": 17307507121920.0,
+      "grad_norm": 1.8350389605661714,
+      "language_loss": 0.73721749,
+      "learning_rate": 2.1065487863764787e-07,
+      "loss": 0.75937867,
+      "num_input_tokens_seen": 154228385,
+      "step": 7127,
+      "time_per_iteration": 2.665342330932617
+    },
+    {
+      "auxiliary_loss_clip": 0.01189051,
+      "auxiliary_loss_mlp": 0.01028152,
+      "balance_loss_clip": 1.03654242,
+      "balance_loss_mlp": 1.02084112,
+      "epoch": 0.8570913244754403,
+      "flos": 23732285184000.0,
+      "grad_norm": 4.419608680470103,
+      "language_loss": 0.85767823,
+      "learning_rate": 2.1030703019088846e-07,
+      "loss": 0.87985027,
+      "num_input_tokens_seen": 154249015,
+      "step": 7128,
+      "time_per_iteration": 2.7430949211120605
+    },
+    {
+      "auxiliary_loss_clip": 0.01172779,
+      "auxiliary_loss_mlp": 0.01021469,
+      "balance_loss_clip": 1.04620147,
+      "balance_loss_mlp": 1.01447117,
+      "epoch": 0.8572115673660795,
+      "flos": 20048748433920.0,
+      "grad_norm": 1.8610287405712704,
+      "language_loss": 0.70783728,
+      "learning_rate": 2.099594532391291e-07,
+      "loss": 0.72977972,
+      "num_input_tokens_seen": 154267700,
+      "step": 7129,
+      "time_per_iteration": 2.6349527835845947
+    },
+    {
+      "auxiliary_loss_clip": 0.01162319,
+      "auxiliary_loss_mlp": 0.01028232,
+      "balance_loss_clip": 1.04164517,
+      "balance_loss_mlp": 1.02149391,
+      "epoch": 0.8573318102567186,
+      "flos": 27160389342720.0,
+      "grad_norm": 1.6206753612548004,
+      "language_loss": 0.79190129,
+      "learning_rate": 2.0961214783509806e-07,
+      "loss": 0.81380677,
+      "num_input_tokens_seen": 154290580,
+      "step": 7130,
+      "time_per_iteration": 3.607046127319336
+    },
+    {
+      "auxiliary_loss_clip": 0.01186807,
+      "auxiliary_loss_mlp": 0.01026083,
+      "balance_loss_clip": 1.04238594,
+      "balance_loss_mlp": 1.01927054,
+      "epoch": 0.8574520531473576,
+      "flos": 24936585402240.0,
+      "grad_norm": 3.431136111554211,
+      "language_loss": 0.74720955,
+      "learning_rate": 2.0926511403148051e-07,
+      "loss": 0.76933849,
+      "num_input_tokens_seen": 154309545,
+      "step": 7131,
+      "time_per_iteration": 2.658625602722168
+    },
+    {
+      "auxiliary_loss_clip": 0.01201568,
+      "auxiliary_loss_mlp": 0.01025954,
+      "balance_loss_clip": 1.04553795,
+      "balance_loss_mlp": 1.01855433,
+      "epoch": 0.8575722960379968,
+      "flos": 18771154513920.0,
+      "grad_norm": 1.8648783029336358,
+      "language_loss": 0.75660557,
+      "learning_rate": 2.0891835188092143e-07,
+      "loss": 0.77888083,
+      "num_input_tokens_seen": 154326545,
+      "step": 7132,
+      "time_per_iteration": 2.7109358310699463
+    },
+    {
+      "auxiliary_loss_clip": 0.0119979,
+      "auxiliary_loss_mlp": 0.01024309,
+      "balance_loss_clip": 1.04252577,
+      "balance_loss_mlp": 1.01706123,
+      "epoch": 0.8576925389286358,
+      "flos": 22200300167040.0,
+      "grad_norm": 1.812148775898313,
+      "language_loss": 0.81215858,
+      "learning_rate": 2.0857186143602434e-07,
+      "loss": 0.83439964,
+      "num_input_tokens_seen": 154345190,
+      "step": 7133,
+      "time_per_iteration": 2.656475782394409
+    },
+    {
+      "auxiliary_loss_clip": 0.01182364,
+      "auxiliary_loss_mlp": 0.01024957,
+      "balance_loss_clip": 1.04097176,
+      "balance_loss_mlp": 1.01721454,
+      "epoch": 0.8578127818192749,
+      "flos": 22894345733760.0,
+      "grad_norm": 1.7016122178430257,
+      "language_loss": 0.67391962,
+      "learning_rate": 2.0822564274935094e-07,
+      "loss": 0.69599283,
+      "num_input_tokens_seen": 154364615,
+      "step": 7134,
+      "time_per_iteration": 3.6721017360687256
+    },
+    {
+      "auxiliary_loss_clip": 0.01184973,
+      "auxiliary_loss_mlp": 0.01024614,
+      "balance_loss_clip": 1.04578924,
+      "balance_loss_mlp": 1.01708007,
+      "epoch": 0.8579330247099141,
+      "flos": 34824839541120.0,
+      "grad_norm": 1.8499089393749062,
+      "language_loss": 0.66926032,
+      "learning_rate": 2.078796958734239e-07,
+      "loss": 0.69135618,
+      "num_input_tokens_seen": 154387335,
+      "step": 7135,
+      "time_per_iteration": 2.8426337242126465
+    },
+    {
+      "auxiliary_loss_clip": 0.01175993,
+      "auxiliary_loss_mlp": 0.01025235,
+      "balance_loss_clip": 1.0460552,
+      "balance_loss_mlp": 1.0175879,
+      "epoch": 0.8580532676005531,
+      "flos": 19755681367680.0,
+      "grad_norm": 2.0851599051638705,
+      "language_loss": 0.74934149,
+      "learning_rate": 2.0753402086072124e-07,
+      "loss": 0.77135378,
+      "num_input_tokens_seen": 154405965,
+      "step": 7136,
+      "time_per_iteration": 2.5805420875549316
+    },
+    {
+      "auxiliary_loss_clip": 0.0123573,
+      "auxiliary_loss_mlp": 0.01034136,
+      "balance_loss_clip": 1.04229498,
+      "balance_loss_mlp": 1.02678108,
+      "epoch": 0.8581735104911922,
+      "flos": 22739318634240.0,
+      "grad_norm": 2.5884640531922862,
+      "language_loss": 0.75583231,
+      "learning_rate": 2.071886177636828e-07,
+      "loss": 0.77853096,
+      "num_input_tokens_seen": 154422750,
+      "step": 7137,
+      "time_per_iteration": 3.0280044078826904
+    },
+    {
+      "auxiliary_loss_clip": 0.01174296,
+      "auxiliary_loss_mlp": 0.01027706,
+      "balance_loss_clip": 1.04603708,
+      "balance_loss_mlp": 1.02091968,
+      "epoch": 0.8582937533818313,
+      "flos": 23149131880320.0,
+      "grad_norm": 2.174407486253911,
+      "language_loss": 0.82877946,
+      "learning_rate": 2.0684348663470575e-07,
+      "loss": 0.8507995,
+      "num_input_tokens_seen": 154442930,
+      "step": 7138,
+      "time_per_iteration": 3.036168336868286
+    },
+    {
+      "auxiliary_loss_clip": 0.01180039,
+      "auxiliary_loss_mlp": 0.01023145,
+      "balance_loss_clip": 1.04091108,
+      "balance_loss_mlp": 1.01501513,
+      "epoch": 0.8584139962724704,
+      "flos": 19498668577920.0,
+      "grad_norm": 1.8005745417251617,
+      "language_loss": 0.61642408,
+      "learning_rate": 2.0649862752614555e-07,
+      "loss": 0.63845599,
+      "num_input_tokens_seen": 154461640,
+      "step": 7139,
+      "time_per_iteration": 2.675964593887329
+    },
+    {
+      "auxiliary_loss_clip": 0.0108668,
+      "auxiliary_loss_mlp": 0.01001777,
+      "balance_loss_clip": 1.00987053,
+      "balance_loss_mlp": 1.00066209,
+      "epoch": 0.8585342391631094,
+      "flos": 71276577788160.0,
+      "grad_norm": 0.7500127560285578,
+      "language_loss": 0.57042646,
+      "learning_rate": 2.0615404049031838e-07,
+      "loss": 0.59131104,
+      "num_input_tokens_seen": 154518610,
+      "step": 7140,
+      "time_per_iteration": 3.2244555950164795
+    },
+    {
+      "auxiliary_loss_clip": 0.01176663,
+      "auxiliary_loss_mlp": 0.01029493,
+      "balance_loss_clip": 1.04732609,
+      "balance_loss_mlp": 1.02184319,
+      "epoch": 0.8586544820537486,
+      "flos": 10815432929280.0,
+      "grad_norm": 2.4675654385064663,
+      "language_loss": 0.7828151,
+      "learning_rate": 2.0580972557949616e-07,
+      "loss": 0.80487669,
+      "num_input_tokens_seen": 154533700,
+      "step": 7141,
+      "time_per_iteration": 2.5674803256988525
+    },
+    {
+      "auxiliary_loss_clip": 0.01073828,
+      "auxiliary_loss_mlp": 0.01001137,
+      "balance_loss_clip": 1.00931954,
+      "balance_loss_mlp": 1.00002277,
+      "epoch": 0.8587747249443877,
+      "flos": 64811184422400.0,
+      "grad_norm": 0.7933444307062252,
+      "language_loss": 0.54214656,
+      "learning_rate": 2.054656828459125e-07,
+      "loss": 0.56289619,
+      "num_input_tokens_seen": 154597810,
+      "step": 7142,
+      "time_per_iteration": 3.2164554595947266
+    },
+    {
+      "auxiliary_loss_clip": 0.01200025,
+      "auxiliary_loss_mlp": 0.01027469,
+      "balance_loss_clip": 1.04303527,
+      "balance_loss_mlp": 1.02025676,
+      "epoch": 0.8588949678350267,
+      "flos": 26834607964800.0,
+      "grad_norm": 1.7665978657880053,
+      "language_loss": 0.77218097,
+      "learning_rate": 2.051219123417578e-07,
+      "loss": 0.79445589,
+      "num_input_tokens_seen": 154617870,
+      "step": 7143,
+      "time_per_iteration": 2.7312700748443604
+    },
+    {
+      "auxiliary_loss_clip": 0.01169068,
+      "auxiliary_loss_mlp": 0.01030539,
+      "balance_loss_clip": 1.04687834,
+      "balance_loss_mlp": 1.02255821,
+      "epoch": 0.8590152107256659,
+      "flos": 26104256726400.0,
+      "grad_norm": 2.2935910087252114,
+      "language_loss": 0.60086554,
+      "learning_rate": 2.0477841411918196e-07,
+      "loss": 0.62286162,
+      "num_input_tokens_seen": 154637395,
+      "step": 7144,
+      "time_per_iteration": 2.648329734802246
+    },
+    {
+      "auxiliary_loss_clip": 0.01172713,
+      "auxiliary_loss_mlp": 0.01021486,
+      "balance_loss_clip": 1.04507279,
+      "balance_loss_mlp": 1.01439035,
+      "epoch": 0.859135453616305,
+      "flos": 26140885620480.0,
+      "grad_norm": 2.0868089297076864,
+      "language_loss": 0.74501348,
+      "learning_rate": 2.0443518823029326e-07,
+      "loss": 0.76695549,
+      "num_input_tokens_seen": 154657935,
+      "step": 7145,
+      "time_per_iteration": 2.644888401031494
+    },
+    {
+      "auxiliary_loss_clip": 0.01185329,
+      "auxiliary_loss_mlp": 0.01025139,
+      "balance_loss_clip": 1.04136491,
+      "balance_loss_mlp": 1.01782537,
+      "epoch": 0.859255696506944,
+      "flos": 12969319046400.0,
+      "grad_norm": 2.039309256556629,
+      "language_loss": 0.76620746,
+      "learning_rate": 2.0409223472715854e-07,
+      "loss": 0.78831208,
+      "num_input_tokens_seen": 154675080,
+      "step": 7146,
+      "time_per_iteration": 2.7939929962158203
+    },
+    {
+      "auxiliary_loss_clip": 0.01194647,
+      "auxiliary_loss_mlp": 0.01378332,
+      "balance_loss_clip": 1.04389501,
+      "balance_loss_mlp": 1.00017285,
+      "epoch": 0.8593759393975832,
+      "flos": 18475753063680.0,
+      "grad_norm": 1.8332772457582278,
+      "language_loss": 0.74852335,
+      "learning_rate": 2.0374955366180434e-07,
+      "loss": 0.77425313,
+      "num_input_tokens_seen": 154692720,
+      "step": 7147,
+      "time_per_iteration": 2.724923849105835
+    },
+    {
+      "auxiliary_loss_clip": 0.01195542,
+      "auxiliary_loss_mlp": 0.01026176,
+      "balance_loss_clip": 1.04069686,
+      "balance_loss_mlp": 1.0183233,
+      "epoch": 0.8594961822882222,
+      "flos": 22200156512640.0,
+      "grad_norm": 1.6897304159594784,
+      "language_loss": 0.7271266,
+      "learning_rate": 2.034071450862147e-07,
+      "loss": 0.74934387,
+      "num_input_tokens_seen": 154710190,
+      "step": 7148,
+      "time_per_iteration": 2.6866753101348877
+    },
+    {
+      "auxiliary_loss_clip": 0.01184787,
+      "auxiliary_loss_mlp": 0.0103282,
+      "balance_loss_clip": 1.04218888,
+      "balance_loss_mlp": 1.02477884,
+      "epoch": 0.8596164251788613,
+      "flos": 23294749616640.0,
+      "grad_norm": 1.7621099097842514,
+      "language_loss": 0.76755536,
+      "learning_rate": 2.030650090523327e-07,
+      "loss": 0.7897315,
+      "num_input_tokens_seen": 154729380,
+      "step": 7149,
+      "time_per_iteration": 2.765655517578125
+    },
+    {
+      "auxiliary_loss_clip": 0.01187108,
+      "auxiliary_loss_mlp": 0.01027215,
+      "balance_loss_clip": 1.04013753,
+      "balance_loss_mlp": 1.01963902,
+      "epoch": 0.8597366680695004,
+      "flos": 31649905416960.0,
+      "grad_norm": 2.0130873616353133,
+      "language_loss": 0.5914011,
+      "learning_rate": 2.0272314561205995e-07,
+      "loss": 0.61354434,
+      "num_input_tokens_seen": 154749775,
+      "step": 7150,
+      "time_per_iteration": 2.7943594455718994
+    },
+    {
+      "auxiliary_loss_clip": 0.0118306,
+      "auxiliary_loss_mlp": 0.01026675,
+      "balance_loss_clip": 1.03961182,
+      "balance_loss_mlp": 1.01956081,
+      "epoch": 0.8598569109601395,
+      "flos": 21287738211840.0,
+      "grad_norm": 2.191519758245832,
+      "language_loss": 0.72593439,
+      "learning_rate": 2.023815548172567e-07,
+      "loss": 0.7480318,
+      "num_input_tokens_seen": 154769845,
+      "step": 7151,
+      "time_per_iteration": 2.7386295795440674
+    },
+    {
+      "auxiliary_loss_clip": 0.01175719,
+      "auxiliary_loss_mlp": 0.01028625,
+      "balance_loss_clip": 1.04547489,
+      "balance_loss_mlp": 1.02179706,
+      "epoch": 0.8599771538507786,
+      "flos": 25447809720960.0,
+      "grad_norm": 1.5457589730743442,
+      "language_loss": 0.6604259,
+      "learning_rate": 2.0204023671974267e-07,
+      "loss": 0.68246937,
+      "num_input_tokens_seen": 154789230,
+      "step": 7152,
+      "time_per_iteration": 4.66881537437439
+    },
+    {
+      "auxiliary_loss_clip": 0.01171149,
+      "auxiliary_loss_mlp": 0.0102629,
+      "balance_loss_clip": 1.04397321,
+      "balance_loss_mlp": 1.01780868,
+      "epoch": 0.8600973967414177,
+      "flos": 16723958768640.0,
+      "grad_norm": 2.0260521817097557,
+      "language_loss": 0.81034279,
+      "learning_rate": 2.0169919137129532e-07,
+      "loss": 0.83231717,
+      "num_input_tokens_seen": 154807670,
+      "step": 7153,
+      "time_per_iteration": 2.5871827602386475
+    },
+    {
+      "auxiliary_loss_clip": 0.01179774,
+      "auxiliary_loss_mlp": 0.01026284,
+      "balance_loss_clip": 1.04822946,
+      "balance_loss_mlp": 1.01851141,
+      "epoch": 0.8602176396320568,
+      "flos": 25227928615680.0,
+      "grad_norm": 2.183605238494296,
+      "language_loss": 0.70695114,
+      "learning_rate": 2.013584188236508e-07,
+      "loss": 0.72901171,
+      "num_input_tokens_seen": 154825575,
+      "step": 7154,
+      "time_per_iteration": 2.6450397968292236
+    },
+    {
+      "auxiliary_loss_clip": 0.01171141,
+      "auxiliary_loss_mlp": 0.01022496,
+      "balance_loss_clip": 1.04812789,
+      "balance_loss_mlp": 1.01524258,
+      "epoch": 0.8603378825226958,
+      "flos": 20412236113920.0,
+      "grad_norm": 2.059095264479755,
+      "language_loss": 0.79590923,
+      "learning_rate": 2.0101791912850396e-07,
+      "loss": 0.81784564,
+      "num_input_tokens_seen": 154845115,
+      "step": 7155,
+      "time_per_iteration": 2.599410057067871
+    },
+    {
+      "auxiliary_loss_clip": 0.01186707,
+      "auxiliary_loss_mlp": 0.01024436,
+      "balance_loss_clip": 1.04553056,
+      "balance_loss_mlp": 1.01737022,
+      "epoch": 0.8604581254133349,
+      "flos": 34930201109760.0,
+      "grad_norm": 1.8414321101455968,
+      "language_loss": 0.6398629,
+      "learning_rate": 2.006776923375082e-07,
+      "loss": 0.66197437,
+      "num_input_tokens_seen": 154866770,
+      "step": 7156,
+      "time_per_iteration": 3.602290630340576
+    },
+    {
+      "auxiliary_loss_clip": 0.01168735,
+      "auxiliary_loss_mlp": 0.01021742,
+      "balance_loss_clip": 1.04796243,
+      "balance_loss_mlp": 1.01469958,
+      "epoch": 0.860578368303974,
+      "flos": 22596538072320.0,
+      "grad_norm": 1.691051387575935,
+      "language_loss": 0.71175313,
+      "learning_rate": 2.003377385022764e-07,
+      "loss": 0.73365784,
+      "num_input_tokens_seen": 154885595,
+      "step": 7157,
+      "time_per_iteration": 2.641815662384033
+    },
+    {
+      "auxiliary_loss_clip": 0.0118603,
+      "auxiliary_loss_mlp": 0.01021675,
+      "balance_loss_clip": 1.04470587,
+      "balance_loss_mlp": 1.01454079,
+      "epoch": 0.8606986111946131,
+      "flos": 21324331192320.0,
+      "grad_norm": 2.3682559359068827,
+      "language_loss": 0.77587867,
+      "learning_rate": 1.9999805767437826e-07,
+      "loss": 0.79795581,
+      "num_input_tokens_seen": 154904485,
+      "step": 7158,
+      "time_per_iteration": 2.6522397994995117
+    },
+    {
+      "auxiliary_loss_clip": 0.01174047,
+      "auxiliary_loss_mlp": 0.01023727,
+      "balance_loss_clip": 1.03996253,
+      "balance_loss_mlp": 1.01620746,
+      "epoch": 0.8608188540852522,
+      "flos": 28877206769280.0,
+      "grad_norm": 1.6177850184506875,
+      "language_loss": 0.71731305,
+      "learning_rate": 1.9965864990534386e-07,
+      "loss": 0.73929083,
+      "num_input_tokens_seen": 154925010,
+      "step": 7159,
+      "time_per_iteration": 2.698934316635132
+    },
+    {
+      "auxiliary_loss_clip": 0.01184858,
+      "auxiliary_loss_mlp": 0.01019007,
+      "balance_loss_clip": 1.04045057,
+      "balance_loss_mlp": 1.01215243,
+      "epoch": 0.8609390969758913,
+      "flos": 29716187713920.0,
+      "grad_norm": 1.5957632409639375,
+      "language_loss": 0.77668488,
+      "learning_rate": 1.9931951524666092e-07,
+      "loss": 0.79872358,
+      "num_input_tokens_seen": 154946100,
+      "step": 7160,
+      "time_per_iteration": 3.8182373046875
+    },
+    {
+      "auxiliary_loss_clip": 0.0118061,
+      "auxiliary_loss_mlp": 0.01378637,
+      "balance_loss_clip": 1.0465399,
+      "balance_loss_mlp": 1.00021076,
+      "epoch": 0.8610593398665304,
+      "flos": 21249349551360.0,
+      "grad_norm": 1.6561410434191726,
+      "language_loss": 0.8115105,
+      "learning_rate": 1.9898065374977534e-07,
+      "loss": 0.83710301,
+      "num_input_tokens_seen": 154966305,
+      "step": 7161,
+      "time_per_iteration": 2.6844890117645264
+    },
+    {
+      "auxiliary_loss_clip": 0.01190956,
+      "auxiliary_loss_mlp": 0.0102186,
+      "balance_loss_clip": 1.04154038,
+      "balance_loss_mlp": 1.01592886,
+      "epoch": 0.8611795827571694,
+      "flos": 14830102183680.0,
+      "grad_norm": 1.832964336233198,
+      "language_loss": 0.72905278,
+      "learning_rate": 1.9864206546609342e-07,
+      "loss": 0.75118095,
+      "num_input_tokens_seen": 154985145,
+      "step": 7162,
+      "time_per_iteration": 2.674529552459717
+    },
+    {
+      "auxiliary_loss_clip": 0.01164825,
+      "auxiliary_loss_mlp": 0.01026072,
+      "balance_loss_clip": 1.04450083,
+      "balance_loss_mlp": 1.01878786,
+      "epoch": 0.8612998256478086,
+      "flos": 24243258107520.0,
+      "grad_norm": 1.6859991385513218,
+      "language_loss": 0.8439768,
+      "learning_rate": 1.983037504469771e-07,
+      "loss": 0.86588573,
+      "num_input_tokens_seen": 155003855,
+      "step": 7163,
+      "time_per_iteration": 2.6051254272460938
+    },
+    {
+      "auxiliary_loss_clip": 0.01176618,
+      "auxiliary_loss_mlp": 0.01032376,
+      "balance_loss_clip": 1.04664457,
+      "balance_loss_mlp": 1.02487469,
+      "epoch": 0.8614200685384477,
+      "flos": 21252653602560.0,
+      "grad_norm": 1.825561012108549,
+      "language_loss": 0.66585064,
+      "learning_rate": 1.9796570874374984e-07,
+      "loss": 0.6879406,
+      "num_input_tokens_seen": 155023960,
+      "step": 7164,
+      "time_per_iteration": 2.6089839935302734
+    },
+    {
+      "auxiliary_loss_clip": 0.01186965,
+      "auxiliary_loss_mlp": 0.01025504,
+      "balance_loss_clip": 1.04344773,
+      "balance_loss_mlp": 1.01770735,
+      "epoch": 0.8615403114290867,
+      "flos": 20007738080640.0,
+      "grad_norm": 1.700738244354356,
+      "language_loss": 0.77578807,
+      "learning_rate": 1.976279404076917e-07,
+      "loss": 0.79791278,
+      "num_input_tokens_seen": 155043360,
+      "step": 7165,
+      "time_per_iteration": 2.707943916320801
+    },
+    {
+      "auxiliary_loss_clip": 0.01194457,
+      "auxiliary_loss_mlp": 0.0102437,
+      "balance_loss_clip": 1.04484355,
+      "balance_loss_mlp": 1.01744127,
+      "epoch": 0.8616605543197259,
+      "flos": 29789373674880.0,
+      "grad_norm": 1.7948689743562154,
+      "language_loss": 0.75779235,
+      "learning_rate": 1.9729044549004193e-07,
+      "loss": 0.77998054,
+      "num_input_tokens_seen": 155064745,
+      "step": 7166,
+      "time_per_iteration": 2.755448341369629
+    },
+    {
+      "auxiliary_loss_clip": 0.01173295,
+      "auxiliary_loss_mlp": 0.01023696,
+      "balance_loss_clip": 1.04597354,
+      "balance_loss_mlp": 1.01650715,
+      "epoch": 0.8617807972103649,
+      "flos": 28911609020160.0,
+      "grad_norm": 2.272878388694853,
+      "language_loss": 0.70219827,
+      "learning_rate": 1.9695322404199822e-07,
+      "loss": 0.72416812,
+      "num_input_tokens_seen": 155086790,
+      "step": 7167,
+      "time_per_iteration": 2.651374101638794
+    },
+    {
+      "auxiliary_loss_clip": 0.01187429,
+      "auxiliary_loss_mlp": 0.01022811,
+      "balance_loss_clip": 1.04558718,
+      "balance_loss_mlp": 1.01513946,
+      "epoch": 0.861901040101004,
+      "flos": 27673804391040.0,
+      "grad_norm": 2.2058067336901876,
+      "language_loss": 0.82041007,
+      "learning_rate": 1.9661627611471654e-07,
+      "loss": 0.84251249,
+      "num_input_tokens_seen": 155106585,
+      "step": 7168,
+      "time_per_iteration": 2.7176012992858887
+    },
+    {
+      "auxiliary_loss_clip": 0.01191901,
+      "auxiliary_loss_mlp": 0.01023288,
+      "balance_loss_clip": 1.04429591,
+      "balance_loss_mlp": 1.01562917,
+      "epoch": 0.8620212829916432,
+      "flos": 49748056755840.0,
+      "grad_norm": 2.493216537340909,
+      "language_loss": 0.7028324,
+      "learning_rate": 1.9627960175931246e-07,
+      "loss": 0.72498429,
+      "num_input_tokens_seen": 155131285,
+      "step": 7169,
+      "time_per_iteration": 2.840951919555664
+    },
+    {
+      "auxiliary_loss_clip": 0.01177854,
+      "auxiliary_loss_mlp": 0.01022985,
+      "balance_loss_clip": 1.04828691,
+      "balance_loss_mlp": 1.01604664,
+      "epoch": 0.8621415258822822,
+      "flos": 21138672769920.0,
+      "grad_norm": 1.8495234175249875,
+      "language_loss": 0.74202186,
+      "learning_rate": 1.9594320102685847e-07,
+      "loss": 0.76403028,
+      "num_input_tokens_seen": 155150555,
+      "step": 7170,
+      "time_per_iteration": 2.7051687240600586
+    },
+    {
+      "auxiliary_loss_clip": 0.01174144,
+      "auxiliary_loss_mlp": 0.01378282,
+      "balance_loss_clip": 1.04308534,
+      "balance_loss_mlp": 1.00006199,
+      "epoch": 0.8622617687729213,
+      "flos": 21689039934720.0,
+      "grad_norm": 2.2670492224975054,
+      "language_loss": 0.64489734,
+      "learning_rate": 1.956070739683864e-07,
+      "loss": 0.6704216,
+      "num_input_tokens_seen": 155169890,
+      "step": 7171,
+      "time_per_iteration": 2.6462459564208984
+    },
+    {
+      "auxiliary_loss_clip": 0.01175067,
+      "auxiliary_loss_mlp": 0.01024402,
+      "balance_loss_clip": 1.03957725,
+      "balance_loss_mlp": 1.01766622,
+      "epoch": 0.8623820116635604,
+      "flos": 26250592734720.0,
+      "grad_norm": 1.5082360584798313,
+      "language_loss": 0.74197203,
+      "learning_rate": 1.9527122063488678e-07,
+      "loss": 0.76396668,
+      "num_input_tokens_seen": 155191005,
+      "step": 7172,
+      "time_per_iteration": 2.7379324436187744
+    },
+    {
+      "auxiliary_loss_clip": 0.01181453,
+      "auxiliary_loss_mlp": 0.01020396,
+      "balance_loss_clip": 1.04095328,
+      "balance_loss_mlp": 1.01359797,
+      "epoch": 0.8625022545541995,
+      "flos": 19647554451840.0,
+      "grad_norm": 1.852613576758301,
+      "language_loss": 0.80374467,
+      "learning_rate": 1.9493564107730755e-07,
+      "loss": 0.82576311,
+      "num_input_tokens_seen": 155211005,
+      "step": 7173,
+      "time_per_iteration": 2.665686845779419
+    },
+    {
+      "auxiliary_loss_clip": 0.0117558,
+      "auxiliary_loss_mlp": 0.01027042,
+      "balance_loss_clip": 1.03978682,
+      "balance_loss_mlp": 1.01978803,
+      "epoch": 0.8626224974448385,
+      "flos": 21908382336000.0,
+      "grad_norm": 1.835011657621352,
+      "language_loss": 0.6101734,
+      "learning_rate": 1.9460033534655684e-07,
+      "loss": 0.63219965,
+      "num_input_tokens_seen": 155230365,
+      "step": 7174,
+      "time_per_iteration": 2.6863884925842285
+    },
+    {
+      "auxiliary_loss_clip": 0.01174286,
+      "auxiliary_loss_mlp": 0.01027907,
+      "balance_loss_clip": 1.0379529,
+      "balance_loss_mlp": 1.02078414,
+      "epoch": 0.8627427403354777,
+      "flos": 23331198942720.0,
+      "grad_norm": 1.4803697052629101,
+      "language_loss": 0.84020323,
+      "learning_rate": 1.9426530349349978e-07,
+      "loss": 0.86222517,
+      "num_input_tokens_seen": 155250815,
+      "step": 7175,
+      "time_per_iteration": 2.6592438220977783
+    },
+    {
+      "auxiliary_loss_clip": 0.01171216,
+      "auxiliary_loss_mlp": 0.01378448,
+      "balance_loss_clip": 1.04305851,
+      "balance_loss_mlp": 1.00014758,
+      "epoch": 0.8628629832261168,
+      "flos": 16362877299840.0,
+      "grad_norm": 1.995007721016844,
+      "language_loss": 0.64598638,
+      "learning_rate": 1.9393054556896038e-07,
+      "loss": 0.67148304,
+      "num_input_tokens_seen": 155268515,
+      "step": 7176,
+      "time_per_iteration": 2.593406915664673
+    },
+    {
+      "auxiliary_loss_clip": 0.01187591,
+      "auxiliary_loss_mlp": 0.01028822,
+      "balance_loss_clip": 1.0404408,
+      "balance_loss_mlp": 1.02099848,
+      "epoch": 0.8629832261167558,
+      "flos": 28103941756800.0,
+      "grad_norm": 2.6355380589517714,
+      "language_loss": 0.69536084,
+      "learning_rate": 1.9359606162372133e-07,
+      "loss": 0.71752495,
+      "num_input_tokens_seen": 155290120,
+      "step": 7177,
+      "time_per_iteration": 2.7239866256713867
+    },
+    {
+      "auxiliary_loss_clip": 0.01166747,
+      "auxiliary_loss_mlp": 0.0102351,
+      "balance_loss_clip": 1.04710317,
+      "balance_loss_mlp": 1.01648903,
+      "epoch": 0.863103469007395,
+      "flos": 20230061310720.0,
+      "grad_norm": 1.6091862169077402,
+      "language_loss": 0.70651686,
+      "learning_rate": 1.9326185170852293e-07,
+      "loss": 0.72841942,
+      "num_input_tokens_seen": 155309085,
+      "step": 7178,
+      "time_per_iteration": 3.5015180110931396
+    },
+    {
+      "auxiliary_loss_clip": 0.01172536,
+      "auxiliary_loss_mlp": 0.01025803,
+      "balance_loss_clip": 1.04440427,
+      "balance_loss_mlp": 1.0185281,
+      "epoch": 0.863223711898034,
+      "flos": 24498547044480.0,
+      "grad_norm": 1.9528575230497942,
+      "language_loss": 0.72353578,
+      "learning_rate": 1.9292791587406598e-07,
+      "loss": 0.74551916,
+      "num_input_tokens_seen": 155327945,
+      "step": 7179,
+      "time_per_iteration": 3.7390341758728027
+    },
+    {
+      "auxiliary_loss_clip": 0.0116945,
+      "auxiliary_loss_mlp": 0.01378801,
+      "balance_loss_clip": 1.04184628,
+      "balance_loss_mlp": 1.00014138,
+      "epoch": 0.8633439547886731,
+      "flos": 17675376261120.0,
+      "grad_norm": 2.4601348214363234,
+      "language_loss": 0.86993784,
+      "learning_rate": 1.9259425417100661e-07,
+      "loss": 0.89542031,
+      "num_input_tokens_seen": 155344060,
+      "step": 7180,
+      "time_per_iteration": 2.595442056655884
+    },
+    {
+      "auxiliary_loss_clip": 0.0120022,
+      "auxiliary_loss_mlp": 0.01024622,
+      "balance_loss_clip": 1.03315973,
+      "balance_loss_mlp": 1.01711822,
+      "epoch": 0.8634641976793123,
+      "flos": 12895055677440.0,
+      "grad_norm": 2.463015711872218,
+      "language_loss": 0.75004339,
+      "learning_rate": 1.9226086664996234e-07,
+      "loss": 0.77229184,
+      "num_input_tokens_seen": 155362305,
+      "step": 7181,
+      "time_per_iteration": 2.7839229106903076
+    },
+    {
+      "auxiliary_loss_clip": 0.01187752,
+      "auxiliary_loss_mlp": 0.0102492,
+      "balance_loss_clip": 1.04530168,
+      "balance_loss_mlp": 1.01816416,
+      "epoch": 0.8635844405699513,
+      "flos": 23878980328320.0,
+      "grad_norm": 2.480421125708257,
+      "language_loss": 0.74461877,
+      "learning_rate": 1.9192775336150712e-07,
+      "loss": 0.76674551,
+      "num_input_tokens_seen": 155382605,
+      "step": 7182,
+      "time_per_iteration": 3.5293643474578857
+    },
+    {
+      "auxiliary_loss_clip": 0.01071849,
+      "auxiliary_loss_mlp": 0.01009585,
+      "balance_loss_clip": 1.01098514,
+      "balance_loss_mlp": 1.00854814,
+      "epoch": 0.8637046834605904,
+      "flos": 60453387521280.0,
+      "grad_norm": 0.7679004256594674,
+      "language_loss": 0.56270564,
+      "learning_rate": 1.915949143561739e-07,
+      "loss": 0.58351994,
+      "num_input_tokens_seen": 155437280,
+      "step": 7183,
+      "time_per_iteration": 3.106386661529541
+    },
+    {
+      "auxiliary_loss_clip": 0.01177852,
+      "auxiliary_loss_mlp": 0.01025678,
+      "balance_loss_clip": 1.04752731,
+      "balance_loss_mlp": 1.01773322,
+      "epoch": 0.8638249263512295,
+      "flos": 20558751690240.0,
+      "grad_norm": 2.6329816667110166,
+      "language_loss": 0.78050405,
+      "learning_rate": 1.9126234968445498e-07,
+      "loss": 0.80253935,
+      "num_input_tokens_seen": 155456970,
+      "step": 7184,
+      "time_per_iteration": 2.5524871349334717
+    },
+    {
+      "auxiliary_loss_clip": 0.01166196,
+      "auxiliary_loss_mlp": 0.01020165,
+      "balance_loss_clip": 1.04561806,
+      "balance_loss_mlp": 1.01303303,
+      "epoch": 0.8639451692418686,
+      "flos": 26615768353920.0,
+      "grad_norm": 2.545621128939335,
+      "language_loss": 0.67618638,
+      "learning_rate": 1.9093005939679884e-07,
+      "loss": 0.69805002,
+      "num_input_tokens_seen": 155478925,
+      "step": 7185,
+      "time_per_iteration": 2.5960099697113037
+    },
+    {
+      "auxiliary_loss_clip": 0.01177962,
+      "auxiliary_loss_mlp": 0.01026735,
+      "balance_loss_clip": 1.04815078,
+      "balance_loss_mlp": 1.01900983,
+      "epoch": 0.8640654121325076,
+      "flos": 15122450977920.0,
+      "grad_norm": 5.002631317441076,
+      "language_loss": 0.76668924,
+      "learning_rate": 1.9059804354361452e-07,
+      "loss": 0.78873622,
+      "num_input_tokens_seen": 155496700,
+      "step": 7186,
+      "time_per_iteration": 3.491151809692383
+    },
+    {
+      "auxiliary_loss_clip": 0.01174734,
+      "auxiliary_loss_mlp": 0.01028397,
+      "balance_loss_clip": 1.04046774,
+      "balance_loss_mlp": 1.02148342,
+      "epoch": 0.8641856550231467,
+      "flos": 31869068250240.0,
+      "grad_norm": 1.6437683508145038,
+      "language_loss": 0.70141453,
+      "learning_rate": 1.902663021752684e-07,
+      "loss": 0.72344589,
+      "num_input_tokens_seen": 155518130,
+      "step": 7187,
+      "time_per_iteration": 2.725128650665283
+    },
+    {
+      "auxiliary_loss_clip": 0.01170978,
+      "auxiliary_loss_mlp": 0.01026231,
+      "balance_loss_clip": 1.0499289,
+      "balance_loss_mlp": 1.01890564,
+      "epoch": 0.8643058979137859,
+      "flos": 14976545932800.0,
+      "grad_norm": 3.544060049301615,
+      "language_loss": 0.82151997,
+      "learning_rate": 1.8993483534208556e-07,
+      "loss": 0.84349203,
+      "num_input_tokens_seen": 155537040,
+      "step": 7188,
+      "time_per_iteration": 2.5965988636016846
+    },
+    {
+      "auxiliary_loss_clip": 0.01178592,
+      "auxiliary_loss_mlp": 0.01027669,
+      "balance_loss_clip": 1.04375494,
+      "balance_loss_mlp": 1.020123,
+      "epoch": 0.8644261408044249,
+      "flos": 13115726881920.0,
+      "grad_norm": 3.059171826256663,
+      "language_loss": 0.74642098,
+      "learning_rate": 1.8960364309434884e-07,
+      "loss": 0.76848352,
+      "num_input_tokens_seen": 155554535,
+      "step": 7189,
+      "time_per_iteration": 2.6271920204162598
+    },
+    {
+      "auxiliary_loss_clip": 0.01205578,
+      "auxiliary_loss_mlp": 0.01378689,
+      "balance_loss_clip": 1.03897572,
+      "balance_loss_mlp": 1.00012541,
+      "epoch": 0.864546383695064,
+      "flos": 20850920916480.0,
+      "grad_norm": 1.6300881535301288,
+      "language_loss": 0.78427613,
+      "learning_rate": 1.8927272548229967e-07,
+      "loss": 0.81011879,
+      "num_input_tokens_seen": 155574225,
+      "step": 7190,
+      "time_per_iteration": 2.8375039100646973
+    },
+    {
+      "auxiliary_loss_clip": 0.01204965,
+      "auxiliary_loss_mlp": 0.01026637,
+      "balance_loss_clip": 1.04257345,
+      "balance_loss_mlp": 1.01953816,
+      "epoch": 0.8646666265857031,
+      "flos": 21324582587520.0,
+      "grad_norm": 1.5263540836725549,
+      "language_loss": 0.82973152,
+      "learning_rate": 1.8894208255613876e-07,
+      "loss": 0.85204756,
+      "num_input_tokens_seen": 155593540,
+      "step": 7191,
+      "time_per_iteration": 2.8507258892059326
+    },
+    {
+      "auxiliary_loss_clip": 0.01168849,
+      "auxiliary_loss_mlp": 0.01025494,
+      "balance_loss_clip": 1.04846215,
+      "balance_loss_mlp": 1.01861835,
+      "epoch": 0.8647868694763422,
+      "flos": 19750833031680.0,
+      "grad_norm": 2.2300083458499502,
+      "language_loss": 0.77941066,
+      "learning_rate": 1.8861171436602397e-07,
+      "loss": 0.80135411,
+      "num_input_tokens_seen": 155610655,
+      "step": 7192,
+      "time_per_iteration": 2.5609889030456543
+    },
+    {
+      "auxiliary_loss_clip": 0.01178812,
+      "auxiliary_loss_mlp": 0.01024189,
+      "balance_loss_clip": 1.04746354,
+      "balance_loss_mlp": 1.01714957,
+      "epoch": 0.8649071123669813,
+      "flos": 26176760328960.0,
+      "grad_norm": 2.691644834012578,
+      "language_loss": 0.80593866,
+      "learning_rate": 1.882816209620719e-07,
+      "loss": 0.82796866,
+      "num_input_tokens_seen": 155627365,
+      "step": 7193,
+      "time_per_iteration": 2.677671432495117
+    },
+    {
+      "auxiliary_loss_clip": 0.01189559,
+      "auxiliary_loss_mlp": 0.01028916,
+      "balance_loss_clip": 1.04796553,
+      "balance_loss_mlp": 1.02169168,
+      "epoch": 0.8650273552576204,
+      "flos": 20302888135680.0,
+      "grad_norm": 1.8710852907547146,
+      "language_loss": 0.76950264,
+      "learning_rate": 1.8795180239435738e-07,
+      "loss": 0.79168737,
+      "num_input_tokens_seen": 155646220,
+      "step": 7194,
+      "time_per_iteration": 2.6719818115234375
+    },
+    {
+      "auxiliary_loss_clip": 0.01190615,
+      "auxiliary_loss_mlp": 0.01026144,
+      "balance_loss_clip": 1.04491997,
+      "balance_loss_mlp": 1.01919448,
+      "epoch": 0.8651475981482595,
+      "flos": 23951088881280.0,
+      "grad_norm": 4.665974859784938,
+      "language_loss": 0.75610662,
+      "learning_rate": 1.8762225871291348e-07,
+      "loss": 0.77827418,
+      "num_input_tokens_seen": 155662095,
+      "step": 7195,
+      "time_per_iteration": 2.6947288513183594
+    },
+    {
+      "auxiliary_loss_clip": 0.01166296,
+      "auxiliary_loss_mlp": 0.01378631,
+      "balance_loss_clip": 1.04578578,
+      "balance_loss_mlp": 1.00010777,
+      "epoch": 0.8652678410388985,
+      "flos": 21684622561920.0,
+      "grad_norm": 1.7926458588913905,
+      "language_loss": 0.80949831,
+      "learning_rate": 1.8729298996773201e-07,
+      "loss": 0.83494759,
+      "num_input_tokens_seen": 155680845,
+      "step": 7196,
+      "time_per_iteration": 2.5647521018981934
+    },
+    {
+      "auxiliary_loss_clip": 0.01069068,
+      "auxiliary_loss_mlp": 0.00999123,
+      "balance_loss_clip": 1.00947952,
+      "balance_loss_mlp": 0.99804461,
+      "epoch": 0.8653880839295377,
+      "flos": 65224660855680.0,
+      "grad_norm": 0.8365065864839969,
+      "language_loss": 0.60942996,
+      "learning_rate": 1.8696399620876301e-07,
+      "loss": 0.63011187,
+      "num_input_tokens_seen": 155737875,
+      "step": 7197,
+      "time_per_iteration": 3.1314289569854736
+    },
+    {
+      "auxiliary_loss_clip": 0.01184195,
+      "auxiliary_loss_mlp": 0.0102555,
+      "balance_loss_clip": 1.03621411,
+      "balance_loss_mlp": 1.01819181,
+      "epoch": 0.8655083268201768,
+      "flos": 17749172753280.0,
+      "grad_norm": 33.286736805775696,
+      "language_loss": 0.79279006,
+      "learning_rate": 1.866352774859141e-07,
+      "loss": 0.81488746,
+      "num_input_tokens_seen": 155753100,
+      "step": 7198,
+      "time_per_iteration": 2.6322288513183594
+    },
+    {
+      "auxiliary_loss_clip": 0.01195866,
+      "auxiliary_loss_mlp": 0.01023879,
+      "balance_loss_clip": 1.04151356,
+      "balance_loss_mlp": 1.01667857,
+      "epoch": 0.8656285697108158,
+      "flos": 20703974376960.0,
+      "grad_norm": 2.1487568355937245,
+      "language_loss": 0.6900202,
+      "learning_rate": 1.8630683384905188e-07,
+      "loss": 0.71221763,
+      "num_input_tokens_seen": 155772430,
+      "step": 7199,
+      "time_per_iteration": 2.6764400005340576
+    },
+    {
+      "auxiliary_loss_clip": 0.01168912,
+      "auxiliary_loss_mlp": 0.0137867,
+      "balance_loss_clip": 1.04812503,
+      "balance_loss_mlp": 1.00011027,
+      "epoch": 0.865748812601455,
+      "flos": 18653833716480.0,
+      "grad_norm": 1.8997036292952754,
+      "language_loss": 0.88753736,
+      "learning_rate": 1.8597866534800045e-07,
+      "loss": 0.91301322,
+      "num_input_tokens_seen": 155787545,
+      "step": 7200,
+      "time_per_iteration": 2.5566468238830566
+    },
+    {
+      "auxiliary_loss_clip": 0.01180864,
+      "auxiliary_loss_mlp": 0.0137856,
+      "balance_loss_clip": 1.04799938,
+      "balance_loss_mlp": 1.00012481,
+      "epoch": 0.865869055492094,
+      "flos": 70652554807680.0,
+      "grad_norm": 2.0329028763156134,
+      "language_loss": 0.74377441,
+      "learning_rate": 1.8565077203254398e-07,
+      "loss": 0.76936865,
+      "num_input_tokens_seen": 155813005,
+      "step": 7201,
+      "time_per_iteration": 3.0560481548309326
+    },
+    {
+      "auxiliary_loss_clip": 0.01199174,
+      "auxiliary_loss_mlp": 0.0102596,
+      "balance_loss_clip": 1.04806602,
+      "balance_loss_mlp": 1.01835728,
+      "epoch": 0.8659892983827331,
+      "flos": 17383961220480.0,
+      "grad_norm": 2.4301118712398084,
+      "language_loss": 0.72534502,
+      "learning_rate": 1.8532315395242203e-07,
+      "loss": 0.74759632,
+      "num_input_tokens_seen": 155829455,
+      "step": 7202,
+      "time_per_iteration": 2.7212588787078857
+    },
+    {
+      "auxiliary_loss_clip": 0.01195307,
+      "auxiliary_loss_mlp": 0.01026557,
+      "balance_loss_clip": 1.04206014,
+      "balance_loss_mlp": 1.01982737,
+      "epoch": 0.8661095412733723,
+      "flos": 17895221452800.0,
+      "grad_norm": 2.030576250328214,
+      "language_loss": 0.7215482,
+      "learning_rate": 1.849958111573353e-07,
+      "loss": 0.7437669,
+      "num_input_tokens_seen": 155848060,
+      "step": 7203,
+      "time_per_iteration": 2.6702630519866943
+    },
+    {
+      "auxiliary_loss_clip": 0.01163497,
+      "auxiliary_loss_mlp": 0.01024604,
+      "balance_loss_clip": 1.04428816,
+      "balance_loss_mlp": 1.01741278,
+      "epoch": 0.8662297841640113,
+      "flos": 18224163227520.0,
+      "grad_norm": 1.7531005723312572,
+      "language_loss": 0.63986218,
+      "learning_rate": 1.8466874369694074e-07,
+      "loss": 0.66174316,
+      "num_input_tokens_seen": 155865755,
+      "step": 7204,
+      "time_per_iteration": 3.601560592651367
+    },
+    {
+      "auxiliary_loss_clip": 0.01188487,
+      "auxiliary_loss_mlp": 0.01022398,
+      "balance_loss_clip": 1.03819799,
+      "balance_loss_mlp": 1.01562953,
+      "epoch": 0.8663500270546504,
+      "flos": 16362159027840.0,
+      "grad_norm": 2.238910149063721,
+      "language_loss": 0.70115542,
+      "learning_rate": 1.843419516208542e-07,
+      "loss": 0.72326428,
+      "num_input_tokens_seen": 155882680,
+      "step": 7205,
+      "time_per_iteration": 3.887641668319702
+    },
+    {
+      "auxiliary_loss_clip": 0.01179942,
+      "auxiliary_loss_mlp": 0.01025011,
+      "balance_loss_clip": 1.04934108,
+      "balance_loss_mlp": 1.0173099,
+      "epoch": 0.8664702699452895,
+      "flos": 17894431353600.0,
+      "grad_norm": 2.466207063152627,
+      "language_loss": 0.80148244,
+      "learning_rate": 1.8401543497865047e-07,
+      "loss": 0.82353199,
+      "num_input_tokens_seen": 155900680,
+      "step": 7206,
+      "time_per_iteration": 2.660895824432373
+    },
+    {
+      "auxiliary_loss_clip": 0.01177987,
+      "auxiliary_loss_mlp": 0.01378632,
+      "balance_loss_clip": 1.04467058,
+      "balance_loss_mlp": 1.00019765,
+      "epoch": 0.8665905128359286,
+      "flos": 30736373794560.0,
+      "grad_norm": 2.540586803196661,
+      "language_loss": 0.64309925,
+      "learning_rate": 1.836891938198608e-07,
+      "loss": 0.66866541,
+      "num_input_tokens_seen": 155921105,
+      "step": 7207,
+      "time_per_iteration": 2.78216290473938
+    },
+    {
+      "auxiliary_loss_clip": 0.01184877,
+      "auxiliary_loss_mlp": 0.01027475,
+      "balance_loss_clip": 1.045403,
+      "balance_loss_mlp": 1.02060246,
+      "epoch": 0.8667107557265676,
+      "flos": 18656419495680.0,
+      "grad_norm": 5.181233191156189,
+      "language_loss": 0.71205127,
+      "learning_rate": 1.8336322819397677e-07,
+      "loss": 0.73417479,
+      "num_input_tokens_seen": 155938640,
+      "step": 7208,
+      "time_per_iteration": 3.5368492603302
+    },
+    {
+      "auxiliary_loss_clip": 0.01194105,
+      "auxiliary_loss_mlp": 0.01027303,
+      "balance_loss_clip": 1.03935421,
+      "balance_loss_mlp": 1.01969755,
+      "epoch": 0.8668309986172068,
+      "flos": 20083725302400.0,
+      "grad_norm": 1.8961441896286975,
+      "language_loss": 0.624879,
+      "learning_rate": 1.8303753815044654e-07,
+      "loss": 0.64709306,
+      "num_input_tokens_seen": 155957945,
+      "step": 7209,
+      "time_per_iteration": 2.668632984161377
+    },
+    {
+      "auxiliary_loss_clip": 0.01193625,
+      "auxiliary_loss_mlp": 0.01026205,
+      "balance_loss_clip": 1.04287434,
+      "balance_loss_mlp": 1.01803303,
+      "epoch": 0.8669512415078459,
+      "flos": 21615099788160.0,
+      "grad_norm": 2.458908840758716,
+      "language_loss": 0.70289183,
+      "learning_rate": 1.827121237386773e-07,
+      "loss": 0.72509015,
+      "num_input_tokens_seen": 155975390,
+      "step": 7210,
+      "time_per_iteration": 2.6681222915649414
+    },
+    {
+      "auxiliary_loss_clip": 0.01189094,
+      "auxiliary_loss_mlp": 0.01026502,
+      "balance_loss_clip": 1.04442096,
+      "balance_loss_mlp": 1.01878905,
+      "epoch": 0.8670714843984849,
+      "flos": 17703601372800.0,
+      "grad_norm": 2.192316326096098,
+      "language_loss": 0.74624729,
+      "learning_rate": 1.8238698500803374e-07,
+      "loss": 0.76840329,
+      "num_input_tokens_seen": 155988155,
+      "step": 7211,
+      "time_per_iteration": 2.58876633644104
+    },
+    {
+      "auxiliary_loss_clip": 0.01073811,
+      "auxiliary_loss_mlp": 0.01004787,
+      "balance_loss_clip": 1.00883198,
+      "balance_loss_mlp": 1.00371456,
+      "epoch": 0.8671917272891241,
+      "flos": 60705483125760.0,
+      "grad_norm": 0.7178011539862161,
+      "language_loss": 0.56235081,
+      "learning_rate": 1.820621220078391e-07,
+      "loss": 0.5831368,
+      "num_input_tokens_seen": 156052065,
+      "step": 7212,
+      "time_per_iteration": 4.184757471084595
+    },
+    {
+      "auxiliary_loss_clip": 0.01166389,
+      "auxiliary_loss_mlp": 0.01025174,
+      "balance_loss_clip": 1.04556799,
+      "balance_loss_mlp": 1.01769388,
+      "epoch": 0.8673119701797631,
+      "flos": 20451881750400.0,
+      "grad_norm": 1.546090529745323,
+      "language_loss": 0.67634928,
+      "learning_rate": 1.8173753478737553e-07,
+      "loss": 0.6982649,
+      "num_input_tokens_seen": 156072500,
+      "step": 7213,
+      "time_per_iteration": 2.715595245361328
+    },
+    {
+      "auxiliary_loss_clip": 0.01165618,
+      "auxiliary_loss_mlp": 0.01026182,
+      "balance_loss_clip": 1.04542279,
+      "balance_loss_mlp": 1.019104,
+      "epoch": 0.8674322130704022,
+      "flos": 19647410797440.0,
+      "grad_norm": 2.8460712814388383,
+      "language_loss": 0.799182,
+      "learning_rate": 1.8141322339588205e-07,
+      "loss": 0.8211,
+      "num_input_tokens_seen": 156089840,
+      "step": 7214,
+      "time_per_iteration": 2.563384771347046
+    },
+    {
+      "auxiliary_loss_clip": 0.01166336,
+      "auxiliary_loss_mlp": 0.01026674,
+      "balance_loss_clip": 1.04736662,
+      "balance_loss_mlp": 1.01928258,
+      "epoch": 0.8675524559610414,
+      "flos": 26025001367040.0,
+      "grad_norm": 1.8344894977214798,
+      "language_loss": 0.70417035,
+      "learning_rate": 1.810891878825569e-07,
+      "loss": 0.72610044,
+      "num_input_tokens_seen": 156109815,
+      "step": 7215,
+      "time_per_iteration": 2.6905932426452637
+    },
+    {
+      "auxiliary_loss_clip": 0.01183301,
+      "auxiliary_loss_mlp": 0.01025266,
+      "balance_loss_clip": 1.04276657,
+      "balance_loss_mlp": 1.01800013,
+      "epoch": 0.8676726988516804,
+      "flos": 15049444584960.0,
+      "grad_norm": 1.9958389788266506,
+      "language_loss": 0.71709907,
+      "learning_rate": 1.8076542829655561e-07,
+      "loss": 0.7391848,
+      "num_input_tokens_seen": 156128620,
+      "step": 7216,
+      "time_per_iteration": 2.5847201347351074
+    },
+    {
+      "auxiliary_loss_clip": 0.01188272,
+      "auxiliary_loss_mlp": 0.01028425,
+      "balance_loss_clip": 1.04702377,
+      "balance_loss_mlp": 1.02046227,
+      "epoch": 0.8677929417423195,
+      "flos": 16288111140480.0,
+      "grad_norm": 1.986545522327044,
+      "language_loss": 0.79287517,
+      "learning_rate": 1.8044194468699203e-07,
+      "loss": 0.81504214,
+      "num_input_tokens_seen": 156145930,
+      "step": 7217,
+      "time_per_iteration": 2.63161301612854
+    },
+    {
+      "auxiliary_loss_clip": 0.0118658,
+      "auxiliary_loss_mlp": 0.01021645,
+      "balance_loss_clip": 1.04797232,
+      "balance_loss_mlp": 1.01393783,
+      "epoch": 0.8679131846329585,
+      "flos": 18844160906880.0,
+      "grad_norm": 2.5892653002931234,
+      "language_loss": 0.7574271,
+      "learning_rate": 1.8011873710293912e-07,
+      "loss": 0.77950931,
+      "num_input_tokens_seen": 156164435,
+      "step": 7218,
+      "time_per_iteration": 2.6129302978515625
+    },
+    {
+      "auxiliary_loss_clip": 0.01173939,
+      "auxiliary_loss_mlp": 0.01028153,
+      "balance_loss_clip": 1.04603267,
+      "balance_loss_mlp": 1.02058899,
+      "epoch": 0.8680334275235977,
+      "flos": 33620718890880.0,
+      "grad_norm": 2.085022061536851,
+      "language_loss": 0.69521391,
+      "learning_rate": 1.7979580559342677e-07,
+      "loss": 0.71723479,
+      "num_input_tokens_seen": 156185165,
+      "step": 7219,
+      "time_per_iteration": 2.7703866958618164
+    },
+    {
+      "auxiliary_loss_clip": 0.01184635,
+      "auxiliary_loss_mlp": 0.01024048,
+      "balance_loss_clip": 1.04540133,
+      "balance_loss_mlp": 1.01609111,
+      "epoch": 0.8681536704142367,
+      "flos": 24681152810880.0,
+      "grad_norm": 1.6139056621381247,
+      "language_loss": 0.67001295,
+      "learning_rate": 1.7947315020744358e-07,
+      "loss": 0.69209975,
+      "num_input_tokens_seen": 156206260,
+      "step": 7220,
+      "time_per_iteration": 2.717933177947998
+    },
+    {
+      "auxiliary_loss_clip": 0.01182972,
+      "auxiliary_loss_mlp": 0.01019031,
+      "balance_loss_clip": 1.04325891,
+      "balance_loss_mlp": 1.01209867,
+      "epoch": 0.8682739133048758,
+      "flos": 20011042131840.0,
+      "grad_norm": 1.9214566874971963,
+      "language_loss": 0.80621916,
+      "learning_rate": 1.7915077099393594e-07,
+      "loss": 0.8282392,
+      "num_input_tokens_seen": 156222860,
+      "step": 7221,
+      "time_per_iteration": 2.6268367767333984
+    },
+    {
+      "auxiliary_loss_clip": 0.01176682,
+      "auxiliary_loss_mlp": 0.01028193,
+      "balance_loss_clip": 1.04471111,
+      "balance_loss_mlp": 1.02104676,
+      "epoch": 0.868394156195515,
+      "flos": 16654759217280.0,
+      "grad_norm": 2.1197472119560965,
+      "language_loss": 0.73610795,
+      "learning_rate": 1.788286680018083e-07,
+      "loss": 0.75815678,
+      "num_input_tokens_seen": 156241570,
+      "step": 7222,
+      "time_per_iteration": 2.6270341873168945
+    },
+    {
+      "auxiliary_loss_clip": 0.01188677,
+      "auxiliary_loss_mlp": 0.01024302,
+      "balance_loss_clip": 1.04519939,
+      "balance_loss_mlp": 1.01719368,
+      "epoch": 0.868514399086154,
+      "flos": 28001381448960.0,
+      "grad_norm": 1.5528038613584987,
+      "language_loss": 0.7233606,
+      "learning_rate": 1.7850684127992443e-07,
+      "loss": 0.74549037,
+      "num_input_tokens_seen": 156261315,
+      "step": 7223,
+      "time_per_iteration": 2.7905571460723877
+    },
+    {
+      "auxiliary_loss_clip": 0.0119556,
+      "auxiliary_loss_mlp": 0.01030776,
+      "balance_loss_clip": 1.04656982,
+      "balance_loss_mlp": 1.02381766,
+      "epoch": 0.8686346419767931,
+      "flos": 20084587228800.0,
+      "grad_norm": 2.628491315586782,
+      "language_loss": 0.70451909,
+      "learning_rate": 1.7818529087710378e-07,
+      "loss": 0.72678244,
+      "num_input_tokens_seen": 156281670,
+      "step": 7224,
+      "time_per_iteration": 2.766166925430298
+    },
+    {
+      "auxiliary_loss_clip": 0.01178099,
+      "auxiliary_loss_mlp": 0.01378637,
+      "balance_loss_clip": 1.04684746,
+      "balance_loss_mlp": 1.00012124,
+      "epoch": 0.8687548848674322,
+      "flos": 18223516782720.0,
+      "grad_norm": 1.697032216788881,
+      "language_loss": 0.84136468,
+      "learning_rate": 1.7786401684212637e-07,
+      "loss": 0.86693203,
+      "num_input_tokens_seen": 156300500,
+      "step": 7225,
+      "time_per_iteration": 2.696822166442871
+    },
+    {
+      "auxiliary_loss_clip": 0.01096856,
+      "auxiliary_loss_mlp": 0.0100141,
+      "balance_loss_clip": 1.01066279,
+      "balance_loss_mlp": 1.00020647,
+      "epoch": 0.8688751277580713,
+      "flos": 70457885049600.0,
+      "grad_norm": 0.846912444692541,
+      "language_loss": 0.55975115,
+      "learning_rate": 1.7754301922372883e-07,
+      "loss": 0.58073378,
+      "num_input_tokens_seen": 156350145,
+      "step": 7226,
+      "time_per_iteration": 3.2059450149536133
+    },
+    {
+      "auxiliary_loss_clip": 0.01215561,
+      "auxiliary_loss_mlp": 0.01025881,
+      "balance_loss_clip": 1.03887868,
+      "balance_loss_mlp": 1.01871014,
+      "epoch": 0.8689953706487104,
+      "flos": 26906788344960.0,
+      "grad_norm": 2.2186618859724923,
+      "language_loss": 0.80865633,
+      "learning_rate": 1.7722229807060617e-07,
+      "loss": 0.83107078,
+      "num_input_tokens_seen": 156368725,
+      "step": 7227,
+      "time_per_iteration": 2.845895767211914
+    },
+    {
+      "auxiliary_loss_clip": 0.01181343,
+      "auxiliary_loss_mlp": 0.010196,
+      "balance_loss_clip": 1.03979754,
+      "balance_loss_mlp": 1.01247716,
+      "epoch": 0.8691156135393495,
+      "flos": 34637385438720.0,
+      "grad_norm": 2.1546721741491863,
+      "language_loss": 0.81777203,
+      "learning_rate": 1.7690185343141172e-07,
+      "loss": 0.83978152,
+      "num_input_tokens_seen": 156388640,
+      "step": 7228,
+      "time_per_iteration": 2.921241044998169
+    },
+    {
+      "auxiliary_loss_clip": 0.01184343,
+      "auxiliary_loss_mlp": 0.01026481,
+      "balance_loss_clip": 1.04293847,
+      "balance_loss_mlp": 1.01984978,
+      "epoch": 0.8692358564299886,
+      "flos": 18989814556800.0,
+      "grad_norm": 3.188541309614685,
+      "language_loss": 0.69901711,
+      "learning_rate": 1.7658168535475615e-07,
+      "loss": 0.72112536,
+      "num_input_tokens_seen": 156406425,
+      "step": 7229,
+      "time_per_iteration": 3.624180793762207
+    },
+    {
+      "auxiliary_loss_clip": 0.01188944,
+      "auxiliary_loss_mlp": 0.01019221,
+      "balance_loss_clip": 1.04611182,
+      "balance_loss_mlp": 1.01221108,
+      "epoch": 0.8693560993206276,
+      "flos": 30370839039360.0,
+      "grad_norm": 1.8257990244110938,
+      "language_loss": 0.64527923,
+      "learning_rate": 1.7626179388920948e-07,
+      "loss": 0.66736084,
+      "num_input_tokens_seen": 156427705,
+      "step": 7230,
+      "time_per_iteration": 2.7954015731811523
+    },
+    {
+      "auxiliary_loss_clip": 0.01185193,
+      "auxiliary_loss_mlp": 0.01378445,
+      "balance_loss_clip": 1.04342687,
+      "balance_loss_mlp": 1.00015748,
+      "epoch": 0.8694763422112668,
+      "flos": 27200430028800.0,
+      "grad_norm": 1.7513593041347253,
+      "language_loss": 0.80442071,
+      "learning_rate": 1.7594217908329866e-07,
+      "loss": 0.83005714,
+      "num_input_tokens_seen": 156449890,
+      "step": 7231,
+      "time_per_iteration": 3.698904275894165
+    },
+    {
+      "auxiliary_loss_clip": 0.01174945,
+      "auxiliary_loss_mlp": 0.01025051,
+      "balance_loss_clip": 1.04388559,
+      "balance_loss_mlp": 1.01834869,
+      "epoch": 0.8695965851019059,
+      "flos": 26139161767680.0,
+      "grad_norm": 1.8283809055678328,
+      "language_loss": 0.73843884,
+      "learning_rate": 1.7562284098550895e-07,
+      "loss": 0.76043886,
+      "num_input_tokens_seen": 156469600,
+      "step": 7232,
+      "time_per_iteration": 2.703537940979004
+    },
+    {
+      "auxiliary_loss_clip": 0.01087004,
+      "auxiliary_loss_mlp": 0.01004214,
+      "balance_loss_clip": 1.01579154,
+      "balance_loss_mlp": 1.00317693,
+      "epoch": 0.8697168279925449,
+      "flos": 67332616456320.0,
+      "grad_norm": 0.8335965025099858,
+      "language_loss": 0.62242663,
+      "learning_rate": 1.753037796442838e-07,
+      "loss": 0.6433388,
+      "num_input_tokens_seen": 156529040,
+      "step": 7233,
+      "time_per_iteration": 3.2589590549468994
+    },
+    {
+      "auxiliary_loss_clip": 0.01165703,
+      "auxiliary_loss_mlp": 0.01026622,
+      "balance_loss_clip": 1.04546094,
+      "balance_loss_mlp": 1.01913321,
+      "epoch": 0.8698370708831841,
+      "flos": 19718693337600.0,
+      "grad_norm": 2.297239464147866,
+      "language_loss": 0.75093615,
+      "learning_rate": 1.74984995108024e-07,
+      "loss": 0.77285939,
+      "num_input_tokens_seen": 156546970,
+      "step": 7234,
+      "time_per_iteration": 3.6753902435302734
+    },
+    {
+      "auxiliary_loss_clip": 0.0117952,
+      "auxiliary_loss_mlp": 0.01024486,
+      "balance_loss_clip": 1.04656851,
+      "balance_loss_mlp": 1.01719046,
+      "epoch": 0.8699573137738231,
+      "flos": 12859971068160.0,
+      "grad_norm": 1.9312651983865832,
+      "language_loss": 0.83338749,
+      "learning_rate": 1.7466648742508981e-07,
+      "loss": 0.8554275,
+      "num_input_tokens_seen": 156563155,
+      "step": 7235,
+      "time_per_iteration": 2.659724235534668
+    },
+    {
+      "auxiliary_loss_clip": 0.0118393,
+      "auxiliary_loss_mlp": 0.01020795,
+      "balance_loss_clip": 1.0457201,
+      "balance_loss_mlp": 1.01370192,
+      "epoch": 0.8700775566644622,
+      "flos": 17420733768960.0,
+      "grad_norm": 1.9763093328575276,
+      "language_loss": 0.84454012,
+      "learning_rate": 1.7434825664379837e-07,
+      "loss": 0.86658734,
+      "num_input_tokens_seen": 156581660,
+      "step": 7236,
+      "time_per_iteration": 2.6878228187561035
+    },
+    {
+      "auxiliary_loss_clip": 0.01177002,
+      "auxiliary_loss_mlp": 0.01023909,
+      "balance_loss_clip": 1.04571319,
+      "balance_loss_mlp": 1.01648855,
+      "epoch": 0.8701977995551013,
+      "flos": 13735221770880.0,
+      "grad_norm": 3.410033462909526,
+      "language_loss": 0.8656311,
+      "learning_rate": 1.740303028124246e-07,
+      "loss": 0.88764012,
+      "num_input_tokens_seen": 156597720,
+      "step": 7237,
+      "time_per_iteration": 2.61660099029541
+    },
+    {
+      "auxiliary_loss_clip": 0.01200302,
+      "auxiliary_loss_mlp": 0.01027447,
+      "balance_loss_clip": 1.0373714,
+      "balance_loss_mlp": 1.02027655,
+      "epoch": 0.8703180424457404,
+      "flos": 30555707362560.0,
+      "grad_norm": 1.8497454629367214,
+      "language_loss": 0.75589812,
+      "learning_rate": 1.7371262597920212e-07,
+      "loss": 0.77817565,
+      "num_input_tokens_seen": 156619780,
+      "step": 7238,
+      "time_per_iteration": 2.8568360805511475
+    },
+    {
+      "auxiliary_loss_clip": 0.01201021,
+      "auxiliary_loss_mlp": 0.01026308,
+      "balance_loss_clip": 1.04416513,
+      "balance_loss_mlp": 1.01895523,
+      "epoch": 0.8704382853363795,
+      "flos": 19608986223360.0,
+      "grad_norm": 1.6417029108523127,
+      "language_loss": 0.76197338,
+      "learning_rate": 1.7339522619232195e-07,
+      "loss": 0.78424668,
+      "num_input_tokens_seen": 156638160,
+      "step": 7239,
+      "time_per_iteration": 3.629950761795044
+    },
+    {
+      "auxiliary_loss_clip": 0.01191673,
+      "auxiliary_loss_mlp": 0.01027528,
+      "balance_loss_clip": 1.04377568,
+      "balance_loss_mlp": 1.02034271,
+      "epoch": 0.8705585282270186,
+      "flos": 26613900846720.0,
+      "grad_norm": 2.5719960073256316,
+      "language_loss": 0.75900805,
+      "learning_rate": 1.730781034999338e-07,
+      "loss": 0.78120005,
+      "num_input_tokens_seen": 156659740,
+      "step": 7240,
+      "time_per_iteration": 2.7407608032226562
+    },
+    {
+      "auxiliary_loss_clip": 0.01165186,
+      "auxiliary_loss_mlp": 0.01022649,
+      "balance_loss_clip": 1.04889977,
+      "balance_loss_mlp": 1.01615191,
+      "epoch": 0.8706787711176577,
+      "flos": 34090465979520.0,
+      "grad_norm": 1.908673728891641,
+      "language_loss": 0.73628759,
+      "learning_rate": 1.7276125795014497e-07,
+      "loss": 0.75816596,
+      "num_input_tokens_seen": 156678190,
+      "step": 7241,
+      "time_per_iteration": 2.6765425205230713
+    },
+    {
+      "auxiliary_loss_clip": 0.01185362,
+      "auxiliary_loss_mlp": 0.01022883,
+      "balance_loss_clip": 1.04175174,
+      "balance_loss_mlp": 1.015504,
+      "epoch": 0.8707990140082967,
+      "flos": 14611513968000.0,
+      "grad_norm": 1.7768712250715935,
+      "language_loss": 0.67326951,
+      "learning_rate": 1.7244468959102054e-07,
+      "loss": 0.69535196,
+      "num_input_tokens_seen": 156695245,
+      "step": 7242,
+      "time_per_iteration": 2.5804386138916016
+    },
+    {
+      "auxiliary_loss_clip": 0.01177181,
+      "auxiliary_loss_mlp": 0.01023266,
+      "balance_loss_clip": 1.04833579,
+      "balance_loss_mlp": 1.01558852,
+      "epoch": 0.8709192568989359,
+      "flos": 20084156265600.0,
+      "grad_norm": 2.0617273992233627,
+      "language_loss": 0.85104734,
+      "learning_rate": 1.7212839847058348e-07,
+      "loss": 0.87305182,
+      "num_input_tokens_seen": 156710375,
+      "step": 7243,
+      "time_per_iteration": 2.5976903438568115
+    },
+    {
+      "auxiliary_loss_clip": 0.01218897,
+      "auxiliary_loss_mlp": 0.01027213,
+      "balance_loss_clip": 1.03972769,
+      "balance_loss_mlp": 1.01984882,
+      "epoch": 0.871039499789575,
+      "flos": 16727083251840.0,
+      "grad_norm": 1.8666565536841477,
+      "language_loss": 0.73778284,
+      "learning_rate": 1.718123846368147e-07,
+      "loss": 0.76024389,
+      "num_input_tokens_seen": 156729420,
+      "step": 7244,
+      "time_per_iteration": 2.7136552333831787
+    },
+    {
+      "auxiliary_loss_clip": 0.01184894,
+      "auxiliary_loss_mlp": 0.0137821,
+      "balance_loss_clip": 1.0458914,
+      "balance_loss_mlp": 1.00010741,
+      "epoch": 0.871159742680214,
+      "flos": 21068790860160.0,
+      "grad_norm": 2.0358265782608775,
+      "language_loss": 0.71463394,
+      "learning_rate": 1.714966481376543e-07,
+      "loss": 0.74026501,
+      "num_input_tokens_seen": 156746100,
+      "step": 7245,
+      "time_per_iteration": 2.721162796020508
+    },
+    {
+      "auxiliary_loss_clip": 0.01175067,
+      "auxiliary_loss_mlp": 0.01025979,
+      "balance_loss_clip": 1.0446254,
+      "balance_loss_mlp": 1.01877594,
+      "epoch": 0.8712799855708532,
+      "flos": 28256526731520.0,
+      "grad_norm": 1.901165979829582,
+      "language_loss": 0.8299588,
+      "learning_rate": 1.7118118902099797e-07,
+      "loss": 0.85196924,
+      "num_input_tokens_seen": 156764185,
+      "step": 7246,
+      "time_per_iteration": 2.6416308879852295
+    },
+    {
+      "auxiliary_loss_clip": 0.01177379,
+      "auxiliary_loss_mlp": 0.01026034,
+      "balance_loss_clip": 1.04567623,
+      "balance_loss_mlp": 1.01866937,
+      "epoch": 0.8714002284614922,
+      "flos": 22236677665920.0,
+      "grad_norm": 1.5432724390862884,
+      "language_loss": 0.80494356,
+      "learning_rate": 1.7086600733470146e-07,
+      "loss": 0.82697773,
+      "num_input_tokens_seen": 156784855,
+      "step": 7247,
+      "time_per_iteration": 2.616748094558716
+    },
+    {
+      "auxiliary_loss_clip": 0.01173045,
+      "auxiliary_loss_mlp": 0.01027422,
+      "balance_loss_clip": 1.04495537,
+      "balance_loss_mlp": 1.02004623,
+      "epoch": 0.8715204713521313,
+      "flos": 21431919404160.0,
+      "grad_norm": 1.8678763191243803,
+      "language_loss": 0.76728272,
+      "learning_rate": 1.7055110312657738e-07,
+      "loss": 0.78928739,
+      "num_input_tokens_seen": 156804350,
+      "step": 7248,
+      "time_per_iteration": 2.5978589057922363
+    },
+    {
+      "auxiliary_loss_clip": 0.01175997,
+      "auxiliary_loss_mlp": 0.01026969,
+      "balance_loss_clip": 1.04184461,
+      "balance_loss_mlp": 1.01948845,
+      "epoch": 0.8716407142427703,
+      "flos": 23440439180160.0,
+      "grad_norm": 2.428778985467845,
+      "language_loss": 0.74150157,
+      "learning_rate": 1.702364764443962e-07,
+      "loss": 0.76353127,
+      "num_input_tokens_seen": 156823425,
+      "step": 7249,
+      "time_per_iteration": 2.673776388168335
+    },
+    {
+      "auxiliary_loss_clip": 0.01204113,
+      "auxiliary_loss_mlp": 0.01027047,
+      "balance_loss_clip": 1.03624105,
+      "balance_loss_mlp": 1.0197041,
+      "epoch": 0.8717609571334095,
+      "flos": 27958683156480.0,
+      "grad_norm": 1.9697741239818682,
+      "language_loss": 0.72833532,
+      "learning_rate": 1.6992212733588685e-07,
+      "loss": 0.75064695,
+      "num_input_tokens_seen": 156843090,
+      "step": 7250,
+      "time_per_iteration": 2.7823479175567627
+    },
+    {
+      "auxiliary_loss_clip": 0.01178721,
+      "auxiliary_loss_mlp": 0.01023596,
+      "balance_loss_clip": 1.04208732,
+      "balance_loss_mlp": 1.01620197,
+      "epoch": 0.8718812000240486,
+      "flos": 25479482538240.0,
+      "grad_norm": 1.7392214696981876,
+      "language_loss": 0.75336123,
+      "learning_rate": 1.6960805584873538e-07,
+      "loss": 0.77538437,
+      "num_input_tokens_seen": 156861090,
+      "step": 7251,
+      "time_per_iteration": 2.694648027420044
+    },
+    {
+      "auxiliary_loss_clip": 0.01200928,
+      "auxiliary_loss_mlp": 0.01020558,
+      "balance_loss_clip": 1.0381912,
+      "balance_loss_mlp": 1.01362562,
+      "epoch": 0.8720014429146876,
+      "flos": 23403056100480.0,
+      "grad_norm": 1.7998469759034141,
+      "language_loss": 0.78238845,
+      "learning_rate": 1.6929426203058684e-07,
+      "loss": 0.8046034,
+      "num_input_tokens_seen": 156881515,
+      "step": 7252,
+      "time_per_iteration": 2.738595724105835
+    },
+    {
+      "auxiliary_loss_clip": 0.01170946,
+      "auxiliary_loss_mlp": 0.01379233,
+      "balance_loss_clip": 1.04644096,
+      "balance_loss_mlp": 1.00015628,
+      "epoch": 0.8721216858053268,
+      "flos": 24352821567360.0,
+      "grad_norm": 2.0620221804564336,
+      "language_loss": 0.79835784,
+      "learning_rate": 1.689807459290431e-07,
+      "loss": 0.82385963,
+      "num_input_tokens_seen": 156900170,
+      "step": 7253,
+      "time_per_iteration": 2.59834623336792
+    },
+    {
+      "auxiliary_loss_clip": 0.01186677,
+      "auxiliary_loss_mlp": 0.01021032,
+      "balance_loss_clip": 1.04637158,
+      "balance_loss_mlp": 1.01387668,
+      "epoch": 0.8722419286959658,
+      "flos": 33869687034240.0,
+      "grad_norm": 2.4781741248319125,
+      "language_loss": 0.7059375,
+      "learning_rate": 1.6866750759166437e-07,
+      "loss": 0.72801453,
+      "num_input_tokens_seen": 156920150,
+      "step": 7254,
+      "time_per_iteration": 2.728612184524536
+    },
+    {
+      "auxiliary_loss_clip": 0.01183731,
+      "auxiliary_loss_mlp": 0.01023344,
+      "balance_loss_clip": 1.03910661,
+      "balance_loss_mlp": 1.01604211,
+      "epoch": 0.8723621715866049,
+      "flos": 18369385914240.0,
+      "grad_norm": 3.661286677079552,
+      "language_loss": 0.77474397,
+      "learning_rate": 1.6835454706596865e-07,
+      "loss": 0.79681474,
+      "num_input_tokens_seen": 156937980,
+      "step": 7255,
+      "time_per_iteration": 3.568647623062134
+    },
+    {
+      "auxiliary_loss_clip": 0.01168492,
+      "auxiliary_loss_mlp": 0.01029584,
+      "balance_loss_clip": 1.0484376,
+      "balance_loss_mlp": 1.02196085,
+      "epoch": 0.8724824144772441,
+      "flos": 22013348855040.0,
+      "grad_norm": 2.3819375172414166,
+      "language_loss": 0.73873162,
+      "learning_rate": 1.680418643994317e-07,
+      "loss": 0.76071239,
+      "num_input_tokens_seen": 156956550,
+      "step": 7256,
+      "time_per_iteration": 2.7810885906219482
+    },
+    {
+      "auxiliary_loss_clip": 0.0105996,
+      "auxiliary_loss_mlp": 0.01001302,
+      "balance_loss_clip": 1.00889754,
+      "balance_loss_mlp": 1.00027049,
+      "epoch": 0.8726026573678831,
+      "flos": 66698720213760.0,
+      "grad_norm": 0.8906428709249403,
+      "language_loss": 0.64554757,
+      "learning_rate": 1.6772945963948738e-07,
+      "loss": 0.66616023,
+      "num_input_tokens_seen": 157014715,
+      "step": 7257,
+      "time_per_iteration": 4.0464723110198975
+    },
+    {
+      "auxiliary_loss_clip": 0.01184063,
+      "auxiliary_loss_mlp": 0.01026776,
+      "balance_loss_clip": 1.04570162,
+      "balance_loss_mlp": 1.01901555,
+      "epoch": 0.8727229002585222,
+      "flos": 13370908078080.0,
+      "grad_norm": 2.1741765149821455,
+      "language_loss": 0.77956998,
+      "learning_rate": 1.6741733283352733e-07,
+      "loss": 0.80167836,
+      "num_input_tokens_seen": 157032320,
+      "step": 7258,
+      "time_per_iteration": 2.6003270149230957
+    },
+    {
+      "auxiliary_loss_clip": 0.01210067,
+      "auxiliary_loss_mlp": 0.01026333,
+      "balance_loss_clip": 1.04368961,
+      "balance_loss_mlp": 1.01834631,
+      "epoch": 0.8728431431491613,
+      "flos": 21796987282560.0,
+      "grad_norm": 1.6084600680359764,
+      "language_loss": 0.83878195,
+      "learning_rate": 1.6710548402890102e-07,
+      "loss": 0.86114597,
+      "num_input_tokens_seen": 157052845,
+      "step": 7259,
+      "time_per_iteration": 2.741001844406128
+    },
+    {
+      "auxiliary_loss_clip": 0.0117164,
+      "auxiliary_loss_mlp": 0.01024509,
+      "balance_loss_clip": 1.04731345,
+      "balance_loss_mlp": 1.01672494,
+      "epoch": 0.8729633860398004,
+      "flos": 36173823742080.0,
+      "grad_norm": 4.823105408429739,
+      "language_loss": 0.66787946,
+      "learning_rate": 1.6679391327291527e-07,
+      "loss": 0.68984103,
+      "num_input_tokens_seen": 157074050,
+      "step": 7260,
+      "time_per_iteration": 3.5702385902404785
+    },
+    {
+      "auxiliary_loss_clip": 0.01183907,
+      "auxiliary_loss_mlp": 0.01027393,
+      "balance_loss_clip": 1.04175878,
+      "balance_loss_mlp": 1.02099991,
+      "epoch": 0.8730836289304394,
+      "flos": 16359680989440.0,
+      "grad_norm": 3.1011437458631286,
+      "language_loss": 0.68349755,
+      "learning_rate": 1.6648262061283492e-07,
+      "loss": 0.70561057,
+      "num_input_tokens_seen": 157089350,
+      "step": 7261,
+      "time_per_iteration": 2.605816602706909
+    },
+    {
+      "auxiliary_loss_clip": 0.01191889,
+      "auxiliary_loss_mlp": 0.01025709,
+      "balance_loss_clip": 1.03907728,
+      "balance_loss_mlp": 1.01825857,
+      "epoch": 0.8732038718210786,
+      "flos": 21215126868480.0,
+      "grad_norm": 2.3392790833299015,
+      "language_loss": 0.73369104,
+      "learning_rate": 1.6617160609588353e-07,
+      "loss": 0.755867,
+      "num_input_tokens_seen": 157108525,
+      "step": 7262,
+      "time_per_iteration": 2.7223169803619385
+    },
+    {
+      "auxiliary_loss_clip": 0.01188554,
+      "auxiliary_loss_mlp": 0.01023042,
+      "balance_loss_clip": 1.04365969,
+      "balance_loss_mlp": 1.01549935,
+      "epoch": 0.8733241147117177,
+      "flos": 16610696208000.0,
+      "grad_norm": 1.9506832879796079,
+      "language_loss": 0.72102022,
+      "learning_rate": 1.6586086976924163e-07,
+      "loss": 0.74313617,
+      "num_input_tokens_seen": 157124025,
+      "step": 7263,
+      "time_per_iteration": 2.5950417518615723
+    },
+    {
+      "auxiliary_loss_clip": 0.0117566,
+      "auxiliary_loss_mlp": 0.01025253,
+      "balance_loss_clip": 1.04452467,
+      "balance_loss_mlp": 1.01784408,
+      "epoch": 0.8734443576023567,
+      "flos": 20193935207040.0,
+      "grad_norm": 1.8793339987046458,
+      "language_loss": 0.78378791,
+      "learning_rate": 1.6555041168004747e-07,
+      "loss": 0.8057971,
+      "num_input_tokens_seen": 157143345,
+      "step": 7264,
+      "time_per_iteration": 3.51594614982605
+    },
+    {
+      "auxiliary_loss_clip": 0.01180402,
+      "auxiliary_loss_mlp": 0.01028809,
+      "balance_loss_clip": 1.04408574,
+      "balance_loss_mlp": 1.02158451,
+      "epoch": 0.8735646004929959,
+      "flos": 18041162411520.0,
+      "grad_norm": 1.8201651722819785,
+      "language_loss": 0.68629569,
+      "learning_rate": 1.6524023187539715e-07,
+      "loss": 0.70838785,
+      "num_input_tokens_seen": 157161630,
+      "step": 7265,
+      "time_per_iteration": 2.615610122680664
+    },
+    {
+      "auxiliary_loss_clip": 0.01182089,
+      "auxiliary_loss_mlp": 0.01025356,
+      "balance_loss_clip": 1.04270053,
+      "balance_loss_mlp": 1.01784003,
+      "epoch": 0.873684843383635,
+      "flos": 20262344659200.0,
+      "grad_norm": 3.216044947189598,
+      "language_loss": 0.74739426,
+      "learning_rate": 1.649303304023446e-07,
+      "loss": 0.76946872,
+      "num_input_tokens_seen": 157181385,
+      "step": 7266,
+      "time_per_iteration": 2.753169536590576
+    },
+    {
+      "auxiliary_loss_clip": 0.01189837,
+      "auxiliary_loss_mlp": 0.01022585,
+      "balance_loss_clip": 1.04556394,
+      "balance_loss_mlp": 1.01572692,
+      "epoch": 0.873805086274274,
+      "flos": 16947287579520.0,
+      "grad_norm": 1.9471834462554252,
+      "language_loss": 0.78825724,
+      "learning_rate": 1.6462070730790246e-07,
+      "loss": 0.81038147,
+      "num_input_tokens_seen": 157200545,
+      "step": 7267,
+      "time_per_iteration": 2.7460689544677734
+    },
+    {
+      "auxiliary_loss_clip": 0.01177155,
+      "auxiliary_loss_mlp": 0.01025877,
+      "balance_loss_clip": 1.03982806,
+      "balance_loss_mlp": 1.01885879,
+      "epoch": 0.8739253291649132,
+      "flos": 18041270152320.0,
+      "grad_norm": 2.4960818197020758,
+      "language_loss": 0.78577811,
+      "learning_rate": 1.6431136263903912e-07,
+      "loss": 0.80780846,
+      "num_input_tokens_seen": 157219545,
+      "step": 7268,
+      "time_per_iteration": 2.6041836738586426
+    },
+    {
+      "auxiliary_loss_clip": 0.01177017,
+      "auxiliary_loss_mlp": 0.01378394,
+      "balance_loss_clip": 1.04356086,
+      "balance_loss_mlp": 1.00011444,
+      "epoch": 0.8740455720555522,
+      "flos": 21325085377920.0,
+      "grad_norm": 2.0687566999760985,
+      "language_loss": 0.73655128,
+      "learning_rate": 1.6400229644268282e-07,
+      "loss": 0.76210541,
+      "num_input_tokens_seen": 157237900,
+      "step": 7269,
+      "time_per_iteration": 2.6104671955108643
+    },
+    {
+      "auxiliary_loss_clip": 0.01186424,
+      "auxiliary_loss_mlp": 0.01028459,
+      "balance_loss_clip": 1.04334664,
+      "balance_loss_mlp": 1.0213306,
+      "epoch": 0.8741658149461913,
+      "flos": 15158684822400.0,
+      "grad_norm": 2.6737009616422354,
+      "language_loss": 0.81248099,
+      "learning_rate": 1.6369350876571852e-07,
+      "loss": 0.83462983,
+      "num_input_tokens_seen": 157256055,
+      "step": 7270,
+      "time_per_iteration": 2.6680099964141846
+    },
+    {
+      "auxiliary_loss_clip": 0.01198585,
+      "auxiliary_loss_mlp": 0.01024415,
+      "balance_loss_clip": 1.04030573,
+      "balance_loss_mlp": 1.01734018,
+      "epoch": 0.8742860578368304,
+      "flos": 23039855729280.0,
+      "grad_norm": 2.4224857038113843,
+      "language_loss": 0.82017183,
+      "learning_rate": 1.6338499965498874e-07,
+      "loss": 0.84240186,
+      "num_input_tokens_seen": 157274785,
+      "step": 7271,
+      "time_per_iteration": 2.818089723587036
+    },
+    {
+      "auxiliary_loss_clip": 0.01184834,
+      "auxiliary_loss_mlp": 0.01022072,
+      "balance_loss_clip": 1.04065633,
+      "balance_loss_mlp": 1.01463056,
+      "epoch": 0.8744063007274695,
+      "flos": 28145347159680.0,
+      "grad_norm": 1.5385785411750326,
+      "language_loss": 0.77555221,
+      "learning_rate": 1.630767691572943e-07,
+      "loss": 0.79762125,
+      "num_input_tokens_seen": 157294805,
+      "step": 7272,
+      "time_per_iteration": 2.7120749950408936
+    },
+    {
+      "auxiliary_loss_clip": 0.01088169,
+      "auxiliary_loss_mlp": 0.01002408,
+      "balance_loss_clip": 1.00979018,
+      "balance_loss_mlp": 1.00131691,
+      "epoch": 0.8745265436181086,
+      "flos": 64034076654720.0,
+      "grad_norm": 0.7501098454935762,
+      "language_loss": 0.53513438,
+      "learning_rate": 1.6276881731939306e-07,
+      "loss": 0.55604011,
+      "num_input_tokens_seen": 157356695,
+      "step": 7273,
+      "time_per_iteration": 3.268181800842285
+    },
+    {
+      "auxiliary_loss_clip": 0.01174879,
+      "auxiliary_loss_mlp": 0.01025645,
+      "balance_loss_clip": 1.047189,
+      "balance_loss_mlp": 1.01893604,
+      "epoch": 0.8746467865087477,
+      "flos": 28658618553600.0,
+      "grad_norm": 11.274905810868464,
+      "language_loss": 0.75219381,
+      "learning_rate": 1.6246114418800193e-07,
+      "loss": 0.77419907,
+      "num_input_tokens_seen": 157376975,
+      "step": 7274,
+      "time_per_iteration": 2.662719249725342
+    },
+    {
+      "auxiliary_loss_clip": 0.01167943,
+      "auxiliary_loss_mlp": 0.0102745,
+      "balance_loss_clip": 1.04386437,
+      "balance_loss_mlp": 1.02006531,
+      "epoch": 0.8747670293993868,
+      "flos": 23985850268160.0,
+      "grad_norm": 1.6509274907006173,
+      "language_loss": 0.76657265,
+      "learning_rate": 1.6215374980979423e-07,
+      "loss": 0.78852665,
+      "num_input_tokens_seen": 157397385,
+      "step": 7275,
+      "time_per_iteration": 2.6605656147003174
+    },
+    {
+      "auxiliary_loss_clip": 0.01171005,
+      "auxiliary_loss_mlp": 0.01025041,
+      "balance_loss_clip": 1.0457077,
+      "balance_loss_mlp": 1.01804376,
+      "epoch": 0.8748872722900258,
+      "flos": 45221624478720.0,
+      "grad_norm": 2.007360980849209,
+      "language_loss": 0.69120038,
+      "learning_rate": 1.6184663423140133e-07,
+      "loss": 0.71316081,
+      "num_input_tokens_seen": 157417685,
+      "step": 7276,
+      "time_per_iteration": 2.7882163524627686
+    },
+    {
+      "auxiliary_loss_clip": 0.01204481,
+      "auxiliary_loss_mlp": 0.01024785,
+      "balance_loss_clip": 1.04185009,
+      "balance_loss_mlp": 1.01753652,
+      "epoch": 0.875007515180665,
+      "flos": 19754280737280.0,
+      "grad_norm": 1.8964052667101834,
+      "language_loss": 0.6405822,
+      "learning_rate": 1.615397974994126e-07,
+      "loss": 0.66287488,
+      "num_input_tokens_seen": 157435490,
+      "step": 7277,
+      "time_per_iteration": 2.7517430782318115
+    },
+    {
+      "auxiliary_loss_clip": 0.01165231,
+      "auxiliary_loss_mlp": 0.0102475,
+      "balance_loss_clip": 1.04655457,
+      "balance_loss_mlp": 1.01812243,
+      "epoch": 0.875127758071304,
+      "flos": 22710734386560.0,
+      "grad_norm": 1.4917410432073963,
+      "language_loss": 0.80819875,
+      "learning_rate": 1.6123323966037438e-07,
+      "loss": 0.83009851,
+      "num_input_tokens_seen": 157454010,
+      "step": 7278,
+      "time_per_iteration": 2.601825714111328
+    },
+    {
+      "auxiliary_loss_clip": 0.01166574,
+      "auxiliary_loss_mlp": 0.01025215,
+      "balance_loss_clip": 1.04735768,
+      "balance_loss_mlp": 1.01814342,
+      "epoch": 0.8752480009619431,
+      "flos": 23403846199680.0,
+      "grad_norm": 2.1624010069253594,
+      "language_loss": 0.78415495,
+      "learning_rate": 1.6092696076079216e-07,
+      "loss": 0.80607283,
+      "num_input_tokens_seen": 157472385,
+      "step": 7279,
+      "time_per_iteration": 2.6425113677978516
+    },
+    {
+      "auxiliary_loss_clip": 0.01180465,
+      "auxiliary_loss_mlp": 0.01023114,
+      "balance_loss_clip": 1.0410049,
+      "balance_loss_mlp": 1.01618838,
+      "epoch": 0.8753682438525822,
+      "flos": 26213101914240.0,
+      "grad_norm": 1.849009227522498,
+      "language_loss": 0.73459101,
+      "learning_rate": 1.6062096084712785e-07,
+      "loss": 0.75662684,
+      "num_input_tokens_seen": 157493735,
+      "step": 7280,
+      "time_per_iteration": 2.7133419513702393
+    },
+    {
+      "auxiliary_loss_clip": 0.0117345,
+      "auxiliary_loss_mlp": 0.01378709,
+      "balance_loss_clip": 1.04043519,
+      "balance_loss_mlp": 1.00019145,
+      "epoch": 0.8754884867432213,
+      "flos": 23326745656320.0,
+      "grad_norm": 1.794536776195457,
+      "language_loss": 0.70591855,
+      "learning_rate": 1.6031523996580098e-07,
+      "loss": 0.73144007,
+      "num_input_tokens_seen": 157511295,
+      "step": 7281,
+      "time_per_iteration": 3.6714658737182617
+    },
+    {
+      "auxiliary_loss_clip": 0.01200702,
+      "auxiliary_loss_mlp": 0.01026438,
+      "balance_loss_clip": 1.0434773,
+      "balance_loss_mlp": 1.01884389,
+      "epoch": 0.8756087296338604,
+      "flos": 12495226412160.0,
+      "grad_norm": 2.276959398900431,
+      "language_loss": 0.6614064,
+      "learning_rate": 1.6000979816318981e-07,
+      "loss": 0.68367779,
+      "num_input_tokens_seen": 157529760,
+      "step": 7282,
+      "time_per_iteration": 2.6784303188323975
+    },
+    {
+      "auxiliary_loss_clip": 0.0117419,
+      "auxiliary_loss_mlp": 0.01026478,
+      "balance_loss_clip": 1.04760981,
+      "balance_loss_mlp": 1.019454,
+      "epoch": 0.8757289725244994,
+      "flos": 18952898353920.0,
+      "grad_norm": 2.161380584267379,
+      "language_loss": 0.74875665,
+      "learning_rate": 1.5970463548562886e-07,
+      "loss": 0.77076328,
+      "num_input_tokens_seen": 157548915,
+      "step": 7283,
+      "time_per_iteration": 2.564711570739746
+    },
+    {
+      "auxiliary_loss_clip": 0.01182111,
+      "auxiliary_loss_mlp": 0.01027955,
+      "balance_loss_clip": 1.04454482,
+      "balance_loss_mlp": 1.02071905,
+      "epoch": 0.8758492154151386,
+      "flos": 25265958140160.0,
+      "grad_norm": 2.4010615055570987,
+      "language_loss": 0.71167254,
+      "learning_rate": 1.5939975197941192e-07,
+      "loss": 0.73377317,
+      "num_input_tokens_seen": 157570570,
+      "step": 7284,
+      "time_per_iteration": 3.6236226558685303
+    },
+    {
+      "auxiliary_loss_clip": 0.01088038,
+      "auxiliary_loss_mlp": 0.01001543,
+      "balance_loss_clip": 1.00967669,
+      "balance_loss_mlp": 1.00041044,
+      "epoch": 0.8759694583057777,
+      "flos": 65571664193280.0,
+      "grad_norm": 0.8051173783340823,
+      "language_loss": 0.53379309,
+      "learning_rate": 1.5909514769078892e-07,
+      "loss": 0.55468893,
+      "num_input_tokens_seen": 157635675,
+      "step": 7285,
+      "time_per_iteration": 3.307117462158203
+    },
+    {
+      "auxiliary_loss_clip": 0.01184141,
+      "auxiliary_loss_mlp": 0.01023587,
+      "balance_loss_clip": 1.04406762,
+      "balance_loss_mlp": 1.01654816,
+      "epoch": 0.8760897011964167,
+      "flos": 25446193608960.0,
+      "grad_norm": 1.5432720584543427,
+      "language_loss": 0.77695161,
+      "learning_rate": 1.5879082266596867e-07,
+      "loss": 0.79902887,
+      "num_input_tokens_seen": 157657015,
+      "step": 7286,
+      "time_per_iteration": 3.656680107116699
+    },
+    {
+      "auxiliary_loss_clip": 0.01175902,
+      "auxiliary_loss_mlp": 0.01025188,
+      "balance_loss_clip": 1.03913522,
+      "balance_loss_mlp": 1.0181998,
+      "epoch": 0.8762099440870559,
+      "flos": 28984830894720.0,
+      "grad_norm": 1.8782811933854955,
+      "language_loss": 0.71664369,
+      "learning_rate": 1.5848677695111645e-07,
+      "loss": 0.73865461,
+      "num_input_tokens_seen": 157678615,
+      "step": 7287,
+      "time_per_iteration": 2.685652732849121
+    },
+    {
+      "auxiliary_loss_clip": 0.01201717,
+      "auxiliary_loss_mlp": 0.01022553,
+      "balance_loss_clip": 1.04555595,
+      "balance_loss_mlp": 1.01503074,
+      "epoch": 0.8763301869776949,
+      "flos": 21609461352960.0,
+      "grad_norm": 2.406395541540044,
+      "language_loss": 0.69967717,
+      "learning_rate": 1.5818301059235562e-07,
+      "loss": 0.72191989,
+      "num_input_tokens_seen": 157693790,
+      "step": 7288,
+      "time_per_iteration": 2.6350317001342773
+    },
+    {
+      "auxiliary_loss_clip": 0.01187587,
+      "auxiliary_loss_mlp": 0.01029044,
+      "balance_loss_clip": 1.04620695,
+      "balance_loss_mlp": 1.02123606,
+      "epoch": 0.876450429868334,
+      "flos": 24644416176000.0,
+      "grad_norm": 1.6797937151670361,
+      "language_loss": 0.81560308,
+      "learning_rate": 1.578795236357684e-07,
+      "loss": 0.83776939,
+      "num_input_tokens_seen": 157715255,
+      "step": 7289,
+      "time_per_iteration": 2.674849271774292
+    },
+    {
+      "auxiliary_loss_clip": 0.01187029,
+      "auxiliary_loss_mlp": 0.01026797,
+      "balance_loss_clip": 1.04578948,
+      "balance_loss_mlp": 1.01946521,
+      "epoch": 0.8765706727589732,
+      "flos": 20260046188800.0,
+      "grad_norm": 2.0359319568810363,
+      "language_loss": 0.85601318,
+      "learning_rate": 1.5757631612739218e-07,
+      "loss": 0.87815142,
+      "num_input_tokens_seen": 157728800,
+      "step": 7290,
+      "time_per_iteration": 3.559126138687134
+    },
+    {
+      "auxiliary_loss_clip": 0.01059997,
+      "auxiliary_loss_mlp": 0.01001207,
+      "balance_loss_clip": 1.00880277,
+      "balance_loss_mlp": 1.00018775,
+      "epoch": 0.8766909156496122,
+      "flos": 71371165276800.0,
+      "grad_norm": 0.7789036985728506,
+      "language_loss": 0.61431265,
+      "learning_rate": 1.572733881132242e-07,
+      "loss": 0.63492465,
+      "num_input_tokens_seen": 157789445,
+      "step": 7291,
+      "time_per_iteration": 3.2181265354156494
+    },
+    {
+      "auxiliary_loss_clip": 0.01100496,
+      "auxiliary_loss_mlp": 0.01002053,
+      "balance_loss_clip": 1.01672757,
+      "balance_loss_mlp": 1.00099206,
+      "epoch": 0.8768111585402513,
+      "flos": 69523490603520.0,
+      "grad_norm": 0.780428475381197,
+      "language_loss": 0.58514804,
+      "learning_rate": 1.5697073963921814e-07,
+      "loss": 0.60617357,
+      "num_input_tokens_seen": 157848685,
+      "step": 7292,
+      "time_per_iteration": 3.172748565673828
+    },
+    {
+      "auxiliary_loss_clip": 0.01178052,
+      "auxiliary_loss_mlp": 0.01025156,
+      "balance_loss_clip": 1.04798353,
+      "balance_loss_mlp": 1.01731551,
+      "epoch": 0.8769314014308904,
+      "flos": 18838558385280.0,
+      "grad_norm": 2.399172552361193,
+      "language_loss": 0.84889913,
+      "learning_rate": 1.566683707512857e-07,
+      "loss": 0.87093121,
+      "num_input_tokens_seen": 157866360,
+      "step": 7293,
+      "time_per_iteration": 2.5842695236206055
+    },
+    {
+      "auxiliary_loss_clip": 0.01178991,
+      "auxiliary_loss_mlp": 0.01027488,
+      "balance_loss_clip": 1.04199934,
+      "balance_loss_mlp": 1.02020717,
+      "epoch": 0.8770516443215295,
+      "flos": 14976402278400.0,
+      "grad_norm": 1.9523232515932754,
+      "language_loss": 0.79220265,
+      "learning_rate": 1.5636628149529553e-07,
+      "loss": 0.8142674,
+      "num_input_tokens_seen": 157884150,
+      "step": 7294,
+      "time_per_iteration": 2.615009307861328
+    },
+    {
+      "auxiliary_loss_clip": 0.01182319,
+      "auxiliary_loss_mlp": 0.01024509,
+      "balance_loss_clip": 1.04270756,
+      "balance_loss_mlp": 1.01746964,
+      "epoch": 0.8771718872121685,
+      "flos": 31649654021760.0,
+      "grad_norm": 2.3031878455713115,
+      "language_loss": 0.79527259,
+      "learning_rate": 1.560644719170743e-07,
+      "loss": 0.81734085,
+      "num_input_tokens_seen": 157905020,
+      "step": 7295,
+      "time_per_iteration": 2.704932689666748
+    },
+    {
+      "auxiliary_loss_clip": 0.01188718,
+      "auxiliary_loss_mlp": 0.01031528,
+      "balance_loss_clip": 1.04172206,
+      "balance_loss_mlp": 1.02343416,
+      "epoch": 0.8772921301028077,
+      "flos": 36095466222720.0,
+      "grad_norm": 1.8245095018789097,
+      "language_loss": 0.71908259,
+      "learning_rate": 1.5576294206240692e-07,
+      "loss": 0.74128503,
+      "num_input_tokens_seen": 157924545,
+      "step": 7296,
+      "time_per_iteration": 2.798795461654663
+    },
+    {
+      "auxiliary_loss_clip": 0.01176709,
+      "auxiliary_loss_mlp": 0.01026812,
+      "balance_loss_clip": 1.04165089,
+      "balance_loss_mlp": 1.01943564,
+      "epoch": 0.8774123729934468,
+      "flos": 57116961849600.0,
+      "grad_norm": 4.509222522097547,
+      "language_loss": 0.67507005,
+      "learning_rate": 1.5546169197703507e-07,
+      "loss": 0.69710517,
+      "num_input_tokens_seen": 157950820,
+      "step": 7297,
+      "time_per_iteration": 2.9733803272247314
+    },
+    {
+      "auxiliary_loss_clip": 0.01185937,
+      "auxiliary_loss_mlp": 0.01026721,
+      "balance_loss_clip": 1.0408926,
+      "balance_loss_mlp": 1.01925588,
+      "epoch": 0.8775326158840858,
+      "flos": 23914495900800.0,
+      "grad_norm": 4.055278674691733,
+      "language_loss": 0.77601725,
+      "learning_rate": 1.5516072170665774e-07,
+      "loss": 0.79814386,
+      "num_input_tokens_seen": 157968790,
+      "step": 7298,
+      "time_per_iteration": 2.653512477874756
+    },
+    {
+      "auxiliary_loss_clip": 0.01177173,
+      "auxiliary_loss_mlp": 0.01025058,
+      "balance_loss_clip": 1.04661703,
+      "balance_loss_mlp": 1.01812279,
+      "epoch": 0.877652858774725,
+      "flos": 17123285243520.0,
+      "grad_norm": 1.8145308006500576,
+      "language_loss": 0.87242329,
+      "learning_rate": 1.5486003129693214e-07,
+      "loss": 0.89444566,
+      "num_input_tokens_seen": 157986155,
+      "step": 7299,
+      "time_per_iteration": 2.6503355503082275
+    },
+    {
+      "auxiliary_loss_clip": 0.01179784,
+      "auxiliary_loss_mlp": 0.01026241,
+      "balance_loss_clip": 1.0461154,
+      "balance_loss_mlp": 1.01919007,
+      "epoch": 0.877773101665364,
+      "flos": 16508961912960.0,
+      "grad_norm": 1.9970586344038073,
+      "language_loss": 0.77971959,
+      "learning_rate": 1.545596207934725e-07,
+      "loss": 0.80177981,
+      "num_input_tokens_seen": 158004640,
+      "step": 7300,
+      "time_per_iteration": 2.6905453205108643
+    },
+    {
+      "auxiliary_loss_clip": 0.01176186,
+      "auxiliary_loss_mlp": 0.01020855,
+      "balance_loss_clip": 1.0421555,
+      "balance_loss_mlp": 1.01447392,
+      "epoch": 0.8778933445560031,
+      "flos": 22053209973120.0,
+      "grad_norm": 1.7032419177740334,
+      "language_loss": 0.77868086,
+      "learning_rate": 1.5425949024185147e-07,
+      "loss": 0.80065119,
+      "num_input_tokens_seen": 158024665,
+      "step": 7301,
+      "time_per_iteration": 2.685203790664673
+    },
+    {
+      "auxiliary_loss_clip": 0.01182754,
+      "auxiliary_loss_mlp": 0.0102589,
+      "balance_loss_clip": 1.04078388,
+      "balance_loss_mlp": 1.01885056,
+      "epoch": 0.8780135874466423,
+      "flos": 22564757514240.0,
+      "grad_norm": 1.8780917441612075,
+      "language_loss": 0.67709374,
+      "learning_rate": 1.5395963968759818e-07,
+      "loss": 0.69918019,
+      "num_input_tokens_seen": 158044940,
+      "step": 7302,
+      "time_per_iteration": 2.597313642501831
+    },
+    {
+      "auxiliary_loss_clip": 0.01182639,
+      "auxiliary_loss_mlp": 0.01027719,
+      "balance_loss_clip": 1.04118896,
+      "balance_loss_mlp": 1.02039671,
+      "epoch": 0.8781338303372813,
+      "flos": 61531999073280.0,
+      "grad_norm": 1.4628255408634392,
+      "language_loss": 0.64382982,
+      "learning_rate": 1.536600691761998e-07,
+      "loss": 0.66593337,
+      "num_input_tokens_seen": 158070770,
+      "step": 7303,
+      "time_per_iteration": 2.966463088989258
+    },
+    {
+      "auxiliary_loss_clip": 0.01197932,
+      "auxiliary_loss_mlp": 0.01025046,
+      "balance_loss_clip": 1.04635477,
+      "balance_loss_mlp": 1.01762795,
+      "epoch": 0.8782540732279204,
+      "flos": 22674751937280.0,
+      "grad_norm": 1.982664390351109,
+      "language_loss": 0.71634746,
+      "learning_rate": 1.5336077875310084e-07,
+      "loss": 0.73857725,
+      "num_input_tokens_seen": 158089995,
+      "step": 7304,
+      "time_per_iteration": 2.673495054244995
+    },
+    {
+      "auxiliary_loss_clip": 0.01207274,
+      "auxiliary_loss_mlp": 0.01029377,
+      "balance_loss_clip": 1.04194093,
+      "balance_loss_mlp": 1.02228403,
+      "epoch": 0.8783743161185595,
+      "flos": 16070348937600.0,
+      "grad_norm": 2.5196904930995703,
+      "language_loss": 0.74125087,
+      "learning_rate": 1.5306176846370321e-07,
+      "loss": 0.7636174,
+      "num_input_tokens_seen": 158108140,
+      "step": 7305,
+      "time_per_iteration": 2.6952719688415527
+    },
+    {
+      "auxiliary_loss_clip": 0.01192924,
+      "auxiliary_loss_mlp": 0.01025811,
+      "balance_loss_clip": 1.04443121,
+      "balance_loss_mlp": 1.01827133,
+      "epoch": 0.8784945590091986,
+      "flos": 26067879227520.0,
+      "grad_norm": 2.559105616578526,
+      "language_loss": 0.73835021,
+      "learning_rate": 1.5276303835336712e-07,
+      "loss": 0.76053751,
+      "num_input_tokens_seen": 158128680,
+      "step": 7306,
+      "time_per_iteration": 2.6750681400299072
+    },
+    {
+      "auxiliary_loss_clip": 0.01073789,
+      "auxiliary_loss_mlp": 0.01000267,
+      "balance_loss_clip": 1.00866866,
+      "balance_loss_mlp": 0.99920028,
+      "epoch": 0.8786148018998376,
+      "flos": 62720643939840.0,
+      "grad_norm": 0.7721219409084142,
+      "language_loss": 0.53565735,
+      "learning_rate": 1.524645884674094e-07,
+      "loss": 0.55639791,
+      "num_input_tokens_seen": 158185610,
+      "step": 7307,
+      "time_per_iteration": 3.176966428756714
+    },
+    {
+      "auxiliary_loss_clip": 0.0116894,
+      "auxiliary_loss_mlp": 0.01379127,
+      "balance_loss_clip": 1.04684472,
+      "balance_loss_mlp": 1.00010777,
+      "epoch": 0.8787350447904768,
+      "flos": 21652734263040.0,
+      "grad_norm": 3.478730533930734,
+      "language_loss": 0.79383743,
+      "learning_rate": 1.521664188511047e-07,
+      "loss": 0.81931812,
+      "num_input_tokens_seen": 158205635,
+      "step": 7308,
+      "time_per_iteration": 3.4768598079681396
+    },
+    {
+      "auxiliary_loss_clip": 0.01186378,
+      "auxiliary_loss_mlp": 0.01378559,
+      "balance_loss_clip": 1.04786885,
+      "balance_loss_mlp": 1.00014591,
+      "epoch": 0.8788552876811159,
+      "flos": 25478476957440.0,
+      "grad_norm": 2.2149231498487025,
+      "language_loss": 0.80344141,
+      "learning_rate": 1.518685295496851e-07,
+      "loss": 0.82909083,
+      "num_input_tokens_seen": 158223495,
+      "step": 7309,
+      "time_per_iteration": 3.6622462272644043
+    },
+    {
+      "auxiliary_loss_clip": 0.01175579,
+      "auxiliary_loss_mlp": 0.01024142,
+      "balance_loss_clip": 1.04427958,
+      "balance_loss_mlp": 1.01704919,
+      "epoch": 0.8789755305717549,
+      "flos": 22310222762880.0,
+      "grad_norm": 1.7529549100973352,
+      "language_loss": 0.85395658,
+      "learning_rate": 1.5157092060833975e-07,
+      "loss": 0.87595385,
+      "num_input_tokens_seen": 158243145,
+      "step": 7310,
+      "time_per_iteration": 2.6128602027893066
+    },
+    {
+      "auxiliary_loss_clip": 0.01181514,
+      "auxiliary_loss_mlp": 0.01022958,
+      "balance_loss_clip": 1.04238808,
+      "balance_loss_mlp": 1.01566267,
+      "epoch": 0.879095773462394,
+      "flos": 29310971408640.0,
+      "grad_norm": 1.7190686574665965,
+      "language_loss": 0.66018867,
+      "learning_rate": 1.5127359207221658e-07,
+      "loss": 0.68223345,
+      "num_input_tokens_seen": 158262625,
+      "step": 7311,
+      "time_per_iteration": 2.7613584995269775
+    },
+    {
+      "auxiliary_loss_clip": 0.01195404,
+      "auxiliary_loss_mlp": 0.01024554,
+      "balance_loss_clip": 1.03585231,
+      "balance_loss_mlp": 1.01688337,
+      "epoch": 0.8792160163530331,
+      "flos": 16690023394560.0,
+      "grad_norm": 1.8773159505581314,
+      "language_loss": 0.73236459,
+      "learning_rate": 1.5097654398641923e-07,
+      "loss": 0.75456417,
+      "num_input_tokens_seen": 158280530,
+      "step": 7312,
+      "time_per_iteration": 3.6278367042541504
+    },
+    {
+      "auxiliary_loss_clip": 0.01181758,
+      "auxiliary_loss_mlp": 0.01024975,
+      "balance_loss_clip": 1.04719949,
+      "balance_loss_mlp": 1.01810288,
+      "epoch": 0.8793362592436722,
+      "flos": 24499301230080.0,
+      "grad_norm": 1.4977694681521854,
+      "language_loss": 0.73263186,
+      "learning_rate": 1.5067977639601014e-07,
+      "loss": 0.75469923,
+      "num_input_tokens_seen": 158303290,
+      "step": 7313,
+      "time_per_iteration": 2.6734817028045654
+    },
+    {
+      "auxiliary_loss_clip": 0.01185582,
+      "auxiliary_loss_mlp": 0.01023063,
+      "balance_loss_clip": 1.04691005,
+      "balance_loss_mlp": 1.01609766,
+      "epoch": 0.8794565021343113,
+      "flos": 14538399834240.0,
+      "grad_norm": 2.169369106052993,
+      "language_loss": 0.70833647,
+      "learning_rate": 1.5038328934600864e-07,
+      "loss": 0.73042291,
+      "num_input_tokens_seen": 158319925,
+      "step": 7314,
+      "time_per_iteration": 2.622122049331665
+    },
+    {
+      "auxiliary_loss_clip": 0.01186446,
+      "auxiliary_loss_mlp": 0.01024683,
+      "balance_loss_clip": 1.04539847,
+      "balance_loss_mlp": 1.01723886,
+      "epoch": 0.8795767450249504,
+      "flos": 39530286224640.0,
+      "grad_norm": 1.8128788689646316,
+      "language_loss": 0.70103031,
+      "learning_rate": 1.5008708288139161e-07,
+      "loss": 0.72314161,
+      "num_input_tokens_seen": 158342285,
+      "step": 7315,
+      "time_per_iteration": 2.802382469177246
+    },
+    {
+      "auxiliary_loss_clip": 0.01174859,
+      "auxiliary_loss_mlp": 0.0102086,
+      "balance_loss_clip": 1.04599833,
+      "balance_loss_mlp": 1.01367164,
+      "epoch": 0.8796969879155895,
+      "flos": 22960672197120.0,
+      "grad_norm": 1.9244724842259093,
+      "language_loss": 0.73517585,
+      "learning_rate": 1.497911570470931e-07,
+      "loss": 0.75713307,
+      "num_input_tokens_seen": 158362290,
+      "step": 7316,
+      "time_per_iteration": 3.434054136276245
+    },
+    {
+      "auxiliary_loss_clip": 0.01180276,
+      "auxiliary_loss_mlp": 0.01020282,
+      "balance_loss_clip": 1.04168916,
+      "balance_loss_mlp": 1.01317692,
+      "epoch": 0.8798172308062285,
+      "flos": 28362427004160.0,
+      "grad_norm": 1.6036236209610082,
+      "language_loss": 0.8550899,
+      "learning_rate": 1.494955118880048e-07,
+      "loss": 0.87709546,
+      "num_input_tokens_seen": 158383275,
+      "step": 7317,
+      "time_per_iteration": 2.713838577270508
+    },
+    {
+      "auxiliary_loss_clip": 0.01177405,
+      "auxiliary_loss_mlp": 0.01020162,
+      "balance_loss_clip": 1.04581642,
+      "balance_loss_mlp": 1.01343012,
+      "epoch": 0.8799374736968677,
+      "flos": 23988974751360.0,
+      "grad_norm": 1.726609644866625,
+      "language_loss": 0.72847372,
+      "learning_rate": 1.4920014744897634e-07,
+      "loss": 0.75044936,
+      "num_input_tokens_seen": 158402690,
+      "step": 7318,
+      "time_per_iteration": 2.6660258769989014
+    },
+    {
+      "auxiliary_loss_clip": 0.01174469,
+      "auxiliary_loss_mlp": 0.01028485,
+      "balance_loss_clip": 1.04184461,
+      "balance_loss_mlp": 1.0213685,
+      "epoch": 0.8800577165875068,
+      "flos": 25630271832960.0,
+      "grad_norm": 2.389418964804201,
+      "language_loss": 0.86436582,
+      "learning_rate": 1.4890506377481392e-07,
+      "loss": 0.88639534,
+      "num_input_tokens_seen": 158421780,
+      "step": 7319,
+      "time_per_iteration": 2.6656229496002197
+    },
+    {
+      "auxiliary_loss_clip": 0.01208207,
+      "auxiliary_loss_mlp": 0.01029219,
+      "balance_loss_clip": 1.03953314,
+      "balance_loss_mlp": 1.0224421,
+      "epoch": 0.8801779594781458,
+      "flos": 23440331439360.0,
+      "grad_norm": 1.4811124534323636,
+      "language_loss": 0.63915753,
+      "learning_rate": 1.486102609102815e-07,
+      "loss": 0.66153181,
+      "num_input_tokens_seen": 158442330,
+      "step": 7320,
+      "time_per_iteration": 2.7721874713897705
+    },
+    {
+      "auxiliary_loss_clip": 0.01179297,
+      "auxiliary_loss_mlp": 0.01023296,
+      "balance_loss_clip": 1.04332566,
+      "balance_loss_mlp": 1.01631927,
+      "epoch": 0.880298202368785,
+      "flos": 11508580656000.0,
+      "grad_norm": 2.4062984932993374,
+      "language_loss": 0.85712862,
+      "learning_rate": 1.483157389001004e-07,
+      "loss": 0.87915444,
+      "num_input_tokens_seen": 158459890,
+      "step": 7321,
+      "time_per_iteration": 2.6257822513580322
+    },
+    {
+      "auxiliary_loss_clip": 0.01180791,
+      "auxiliary_loss_mlp": 0.0102654,
+      "balance_loss_clip": 1.04139686,
+      "balance_loss_mlp": 1.01832032,
+      "epoch": 0.880418445259424,
+      "flos": 22671447886080.0,
+      "grad_norm": 2.6636306798468894,
+      "language_loss": 0.78679335,
+      "learning_rate": 1.4802149778894933e-07,
+      "loss": 0.80886662,
+      "num_input_tokens_seen": 158478680,
+      "step": 7322,
+      "time_per_iteration": 2.7027547359466553
+    },
+    {
+      "auxiliary_loss_clip": 0.01164569,
+      "auxiliary_loss_mlp": 0.01024548,
+      "balance_loss_clip": 1.04084945,
+      "balance_loss_mlp": 1.01796472,
+      "epoch": 0.8805386881500631,
+      "flos": 20522158709760.0,
+      "grad_norm": 1.8272067878184277,
+      "language_loss": 0.87414122,
+      "learning_rate": 1.4772753762146484e-07,
+      "loss": 0.89603233,
+      "num_input_tokens_seen": 158497935,
+      "step": 7323,
+      "time_per_iteration": 2.5885307788848877
+    },
+    {
+      "auxiliary_loss_clip": 0.01166035,
+      "auxiliary_loss_mlp": 0.01024401,
+      "balance_loss_clip": 1.04226923,
+      "balance_loss_mlp": 1.01704013,
+      "epoch": 0.8806589310407023,
+      "flos": 36538891620480.0,
+      "grad_norm": 1.6043008428756957,
+      "language_loss": 0.70543814,
+      "learning_rate": 1.474338584422401e-07,
+      "loss": 0.72734249,
+      "num_input_tokens_seen": 158523145,
+      "step": 7324,
+      "time_per_iteration": 2.7258338928222656
+    },
+    {
+      "auxiliary_loss_clip": 0.01174168,
+      "auxiliary_loss_mlp": 0.01025618,
+      "balance_loss_clip": 1.04754055,
+      "balance_loss_mlp": 1.01878452,
+      "epoch": 0.8807791739313413,
+      "flos": 23440187784960.0,
+      "grad_norm": 1.7513400393423226,
+      "language_loss": 0.75914848,
+      "learning_rate": 1.4714046029582595e-07,
+      "loss": 0.78114635,
+      "num_input_tokens_seen": 158542210,
+      "step": 7325,
+      "time_per_iteration": 2.597198724746704
+    },
+    {
+      "auxiliary_loss_clip": 0.01195373,
+      "auxiliary_loss_mlp": 0.01024872,
+      "balance_loss_clip": 1.04178131,
+      "balance_loss_mlp": 1.01756144,
+      "epoch": 0.8808994168219804,
+      "flos": 25956843310080.0,
+      "grad_norm": 1.7591864506344714,
+      "language_loss": 0.76050436,
+      "learning_rate": 1.46847343226731e-07,
+      "loss": 0.78270686,
+      "num_input_tokens_seen": 158563250,
+      "step": 7326,
+      "time_per_iteration": 2.7344555854797363
+    },
+    {
+      "auxiliary_loss_clip": 0.01178847,
+      "auxiliary_loss_mlp": 0.01026695,
+      "balance_loss_clip": 1.04527104,
+      "balance_loss_mlp": 1.01952195,
+      "epoch": 0.8810196597126195,
+      "flos": 17092079303040.0,
+      "grad_norm": 1.8507575614857172,
+      "language_loss": 0.69688565,
+      "learning_rate": 1.465545072794203e-07,
+      "loss": 0.71894109,
+      "num_input_tokens_seen": 158581125,
+      "step": 7327,
+      "time_per_iteration": 2.6359012126922607
+    },
+    {
+      "auxiliary_loss_clip": 0.01201412,
+      "auxiliary_loss_mlp": 0.01028632,
+      "balance_loss_clip": 1.04479265,
+      "balance_loss_mlp": 1.02122593,
+      "epoch": 0.8811399026032586,
+      "flos": 23002831785600.0,
+      "grad_norm": 1.5510129070234104,
+      "language_loss": 0.7563563,
+      "learning_rate": 1.4626195249831774e-07,
+      "loss": 0.77865672,
+      "num_input_tokens_seen": 158602025,
+      "step": 7328,
+      "time_per_iteration": 2.7227346897125244
+    },
+    {
+      "auxiliary_loss_clip": 0.01170974,
+      "auxiliary_loss_mlp": 0.01022941,
+      "balance_loss_clip": 1.04402995,
+      "balance_loss_mlp": 1.01580942,
+      "epoch": 0.8812601454938976,
+      "flos": 14463813242880.0,
+      "grad_norm": 1.736794347187787,
+      "language_loss": 0.71937591,
+      "learning_rate": 1.4596967892780244e-07,
+      "loss": 0.74131507,
+      "num_input_tokens_seen": 158618355,
+      "step": 7329,
+      "time_per_iteration": 2.728924512863159
+    },
+    {
+      "auxiliary_loss_clip": 0.01166933,
+      "auxiliary_loss_mlp": 0.01025699,
+      "balance_loss_clip": 1.04744124,
+      "balance_loss_mlp": 1.01838005,
+      "epoch": 0.8813803883845368,
+      "flos": 22493223578880.0,
+      "grad_norm": 1.8412010328509336,
+      "language_loss": 0.74690306,
+      "learning_rate": 1.4567768661221314e-07,
+      "loss": 0.76882935,
+      "num_input_tokens_seen": 158638925,
+      "step": 7330,
+      "time_per_iteration": 2.693150520324707
+    },
+    {
+      "auxiliary_loss_clip": 0.01180097,
+      "auxiliary_loss_mlp": 0.01378605,
+      "balance_loss_clip": 1.04715252,
+      "balance_loss_mlp": 1.00011301,
+      "epoch": 0.8815006312751759,
+      "flos": 21506901045120.0,
+      "grad_norm": 2.100329448597674,
+      "language_loss": 0.74432349,
+      "learning_rate": 1.4538597559584442e-07,
+      "loss": 0.76991051,
+      "num_input_tokens_seen": 158656715,
+      "step": 7331,
+      "time_per_iteration": 2.6743552684783936
+    },
+    {
+      "auxiliary_loss_clip": 0.01180044,
+      "auxiliary_loss_mlp": 0.01027627,
+      "balance_loss_clip": 1.04317379,
+      "balance_loss_mlp": 1.01980138,
+      "epoch": 0.8816208741658149,
+      "flos": 22784566792320.0,
+      "grad_norm": 2.1225567438489534,
+      "language_loss": 0.7907061,
+      "learning_rate": 1.4509454592294823e-07,
+      "loss": 0.81278276,
+      "num_input_tokens_seen": 158677200,
+      "step": 7332,
+      "time_per_iteration": 2.7432472705841064
+    },
+    {
+      "auxiliary_loss_clip": 0.01193785,
+      "auxiliary_loss_mlp": 0.01378511,
+      "balance_loss_clip": 1.04315817,
+      "balance_loss_mlp": 1.00015914,
+      "epoch": 0.8817411170564541,
+      "flos": 17779409026560.0,
+      "grad_norm": 4.717143089561719,
+      "language_loss": 0.78826433,
+      "learning_rate": 1.448033976377354e-07,
+      "loss": 0.81398737,
+      "num_input_tokens_seen": 158692185,
+      "step": 7333,
+      "time_per_iteration": 3.6650617122650146
+    },
+    {
+      "auxiliary_loss_clip": 0.01178337,
+      "auxiliary_loss_mlp": 0.01024412,
+      "balance_loss_clip": 1.04506135,
+      "balance_loss_mlp": 1.01775146,
+      "epoch": 0.8818613599470931,
+      "flos": 18551812112640.0,
+      "grad_norm": 1.9200295729959933,
+      "language_loss": 0.74360836,
+      "learning_rate": 1.445125307843713e-07,
+      "loss": 0.76563585,
+      "num_input_tokens_seen": 158710410,
+      "step": 7334,
+      "time_per_iteration": 2.6488420963287354
+    },
+    {
+      "auxiliary_loss_clip": 0.01173715,
+      "auxiliary_loss_mlp": 0.01023058,
+      "balance_loss_clip": 1.0455724,
+      "balance_loss_mlp": 1.01649213,
+      "epoch": 0.8819816028377322,
+      "flos": 27599792417280.0,
+      "grad_norm": 1.9543751717542275,
+      "language_loss": 0.75327617,
+      "learning_rate": 1.442219454069813e-07,
+      "loss": 0.77524388,
+      "num_input_tokens_seen": 158731435,
+      "step": 7335,
+      "time_per_iteration": 3.554194927215576
+    },
+    {
+      "auxiliary_loss_clip": 0.01203139,
+      "auxiliary_loss_mlp": 0.01029142,
+      "balance_loss_clip": 1.04032731,
+      "balance_loss_mlp": 1.02243686,
+      "epoch": 0.8821018457283714,
+      "flos": 23404600385280.0,
+      "grad_norm": 2.2673398150158377,
+      "language_loss": 0.66551381,
+      "learning_rate": 1.4393164154964676e-07,
+      "loss": 0.68783659,
+      "num_input_tokens_seen": 158750965,
+      "step": 7336,
+      "time_per_iteration": 2.7181203365325928
+    },
+    {
+      "auxiliary_loss_clip": 0.01175158,
+      "auxiliary_loss_mlp": 0.01021296,
+      "balance_loss_clip": 1.04794979,
+      "balance_loss_mlp": 1.01426828,
+      "epoch": 0.8822220886190104,
+      "flos": 29132459792640.0,
+      "grad_norm": 1.8594561402837815,
+      "language_loss": 0.9417156,
+      "learning_rate": 1.4364161925640649e-07,
+      "loss": 0.96368015,
+      "num_input_tokens_seen": 158772365,
+      "step": 7337,
+      "time_per_iteration": 3.7601704597473145
+    },
+    {
+      "auxiliary_loss_clip": 0.01165406,
+      "auxiliary_loss_mlp": 0.01025007,
+      "balance_loss_clip": 1.04729867,
+      "balance_loss_mlp": 1.01855755,
+      "epoch": 0.8823423315096495,
+      "flos": 20485422074880.0,
+      "grad_norm": 1.7498097709008966,
+      "language_loss": 0.85142791,
+      "learning_rate": 1.4335187857125663e-07,
+      "loss": 0.87333208,
+      "num_input_tokens_seen": 158791065,
+      "step": 7338,
+      "time_per_iteration": 2.5361196994781494
+    },
+    {
+      "auxiliary_loss_clip": 0.01177653,
+      "auxiliary_loss_mlp": 0.0101991,
+      "balance_loss_clip": 1.04585922,
+      "balance_loss_mlp": 1.01268005,
+      "epoch": 0.8824625744002886,
+      "flos": 24206377818240.0,
+      "grad_norm": 1.5866848193995569,
+      "language_loss": 0.75093627,
+      "learning_rate": 1.4306241953815023e-07,
+      "loss": 0.77291185,
+      "num_input_tokens_seen": 158812125,
+      "step": 7339,
+      "time_per_iteration": 2.6967074871063232
+    },
+    {
+      "auxiliary_loss_clip": 0.01174909,
+      "auxiliary_loss_mlp": 0.01019192,
+      "balance_loss_clip": 1.04351997,
+      "balance_loss_mlp": 1.01239395,
+      "epoch": 0.8825828172909277,
+      "flos": 24679500785280.0,
+      "grad_norm": 1.8033636658949819,
+      "language_loss": 0.71369624,
+      "learning_rate": 1.4277324220099862e-07,
+      "loss": 0.73563719,
+      "num_input_tokens_seen": 158834035,
+      "step": 7340,
+      "time_per_iteration": 2.6388938426971436
+    },
+    {
+      "auxiliary_loss_clip": 0.01186907,
+      "auxiliary_loss_mlp": 0.01024097,
+      "balance_loss_clip": 1.04216433,
+      "balance_loss_mlp": 1.01653302,
+      "epoch": 0.8827030601815667,
+      "flos": 22456163721600.0,
+      "grad_norm": 1.798654797191921,
+      "language_loss": 0.74500501,
+      "learning_rate": 1.4248434660366938e-07,
+      "loss": 0.767115,
+      "num_input_tokens_seen": 158853510,
+      "step": 7341,
+      "time_per_iteration": 2.7154080867767334
+    },
+    {
+      "auxiliary_loss_clip": 0.01184532,
+      "auxiliary_loss_mlp": 0.01026074,
+      "balance_loss_clip": 1.04443026,
+      "balance_loss_mlp": 1.01889205,
+      "epoch": 0.8828233030722058,
+      "flos": 19865639877120.0,
+      "grad_norm": 1.6853473795168727,
+      "language_loss": 0.70156407,
+      "learning_rate": 1.4219573278998808e-07,
+      "loss": 0.72367018,
+      "num_input_tokens_seen": 158871970,
+      "step": 7342,
+      "time_per_iteration": 3.537043571472168
+    },
+    {
+      "auxiliary_loss_clip": 0.01181726,
+      "auxiliary_loss_mlp": 0.01029732,
+      "balance_loss_clip": 1.04330456,
+      "balance_loss_mlp": 1.02190018,
+      "epoch": 0.882943545962845,
+      "flos": 39347213581440.0,
+      "grad_norm": 2.050354813434126,
+      "language_loss": 0.64487821,
+      "learning_rate": 1.4190740080373685e-07,
+      "loss": 0.66699278,
+      "num_input_tokens_seen": 158892250,
+      "step": 7343,
+      "time_per_iteration": 2.7875964641571045
+    },
+    {
+      "auxiliary_loss_clip": 0.011995,
+      "auxiliary_loss_mlp": 0.0102299,
+      "balance_loss_clip": 1.0420022,
+      "balance_loss_mlp": 1.0154326,
+      "epoch": 0.883063788853484,
+      "flos": 19054524908160.0,
+      "grad_norm": 2.9284680851240057,
+      "language_loss": 0.83941901,
+      "learning_rate": 1.4161935068865538e-07,
+      "loss": 0.86164391,
+      "num_input_tokens_seen": 158907395,
+      "step": 7344,
+      "time_per_iteration": 2.728574752807617
+    },
+    {
+      "auxiliary_loss_clip": 0.01166611,
+      "auxiliary_loss_mlp": 0.01025576,
+      "balance_loss_clip": 1.04545832,
+      "balance_loss_mlp": 1.01807141,
+      "epoch": 0.8831840317441231,
+      "flos": 18733196816640.0,
+      "grad_norm": 2.1149295087322617,
+      "language_loss": 0.7578243,
+      "learning_rate": 1.4133158248844113e-07,
+      "loss": 0.77974612,
+      "num_input_tokens_seen": 158926300,
+      "step": 7345,
+      "time_per_iteration": 2.5244994163513184
+    },
+    {
+      "auxiliary_loss_clip": 0.01195241,
+      "auxiliary_loss_mlp": 0.01023955,
+      "balance_loss_clip": 1.04200602,
+      "balance_loss_mlp": 1.01635253,
+      "epoch": 0.8833042746347622,
+      "flos": 26827712553600.0,
+      "grad_norm": 1.6994547136621878,
+      "language_loss": 0.7342335,
+      "learning_rate": 1.4104409624674785e-07,
+      "loss": 0.75642538,
+      "num_input_tokens_seen": 158946085,
+      "step": 7346,
+      "time_per_iteration": 2.7217562198638916
+    },
+    {
+      "auxiliary_loss_clip": 0.01178801,
+      "auxiliary_loss_mlp": 0.01023899,
+      "balance_loss_clip": 1.04763842,
+      "balance_loss_mlp": 1.01644266,
+      "epoch": 0.8834245175254013,
+      "flos": 26104077158400.0,
+      "grad_norm": 1.7886079263567818,
+      "language_loss": 0.78384566,
+      "learning_rate": 1.407568920071873e-07,
+      "loss": 0.80587268,
+      "num_input_tokens_seen": 158964950,
+      "step": 7347,
+      "time_per_iteration": 2.640796184539795
+    },
+    {
+      "auxiliary_loss_clip": 0.01172848,
+      "auxiliary_loss_mlp": 0.0102831,
+      "balance_loss_clip": 1.04874301,
+      "balance_loss_mlp": 1.02049601,
+      "epoch": 0.8835447604160404,
+      "flos": 30629036977920.0,
+      "grad_norm": 4.243243065808063,
+      "language_loss": 0.68888491,
+      "learning_rate": 1.4046996981332782e-07,
+      "loss": 0.71089649,
+      "num_input_tokens_seen": 158984835,
+      "step": 7348,
+      "time_per_iteration": 2.712657928466797
+    },
+    {
+      "auxiliary_loss_clip": 0.01196759,
+      "auxiliary_loss_mlp": 0.01024133,
+      "balance_loss_clip": 1.04346538,
+      "balance_loss_mlp": 1.01650977,
+      "epoch": 0.8836650033066795,
+      "flos": 24718356322560.0,
+      "grad_norm": 2.1163400619848556,
+      "language_loss": 0.7818886,
+      "learning_rate": 1.4018332970869516e-07,
+      "loss": 0.80409753,
+      "num_input_tokens_seen": 159002775,
+      "step": 7349,
+      "time_per_iteration": 2.6825602054595947
+    },
+    {
+      "auxiliary_loss_clip": 0.01178781,
+      "auxiliary_loss_mlp": 0.01025584,
+      "balance_loss_clip": 1.04501534,
+      "balance_loss_mlp": 1.01805258,
+      "epoch": 0.8837852461973186,
+      "flos": 25413371556480.0,
+      "grad_norm": 1.9972697548819585,
+      "language_loss": 0.85169947,
+      "learning_rate": 1.398969717367733e-07,
+      "loss": 0.87374312,
+      "num_input_tokens_seen": 159024100,
+      "step": 7350,
+      "time_per_iteration": 2.7025532722473145
+    },
+    {
+      "auxiliary_loss_clip": 0.01202317,
+      "auxiliary_loss_mlp": 0.01021963,
+      "balance_loss_clip": 1.04513288,
+      "balance_loss_mlp": 1.01529646,
+      "epoch": 0.8839054890879576,
+      "flos": 17822574195840.0,
+      "grad_norm": 1.6109809561357658,
+      "language_loss": 0.76482797,
+      "learning_rate": 1.396108959410014e-07,
+      "loss": 0.78707075,
+      "num_input_tokens_seen": 159043315,
+      "step": 7351,
+      "time_per_iteration": 2.6539552211761475
+    },
+    {
+      "auxiliary_loss_clip": 0.01178292,
+      "auxiliary_loss_mlp": 0.01378995,
+      "balance_loss_clip": 1.04934406,
+      "balance_loss_mlp": 1.0001514,
+      "epoch": 0.8840257319785968,
+      "flos": 23769021818880.0,
+      "grad_norm": 1.5710632818262997,
+      "language_loss": 0.81747693,
+      "learning_rate": 1.3932510236477745e-07,
+      "loss": 0.84304976,
+      "num_input_tokens_seen": 159063985,
+      "step": 7352,
+      "time_per_iteration": 2.663520336151123
+    },
+    {
+      "auxiliary_loss_clip": 0.01173129,
+      "auxiliary_loss_mlp": 0.01023743,
+      "balance_loss_clip": 1.04405951,
+      "balance_loss_mlp": 1.01574111,
+      "epoch": 0.8841459748692359,
+      "flos": 29059776622080.0,
+      "grad_norm": 2.400961057363552,
+      "language_loss": 0.55919695,
+      "learning_rate": 1.3903959105145636e-07,
+      "loss": 0.58116567,
+      "num_input_tokens_seen": 159084475,
+      "step": 7353,
+      "time_per_iteration": 2.6306583881378174
+    },
+    {
+      "auxiliary_loss_clip": 0.01165997,
+      "auxiliary_loss_mlp": 0.01021947,
+      "balance_loss_clip": 1.0455575,
+      "balance_loss_mlp": 1.01488686,
+      "epoch": 0.8842662177598749,
+      "flos": 24311523905280.0,
+      "grad_norm": 2.1409634550910033,
+      "language_loss": 0.83177328,
+      "learning_rate": 1.387543620443492e-07,
+      "loss": 0.85365272,
+      "num_input_tokens_seen": 159101320,
+      "step": 7354,
+      "time_per_iteration": 2.5818240642547607
+    },
+    {
+      "auxiliary_loss_clip": 0.01166292,
+      "auxiliary_loss_mlp": 0.0102549,
+      "balance_loss_clip": 1.04712677,
+      "balance_loss_mlp": 1.01837945,
+      "epoch": 0.8843864606505141,
+      "flos": 25007867942400.0,
+      "grad_norm": 1.8866647726055286,
+      "language_loss": 0.840693,
+      "learning_rate": 1.3846941538672606e-07,
+      "loss": 0.86261082,
+      "num_input_tokens_seen": 159120025,
+      "step": 7355,
+      "time_per_iteration": 2.5896573066711426
+    },
+    {
+      "auxiliary_loss_clip": 0.01212697,
+      "auxiliary_loss_mlp": 0.01027421,
+      "balance_loss_clip": 1.04799581,
+      "balance_loss_mlp": 1.01979208,
+      "epoch": 0.8845067035411531,
+      "flos": 28183915388160.0,
+      "grad_norm": 2.462149526892667,
+      "language_loss": 0.80732578,
+      "learning_rate": 1.3818475112181193e-07,
+      "loss": 0.82972693,
+      "num_input_tokens_seen": 159138820,
+      "step": 7356,
+      "time_per_iteration": 2.802492141723633
+    },
+    {
+      "auxiliary_loss_clip": 0.01184481,
+      "auxiliary_loss_mlp": 0.0101825,
+      "balance_loss_clip": 1.043419,
+      "balance_loss_mlp": 1.01192284,
+      "epoch": 0.8846269464317922,
+      "flos": 12853219311360.0,
+      "grad_norm": 2.0644699842911924,
+      "language_loss": 0.79978621,
+      "learning_rate": 1.3790036929279091e-07,
+      "loss": 0.82181352,
+      "num_input_tokens_seen": 159155975,
+      "step": 7357,
+      "time_per_iteration": 2.5971906185150146
+    },
+    {
+      "auxiliary_loss_clip": 0.01179499,
+      "auxiliary_loss_mlp": 0.01378711,
+      "balance_loss_clip": 1.04735458,
+      "balance_loss_mlp": 1.00014186,
+      "epoch": 0.8847471893224313,
+      "flos": 18624351628800.0,
+      "grad_norm": 2.311811128674643,
+      "language_loss": 0.58782417,
+      "learning_rate": 1.3761626994280363e-07,
+      "loss": 0.6134063,
+      "num_input_tokens_seen": 159173445,
+      "step": 7358,
+      "time_per_iteration": 2.5912368297576904
+    },
+    {
+      "auxiliary_loss_clip": 0.01198909,
+      "auxiliary_loss_mlp": 0.01027361,
+      "balance_loss_clip": 1.04339075,
+      "balance_loss_mlp": 1.0199554,
+      "epoch": 0.8848674322130704,
+      "flos": 35769433449600.0,
+      "grad_norm": 1.7047633207720114,
+      "language_loss": 0.73456371,
+      "learning_rate": 1.3733245311494735e-07,
+      "loss": 0.7568264,
+      "num_input_tokens_seen": 159196100,
+      "step": 7359,
+      "time_per_iteration": 3.748932361602783
+    },
+    {
+      "auxiliary_loss_clip": 0.01175899,
+      "auxiliary_loss_mlp": 0.01027772,
+      "balance_loss_clip": 1.04546738,
+      "balance_loss_mlp": 1.0207479,
+      "epoch": 0.8849876751037095,
+      "flos": 24243760897920.0,
+      "grad_norm": 1.873305534639298,
+      "language_loss": 0.70657736,
+      "learning_rate": 1.3704891885227676e-07,
+      "loss": 0.72861409,
+      "num_input_tokens_seen": 159216145,
+      "step": 7360,
+      "time_per_iteration": 2.6071970462799072
+    },
+    {
+      "auxiliary_loss_clip": 0.01188406,
+      "auxiliary_loss_mlp": 0.0102567,
+      "balance_loss_clip": 1.03939307,
+      "balance_loss_mlp": 1.01835692,
+      "epoch": 0.8851079179943486,
+      "flos": 21500580251520.0,
+      "grad_norm": 2.015117475730502,
+      "language_loss": 0.77831888,
+      "learning_rate": 1.367656671978037e-07,
+      "loss": 0.80045968,
+      "num_input_tokens_seen": 159233610,
+      "step": 7361,
+      "time_per_iteration": 3.594113826751709
+    },
+    {
+      "auxiliary_loss_clip": 0.01191254,
+      "auxiliary_loss_mlp": 0.01029271,
+      "balance_loss_clip": 1.04378474,
+      "balance_loss_mlp": 1.02241373,
+      "epoch": 0.8852281608849877,
+      "flos": 15300711198720.0,
+      "grad_norm": 1.8715836934891488,
+      "language_loss": 0.73642492,
+      "learning_rate": 1.36482698194498e-07,
+      "loss": 0.7586301,
+      "num_input_tokens_seen": 159250155,
+      "step": 7362,
+      "time_per_iteration": 2.6378016471862793
+    },
+    {
+      "auxiliary_loss_clip": 0.01181737,
+      "auxiliary_loss_mlp": 0.01025357,
+      "balance_loss_clip": 1.04274678,
+      "balance_loss_mlp": 1.01763809,
+      "epoch": 0.8853484037756267,
+      "flos": 23295719283840.0,
+      "grad_norm": 1.8797465360152403,
+      "language_loss": 0.71908939,
+      "learning_rate": 1.3620001188528506e-07,
+      "loss": 0.74116033,
+      "num_input_tokens_seen": 159270875,
+      "step": 7363,
+      "time_per_iteration": 2.722538948059082
+    },
+    {
+      "auxiliary_loss_clip": 0.01178349,
+      "auxiliary_loss_mlp": 0.01025456,
+      "balance_loss_clip": 1.0439955,
+      "balance_loss_mlp": 1.01787162,
+      "epoch": 0.8854686466662659,
+      "flos": 25114773795840.0,
+      "grad_norm": 2.7185065995919886,
+      "language_loss": 0.73837936,
+      "learning_rate": 1.3591760831304865e-07,
+      "loss": 0.7604174,
+      "num_input_tokens_seen": 159288565,
+      "step": 7364,
+      "time_per_iteration": 3.5681538581848145
+    },
+    {
+      "auxiliary_loss_clip": 0.01165404,
+      "auxiliary_loss_mlp": 0.01023734,
+      "balance_loss_clip": 1.04614902,
+      "balance_loss_mlp": 1.01671231,
+      "epoch": 0.885588889556905,
+      "flos": 21390873137280.0,
+      "grad_norm": 1.8584597096373479,
+      "language_loss": 0.7945838,
+      "learning_rate": 1.356354875206287e-07,
+      "loss": 0.81647515,
+      "num_input_tokens_seen": 159306400,
+      "step": 7365,
+      "time_per_iteration": 2.5735485553741455
+    },
+    {
+      "auxiliary_loss_clip": 0.01194092,
+      "auxiliary_loss_mlp": 0.01025322,
+      "balance_loss_clip": 1.04536378,
+      "balance_loss_mlp": 1.0181154,
+      "epoch": 0.885709132447544,
+      "flos": 26906752431360.0,
+      "grad_norm": 2.1350792510974417,
+      "language_loss": 0.69903159,
+      "learning_rate": 1.3535364955082296e-07,
+      "loss": 0.72122568,
+      "num_input_tokens_seen": 159326250,
+      "step": 7366,
+      "time_per_iteration": 2.786877393722534
+    },
+    {
+      "auxiliary_loss_clip": 0.01167533,
+      "auxiliary_loss_mlp": 0.01024727,
+      "balance_loss_clip": 1.04886866,
+      "balance_loss_mlp": 1.01790524,
+      "epoch": 0.8858293753381832,
+      "flos": 26103394800000.0,
+      "grad_norm": 2.1459733861424124,
+      "language_loss": 0.65053248,
+      "learning_rate": 1.3507209444638613e-07,
+      "loss": 0.67245507,
+      "num_input_tokens_seen": 159348250,
+      "step": 7367,
+      "time_per_iteration": 2.6100564002990723
+    },
+    {
+      "auxiliary_loss_clip": 0.01177103,
+      "auxiliary_loss_mlp": 0.01023284,
+      "balance_loss_clip": 1.04561496,
+      "balance_loss_mlp": 1.01630473,
+      "epoch": 0.8859496182288222,
+      "flos": 23292810282240.0,
+      "grad_norm": 1.8165388844904067,
+      "language_loss": 0.73955333,
+      "learning_rate": 1.347908222500298e-07,
+      "loss": 0.76155716,
+      "num_input_tokens_seen": 159368325,
+      "step": 7368,
+      "time_per_iteration": 3.53145170211792
+    },
+    {
+      "auxiliary_loss_clip": 0.01182257,
+      "auxiliary_loss_mlp": 0.01028495,
+      "balance_loss_clip": 1.04409492,
+      "balance_loss_mlp": 1.02143228,
+      "epoch": 0.8860698611194613,
+      "flos": 16872916469760.0,
+      "grad_norm": 1.9274799145449644,
+      "language_loss": 0.69788635,
+      "learning_rate": 1.3450983300442276e-07,
+      "loss": 0.71999395,
+      "num_input_tokens_seen": 159387555,
+      "step": 7369,
+      "time_per_iteration": 2.6569013595581055
+    },
+    {
+      "auxiliary_loss_clip": 0.01177509,
+      "auxiliary_loss_mlp": 0.01027582,
+      "balance_loss_clip": 1.04554355,
+      "balance_loss_mlp": 1.02086473,
+      "epoch": 0.8861901040101005,
+      "flos": 24681404206080.0,
+      "grad_norm": 1.9008083225285577,
+      "language_loss": 0.73373789,
+      "learning_rate": 1.3422912675219068e-07,
+      "loss": 0.7557888,
+      "num_input_tokens_seen": 159407310,
+      "step": 7370,
+      "time_per_iteration": 2.619171380996704
+    },
+    {
+      "auxiliary_loss_clip": 0.01165941,
+      "auxiliary_loss_mlp": 0.01025333,
+      "balance_loss_clip": 1.04821277,
+      "balance_loss_mlp": 1.01880062,
+      "epoch": 0.8863103469007395,
+      "flos": 24423026699520.0,
+      "grad_norm": 1.6057690356277305,
+      "language_loss": 0.79001343,
+      "learning_rate": 1.339487035359166e-07,
+      "loss": 0.81192619,
+      "num_input_tokens_seen": 159427680,
+      "step": 7371,
+      "time_per_iteration": 2.6359591484069824
+    },
+    {
+      "auxiliary_loss_clip": 0.01187573,
+      "auxiliary_loss_mlp": 0.0137797,
+      "balance_loss_clip": 1.04678333,
+      "balance_loss_mlp": 1.00013268,
+      "epoch": 0.8864305897913786,
+      "flos": 22053964158720.0,
+      "grad_norm": 2.95259671677694,
+      "language_loss": 0.84696656,
+      "learning_rate": 1.336685633981409e-07,
+      "loss": 0.87262201,
+      "num_input_tokens_seen": 159448765,
+      "step": 7372,
+      "time_per_iteration": 2.666940212249756
+    },
+    {
+      "auxiliary_loss_clip": 0.01175696,
+      "auxiliary_loss_mlp": 0.01026469,
+      "balance_loss_clip": 1.04332757,
+      "balance_loss_mlp": 1.01943278,
+      "epoch": 0.8865508326820177,
+      "flos": 19099449843840.0,
+      "grad_norm": 2.0484677786487424,
+      "language_loss": 0.74923378,
+      "learning_rate": 1.333887063813597e-07,
+      "loss": 0.77125543,
+      "num_input_tokens_seen": 159466870,
+      "step": 7373,
+      "time_per_iteration": 2.636983633041382
+    },
+    {
+      "auxiliary_loss_clip": 0.01186433,
+      "auxiliary_loss_mlp": 0.01025605,
+      "balance_loss_clip": 1.04327345,
+      "balance_loss_mlp": 1.01897705,
+      "epoch": 0.8866710755726568,
+      "flos": 15414189240960.0,
+      "grad_norm": 1.83210734302761,
+      "language_loss": 0.66642314,
+      "learning_rate": 1.331091325280278e-07,
+      "loss": 0.68854356,
+      "num_input_tokens_seen": 159485840,
+      "step": 7374,
+      "time_per_iteration": 2.625487804412842
+    },
+    {
+      "auxiliary_loss_clip": 0.01192189,
+      "auxiliary_loss_mlp": 0.01021129,
+      "balance_loss_clip": 1.03951192,
+      "balance_loss_mlp": 1.013762,
+      "epoch": 0.8867913184632958,
+      "flos": 20083689388800.0,
+      "grad_norm": 2.02847116547195,
+      "language_loss": 0.7865746,
+      "learning_rate": 1.3282984188055625e-07,
+      "loss": 0.80870777,
+      "num_input_tokens_seen": 159505630,
+      "step": 7375,
+      "time_per_iteration": 2.7502191066741943
+    },
+    {
+      "auxiliary_loss_clip": 0.01166365,
+      "auxiliary_loss_mlp": 0.01022565,
+      "balance_loss_clip": 1.04566443,
+      "balance_loss_mlp": 1.01540029,
+      "epoch": 0.8869115613539349,
+      "flos": 23365852588800.0,
+      "grad_norm": 1.7997364232188762,
+      "language_loss": 0.79786032,
+      "learning_rate": 1.3255083448131288e-07,
+      "loss": 0.81974959,
+      "num_input_tokens_seen": 159524675,
+      "step": 7376,
+      "time_per_iteration": 2.5677154064178467
+    },
+    {
+      "auxiliary_loss_clip": 0.01178738,
+      "auxiliary_loss_mlp": 0.01028567,
+      "balance_loss_clip": 1.0437479,
+      "balance_loss_mlp": 1.02115214,
+      "epoch": 0.8870318042445741,
+      "flos": 21286840371840.0,
+      "grad_norm": 2.066103381200194,
+      "language_loss": 0.7938745,
+      "learning_rate": 1.3227211037262365e-07,
+      "loss": 0.81594753,
+      "num_input_tokens_seen": 159541915,
+      "step": 7377,
+      "time_per_iteration": 2.6184146404266357
+    },
+    {
+      "auxiliary_loss_clip": 0.01204871,
+      "auxiliary_loss_mlp": 0.01029581,
+      "balance_loss_clip": 1.04140151,
+      "balance_loss_mlp": 1.0219934,
+      "epoch": 0.8871520471352131,
+      "flos": 20010862563840.0,
+      "grad_norm": 2.0755957566603276,
+      "language_loss": 0.85425806,
+      "learning_rate": 1.319936695967696e-07,
+      "loss": 0.87660259,
+      "num_input_tokens_seen": 159559740,
+      "step": 7378,
+      "time_per_iteration": 2.7842392921447754
+    },
+    {
+      "auxiliary_loss_clip": 0.01172961,
+      "auxiliary_loss_mlp": 0.01026228,
+      "balance_loss_clip": 1.04812217,
+      "balance_loss_mlp": 1.01824045,
+      "epoch": 0.8872722900258522,
+      "flos": 22601422321920.0,
+      "grad_norm": 2.362109464981751,
+      "language_loss": 0.82032371,
+      "learning_rate": 1.3171551219599097e-07,
+      "loss": 0.84231561,
+      "num_input_tokens_seen": 159578265,
+      "step": 7379,
+      "time_per_iteration": 2.662667989730835
+    },
+    {
+      "auxiliary_loss_clip": 0.01170409,
+      "auxiliary_loss_mlp": 0.01025123,
+      "balance_loss_clip": 1.0500617,
+      "balance_loss_mlp": 1.01763642,
+      "epoch": 0.8873925329164913,
+      "flos": 22163276223360.0,
+      "grad_norm": 2.2259510828984888,
+      "language_loss": 0.78146607,
+      "learning_rate": 1.3143763821248377e-07,
+      "loss": 0.80342138,
+      "num_input_tokens_seen": 159595350,
+      "step": 7380,
+      "time_per_iteration": 2.5904130935668945
+    },
+    {
+      "auxiliary_loss_clip": 0.01165013,
+      "auxiliary_loss_mlp": 0.01019985,
+      "balance_loss_clip": 1.04653859,
+      "balance_loss_mlp": 1.01302326,
+      "epoch": 0.8875127758071304,
+      "flos": 19208223204480.0,
+      "grad_norm": 1.7044928225371923,
+      "language_loss": 0.72284824,
+      "learning_rate": 1.3116004768840118e-07,
+      "loss": 0.74469823,
+      "num_input_tokens_seen": 159613725,
+      "step": 7381,
+      "time_per_iteration": 2.613051176071167
+    },
+    {
+      "auxiliary_loss_clip": 0.01168244,
+      "auxiliary_loss_mlp": 0.01026134,
+      "balance_loss_clip": 1.0468967,
+      "balance_loss_mlp": 1.01870441,
+      "epoch": 0.8876330186977694,
+      "flos": 18110900666880.0,
+      "grad_norm": 1.5868506017396817,
+      "language_loss": 0.74377203,
+      "learning_rate": 1.3088274066585348e-07,
+      "loss": 0.76571584,
+      "num_input_tokens_seen": 159631335,
+      "step": 7382,
+      "time_per_iteration": 2.5135111808776855
+    },
+    {
+      "auxiliary_loss_clip": 0.01196242,
+      "auxiliary_loss_mlp": 0.0102388,
+      "balance_loss_clip": 1.04116035,
+      "balance_loss_mlp": 1.01691794,
+      "epoch": 0.8877532615884086,
+      "flos": 22009434272640.0,
+      "grad_norm": 6.2630809523059225,
+      "language_loss": 0.90356499,
+      "learning_rate": 1.3060571718690749e-07,
+      "loss": 0.92576611,
+      "num_input_tokens_seen": 159648830,
+      "step": 7383,
+      "time_per_iteration": 2.702427387237549
+    },
+    {
+      "auxiliary_loss_clip": 0.01098758,
+      "auxiliary_loss_mlp": 0.01373946,
+      "balance_loss_clip": 1.00839508,
+      "balance_loss_mlp": 0.99993783,
+      "epoch": 0.8878735044790477,
+      "flos": 72136924346880.0,
+      "grad_norm": 0.7457422095418295,
+      "language_loss": 0.56859118,
+      "learning_rate": 1.3032897729358805e-07,
+      "loss": 0.59331822,
+      "num_input_tokens_seen": 159709785,
+      "step": 7384,
+      "time_per_iteration": 3.282365560531616
+    },
+    {
+      "auxiliary_loss_clip": 0.01193057,
+      "auxiliary_loss_mlp": 0.01378838,
+      "balance_loss_clip": 1.03519654,
+      "balance_loss_mlp": 1.00007915,
+      "epoch": 0.8879937473696867,
+      "flos": 27526355061120.0,
+      "grad_norm": 1.8659815124617,
+      "language_loss": 0.79900873,
+      "learning_rate": 1.3005252102787645e-07,
+      "loss": 0.82472765,
+      "num_input_tokens_seen": 159728725,
+      "step": 7385,
+      "time_per_iteration": 3.6172330379486084
+    },
+    {
+      "auxiliary_loss_clip": 0.01178884,
+      "auxiliary_loss_mlp": 0.01028912,
+      "balance_loss_clip": 1.04502964,
+      "balance_loss_mlp": 1.02182817,
+      "epoch": 0.8881139902603259,
+      "flos": 22234091886720.0,
+      "grad_norm": 1.6334760136961528,
+      "language_loss": 0.73538315,
+      "learning_rate": 1.297763484317105e-07,
+      "loss": 0.75746113,
+      "num_input_tokens_seen": 159747020,
+      "step": 7386,
+      "time_per_iteration": 2.6297647953033447
+    },
+    {
+      "auxiliary_loss_clip": 0.01198143,
+      "auxiliary_loss_mlp": 0.01378985,
+      "balance_loss_clip": 1.03999805,
+      "balance_loss_mlp": 1.00014389,
+      "epoch": 0.888234233150965,
+      "flos": 20299548170880.0,
+      "grad_norm": 2.8606072310084234,
+      "language_loss": 0.70459718,
+      "learning_rate": 1.2950045954698551e-07,
+      "loss": 0.73036844,
+      "num_input_tokens_seen": 159764855,
+      "step": 7387,
+      "time_per_iteration": 3.5202105045318604
+    },
+    {
+      "auxiliary_loss_clip": 0.01186594,
+      "auxiliary_loss_mlp": 0.01027266,
+      "balance_loss_clip": 1.0443604,
+      "balance_loss_mlp": 1.01964247,
+      "epoch": 0.888354476041604,
+      "flos": 18147996437760.0,
+      "grad_norm": 1.7532136643144114,
+      "language_loss": 0.75507212,
+      "learning_rate": 1.2922485441555343e-07,
+      "loss": 0.77721077,
+      "num_input_tokens_seen": 159783935,
+      "step": 7388,
+      "time_per_iteration": 2.755295991897583
+    },
+    {
+      "auxiliary_loss_clip": 0.01166322,
+      "auxiliary_loss_mlp": 0.01025381,
+      "balance_loss_clip": 1.0456773,
+      "balance_loss_mlp": 1.01845193,
+      "epoch": 0.8884747189322432,
+      "flos": 22014282608640.0,
+      "grad_norm": 1.999410366055808,
+      "language_loss": 0.81732213,
+      "learning_rate": 1.2894953307922363e-07,
+      "loss": 0.83923912,
+      "num_input_tokens_seen": 159802895,
+      "step": 7389,
+      "time_per_iteration": 2.7021172046661377
+    },
+    {
+      "auxiliary_loss_clip": 0.01189722,
+      "auxiliary_loss_mlp": 0.01026917,
+      "balance_loss_clip": 1.0436852,
+      "balance_loss_mlp": 1.01905549,
+      "epoch": 0.8885949618228822,
+      "flos": 19786779567360.0,
+      "grad_norm": 1.9695055592530557,
+      "language_loss": 0.83727825,
+      "learning_rate": 1.2867449557976208e-07,
+      "loss": 0.85944468,
+      "num_input_tokens_seen": 159820995,
+      "step": 7390,
+      "time_per_iteration": 3.6513917446136475
+    },
+    {
+      "auxiliary_loss_clip": 0.01178675,
+      "auxiliary_loss_mlp": 0.01029159,
+      "balance_loss_clip": 1.0488472,
+      "balance_loss_mlp": 1.02174735,
+      "epoch": 0.8887152047135213,
+      "flos": 20047599198720.0,
+      "grad_norm": 3.480290628222127,
+      "language_loss": 0.75636756,
+      "learning_rate": 1.283997419588916e-07,
+      "loss": 0.77844584,
+      "num_input_tokens_seen": 159840465,
+      "step": 7391,
+      "time_per_iteration": 2.634431838989258
+    },
+    {
+      "auxiliary_loss_clip": 0.01179842,
+      "auxiliary_loss_mlp": 0.01023309,
+      "balance_loss_clip": 1.04602838,
+      "balance_loss_mlp": 1.01642442,
+      "epoch": 0.8888354476041604,
+      "flos": 18588117784320.0,
+      "grad_norm": 2.0761552165549184,
+      "language_loss": 0.61889327,
+      "learning_rate": 1.2812527225829216e-07,
+      "loss": 0.64092481,
+      "num_input_tokens_seen": 159858690,
+      "step": 7392,
+      "time_per_iteration": 2.628875970840454
+    },
+    {
+      "auxiliary_loss_clip": 0.0118369,
+      "auxiliary_loss_mlp": 0.0102639,
+      "balance_loss_clip": 1.04756045,
+      "balance_loss_mlp": 1.01862907,
+      "epoch": 0.8889556904947995,
+      "flos": 21689794120320.0,
+      "grad_norm": 1.9400449819537413,
+      "language_loss": 0.76475799,
+      "learning_rate": 1.2785108651960052e-07,
+      "loss": 0.78685886,
+      "num_input_tokens_seen": 159880325,
+      "step": 7393,
+      "time_per_iteration": 2.649075984954834
+    },
+    {
+      "auxiliary_loss_clip": 0.01176344,
+      "auxiliary_loss_mlp": 0.01027554,
+      "balance_loss_clip": 1.04321992,
+      "balance_loss_mlp": 1.02060699,
+      "epoch": 0.8890759333854386,
+      "flos": 27381204201600.0,
+      "grad_norm": 1.8998508261495568,
+      "language_loss": 0.80817562,
+      "learning_rate": 1.2757718478441094e-07,
+      "loss": 0.83021462,
+      "num_input_tokens_seen": 159901070,
+      "step": 7394,
+      "time_per_iteration": 3.577308416366577
+    },
+    {
+      "auxiliary_loss_clip": 0.01180731,
+      "auxiliary_loss_mlp": 0.01027689,
+      "balance_loss_clip": 1.04159009,
+      "balance_loss_mlp": 1.02072144,
+      "epoch": 0.8891961762760777,
+      "flos": 24498834353280.0,
+      "grad_norm": 1.7463529977047385,
+      "language_loss": 0.77182752,
+      "learning_rate": 1.2730356709427302e-07,
+      "loss": 0.79391176,
+      "num_input_tokens_seen": 159919750,
+      "step": 7395,
+      "time_per_iteration": 2.66304612159729
+    },
+    {
+      "auxiliary_loss_clip": 0.01175546,
+      "auxiliary_loss_mlp": 0.01020099,
+      "balance_loss_clip": 1.04790187,
+      "balance_loss_mlp": 1.01288414,
+      "epoch": 0.8893164191667168,
+      "flos": 41499770895360.0,
+      "grad_norm": 1.6135337164607195,
+      "language_loss": 0.60062933,
+      "learning_rate": 1.2703023349069542e-07,
+      "loss": 0.62258577,
+      "num_input_tokens_seen": 159944600,
+      "step": 7396,
+      "time_per_iteration": 2.7782623767852783
+    },
+    {
+      "auxiliary_loss_clip": 0.01172743,
+      "auxiliary_loss_mlp": 0.01027005,
+      "balance_loss_clip": 1.04651046,
+      "balance_loss_mlp": 1.01997185,
+      "epoch": 0.8894366620573558,
+      "flos": 33583623120000.0,
+      "grad_norm": 1.7572668222789085,
+      "language_loss": 0.61287713,
+      "learning_rate": 1.2675718401514223e-07,
+      "loss": 0.63487458,
+      "num_input_tokens_seen": 159968780,
+      "step": 7397,
+      "time_per_iteration": 2.694873094558716
+    },
+    {
+      "auxiliary_loss_clip": 0.0118427,
+      "auxiliary_loss_mlp": 0.01027049,
+      "balance_loss_clip": 1.04501486,
+      "balance_loss_mlp": 1.01969934,
+      "epoch": 0.889556904947995,
+      "flos": 16909832672640.0,
+      "grad_norm": 2.3167611814029896,
+      "language_loss": 0.74653429,
+      "learning_rate": 1.264844187090346e-07,
+      "loss": 0.76864749,
+      "num_input_tokens_seen": 159985905,
+      "step": 7398,
+      "time_per_iteration": 2.6373131275177
+    },
+    {
+      "auxiliary_loss_clip": 0.01176422,
+      "auxiliary_loss_mlp": 0.01026819,
+      "balance_loss_clip": 1.0411706,
+      "balance_loss_mlp": 1.01985168,
+      "epoch": 0.889677147838634,
+      "flos": 26030855283840.0,
+      "grad_norm": 1.7575386409130986,
+      "language_loss": 0.75115788,
+      "learning_rate": 1.262119376137516e-07,
+      "loss": 0.77319032,
+      "num_input_tokens_seen": 160006965,
+      "step": 7399,
+      "time_per_iteration": 2.592769145965576
+    },
+    {
+      "auxiliary_loss_clip": 0.01164807,
+      "auxiliary_loss_mlp": 0.01025012,
+      "balance_loss_clip": 1.04394388,
+      "balance_loss_mlp": 1.01839924,
+      "epoch": 0.8897973907292731,
+      "flos": 26468283110400.0,
+      "grad_norm": 1.5014156640886667,
+      "language_loss": 0.85054493,
+      "learning_rate": 1.2593974077062707e-07,
+      "loss": 0.87244308,
+      "num_input_tokens_seen": 160028585,
+      "step": 7400,
+      "time_per_iteration": 2.633498191833496
+    },
+    {
+      "auxiliary_loss_clip": 0.01182627,
+      "auxiliary_loss_mlp": 0.0102512,
+      "balance_loss_clip": 1.04072309,
+      "balance_loss_mlp": 1.01781225,
+      "epoch": 0.8899176336199123,
+      "flos": 26249694894720.0,
+      "grad_norm": 1.720590906681602,
+      "language_loss": 0.63772368,
+      "learning_rate": 1.2566782822095423e-07,
+      "loss": 0.65980124,
+      "num_input_tokens_seen": 160048840,
+      "step": 7401,
+      "time_per_iteration": 2.6741483211517334
+    },
+    {
+      "auxiliary_loss_clip": 0.01200485,
+      "auxiliary_loss_mlp": 0.01022825,
+      "balance_loss_clip": 1.04642689,
+      "balance_loss_mlp": 1.01554739,
+      "epoch": 0.8900378765105513,
+      "flos": 20811742156800.0,
+      "grad_norm": 2.002373336473828,
+      "language_loss": 0.71302891,
+      "learning_rate": 1.2539620000598162e-07,
+      "loss": 0.73526204,
+      "num_input_tokens_seen": 160068175,
+      "step": 7402,
+      "time_per_iteration": 2.6676383018493652
+    },
+    {
+      "auxiliary_loss_clip": 0.01165042,
+      "auxiliary_loss_mlp": 0.01021271,
+      "balance_loss_clip": 1.04572129,
+      "balance_loss_mlp": 1.01388884,
+      "epoch": 0.8901581194011904,
+      "flos": 16472333018880.0,
+      "grad_norm": 1.685891770235067,
+      "language_loss": 0.79687679,
+      "learning_rate": 1.2512485616691492e-07,
+      "loss": 0.81873995,
+      "num_input_tokens_seen": 160085230,
+      "step": 7403,
+      "time_per_iteration": 2.6093616485595703
+    },
+    {
+      "auxiliary_loss_clip": 0.01195047,
+      "auxiliary_loss_mlp": 0.01028621,
+      "balance_loss_clip": 1.04350567,
+      "balance_loss_mlp": 1.02086091,
+      "epoch": 0.8902783622918296,
+      "flos": 35155253773440.0,
+      "grad_norm": 1.3736011914071533,
+      "language_loss": 0.80775571,
+      "learning_rate": 1.2485379674491681e-07,
+      "loss": 0.82999235,
+      "num_input_tokens_seen": 160111425,
+      "step": 7404,
+      "time_per_iteration": 2.8503661155700684
+    },
+    {
+      "auxiliary_loss_clip": 0.01183453,
+      "auxiliary_loss_mlp": 0.01031929,
+      "balance_loss_clip": 1.04541516,
+      "balance_loss_mlp": 1.02429342,
+      "epoch": 0.8903986051824686,
+      "flos": 17201068145280.0,
+      "grad_norm": 2.158206234170756,
+      "language_loss": 0.7952621,
+      "learning_rate": 1.2458302178110657e-07,
+      "loss": 0.81741589,
+      "num_input_tokens_seen": 160129790,
+      "step": 7405,
+      "time_per_iteration": 2.6450576782226562
+    },
+    {
+      "auxiliary_loss_clip": 0.01181436,
+      "auxiliary_loss_mlp": 0.01021386,
+      "balance_loss_clip": 1.03913355,
+      "balance_loss_mlp": 1.01457906,
+      "epoch": 0.8905188480731077,
+      "flos": 25483863997440.0,
+      "grad_norm": 1.9918627327146465,
+      "language_loss": 0.82195342,
+      "learning_rate": 1.2431253131656118e-07,
+      "loss": 0.84398162,
+      "num_input_tokens_seen": 160149265,
+      "step": 7406,
+      "time_per_iteration": 2.6762728691101074
+    },
+    {
+      "auxiliary_loss_clip": 0.0117875,
+      "auxiliary_loss_mlp": 0.01021911,
+      "balance_loss_clip": 1.04482043,
+      "balance_loss_mlp": 1.01426351,
+      "epoch": 0.8906390909637467,
+      "flos": 23365888502400.0,
+      "grad_norm": 1.9256208505027166,
+      "language_loss": 0.76480693,
+      "learning_rate": 1.240423253923133e-07,
+      "loss": 0.7868135,
+      "num_input_tokens_seen": 160168870,
+      "step": 7407,
+      "time_per_iteration": 2.660203218460083
+    },
+    {
+      "auxiliary_loss_clip": 0.01177415,
+      "auxiliary_loss_mlp": 0.01024827,
+      "balance_loss_clip": 1.04615068,
+      "balance_loss_mlp": 1.01724505,
+      "epoch": 0.8907593338543859,
+      "flos": 21068790860160.0,
+      "grad_norm": 2.083479158068002,
+      "language_loss": 0.69386148,
+      "learning_rate": 1.237724040493533e-07,
+      "loss": 0.71588391,
+      "num_input_tokens_seen": 160187495,
+      "step": 7408,
+      "time_per_iteration": 2.588282823562622
+    },
+    {
+      "auxiliary_loss_clip": 0.01171336,
+      "auxiliary_loss_mlp": 0.01027937,
+      "balance_loss_clip": 1.04841447,
+      "balance_loss_mlp": 1.02035856,
+      "epoch": 0.8908795767450249,
+      "flos": 21869562712320.0,
+      "grad_norm": 2.572236680968726,
+      "language_loss": 0.72995782,
+      "learning_rate": 1.2350276732862773e-07,
+      "loss": 0.7519505,
+      "num_input_tokens_seen": 160208520,
+      "step": 7409,
+      "time_per_iteration": 2.6511847972869873
+    },
+    {
+      "auxiliary_loss_clip": 0.01075176,
+      "auxiliary_loss_mlp": 0.01000459,
+      "balance_loss_clip": 1.00985503,
+      "balance_loss_mlp": 0.99940366,
+      "epoch": 0.890999819635664,
+      "flos": 66307869348480.0,
+      "grad_norm": 0.8401247729077759,
+      "language_loss": 0.56700546,
+      "learning_rate": 1.2323341527103993e-07,
+      "loss": 0.58776182,
+      "num_input_tokens_seen": 160263720,
+      "step": 7410,
+      "time_per_iteration": 3.1018033027648926
+    },
+    {
+      "auxiliary_loss_clip": 0.01164169,
+      "auxiliary_loss_mlp": 0.01028739,
+      "balance_loss_clip": 1.04512095,
+      "balance_loss_mlp": 1.02177167,
+      "epoch": 0.8911200625263032,
+      "flos": 26869908055680.0,
+      "grad_norm": 1.8571832971786437,
+      "language_loss": 0.85171092,
+      "learning_rate": 1.2296434791745135e-07,
+      "loss": 0.87364006,
+      "num_input_tokens_seen": 160282170,
+      "step": 7411,
+      "time_per_iteration": 3.4831736087799072
+    },
+    {
+      "auxiliary_loss_clip": 0.01178409,
+      "auxiliary_loss_mlp": 0.01017926,
+      "balance_loss_clip": 1.0466516,
+      "balance_loss_mlp": 1.01088619,
+      "epoch": 0.8912403054169422,
+      "flos": 20885825957760.0,
+      "grad_norm": 1.6190006431069472,
+      "language_loss": 0.76615876,
+      "learning_rate": 1.2269556530867875e-07,
+      "loss": 0.78812212,
+      "num_input_tokens_seen": 160300725,
+      "step": 7412,
+      "time_per_iteration": 2.623248338699341
+    },
+    {
+      "auxiliary_loss_clip": 0.01173206,
+      "auxiliary_loss_mlp": 0.01027318,
+      "balance_loss_clip": 1.04908824,
+      "balance_loss_mlp": 1.0190444,
+      "epoch": 0.8913605483075813,
+      "flos": 27016567286400.0,
+      "grad_norm": 2.0140849534224907,
+      "language_loss": 0.82182312,
+      "learning_rate": 1.2242706748549614e-07,
+      "loss": 0.84382832,
+      "num_input_tokens_seen": 160318720,
+      "step": 7413,
+      "time_per_iteration": 2.5859858989715576
+    },
+    {
+      "auxiliary_loss_clip": 0.01183528,
+      "auxiliary_loss_mlp": 0.01022165,
+      "balance_loss_clip": 1.04118884,
+      "balance_loss_mlp": 1.01482153,
+      "epoch": 0.8914807911982204,
+      "flos": 23621500661760.0,
+      "grad_norm": 1.7062902525277388,
+      "language_loss": 0.82140023,
+      "learning_rate": 1.2215885448863473e-07,
+      "loss": 0.84345716,
+      "num_input_tokens_seen": 160339595,
+      "step": 7414,
+      "time_per_iteration": 3.5764291286468506
+    },
+    {
+      "auxiliary_loss_clip": 0.01182782,
+      "auxiliary_loss_mlp": 0.01025615,
+      "balance_loss_clip": 1.04561353,
+      "balance_loss_mlp": 1.01831043,
+      "epoch": 0.8916010340888595,
+      "flos": 24462277286400.0,
+      "grad_norm": 1.8937611498701286,
+      "language_loss": 0.80313706,
+      "learning_rate": 1.2189092635878152e-07,
+      "loss": 0.82522106,
+      "num_input_tokens_seen": 160361045,
+      "step": 7415,
+      "time_per_iteration": 2.6415579319000244
+    },
+    {
+      "auxiliary_loss_clip": 0.01182257,
+      "auxiliary_loss_mlp": 0.01023623,
+      "balance_loss_clip": 1.04018557,
+      "balance_loss_mlp": 1.01645231,
+      "epoch": 0.8917212769794985,
+      "flos": 21215773313280.0,
+      "grad_norm": 1.6495821635269519,
+      "language_loss": 0.77280533,
+      "learning_rate": 1.216232831365822e-07,
+      "loss": 0.79486412,
+      "num_input_tokens_seen": 160379990,
+      "step": 7416,
+      "time_per_iteration": 3.613638162612915
+    },
+    {
+      "auxiliary_loss_clip": 0.01189508,
+      "auxiliary_loss_mlp": 0.01027689,
+      "balance_loss_clip": 1.04442656,
+      "balance_loss_mlp": 1.020468,
+      "epoch": 0.8918415198701377,
+      "flos": 25513992529920.0,
+      "grad_norm": 1.7614300164173118,
+      "language_loss": 0.81084305,
+      "learning_rate": 1.2135592486263678e-07,
+      "loss": 0.83301502,
+      "num_input_tokens_seen": 160399240,
+      "step": 7417,
+      "time_per_iteration": 2.67952036857605
+    },
+    {
+      "auxiliary_loss_clip": 0.01184601,
+      "auxiliary_loss_mlp": 0.01024449,
+      "balance_loss_clip": 1.04338527,
+      "balance_loss_mlp": 1.01694441,
+      "epoch": 0.8919617627607768,
+      "flos": 37853006693760.0,
+      "grad_norm": 1.5771466415601945,
+      "language_loss": 0.60856557,
+      "learning_rate": 1.2108885157750415e-07,
+      "loss": 0.63065606,
+      "num_input_tokens_seen": 160421600,
+      "step": 7418,
+      "time_per_iteration": 2.7600128650665283
+    },
+    {
+      "auxiliary_loss_clip": 0.01190687,
+      "auxiliary_loss_mlp": 0.01378598,
+      "balance_loss_clip": 1.04554451,
+      "balance_loss_mlp": 1.00020015,
+      "epoch": 0.8920820056514158,
+      "flos": 26213676531840.0,
+      "grad_norm": 2.3848109080579434,
+      "language_loss": 0.80188328,
+      "learning_rate": 1.2082206332169897e-07,
+      "loss": 0.82757616,
+      "num_input_tokens_seen": 160441695,
+      "step": 7419,
+      "time_per_iteration": 2.7143588066101074
+    },
+    {
+      "auxiliary_loss_clip": 0.01183089,
+      "auxiliary_loss_mlp": 0.01020013,
+      "balance_loss_clip": 1.04720676,
+      "balance_loss_mlp": 1.01307261,
+      "epoch": 0.892202248542055,
+      "flos": 17383135207680.0,
+      "grad_norm": 2.882124659706719,
+      "language_loss": 0.73135942,
+      "learning_rate": 1.2055556013569225e-07,
+      "loss": 0.75339043,
+      "num_input_tokens_seen": 160457205,
+      "step": 7420,
+      "time_per_iteration": 2.594412326812744
+    },
+    {
+      "auxiliary_loss_clip": 0.01186538,
+      "auxiliary_loss_mlp": 0.01024903,
+      "balance_loss_clip": 1.04501438,
+      "balance_loss_mlp": 1.01801598,
+      "epoch": 0.892322491432694,
+      "flos": 21324223451520.0,
+      "grad_norm": 3.2859929662833616,
+      "language_loss": 0.82249165,
+      "learning_rate": 1.2028934205991315e-07,
+      "loss": 0.84460604,
+      "num_input_tokens_seen": 160476525,
+      "step": 7421,
+      "time_per_iteration": 3.9776580333709717
+    },
+    {
+      "auxiliary_loss_clip": 0.01174279,
+      "auxiliary_loss_mlp": 0.01029597,
+      "balance_loss_clip": 1.04394126,
+      "balance_loss_mlp": 1.02225637,
+      "epoch": 0.8924427343233331,
+      "flos": 24029374573440.0,
+      "grad_norm": 1.4108477649698936,
+      "language_loss": 0.76849848,
+      "learning_rate": 1.2002340913474607e-07,
+      "loss": 0.79053724,
+      "num_input_tokens_seen": 160500160,
+      "step": 7422,
+      "time_per_iteration": 2.7666804790496826
+    },
+    {
+      "auxiliary_loss_clip": 0.01167339,
+      "auxiliary_loss_mlp": 0.01026056,
+      "balance_loss_clip": 1.04624093,
+      "balance_loss_mlp": 1.01812911,
+      "epoch": 0.8925629772139723,
+      "flos": 30008069631360.0,
+      "grad_norm": 3.1944179071981993,
+      "language_loss": 0.74352407,
+      "learning_rate": 1.1975776140053317e-07,
+      "loss": 0.76545799,
+      "num_input_tokens_seen": 160520130,
+      "step": 7423,
+      "time_per_iteration": 2.6614272594451904
+    },
+    {
+      "auxiliary_loss_clip": 0.0120764,
+      "auxiliary_loss_mlp": 0.01030712,
+      "balance_loss_clip": 1.04650521,
+      "balance_loss_mlp": 1.0230763,
+      "epoch": 0.8926832201046113,
+      "flos": 22601709630720.0,
+      "grad_norm": 2.070419210631777,
+      "language_loss": 0.73411828,
+      "learning_rate": 1.194923988975729e-07,
+      "loss": 0.75650185,
+      "num_input_tokens_seen": 160539730,
+      "step": 7424,
+      "time_per_iteration": 2.916212797164917
+    },
+    {
+      "auxiliary_loss_clip": 0.01194656,
+      "auxiliary_loss_mlp": 0.0102071,
+      "balance_loss_clip": 1.04533219,
+      "balance_loss_mlp": 1.01325369,
+      "epoch": 0.8928034629952504,
+      "flos": 13297722117120.0,
+      "grad_norm": 2.1401762367101025,
+      "language_loss": 0.73438609,
+      "learning_rate": 1.192273216661206e-07,
+      "loss": 0.7565397,
+      "num_input_tokens_seen": 160557820,
+      "step": 7425,
+      "time_per_iteration": 2.6202428340911865
+    },
+    {
+      "auxiliary_loss_clip": 0.01122417,
+      "auxiliary_loss_mlp": 0.01002636,
+      "balance_loss_clip": 1.00820935,
+      "balance_loss_mlp": 1.00142002,
+      "epoch": 0.8929237058858895,
+      "flos": 54854556744960.0,
+      "grad_norm": 0.7698501768112455,
+      "language_loss": 0.57496953,
+      "learning_rate": 1.189625297463881e-07,
+      "loss": 0.59622008,
+      "num_input_tokens_seen": 160619510,
+      "step": 7426,
+      "time_per_iteration": 3.2270359992980957
+    },
+    {
+      "auxiliary_loss_clip": 0.01201496,
+      "auxiliary_loss_mlp": 0.01025997,
+      "balance_loss_clip": 1.03638339,
+      "balance_loss_mlp": 1.01904738,
+      "epoch": 0.8930439487765286,
+      "flos": 28883850785280.0,
+      "grad_norm": 1.8164641309599012,
+      "language_loss": 0.79683149,
+      "learning_rate": 1.1869802317854394e-07,
+      "loss": 0.81910646,
+      "num_input_tokens_seen": 160643295,
+      "step": 7427,
+      "time_per_iteration": 2.830596923828125
+    },
+    {
+      "auxiliary_loss_clip": 0.01206336,
+      "auxiliary_loss_mlp": 0.01023303,
+      "balance_loss_clip": 1.04240048,
+      "balance_loss_mlp": 1.01614785,
+      "epoch": 0.8931641916671677,
+      "flos": 22419283432320.0,
+      "grad_norm": 1.8216899755749554,
+      "language_loss": 0.72192508,
+      "learning_rate": 1.1843380200271425e-07,
+      "loss": 0.74422145,
+      "num_input_tokens_seen": 160662495,
+      "step": 7428,
+      "time_per_iteration": 2.7438416481018066
+    },
+    {
+      "auxiliary_loss_clip": 0.01184344,
+      "auxiliary_loss_mlp": 0.01024735,
+      "balance_loss_clip": 1.04144049,
+      "balance_loss_mlp": 1.01707625,
+      "epoch": 0.8932844345578068,
+      "flos": 25843149786240.0,
+      "grad_norm": 1.726863294727006,
+      "language_loss": 0.80434352,
+      "learning_rate": 1.181698662589805e-07,
+      "loss": 0.82643431,
+      "num_input_tokens_seen": 160682080,
+      "step": 7429,
+      "time_per_iteration": 2.7409932613372803
+    },
+    {
+      "auxiliary_loss_clip": 0.01173749,
+      "auxiliary_loss_mlp": 0.01022887,
+      "balance_loss_clip": 1.04362071,
+      "balance_loss_mlp": 1.01568663,
+      "epoch": 0.8934046774484459,
+      "flos": 22925803069440.0,
+      "grad_norm": 4.234771750484045,
+      "language_loss": 0.75868094,
+      "learning_rate": 1.1790621598738249e-07,
+      "loss": 0.78064728,
+      "num_input_tokens_seen": 160700395,
+      "step": 7430,
+      "time_per_iteration": 2.6202774047851562
+    },
+    {
+      "auxiliary_loss_clip": 0.01165311,
+      "auxiliary_loss_mlp": 0.01023832,
+      "balance_loss_clip": 1.04722643,
+      "balance_loss_mlp": 1.01705825,
+      "epoch": 0.8935249203390849,
+      "flos": 24462097718400.0,
+      "grad_norm": 2.1518258956312626,
+      "language_loss": 0.74722552,
+      "learning_rate": 1.1764285122791461e-07,
+      "loss": 0.76911694,
+      "num_input_tokens_seen": 160721115,
+      "step": 7431,
+      "time_per_iteration": 2.584111213684082
+    },
+    {
+      "auxiliary_loss_clip": 0.01174392,
+      "auxiliary_loss_mlp": 0.01024186,
+      "balance_loss_clip": 1.04467094,
+      "balance_loss_mlp": 1.01728976,
+      "epoch": 0.8936451632297241,
+      "flos": 15742735966080.0,
+      "grad_norm": 1.6582480372015713,
+      "language_loss": 0.77310348,
+      "learning_rate": 1.173797720205294e-07,
+      "loss": 0.7950893,
+      "num_input_tokens_seen": 160739150,
+      "step": 7432,
+      "time_per_iteration": 2.6073930263519287
+    },
+    {
+      "auxiliary_loss_clip": 0.0117906,
+      "auxiliary_loss_mlp": 0.01026671,
+      "balance_loss_clip": 1.04773211,
+      "balance_loss_mlp": 1.01894331,
+      "epoch": 0.8937654061203631,
+      "flos": 35115500396160.0,
+      "grad_norm": 5.967764380177802,
+      "language_loss": 0.7170893,
+      "learning_rate": 1.1711697840513602e-07,
+      "loss": 0.73914659,
+      "num_input_tokens_seen": 160758585,
+      "step": 7433,
+      "time_per_iteration": 2.7476460933685303
+    },
+    {
+      "auxiliary_loss_clip": 0.01167657,
+      "auxiliary_loss_mlp": 0.01022229,
+      "balance_loss_clip": 1.0432117,
+      "balance_loss_mlp": 1.01509976,
+      "epoch": 0.8938856490110022,
+      "flos": 16107444708480.0,
+      "grad_norm": 2.1415465565246286,
+      "language_loss": 0.70673239,
+      "learning_rate": 1.1685447042160012e-07,
+      "loss": 0.72863126,
+      "num_input_tokens_seen": 160776620,
+      "step": 7434,
+      "time_per_iteration": 2.6209700107574463
+    },
+    {
+      "auxiliary_loss_clip": 0.01169381,
+      "auxiliary_loss_mlp": 0.01024762,
+      "balance_loss_clip": 1.04701591,
+      "balance_loss_mlp": 1.01725197,
+      "epoch": 0.8940058919016414,
+      "flos": 20704189858560.0,
+      "grad_norm": 2.6936942024579085,
+      "language_loss": 0.71411002,
+      "learning_rate": 1.1659224810974367e-07,
+      "loss": 0.73605144,
+      "num_input_tokens_seen": 160796580,
+      "step": 7435,
+      "time_per_iteration": 2.623328447341919
+    },
+    {
+      "auxiliary_loss_clip": 0.01184044,
+      "auxiliary_loss_mlp": 0.01025231,
+      "balance_loss_clip": 1.04689169,
+      "balance_loss_mlp": 1.01764309,
+      "epoch": 0.8941261347922804,
+      "flos": 25229041937280.0,
+      "grad_norm": 1.5625286025195215,
+      "language_loss": 0.68314362,
+      "learning_rate": 1.1633031150934591e-07,
+      "loss": 0.70523632,
+      "num_input_tokens_seen": 160819610,
+      "step": 7436,
+      "time_per_iteration": 2.730044364929199
+    },
+    {
+      "auxiliary_loss_clip": 0.01180115,
+      "auxiliary_loss_mlp": 0.01029984,
+      "balance_loss_clip": 1.04741251,
+      "balance_loss_mlp": 1.02238178,
+      "epoch": 0.8942463776829195,
+      "flos": 19537236806400.0,
+      "grad_norm": 1.7370757123899574,
+      "language_loss": 0.79935783,
+      "learning_rate": 1.1606866066014176e-07,
+      "loss": 0.82145882,
+      "num_input_tokens_seen": 160838660,
+      "step": 7437,
+      "time_per_iteration": 3.794613838195801
+    },
+    {
+      "auxiliary_loss_clip": 0.01191771,
+      "auxiliary_loss_mlp": 0.01027287,
+      "balance_loss_clip": 1.04155278,
+      "balance_loss_mlp": 1.02032876,
+      "epoch": 0.8943666205735585,
+      "flos": 22301567585280.0,
+      "grad_norm": 2.5759923141350898,
+      "language_loss": 0.75427139,
+      "learning_rate": 1.1580729560182434e-07,
+      "loss": 0.77646202,
+      "num_input_tokens_seen": 160854515,
+      "step": 7438,
+      "time_per_iteration": 2.6374528408050537
+    },
+    {
+      "auxiliary_loss_clip": 0.01165505,
+      "auxiliary_loss_mlp": 0.01378402,
+      "balance_loss_clip": 1.04652905,
+      "balance_loss_mlp": 1.00014138,
+      "epoch": 0.8944868634641977,
+      "flos": 18912893581440.0,
+      "grad_norm": 1.9029775747329989,
+      "language_loss": 0.71022898,
+      "learning_rate": 1.1554621637404171e-07,
+      "loss": 0.73566806,
+      "num_input_tokens_seen": 160872605,
+      "step": 7439,
+      "time_per_iteration": 2.559951066970825
+    },
+    {
+      "auxiliary_loss_clip": 0.01175943,
+      "auxiliary_loss_mlp": 0.01023308,
+      "balance_loss_clip": 1.04459882,
+      "balance_loss_mlp": 1.01653099,
+      "epoch": 0.8946071063548368,
+      "flos": 14460904241280.0,
+      "grad_norm": 2.211220095510334,
+      "language_loss": 0.60921812,
+      "learning_rate": 1.1528542301639999e-07,
+      "loss": 0.63121068,
+      "num_input_tokens_seen": 160889395,
+      "step": 7440,
+      "time_per_iteration": 3.577423095703125
+    },
+    {
+      "auxiliary_loss_clip": 0.01194005,
+      "auxiliary_loss_mlp": 0.01027162,
+      "balance_loss_clip": 1.04050684,
+      "balance_loss_mlp": 1.01983666,
+      "epoch": 0.8947273492454758,
+      "flos": 20084084438400.0,
+      "grad_norm": 2.7818347307424247,
+      "language_loss": 0.82399631,
+      "learning_rate": 1.1502491556846105e-07,
+      "loss": 0.84620792,
+      "num_input_tokens_seen": 160907890,
+      "step": 7441,
+      "time_per_iteration": 2.6469967365264893
+    },
+    {
+      "auxiliary_loss_clip": 0.01183779,
+      "auxiliary_loss_mlp": 0.01024962,
+      "balance_loss_clip": 1.04429269,
+      "balance_loss_mlp": 1.01797915,
+      "epoch": 0.894847592136115,
+      "flos": 18550555136640.0,
+      "grad_norm": 6.04793629553166,
+      "language_loss": 0.81440175,
+      "learning_rate": 1.1476469406974331e-07,
+      "loss": 0.83648908,
+      "num_input_tokens_seen": 160923490,
+      "step": 7442,
+      "time_per_iteration": 3.64709210395813
+    },
+    {
+      "auxiliary_loss_clip": 0.01164071,
+      "auxiliary_loss_mlp": 0.0102246,
+      "balance_loss_clip": 1.04664183,
+      "balance_loss_mlp": 1.01586223,
+      "epoch": 0.894967835026754,
+      "flos": 23478468704640.0,
+      "grad_norm": 1.6573343186391825,
+      "language_loss": 0.77000892,
+      "learning_rate": 1.1450475855972341e-07,
+      "loss": 0.79187417,
+      "num_input_tokens_seen": 160944280,
+      "step": 7443,
+      "time_per_iteration": 2.575216293334961
+    },
+    {
+      "auxiliary_loss_clip": 0.01182172,
+      "auxiliary_loss_mlp": 0.01378797,
+      "balance_loss_clip": 1.04254007,
+      "balance_loss_mlp": 1.00015461,
+      "epoch": 0.8950880779173931,
+      "flos": 15188310564480.0,
+      "grad_norm": 2.239408490708878,
+      "language_loss": 0.71017784,
+      "learning_rate": 1.1424510907783158e-07,
+      "loss": 0.73578751,
+      "num_input_tokens_seen": 160961560,
+      "step": 7444,
+      "time_per_iteration": 2.6507067680358887
+    },
+    {
+      "auxiliary_loss_clip": 0.01187032,
+      "auxiliary_loss_mlp": 0.01022937,
+      "balance_loss_clip": 1.04205227,
+      "balance_loss_mlp": 1.01591837,
+      "epoch": 0.8952083208080323,
+      "flos": 22091957769600.0,
+      "grad_norm": 1.6389381112664456,
+      "language_loss": 0.82690215,
+      "learning_rate": 1.1398574566345787e-07,
+      "loss": 0.84900188,
+      "num_input_tokens_seen": 160982195,
+      "step": 7445,
+      "time_per_iteration": 2.6711061000823975
+    },
+    {
+      "auxiliary_loss_clip": 0.01188791,
+      "auxiliary_loss_mlp": 0.01024102,
+      "balance_loss_clip": 1.04275155,
+      "balance_loss_mlp": 1.01639545,
+      "epoch": 0.8953285636986713,
+      "flos": 23254026572160.0,
+      "grad_norm": 2.3540334275420616,
+      "language_loss": 0.82500613,
+      "learning_rate": 1.1372666835594702e-07,
+      "loss": 0.84713507,
+      "num_input_tokens_seen": 161000520,
+      "step": 7446,
+      "time_per_iteration": 2.6456663608551025
+    },
+    {
+      "auxiliary_loss_clip": 0.01184571,
+      "auxiliary_loss_mlp": 0.01026572,
+      "balance_loss_clip": 1.04451513,
+      "balance_loss_mlp": 1.01922894,
+      "epoch": 0.8954488065893104,
+      "flos": 16362661818240.0,
+      "grad_norm": 1.8882037843754202,
+      "language_loss": 0.7207514,
+      "learning_rate": 1.1346787719460071e-07,
+      "loss": 0.74286282,
+      "num_input_tokens_seen": 161019405,
+      "step": 7447,
+      "time_per_iteration": 3.5136406421661377
+    },
+    {
+      "auxiliary_loss_clip": 0.01183425,
+      "auxiliary_loss_mlp": 0.01023026,
+      "balance_loss_clip": 1.04418683,
+      "balance_loss_mlp": 1.0161562,
+      "epoch": 0.8955690494799495,
+      "flos": 18257883120000.0,
+      "grad_norm": 1.7031757943590398,
+      "language_loss": 0.72130209,
+      "learning_rate": 1.1320937221867732e-07,
+      "loss": 0.7433666,
+      "num_input_tokens_seen": 161036985,
+      "step": 7448,
+      "time_per_iteration": 2.6259162425994873
+    },
+    {
+      "auxiliary_loss_clip": 0.01182239,
+      "auxiliary_loss_mlp": 0.0102209,
+      "balance_loss_clip": 1.04312086,
+      "balance_loss_mlp": 1.01574826,
+      "epoch": 0.8956892923705886,
+      "flos": 25447486498560.0,
+      "grad_norm": 1.9402430912514834,
+      "language_loss": 0.79542297,
+      "learning_rate": 1.1295115346739192e-07,
+      "loss": 0.81746626,
+      "num_input_tokens_seen": 161056985,
+      "step": 7449,
+      "time_per_iteration": 2.7314414978027344
+    },
+    {
+      "auxiliary_loss_clip": 0.01190616,
+      "auxiliary_loss_mlp": 0.01023522,
+      "balance_loss_clip": 1.04537737,
+      "balance_loss_mlp": 1.01620841,
+      "epoch": 0.8958095352612276,
+      "flos": 52661883939840.0,
+      "grad_norm": 2.24443434068816,
+      "language_loss": 0.73347205,
+      "learning_rate": 1.1269322097991629e-07,
+      "loss": 0.75561345,
+      "num_input_tokens_seen": 161080270,
+      "step": 7450,
+      "time_per_iteration": 2.934610366821289
+    },
+    {
+      "auxiliary_loss_clip": 0.01180549,
+      "auxiliary_loss_mlp": 0.01027285,
+      "balance_loss_clip": 1.04701567,
+      "balance_loss_mlp": 1.01957548,
+      "epoch": 0.8959297781518668,
+      "flos": 23186335392000.0,
+      "grad_norm": 2.047089722816764,
+      "language_loss": 0.67758149,
+      "learning_rate": 1.1243557479537846e-07,
+      "loss": 0.69965982,
+      "num_input_tokens_seen": 161100160,
+      "step": 7451,
+      "time_per_iteration": 2.634709596633911
+    },
+    {
+      "auxiliary_loss_clip": 0.01167673,
+      "auxiliary_loss_mlp": 0.01026024,
+      "balance_loss_clip": 1.04580045,
+      "balance_loss_mlp": 1.01838326,
+      "epoch": 0.8960500210425059,
+      "flos": 20334309557760.0,
+      "grad_norm": 2.1760950478332886,
+      "language_loss": 0.68686557,
+      "learning_rate": 1.121782149528634e-07,
+      "loss": 0.70880258,
+      "num_input_tokens_seen": 161117260,
+      "step": 7452,
+      "time_per_iteration": 2.5831198692321777
+    },
+    {
+      "auxiliary_loss_clip": 0.01190082,
+      "auxiliary_loss_mlp": 0.01022839,
+      "balance_loss_clip": 1.04609191,
+      "balance_loss_mlp": 1.0160861,
+      "epoch": 0.8961702639331449,
+      "flos": 19901694153600.0,
+      "grad_norm": 1.9928859824941243,
+      "language_loss": 0.789271,
+      "learning_rate": 1.1192114149141208e-07,
+      "loss": 0.81140018,
+      "num_input_tokens_seen": 161136895,
+      "step": 7453,
+      "time_per_iteration": 2.6633222103118896
+    },
+    {
+      "auxiliary_loss_clip": 0.01188008,
+      "auxiliary_loss_mlp": 0.0102554,
+      "balance_loss_clip": 1.04362643,
+      "balance_loss_mlp": 1.01761866,
+      "epoch": 0.8962905068237841,
+      "flos": 12896348567040.0,
+      "grad_norm": 2.310143908787794,
+      "language_loss": 0.65077281,
+      "learning_rate": 1.1166435445002197e-07,
+      "loss": 0.67290825,
+      "num_input_tokens_seen": 161154565,
+      "step": 7454,
+      "time_per_iteration": 2.6706089973449707
+    },
+    {
+      "auxiliary_loss_clip": 0.01178308,
+      "auxiliary_loss_mlp": 0.01027971,
+      "balance_loss_clip": 1.04594374,
+      "balance_loss_mlp": 1.02057147,
+      "epoch": 0.8964107497144231,
+      "flos": 23440331439360.0,
+      "grad_norm": 1.9906507729340626,
+      "language_loss": 0.68677408,
+      "learning_rate": 1.1140785386764818e-07,
+      "loss": 0.70883685,
+      "num_input_tokens_seen": 161173265,
+      "step": 7455,
+      "time_per_iteration": 2.6633384227752686
+    },
+    {
+      "auxiliary_loss_clip": 0.01170227,
+      "auxiliary_loss_mlp": 0.01023506,
+      "balance_loss_clip": 1.04534888,
+      "balance_loss_mlp": 1.01641893,
+      "epoch": 0.8965309926050622,
+      "flos": 19500176949120.0,
+      "grad_norm": 2.102630542021127,
+      "language_loss": 0.69381094,
+      "learning_rate": 1.1115163978320153e-07,
+      "loss": 0.71574831,
+      "num_input_tokens_seen": 161191995,
+      "step": 7456,
+      "time_per_iteration": 2.6693975925445557
+    },
+    {
+      "auxiliary_loss_clip": 0.01179742,
+      "auxiliary_loss_mlp": 0.01378606,
+      "balance_loss_clip": 1.04553223,
+      "balance_loss_mlp": 1.00016475,
+      "epoch": 0.8966512354957014,
+      "flos": 28658008022400.0,
+      "grad_norm": 3.2759548208690004,
+      "language_loss": 0.82091564,
+      "learning_rate": 1.1089571223554917e-07,
+      "loss": 0.84649909,
+      "num_input_tokens_seen": 161212880,
+      "step": 7457,
+      "time_per_iteration": 2.681952714920044
+    },
+    {
+      "auxiliary_loss_clip": 0.0117845,
+      "auxiliary_loss_mlp": 0.01022256,
+      "balance_loss_clip": 1.04519701,
+      "balance_loss_mlp": 1.01463544,
+      "epoch": 0.8967714783863404,
+      "flos": 23370916406400.0,
+      "grad_norm": 1.9188767404463598,
+      "language_loss": 0.85259521,
+      "learning_rate": 1.1064007126351537e-07,
+      "loss": 0.8746022,
+      "num_input_tokens_seen": 161233595,
+      "step": 7458,
+      "time_per_iteration": 2.669981002807617
+    },
+    {
+      "auxiliary_loss_clip": 0.01182946,
+      "auxiliary_loss_mlp": 0.01026492,
+      "balance_loss_clip": 1.04645896,
+      "balance_loss_mlp": 1.01926768,
+      "epoch": 0.8968917212769795,
+      "flos": 24535175938560.0,
+      "grad_norm": 1.9883198815749685,
+      "language_loss": 0.76269299,
+      "learning_rate": 1.1038471690588003e-07,
+      "loss": 0.78478736,
+      "num_input_tokens_seen": 161252740,
+      "step": 7459,
+      "time_per_iteration": 2.6492316722869873
+    },
+    {
+      "auxiliary_loss_clip": 0.01201309,
+      "auxiliary_loss_mlp": 0.01020949,
+      "balance_loss_clip": 1.04161334,
+      "balance_loss_mlp": 1.01434219,
+      "epoch": 0.8970119641676186,
+      "flos": 23475416048640.0,
+      "grad_norm": 1.970627910014143,
+      "language_loss": 0.79780602,
+      "learning_rate": 1.1012964920138145e-07,
+      "loss": 0.82002854,
+      "num_input_tokens_seen": 161272325,
+      "step": 7460,
+      "time_per_iteration": 2.7736923694610596
+    },
+    {
+      "auxiliary_loss_clip": 0.01176886,
+      "auxiliary_loss_mlp": 0.01023478,
+      "balance_loss_clip": 1.04121816,
+      "balance_loss_mlp": 1.01649785,
+      "epoch": 0.8971322070582577,
+      "flos": 24538192680960.0,
+      "grad_norm": 2.2287584397950164,
+      "language_loss": 0.75795519,
+      "learning_rate": 1.0987486818871205e-07,
+      "loss": 0.77995884,
+      "num_input_tokens_seen": 161295915,
+      "step": 7461,
+      "time_per_iteration": 2.737495183944702
+    },
+    {
+      "auxiliary_loss_clip": 0.01175425,
+      "auxiliary_loss_mlp": 0.0137851,
+      "balance_loss_clip": 1.04528165,
+      "balance_loss_mlp": 1.00015318,
+      "epoch": 0.8972524499488967,
+      "flos": 21797454159360.0,
+      "grad_norm": 2.373132974759038,
+      "language_loss": 0.72860718,
+      "learning_rate": 1.0962037390652245e-07,
+      "loss": 0.75414646,
+      "num_input_tokens_seen": 161314935,
+      "step": 7462,
+      "time_per_iteration": 3.582857608795166
+    },
+    {
+      "auxiliary_loss_clip": 0.01185594,
+      "auxiliary_loss_mlp": 0.01028178,
+      "balance_loss_clip": 1.04504585,
+      "balance_loss_mlp": 1.02066493,
+      "epoch": 0.8973726928395359,
+      "flos": 21726243446400.0,
+      "grad_norm": 1.7266057851547751,
+      "language_loss": 0.7184028,
+      "learning_rate": 1.0936616639341911e-07,
+      "loss": 0.7405405,
+      "num_input_tokens_seen": 161335225,
+      "step": 7463,
+      "time_per_iteration": 2.6895627975463867
+    },
+    {
+      "auxiliary_loss_clip": 0.01068491,
+      "auxiliary_loss_mlp": 0.01000545,
+      "balance_loss_clip": 1.01031232,
+      "balance_loss_mlp": 0.99944276,
+      "epoch": 0.897492935730175,
+      "flos": 53837100097920.0,
+      "grad_norm": 0.7347073949686159,
+      "language_loss": 0.54782438,
+      "learning_rate": 1.0911224568796473e-07,
+      "loss": 0.5685147,
+      "num_input_tokens_seen": 161393420,
+      "step": 7464,
+      "time_per_iteration": 3.2574825286865234
+    },
+    {
+      "auxiliary_loss_clip": 0.011758,
+      "auxiliary_loss_mlp": 0.01025661,
+      "balance_loss_clip": 1.04728746,
+      "balance_loss_mlp": 1.0186069,
+      "epoch": 0.897613178620814,
+      "flos": 18290346036480.0,
+      "grad_norm": 2.753960379887532,
+      "language_loss": 0.70993823,
+      "learning_rate": 1.0885861182867984e-07,
+      "loss": 0.73195279,
+      "num_input_tokens_seen": 161411525,
+      "step": 7465,
+      "time_per_iteration": 3.5700900554656982
+    },
+    {
+      "auxiliary_loss_clip": 0.01187886,
+      "auxiliary_loss_mlp": 0.01026485,
+      "balance_loss_clip": 1.04379106,
+      "balance_loss_mlp": 1.01935613,
+      "epoch": 0.8977334215114532,
+      "flos": 32993718059520.0,
+      "grad_norm": 2.029609308540845,
+      "language_loss": 0.71102285,
+      "learning_rate": 1.0860526485403942e-07,
+      "loss": 0.73316658,
+      "num_input_tokens_seen": 161432800,
+      "step": 7466,
+      "time_per_iteration": 2.7204155921936035
+    },
+    {
+      "auxiliary_loss_clip": 0.0116728,
+      "auxiliary_loss_mlp": 0.01026633,
+      "balance_loss_clip": 1.04666138,
+      "balance_loss_mlp": 1.01927149,
+      "epoch": 0.8978536644020922,
+      "flos": 15195636938880.0,
+      "grad_norm": 1.5748007539928197,
+      "language_loss": 0.77299231,
+      "learning_rate": 1.0835220480247675e-07,
+      "loss": 0.79493147,
+      "num_input_tokens_seen": 161451295,
+      "step": 7467,
+      "time_per_iteration": 3.5495851039886475
+    },
+    {
+      "auxiliary_loss_clip": 0.01184967,
+      "auxiliary_loss_mlp": 0.01031081,
+      "balance_loss_clip": 1.04607284,
+      "balance_loss_mlp": 1.02340996,
+      "epoch": 0.8979739072927313,
+      "flos": 18004389863040.0,
+      "grad_norm": 2.090204455666893,
+      "language_loss": 0.83573973,
+      "learning_rate": 1.0809943171238067e-07,
+      "loss": 0.85790026,
+      "num_input_tokens_seen": 161469220,
+      "step": 7468,
+      "time_per_iteration": 2.7024471759796143
+    },
+    {
+      "auxiliary_loss_clip": 0.0119114,
+      "auxiliary_loss_mlp": 0.01027043,
+      "balance_loss_clip": 1.04448581,
+      "balance_loss_mlp": 1.01867425,
+      "epoch": 0.8980941501833704,
+      "flos": 22271546793600.0,
+      "grad_norm": 1.863156869020839,
+      "language_loss": 0.62291807,
+      "learning_rate": 1.078469456220965e-07,
+      "loss": 0.64509988,
+      "num_input_tokens_seen": 161489375,
+      "step": 7469,
+      "time_per_iteration": 2.672053337097168
+    },
+    {
+      "auxiliary_loss_clip": 0.01175981,
+      "auxiliary_loss_mlp": 0.01021348,
+      "balance_loss_clip": 1.04392791,
+      "balance_loss_mlp": 1.01434469,
+      "epoch": 0.8982143930740095,
+      "flos": 37560729726720.0,
+      "grad_norm": 1.6189762053834733,
+      "language_loss": 0.69714534,
+      "learning_rate": 1.0759474656992606e-07,
+      "loss": 0.71911865,
+      "num_input_tokens_seen": 161512145,
+      "step": 7470,
+      "time_per_iteration": 2.7869186401367188
+    },
+    {
+      "auxiliary_loss_clip": 0.01188236,
+      "auxiliary_loss_mlp": 0.01032687,
+      "balance_loss_clip": 1.04237056,
+      "balance_loss_mlp": 1.02472425,
+      "epoch": 0.8983346359646486,
+      "flos": 18076893465600.0,
+      "grad_norm": 2.5606181161789148,
+      "language_loss": 0.78133637,
+      "learning_rate": 1.0734283459412785e-07,
+      "loss": 0.80354559,
+      "num_input_tokens_seen": 161528995,
+      "step": 7471,
+      "time_per_iteration": 2.6055779457092285
+    },
+    {
+      "auxiliary_loss_clip": 0.01206376,
+      "auxiliary_loss_mlp": 0.01027174,
+      "balance_loss_clip": 1.04108214,
+      "balance_loss_mlp": 1.01937747,
+      "epoch": 0.8984548788552876,
+      "flos": 20558895344640.0,
+      "grad_norm": 1.6980786143782771,
+      "language_loss": 0.80552316,
+      "learning_rate": 1.0709120973291707e-07,
+      "loss": 0.82785869,
+      "num_input_tokens_seen": 161548775,
+      "step": 7472,
+      "time_per_iteration": 2.703040838241577
+    },
+    {
+      "auxiliary_loss_clip": 0.0117008,
+      "auxiliary_loss_mlp": 0.01029175,
+      "balance_loss_clip": 1.04833949,
+      "balance_loss_mlp": 1.02184367,
+      "epoch": 0.8985751217459268,
+      "flos": 17785442511360.0,
+      "grad_norm": 2.010519162686434,
+      "language_loss": 0.77861929,
+      "learning_rate": 1.0683987202446475e-07,
+      "loss": 0.80061191,
+      "num_input_tokens_seen": 161566960,
+      "step": 7473,
+      "time_per_iteration": 3.5524089336395264
+    },
+    {
+      "auxiliary_loss_clip": 0.01181488,
+      "auxiliary_loss_mlp": 0.01022311,
+      "balance_loss_clip": 1.04698873,
+      "balance_loss_mlp": 1.0147711,
+      "epoch": 0.8986953646365659,
+      "flos": 21617003208960.0,
+      "grad_norm": 1.8659970004330326,
+      "language_loss": 0.69844562,
+      "learning_rate": 1.0658882150689862e-07,
+      "loss": 0.7204836,
+      "num_input_tokens_seen": 161585820,
+      "step": 7474,
+      "time_per_iteration": 2.6034116744995117
+    },
+    {
+      "auxiliary_loss_clip": 0.01196446,
+      "auxiliary_loss_mlp": 0.01030608,
+      "balance_loss_clip": 1.04234886,
+      "balance_loss_mlp": 1.02310395,
+      "epoch": 0.8988156075272049,
+      "flos": 14027355083520.0,
+      "grad_norm": 3.60246569783657,
+      "language_loss": 0.78494114,
+      "learning_rate": 1.0633805821830288e-07,
+      "loss": 0.8072117,
+      "num_input_tokens_seen": 161602505,
+      "step": 7475,
+      "time_per_iteration": 2.6457509994506836
+    },
+    {
+      "auxiliary_loss_clip": 0.0118806,
+      "auxiliary_loss_mlp": 0.01025045,
+      "balance_loss_clip": 1.04617131,
+      "balance_loss_mlp": 1.01779425,
+      "epoch": 0.8989358504178441,
+      "flos": 29059202004480.0,
+      "grad_norm": 2.655526778269924,
+      "language_loss": 0.82825965,
+      "learning_rate": 1.0608758219671753e-07,
+      "loss": 0.85039073,
+      "num_input_tokens_seen": 161621545,
+      "step": 7476,
+      "time_per_iteration": 2.6855006217956543
+    },
+    {
+      "auxiliary_loss_clip": 0.01189893,
+      "auxiliary_loss_mlp": 0.01023274,
+      "balance_loss_clip": 1.04441118,
+      "balance_loss_mlp": 1.01618099,
+      "epoch": 0.8990560933084831,
+      "flos": 20230420446720.0,
+      "grad_norm": 1.735102325139507,
+      "language_loss": 0.7073741,
+      "learning_rate": 1.0583739348014065e-07,
+      "loss": 0.72950578,
+      "num_input_tokens_seen": 161642630,
+      "step": 7477,
+      "time_per_iteration": 2.643251419067383
+    },
+    {
+      "auxiliary_loss_clip": 0.01169145,
+      "auxiliary_loss_mlp": 0.01020424,
+      "balance_loss_clip": 1.04859757,
+      "balance_loss_mlp": 1.01377785,
+      "epoch": 0.8991763361991222,
+      "flos": 25520672459520.0,
+      "grad_norm": 3.118074324405277,
+      "language_loss": 0.84522337,
+      "learning_rate": 1.0558749210652518e-07,
+      "loss": 0.86711913,
+      "num_input_tokens_seen": 161662560,
+      "step": 7478,
+      "time_per_iteration": 2.5579888820648193
+    },
+    {
+      "auxiliary_loss_clip": 0.0119652,
+      "auxiliary_loss_mlp": 0.01022508,
+      "balance_loss_clip": 1.04299557,
+      "balance_loss_mlp": 1.01524198,
+      "epoch": 0.8992965790897613,
+      "flos": 25119191168640.0,
+      "grad_norm": 1.6415183906507982,
+      "language_loss": 0.85747313,
+      "learning_rate": 1.053378781137808e-07,
+      "loss": 0.87966341,
+      "num_input_tokens_seen": 161683480,
+      "step": 7479,
+      "time_per_iteration": 2.719402313232422
+    },
+    {
+      "auxiliary_loss_clip": 0.01186426,
+      "auxiliary_loss_mlp": 0.01025368,
+      "balance_loss_clip": 1.04270792,
+      "balance_loss_mlp": 1.017488,
+      "epoch": 0.8994168219804004,
+      "flos": 16070815814400.0,
+      "grad_norm": 1.8032336699033353,
+      "language_loss": 0.77792966,
+      "learning_rate": 1.0508855153977392e-07,
+      "loss": 0.80004764,
+      "num_input_tokens_seen": 161699945,
+      "step": 7480,
+      "time_per_iteration": 2.5688161849975586
+    },
+    {
+      "auxiliary_loss_clip": 0.01173792,
+      "auxiliary_loss_mlp": 0.01027147,
+      "balance_loss_clip": 1.04205203,
+      "balance_loss_mlp": 1.01965499,
+      "epoch": 0.8995370648710395,
+      "flos": 24825764966400.0,
+      "grad_norm": 2.2310106499637437,
+      "language_loss": 0.66859555,
+      "learning_rate": 1.0483951242232669e-07,
+      "loss": 0.69060493,
+      "num_input_tokens_seen": 161720420,
+      "step": 7481,
+      "time_per_iteration": 2.654738664627075
+    },
+    {
+      "auxiliary_loss_clip": 0.01060506,
+      "auxiliary_loss_mlp": 0.01000566,
+      "balance_loss_clip": 1.00916827,
+      "balance_loss_mlp": 0.9994632,
+      "epoch": 0.8996573077616786,
+      "flos": 63116238378240.0,
+      "grad_norm": 0.9789878537947024,
+      "language_loss": 0.57745945,
+      "learning_rate": 1.0459076079921936e-07,
+      "loss": 0.59807014,
+      "num_input_tokens_seen": 161773080,
+      "step": 7482,
+      "time_per_iteration": 3.2098171710968018
+    },
+    {
+      "auxiliary_loss_clip": 0.01177837,
+      "auxiliary_loss_mlp": 0.0102579,
+      "balance_loss_clip": 1.0431906,
+      "balance_loss_mlp": 1.01869369,
+      "epoch": 0.8997775506523177,
+      "flos": 18219674027520.0,
+      "grad_norm": 3.34382244649808,
+      "language_loss": 0.85487688,
+      "learning_rate": 1.0434229670818618e-07,
+      "loss": 0.87691319,
+      "num_input_tokens_seen": 161789755,
+      "step": 7483,
+      "time_per_iteration": 2.7286550998687744
+    },
+    {
+      "auxiliary_loss_clip": 0.01176412,
+      "auxiliary_loss_mlp": 0.01025592,
+      "balance_loss_clip": 1.04294348,
+      "balance_loss_mlp": 1.01834369,
+      "epoch": 0.8998977935429567,
+      "flos": 24166768095360.0,
+      "grad_norm": 1.6296843731102268,
+      "language_loss": 0.80099326,
+      "learning_rate": 1.0409412018691944e-07,
+      "loss": 0.82301331,
+      "num_input_tokens_seen": 161810220,
+      "step": 7484,
+      "time_per_iteration": 2.6970012187957764
+    },
+    {
+      "auxiliary_loss_clip": 0.01180467,
+      "auxiliary_loss_mlp": 0.0102839,
+      "balance_loss_clip": 1.04449153,
+      "balance_loss_mlp": 1.02099311,
+      "epoch": 0.9000180364335959,
+      "flos": 20773030273920.0,
+      "grad_norm": 1.8842043928442447,
+      "language_loss": 0.74691606,
+      "learning_rate": 1.0384623127306724e-07,
+      "loss": 0.76900464,
+      "num_input_tokens_seen": 161827565,
+      "step": 7485,
+      "time_per_iteration": 2.6698803901672363
+    },
+    {
+      "auxiliary_loss_clip": 0.01190383,
+      "auxiliary_loss_mlp": 0.01024707,
+      "balance_loss_clip": 1.04139125,
+      "balance_loss_mlp": 1.0177722,
+      "epoch": 0.900138279324235,
+      "flos": 19205745166080.0,
+      "grad_norm": 1.7808711707110252,
+      "language_loss": 0.7927441,
+      "learning_rate": 1.0359863000423397e-07,
+      "loss": 0.81489503,
+      "num_input_tokens_seen": 161845700,
+      "step": 7486,
+      "time_per_iteration": 2.696153163909912
+    },
+    {
+      "auxiliary_loss_clip": 0.01170106,
+      "auxiliary_loss_mlp": 0.01026191,
+      "balance_loss_clip": 1.04840505,
+      "balance_loss_mlp": 1.01898432,
+      "epoch": 0.900258522214874,
+      "flos": 28731158069760.0,
+      "grad_norm": 1.5653336323020546,
+      "language_loss": 0.71777582,
+      "learning_rate": 1.0335131641798112e-07,
+      "loss": 0.73973876,
+      "num_input_tokens_seen": 161867660,
+      "step": 7487,
+      "time_per_iteration": 2.6452906131744385
+    },
+    {
+      "auxiliary_loss_clip": 0.01085051,
+      "auxiliary_loss_mlp": 0.00999749,
+      "balance_loss_clip": 1.00814199,
+      "balance_loss_mlp": 0.99873602,
+      "epoch": 0.9003787651055132,
+      "flos": 58280685655680.0,
+      "grad_norm": 0.8049341826240556,
+      "language_loss": 0.55604517,
+      "learning_rate": 1.0310429055182512e-07,
+      "loss": 0.57689315,
+      "num_input_tokens_seen": 161921980,
+      "step": 7488,
+      "time_per_iteration": 3.977370500564575
+    },
+    {
+      "auxiliary_loss_clip": 0.01197709,
+      "auxiliary_loss_mlp": 0.01030043,
+      "balance_loss_clip": 1.04517245,
+      "balance_loss_mlp": 1.0222224,
+      "epoch": 0.9004990079961522,
+      "flos": 25556475340800.0,
+      "grad_norm": 1.673028642399146,
+      "language_loss": 0.73931044,
+      "learning_rate": 1.0285755244324024e-07,
+      "loss": 0.76158798,
+      "num_input_tokens_seen": 161942725,
+      "step": 7489,
+      "time_per_iteration": 2.7437379360198975
+    },
+    {
+      "auxiliary_loss_clip": 0.01186954,
+      "auxiliary_loss_mlp": 0.01378277,
+      "balance_loss_clip": 1.04157948,
+      "balance_loss_mlp": 1.0001471,
+      "epoch": 0.9006192508867913,
+      "flos": 23335185352320.0,
+      "grad_norm": 1.7606926915898862,
+      "language_loss": 0.68638808,
+      "learning_rate": 1.0261110212965629e-07,
+      "loss": 0.71204042,
+      "num_input_tokens_seen": 161964520,
+      "step": 7490,
+      "time_per_iteration": 2.7569732666015625
+    },
+    {
+      "auxiliary_loss_clip": 0.01182782,
+      "auxiliary_loss_mlp": 0.01025075,
+      "balance_loss_clip": 1.0427525,
+      "balance_loss_mlp": 1.01800907,
+      "epoch": 0.9007394937774305,
+      "flos": 18040300485120.0,
+      "grad_norm": 3.3788811294949763,
+      "language_loss": 0.7905587,
+      "learning_rate": 1.023649396484596e-07,
+      "loss": 0.81263733,
+      "num_input_tokens_seen": 161983575,
+      "step": 7491,
+      "time_per_iteration": 3.617690086364746
+    },
+    {
+      "auxiliary_loss_clip": 0.01167427,
+      "auxiliary_loss_mlp": 0.01025143,
+      "balance_loss_clip": 1.04664218,
+      "balance_loss_mlp": 1.01811838,
+      "epoch": 0.9008597366680695,
+      "flos": 43068456633600.0,
+      "grad_norm": 3.4722689142032155,
+      "language_loss": 0.67840862,
+      "learning_rate": 1.0211906503699275e-07,
+      "loss": 0.70033431,
+      "num_input_tokens_seen": 162006550,
+      "step": 7492,
+      "time_per_iteration": 2.7503480911254883
+    },
+    {
+      "auxiliary_loss_clip": 0.01179358,
+      "auxiliary_loss_mlp": 0.01028303,
+      "balance_loss_clip": 1.04838562,
+      "balance_loss_mlp": 1.02083123,
+      "epoch": 0.9009799795587086,
+      "flos": 14939055112320.0,
+      "grad_norm": 2.3898699049090437,
+      "language_loss": 0.82653272,
+      "learning_rate": 1.0187347833255455e-07,
+      "loss": 0.84860933,
+      "num_input_tokens_seen": 162022455,
+      "step": 7493,
+      "time_per_iteration": 2.5890071392059326
+    },
+    {
+      "auxiliary_loss_clip": 0.01165978,
+      "auxiliary_loss_mlp": 0.0102602,
+      "balance_loss_clip": 1.04767871,
+      "balance_loss_mlp": 1.01887631,
+      "epoch": 0.9011002224493477,
+      "flos": 21579584215680.0,
+      "grad_norm": 1.8440271683154408,
+      "language_loss": 0.79590958,
+      "learning_rate": 1.0162817957240056e-07,
+      "loss": 0.81782961,
+      "num_input_tokens_seen": 162042350,
+      "step": 7494,
+      "time_per_iteration": 3.471806526184082
+    },
+    {
+      "auxiliary_loss_clip": 0.01074599,
+      "auxiliary_loss_mlp": 0.00998678,
+      "balance_loss_clip": 1.00988793,
+      "balance_loss_mlp": 0.99755716,
+      "epoch": 0.9012204653399868,
+      "flos": 71166367883520.0,
+      "grad_norm": 0.880163178035669,
+      "language_loss": 0.6301676,
+      "learning_rate": 1.0138316879374253e-07,
+      "loss": 0.65090036,
+      "num_input_tokens_seen": 162111640,
+      "step": 7495,
+      "time_per_iteration": 3.3351902961730957
+    },
+    {
+      "auxiliary_loss_clip": 0.01188381,
+      "auxiliary_loss_mlp": 0.01024236,
+      "balance_loss_clip": 1.04767656,
+      "balance_loss_mlp": 1.01688385,
+      "epoch": 0.9013407082306258,
+      "flos": 15594963413760.0,
+      "grad_norm": 2.329519531001152,
+      "language_loss": 0.74288797,
+      "learning_rate": 1.0113844603374833e-07,
+      "loss": 0.76501417,
+      "num_input_tokens_seen": 162128165,
+      "step": 7496,
+      "time_per_iteration": 2.769200563430786
+    },
+    {
+      "auxiliary_loss_clip": 0.01181686,
+      "auxiliary_loss_mlp": 0.01025147,
+      "balance_loss_clip": 1.04212749,
+      "balance_loss_mlp": 1.01757979,
+      "epoch": 0.901460951121265,
+      "flos": 15049157276160.0,
+      "grad_norm": 2.2056822546856125,
+      "language_loss": 0.72105092,
+      "learning_rate": 1.0089401132954178e-07,
+      "loss": 0.74311924,
+      "num_input_tokens_seen": 162146145,
+      "step": 7497,
+      "time_per_iteration": 2.6305058002471924
+    },
+    {
+      "auxiliary_loss_clip": 0.01187666,
+      "auxiliary_loss_mlp": 0.01022119,
+      "balance_loss_clip": 1.04740179,
+      "balance_loss_mlp": 1.01553559,
+      "epoch": 0.9015811940119041,
+      "flos": 22236857233920.0,
+      "grad_norm": 1.8380111829470138,
+      "language_loss": 0.72542864,
+      "learning_rate": 1.006498647182037e-07,
+      "loss": 0.74752653,
+      "num_input_tokens_seen": 162164800,
+      "step": 7498,
+      "time_per_iteration": 2.705444097518921
+    },
+    {
+      "auxiliary_loss_clip": 0.0120595,
+      "auxiliary_loss_mlp": 0.0102875,
+      "balance_loss_clip": 1.03807843,
+      "balance_loss_mlp": 1.02160335,
+      "epoch": 0.9017014369025431,
+      "flos": 24973824827520.0,
+      "grad_norm": 2.0510500896009343,
+      "language_loss": 0.71571529,
+      "learning_rate": 1.004060062367713e-07,
+      "loss": 0.73806226,
+      "num_input_tokens_seen": 162185895,
+      "step": 7499,
+      "time_per_iteration": 3.760711908340454
+    },
+    {
+      "auxiliary_loss_clip": 0.01176459,
+      "auxiliary_loss_mlp": 0.01037754,
+      "balance_loss_clip": 1.04388547,
+      "balance_loss_mlp": 1.03056586,
+      "epoch": 0.9018216797931822,
+      "flos": 18114168804480.0,
+      "grad_norm": 2.2404890588458044,
+      "language_loss": 0.69783938,
+      "learning_rate": 1.0016243592223728e-07,
+      "loss": 0.71998155,
+      "num_input_tokens_seen": 162206295,
+      "step": 7500,
+      "time_per_iteration": 2.886227607727051
+    },
+    {
+      "auxiliary_loss_clip": 0.0120967,
+      "auxiliary_loss_mlp": 0.01022692,
+      "balance_loss_clip": 1.0410887,
+      "balance_loss_mlp": 1.01568222,
+      "epoch": 0.9019419226838213,
+      "flos": 37268452759680.0,
+      "grad_norm": 8.93439090790845,
+      "language_loss": 0.65625685,
+      "learning_rate": 9.991915381155114e-08,
+      "loss": 0.67858046,
+      "num_input_tokens_seen": 162229275,
+      "step": 7501,
+      "time_per_iteration": 2.893756151199341
+    },
+    {
+      "auxiliary_loss_clip": 0.0117951,
+      "auxiliary_loss_mlp": 0.01035021,
+      "balance_loss_clip": 1.04603326,
+      "balance_loss_mlp": 1.02766025,
+      "epoch": 0.9020621655744604,
+      "flos": 23441121538560.0,
+      "grad_norm": 4.403933219825099,
+      "language_loss": 0.75427169,
+      "learning_rate": 9.967615994161871e-08,
+      "loss": 0.77641702,
+      "num_input_tokens_seen": 162248935,
+      "step": 7502,
+      "time_per_iteration": 2.6002585887908936
+    },
+    {
+      "auxiliary_loss_clip": 0.0116523,
+      "auxiliary_loss_mlp": 0.01024363,
+      "balance_loss_clip": 1.04625595,
+      "balance_loss_mlp": 1.01740408,
+      "epoch": 0.9021824084650995,
+      "flos": 22857465444480.0,
+      "grad_norm": 2.335439373324177,
+      "language_loss": 0.78271484,
+      "learning_rate": 9.943345434930161e-08,
+      "loss": 0.80461085,
+      "num_input_tokens_seen": 162269185,
+      "step": 7503,
+      "time_per_iteration": 2.584153175354004
+    },
+    {
+      "auxiliary_loss_clip": 0.01197369,
+      "auxiliary_loss_mlp": 0.01022051,
+      "balance_loss_clip": 1.04702067,
+      "balance_loss_mlp": 1.01532507,
+      "epoch": 0.9023026513557386,
+      "flos": 22127581082880.0,
+      "grad_norm": 2.0053151518659873,
+      "language_loss": 0.69253677,
+      "learning_rate": 9.919103707141885e-08,
+      "loss": 0.71473098,
+      "num_input_tokens_seen": 162288065,
+      "step": 7504,
+      "time_per_iteration": 2.633134603500366
+    },
+    {
+      "auxiliary_loss_clip": 0.01174852,
+      "auxiliary_loss_mlp": 0.01028323,
+      "balance_loss_clip": 1.04555142,
+      "balance_loss_mlp": 1.02021074,
+      "epoch": 0.9024228942463777,
+      "flos": 24199087357440.0,
+      "grad_norm": 1.8828108681588915,
+      "language_loss": 0.76374114,
+      "learning_rate": 9.89489081447441e-08,
+      "loss": 0.78577292,
+      "num_input_tokens_seen": 162305265,
+      "step": 7505,
+      "time_per_iteration": 2.6134743690490723
+    },
+    {
+      "auxiliary_loss_clip": 0.01181425,
+      "auxiliary_loss_mlp": 0.01024995,
+      "balance_loss_clip": 1.04237533,
+      "balance_loss_mlp": 1.0174464,
+      "epoch": 0.9025431371370167,
+      "flos": 25008262992000.0,
+      "grad_norm": 1.8527989939082767,
+      "language_loss": 0.83114159,
+      "learning_rate": 9.870706760600844e-08,
+      "loss": 0.8532058,
+      "num_input_tokens_seen": 162325215,
+      "step": 7506,
+      "time_per_iteration": 2.6387202739715576
+    },
+    {
+      "auxiliary_loss_clip": 0.01209375,
+      "auxiliary_loss_mlp": 0.01024336,
+      "balance_loss_clip": 1.04501367,
+      "balance_loss_mlp": 1.01721013,
+      "epoch": 0.9026633800276559,
+      "flos": 18952862440320.0,
+      "grad_norm": 1.8852521217962663,
+      "language_loss": 0.72590721,
+      "learning_rate": 9.846551549189918e-08,
+      "loss": 0.7482444,
+      "num_input_tokens_seen": 162344820,
+      "step": 7507,
+      "time_per_iteration": 2.684661865234375
+    },
+    {
+      "auxiliary_loss_clip": 0.0118216,
+      "auxiliary_loss_mlp": 0.01024908,
+      "balance_loss_clip": 1.04406011,
+      "balance_loss_mlp": 1.01683152,
+      "epoch": 0.902783622918295,
+      "flos": 32416059536640.0,
+      "grad_norm": 2.036300121295957,
+      "language_loss": 0.68607616,
+      "learning_rate": 9.822425183905902e-08,
+      "loss": 0.70814681,
+      "num_input_tokens_seen": 162365345,
+      "step": 7508,
+      "time_per_iteration": 2.7039647102355957
+    },
+    {
+      "auxiliary_loss_clip": 0.01099584,
+      "auxiliary_loss_mlp": 0.00999588,
+      "balance_loss_clip": 1.0091145,
+      "balance_loss_mlp": 0.99850315,
+      "epoch": 0.902903865808934,
+      "flos": 63717453244800.0,
+      "grad_norm": 0.9201433591254733,
+      "language_loss": 0.75182033,
+      "learning_rate": 9.798327668408823e-08,
+      "loss": 0.77281201,
+      "num_input_tokens_seen": 162426980,
+      "step": 7509,
+      "time_per_iteration": 3.3508803844451904
+    },
+    {
+      "auxiliary_loss_clip": 0.01171574,
+      "auxiliary_loss_mlp": 0.01021964,
+      "balance_loss_clip": 1.0478183,
+      "balance_loss_mlp": 1.01386929,
+      "epoch": 0.9030241086995732,
+      "flos": 23804034600960.0,
+      "grad_norm": 1.856583261228961,
+      "language_loss": 0.68841255,
+      "learning_rate": 9.774259006354158e-08,
+      "loss": 0.71034789,
+      "num_input_tokens_seen": 162447050,
+      "step": 7510,
+      "time_per_iteration": 2.634866952896118
+    },
+    {
+      "auxiliary_loss_clip": 0.01188329,
+      "auxiliary_loss_mlp": 0.0102633,
+      "balance_loss_clip": 1.04247975,
+      "balance_loss_mlp": 1.01901937,
+      "epoch": 0.9031443515902122,
+      "flos": 26395887248640.0,
+      "grad_norm": 1.8762552479417443,
+      "language_loss": 0.76420397,
+      "learning_rate": 9.750219201393184e-08,
+      "loss": 0.78635055,
+      "num_input_tokens_seen": 162467015,
+      "step": 7511,
+      "time_per_iteration": 2.728102922439575
+    },
+    {
+      "auxiliary_loss_clip": 0.01175937,
+      "auxiliary_loss_mlp": 0.01023834,
+      "balance_loss_clip": 1.04538071,
+      "balance_loss_mlp": 1.01663959,
+      "epoch": 0.9032645944808513,
+      "flos": 24939350749440.0,
+      "grad_norm": 2.259126740407888,
+      "language_loss": 0.77717137,
+      "learning_rate": 9.726208257172697e-08,
+      "loss": 0.79916906,
+      "num_input_tokens_seen": 162488710,
+      "step": 7512,
+      "time_per_iteration": 2.720759153366089
+    },
+    {
+      "auxiliary_loss_clip": 0.01167229,
+      "auxiliary_loss_mlp": 0.01024558,
+      "balance_loss_clip": 1.04761636,
+      "balance_loss_mlp": 1.01736331,
+      "epoch": 0.9033848373714904,
+      "flos": 21178821196800.0,
+      "grad_norm": 2.031488832055984,
+      "language_loss": 0.74801594,
+      "learning_rate": 9.702226177335115e-08,
+      "loss": 0.76993382,
+      "num_input_tokens_seen": 162507205,
+      "step": 7513,
+      "time_per_iteration": 2.535517692565918
+    },
+    {
+      "auxiliary_loss_clip": 0.01184927,
+      "auxiliary_loss_mlp": 0.01028941,
+      "balance_loss_clip": 1.0456593,
+      "balance_loss_mlp": 1.02146113,
+      "epoch": 0.9035050802621295,
+      "flos": 26286359702400.0,
+      "grad_norm": 1.6389587421253673,
+      "language_loss": 0.72500932,
+      "learning_rate": 9.67827296551853e-08,
+      "loss": 0.74714804,
+      "num_input_tokens_seen": 162528490,
+      "step": 7514,
+      "time_per_iteration": 3.5554039478302
+    },
+    {
+      "auxiliary_loss_clip": 0.01174457,
+      "auxiliary_loss_mlp": 0.01378545,
+      "balance_loss_clip": 1.04147458,
+      "balance_loss_mlp": 1.00016618,
+      "epoch": 0.9036253231527686,
+      "flos": 24204546224640.0,
+      "grad_norm": 1.866065458921758,
+      "language_loss": 0.68656552,
+      "learning_rate": 9.65434862535659e-08,
+      "loss": 0.7120955,
+      "num_input_tokens_seen": 162547860,
+      "step": 7515,
+      "time_per_iteration": 2.7525579929351807
+    },
+    {
+      "auxiliary_loss_clip": 0.01189025,
+      "auxiliary_loss_mlp": 0.01025945,
+      "balance_loss_clip": 1.04500508,
+      "balance_loss_mlp": 1.0188998,
+      "epoch": 0.9037455660434077,
+      "flos": 18072655660800.0,
+      "grad_norm": 3.70849214413223,
+      "language_loss": 0.64976585,
+      "learning_rate": 9.630453160478635e-08,
+      "loss": 0.67191553,
+      "num_input_tokens_seen": 162563215,
+      "step": 7516,
+      "time_per_iteration": 2.6192662715911865
+    },
+    {
+      "auxiliary_loss_clip": 0.01199501,
+      "auxiliary_loss_mlp": 0.01025384,
+      "balance_loss_clip": 1.04094744,
+      "balance_loss_mlp": 1.01891088,
+      "epoch": 0.9038658089340468,
+      "flos": 24060795995520.0,
+      "grad_norm": 1.611398428842578,
+      "language_loss": 0.82306588,
+      "learning_rate": 9.60658657450959e-08,
+      "loss": 0.84531474,
+      "num_input_tokens_seen": 162583515,
+      "step": 7517,
+      "time_per_iteration": 3.5710184574127197
+    },
+    {
+      "auxiliary_loss_clip": 0.01168258,
+      "auxiliary_loss_mlp": 0.01020363,
+      "balance_loss_clip": 1.03944147,
+      "balance_loss_mlp": 1.01323736,
+      "epoch": 0.9039860518246858,
+      "flos": 21834298535040.0,
+      "grad_norm": 1.9455105023814665,
+      "language_loss": 0.7946682,
+      "learning_rate": 9.582748871069979e-08,
+      "loss": 0.81655443,
+      "num_input_tokens_seen": 162602955,
+      "step": 7518,
+      "time_per_iteration": 2.605823516845703
+    },
+    {
+      "auxiliary_loss_clip": 0.01187761,
+      "auxiliary_loss_mlp": 0.01378399,
+      "balance_loss_clip": 1.04350162,
+      "balance_loss_mlp": 1.00012898,
+      "epoch": 0.904106294715325,
+      "flos": 26614870513920.0,
+      "grad_norm": 1.7894831126900532,
+      "language_loss": 0.83230066,
+      "learning_rate": 9.558940053775954e-08,
+      "loss": 0.85796225,
+      "num_input_tokens_seen": 162621595,
+      "step": 7519,
+      "time_per_iteration": 3.5652706623077393
+    },
+    {
+      "auxiliary_loss_clip": 0.01177074,
+      "auxiliary_loss_mlp": 0.010223,
+      "balance_loss_clip": 1.04629254,
+      "balance_loss_mlp": 1.01481378,
+      "epoch": 0.904226537605964,
+      "flos": 17785693906560.0,
+      "grad_norm": 2.0750362621959444,
+      "language_loss": 0.67769676,
+      "learning_rate": 9.535160126239294e-08,
+      "loss": 0.69969058,
+      "num_input_tokens_seen": 162638220,
+      "step": 7520,
+      "time_per_iteration": 2.639971971511841
+    },
+    {
+      "auxiliary_loss_clip": 0.01176896,
+      "auxiliary_loss_mlp": 0.01026622,
+      "balance_loss_clip": 1.04764915,
+      "balance_loss_mlp": 1.01923692,
+      "epoch": 0.9043467804966031,
+      "flos": 24790428961920.0,
+      "grad_norm": 2.1299100209625155,
+      "language_loss": 0.70821178,
+      "learning_rate": 9.511409092067424e-08,
+      "loss": 0.7302469,
+      "num_input_tokens_seen": 162658575,
+      "step": 7521,
+      "time_per_iteration": 2.667022466659546
+    },
+    {
+      "auxiliary_loss_clip": 0.01184607,
+      "auxiliary_loss_mlp": 0.0102622,
+      "balance_loss_clip": 1.04559231,
+      "balance_loss_mlp": 1.01877856,
+      "epoch": 0.9044670233872423,
+      "flos": 22632125472000.0,
+      "grad_norm": 1.9697808178096763,
+      "language_loss": 0.6758275,
+      "learning_rate": 9.487686954863327e-08,
+      "loss": 0.69793576,
+      "num_input_tokens_seen": 162678295,
+      "step": 7522,
+      "time_per_iteration": 2.6961302757263184
+    },
+    {
+      "auxiliary_loss_clip": 0.01176678,
+      "auxiliary_loss_mlp": 0.01022107,
+      "balance_loss_clip": 1.04761291,
+      "balance_loss_mlp": 1.01524019,
+      "epoch": 0.9045872662778813,
+      "flos": 23771320289280.0,
+      "grad_norm": 2.1058066908541577,
+      "language_loss": 0.77545971,
+      "learning_rate": 9.46399371822566e-08,
+      "loss": 0.79744756,
+      "num_input_tokens_seen": 162698070,
+      "step": 7523,
+      "time_per_iteration": 2.6690258979797363
+    },
+    {
+      "auxiliary_loss_clip": 0.0116851,
+      "auxiliary_loss_mlp": 0.01031719,
+      "balance_loss_clip": 1.04771399,
+      "balance_loss_mlp": 1.02425957,
+      "epoch": 0.9047075091685204,
+      "flos": 15191039998080.0,
+      "grad_norm": 2.086533018125026,
+      "language_loss": 0.72371364,
+      "learning_rate": 9.440329385748657e-08,
+      "loss": 0.74571598,
+      "num_input_tokens_seen": 162715140,
+      "step": 7524,
+      "time_per_iteration": 2.5603513717651367
+    },
+    {
+      "auxiliary_loss_clip": 0.01193828,
+      "auxiliary_loss_mlp": 0.0102368,
+      "balance_loss_clip": 1.04317987,
+      "balance_loss_mlp": 1.0173347,
+      "epoch": 0.9048277520591596,
+      "flos": 18003707504640.0,
+      "grad_norm": 1.765837515040909,
+      "language_loss": 0.70638633,
+      "learning_rate": 9.416693961022137e-08,
+      "loss": 0.7285614,
+      "num_input_tokens_seen": 162733390,
+      "step": 7525,
+      "time_per_iteration": 3.4955124855041504
+    },
+    {
+      "auxiliary_loss_clip": 0.01195122,
+      "auxiliary_loss_mlp": 0.0102613,
+      "balance_loss_clip": 1.0386008,
+      "balance_loss_mlp": 1.01900697,
+      "epoch": 0.9049479949497986,
+      "flos": 21872471713920.0,
+      "grad_norm": 1.723363412651695,
+      "language_loss": 0.76934481,
+      "learning_rate": 9.393087447631654e-08,
+      "loss": 0.79155731,
+      "num_input_tokens_seen": 162751670,
+      "step": 7526,
+      "time_per_iteration": 2.7604315280914307
+    },
+    {
+      "auxiliary_loss_clip": 0.01187709,
+      "auxiliary_loss_mlp": 0.01020413,
+      "balance_loss_clip": 1.04451919,
+      "balance_loss_mlp": 1.01383317,
+      "epoch": 0.9050682378404377,
+      "flos": 20773928113920.0,
+      "grad_norm": 1.848121471473049,
+      "language_loss": 0.72925246,
+      "learning_rate": 9.36950984915823e-08,
+      "loss": 0.75133371,
+      "num_input_tokens_seen": 162770025,
+      "step": 7527,
+      "time_per_iteration": 2.6612708568573
+    },
+    {
+      "auxiliary_loss_clip": 0.01170524,
+      "auxiliary_loss_mlp": 0.01022528,
+      "balance_loss_clip": 1.04929185,
+      "balance_loss_mlp": 1.01452303,
+      "epoch": 0.9051884807310768,
+      "flos": 21580015178880.0,
+      "grad_norm": 2.0733761376908575,
+      "language_loss": 0.69260132,
+      "learning_rate": 9.345961169178607e-08,
+      "loss": 0.71453178,
+      "num_input_tokens_seen": 162789710,
+      "step": 7528,
+      "time_per_iteration": 2.6359379291534424
+    },
+    {
+      "auxiliary_loss_clip": 0.01177826,
+      "auxiliary_loss_mlp": 0.01026637,
+      "balance_loss_clip": 1.04348779,
+      "balance_loss_mlp": 1.01901972,
+      "epoch": 0.9053087236217159,
+      "flos": 21908059113600.0,
+      "grad_norm": 1.4880874795702548,
+      "language_loss": 0.72623861,
+      "learning_rate": 9.322441411265081e-08,
+      "loss": 0.74828321,
+      "num_input_tokens_seen": 162810695,
+      "step": 7529,
+      "time_per_iteration": 2.677464485168457
+    },
+    {
+      "auxiliary_loss_clip": 0.01177759,
+      "auxiliary_loss_mlp": 0.0103023,
+      "balance_loss_clip": 1.04338658,
+      "balance_loss_mlp": 1.02297628,
+      "epoch": 0.9054289665123549,
+      "flos": 17055809544960.0,
+      "grad_norm": 1.816434028616128,
+      "language_loss": 0.73401296,
+      "learning_rate": 9.298950578985554e-08,
+      "loss": 0.75609291,
+      "num_input_tokens_seen": 162827770,
+      "step": 7530,
+      "time_per_iteration": 2.63997745513916
+    },
+    {
+      "auxiliary_loss_clip": 0.01172794,
+      "auxiliary_loss_mlp": 0.01378803,
+      "balance_loss_clip": 1.04605937,
+      "balance_loss_mlp": 1.00012779,
+      "epoch": 0.905549209402994,
+      "flos": 20777268078720.0,
+      "grad_norm": 1.994732607833962,
+      "language_loss": 0.71244973,
+      "learning_rate": 9.275488675903665e-08,
+      "loss": 0.7379657,
+      "num_input_tokens_seen": 162846715,
+      "step": 7531,
+      "time_per_iteration": 2.620920181274414
+    },
+    {
+      "auxiliary_loss_clip": 0.01201923,
+      "auxiliary_loss_mlp": 0.01024148,
+      "balance_loss_clip": 1.0422014,
+      "balance_loss_mlp": 1.01687956,
+      "epoch": 0.9056694522936332,
+      "flos": 21686813291520.0,
+      "grad_norm": 1.999374068697336,
+      "language_loss": 0.74266106,
+      "learning_rate": 9.252055705578454e-08,
+      "loss": 0.76492167,
+      "num_input_tokens_seen": 162866215,
+      "step": 7532,
+      "time_per_iteration": 2.716104030609131
+    },
+    {
+      "auxiliary_loss_clip": 0.01173825,
+      "auxiliary_loss_mlp": 0.01021458,
+      "balance_loss_clip": 1.04411566,
+      "balance_loss_mlp": 1.01452851,
+      "epoch": 0.9057896951842722,
+      "flos": 29569133433600.0,
+      "grad_norm": 1.8069734996854767,
+      "language_loss": 0.72151488,
+      "learning_rate": 9.228651671564747e-08,
+      "loss": 0.74346769,
+      "num_input_tokens_seen": 162888245,
+      "step": 7533,
+      "time_per_iteration": 2.6471152305603027
+    },
+    {
+      "auxiliary_loss_clip": 0.01195688,
+      "auxiliary_loss_mlp": 0.01025939,
+      "balance_loss_clip": 1.0418781,
+      "balance_loss_mlp": 1.01903391,
+      "epoch": 0.9059099380749113,
+      "flos": 27892248952320.0,
+      "grad_norm": 1.4638602658709543,
+      "language_loss": 0.78042769,
+      "learning_rate": 9.205276577412901e-08,
+      "loss": 0.80264401,
+      "num_input_tokens_seen": 162911025,
+      "step": 7534,
+      "time_per_iteration": 2.7776644229888916
+    },
+    {
+      "auxiliary_loss_clip": 0.01191287,
+      "auxiliary_loss_mlp": 0.01378765,
+      "balance_loss_clip": 1.0429405,
+      "balance_loss_mlp": 1.0001359,
+      "epoch": 0.9060301809655504,
+      "flos": 17748993185280.0,
+      "grad_norm": 2.777198113816532,
+      "language_loss": 0.77074981,
+      "learning_rate": 9.181930426668905e-08,
+      "loss": 0.79645032,
+      "num_input_tokens_seen": 162927820,
+      "step": 7535,
+      "time_per_iteration": 2.6688454151153564
+    },
+    {
+      "auxiliary_loss_clip": 0.01194951,
+      "auxiliary_loss_mlp": 0.01030255,
+      "balance_loss_clip": 1.03950763,
+      "balance_loss_mlp": 1.02357316,
+      "epoch": 0.9061504238561895,
+      "flos": 31759432963200.0,
+      "grad_norm": 1.7294764281663726,
+      "language_loss": 0.67870015,
+      "learning_rate": 9.158613222874346e-08,
+      "loss": 0.70095223,
+      "num_input_tokens_seen": 162949445,
+      "step": 7536,
+      "time_per_iteration": 2.7573442459106445
+    },
+    {
+      "auxiliary_loss_clip": 0.01184445,
+      "auxiliary_loss_mlp": 0.01026316,
+      "balance_loss_clip": 1.04372716,
+      "balance_loss_mlp": 1.0192771,
+      "epoch": 0.9062706667468285,
+      "flos": 20048066075520.0,
+      "grad_norm": 1.6043145084298565,
+      "language_loss": 0.81930828,
+      "learning_rate": 9.135324969566394e-08,
+      "loss": 0.84141588,
+      "num_input_tokens_seen": 162968945,
+      "step": 7537,
+      "time_per_iteration": 2.6777119636535645
+    },
+    {
+      "auxiliary_loss_clip": 0.01181215,
+      "auxiliary_loss_mlp": 0.01026732,
+      "balance_loss_clip": 1.04746222,
+      "balance_loss_mlp": 1.01938319,
+      "epoch": 0.9063909096374677,
+      "flos": 18437292576000.0,
+      "grad_norm": 1.94031533206056,
+      "language_loss": 0.75610614,
+      "learning_rate": 9.112065670277913e-08,
+      "loss": 0.77818555,
+      "num_input_tokens_seen": 162985310,
+      "step": 7538,
+      "time_per_iteration": 2.57731032371521
+    },
+    {
+      "auxiliary_loss_clip": 0.01181414,
+      "auxiliary_loss_mlp": 0.01022541,
+      "balance_loss_clip": 1.04300642,
+      "balance_loss_mlp": 1.01609731,
+      "epoch": 0.9065111525281068,
+      "flos": 33547353361920.0,
+      "grad_norm": 1.919711934683368,
+      "language_loss": 0.72902876,
+      "learning_rate": 9.088835328537303e-08,
+      "loss": 0.75106829,
+      "num_input_tokens_seen": 163006900,
+      "step": 7539,
+      "time_per_iteration": 2.7893927097320557
+    },
+    {
+      "auxiliary_loss_clip": 0.01188872,
+      "auxiliary_loss_mlp": 0.01023366,
+      "balance_loss_clip": 1.04535568,
+      "balance_loss_mlp": 1.01592791,
+      "epoch": 0.9066313954187458,
+      "flos": 23367863750400.0,
+      "grad_norm": 2.4872594754409745,
+      "language_loss": 0.71349013,
+      "learning_rate": 9.065633947868568e-08,
+      "loss": 0.73561251,
+      "num_input_tokens_seen": 163026505,
+      "step": 7540,
+      "time_per_iteration": 3.575864315032959
+    },
+    {
+      "auxiliary_loss_clip": 0.01194852,
+      "auxiliary_loss_mlp": 0.01378548,
+      "balance_loss_clip": 1.04686975,
+      "balance_loss_mlp": 1.00016141,
+      "epoch": 0.906751638309385,
+      "flos": 26249623067520.0,
+      "grad_norm": 2.2310546757804213,
+      "language_loss": 0.79994446,
+      "learning_rate": 9.042461531791379e-08,
+      "loss": 0.82567841,
+      "num_input_tokens_seen": 163044925,
+      "step": 7541,
+      "time_per_iteration": 2.7033817768096924
+    },
+    {
+      "auxiliary_loss_clip": 0.01162165,
+      "auxiliary_loss_mlp": 0.01022842,
+      "balance_loss_clip": 1.04439175,
+      "balance_loss_mlp": 1.01570153,
+      "epoch": 0.906871881200024,
+      "flos": 16544477485440.0,
+      "grad_norm": 1.920925443495151,
+      "language_loss": 0.78056121,
+      "learning_rate": 9.019318083820903e-08,
+      "loss": 0.80241126,
+      "num_input_tokens_seen": 163063505,
+      "step": 7542,
+      "time_per_iteration": 2.5718441009521484
+    },
+    {
+      "auxiliary_loss_clip": 0.01175875,
+      "auxiliary_loss_mlp": 0.01028978,
+      "balance_loss_clip": 1.04682279,
+      "balance_loss_mlp": 1.02150321,
+      "epoch": 0.9069921240906631,
+      "flos": 24605129675520.0,
+      "grad_norm": 3.2295697462419004,
+      "language_loss": 0.85218263,
+      "learning_rate": 8.996203607468045e-08,
+      "loss": 0.87423116,
+      "num_input_tokens_seen": 163082505,
+      "step": 7543,
+      "time_per_iteration": 3.5561976432800293
+    },
+    {
+      "auxiliary_loss_clip": 0.01169003,
+      "auxiliary_loss_mlp": 0.0102809,
+      "balance_loss_clip": 1.04154301,
+      "balance_loss_mlp": 1.02071989,
+      "epoch": 0.9071123669813023,
+      "flos": 25374731500800.0,
+      "grad_norm": 1.3859456974058848,
+      "language_loss": 0.75404745,
+      "learning_rate": 8.973118106239241e-08,
+      "loss": 0.77601838,
+      "num_input_tokens_seen": 163105110,
+      "step": 7544,
+      "time_per_iteration": 2.645620822906494
+    },
+    {
+      "auxiliary_loss_clip": 0.01204467,
+      "auxiliary_loss_mlp": 0.01025176,
+      "balance_loss_clip": 1.03578973,
+      "balance_loss_mlp": 1.01820517,
+      "epoch": 0.9072326098719413,
+      "flos": 26725798690560.0,
+      "grad_norm": 1.80454319589403,
+      "language_loss": 0.94576317,
+      "learning_rate": 8.95006158363656e-08,
+      "loss": 0.96805966,
+      "num_input_tokens_seen": 163125295,
+      "step": 7545,
+      "time_per_iteration": 3.7190914154052734
+    },
+    {
+      "auxiliary_loss_clip": 0.01178033,
+      "auxiliary_loss_mlp": 0.01027308,
+      "balance_loss_clip": 1.04733562,
+      "balance_loss_mlp": 1.01929712,
+      "epoch": 0.9073528527625804,
+      "flos": 23878800760320.0,
+      "grad_norm": 1.9132675640162147,
+      "language_loss": 0.77358377,
+      "learning_rate": 8.9270340431576e-08,
+      "loss": 0.79563713,
+      "num_input_tokens_seen": 163144385,
+      "step": 7546,
+      "time_per_iteration": 2.6117899417877197
+    },
+    {
+      "auxiliary_loss_clip": 0.01177549,
+      "auxiliary_loss_mlp": 0.01025587,
+      "balance_loss_clip": 1.04460263,
+      "balance_loss_mlp": 1.01860142,
+      "epoch": 0.9074730956532195,
+      "flos": 37852144767360.0,
+      "grad_norm": 1.8752621598557961,
+      "language_loss": 0.73428798,
+      "learning_rate": 8.904035488295658e-08,
+      "loss": 0.7563194,
+      "num_input_tokens_seen": 163163885,
+      "step": 7547,
+      "time_per_iteration": 2.782876968383789
+    },
+    {
+      "auxiliary_loss_clip": 0.01073888,
+      "auxiliary_loss_mlp": 0.01373552,
+      "balance_loss_clip": 1.00930929,
+      "balance_loss_mlp": 0.9997322,
+      "epoch": 0.9075933385438586,
+      "flos": 65173307385600.0,
+      "grad_norm": 0.6613274949136936,
+      "language_loss": 0.53229153,
+      "learning_rate": 8.881065922539632e-08,
+      "loss": 0.55676591,
+      "num_input_tokens_seen": 163224325,
+      "step": 7548,
+      "time_per_iteration": 3.1290652751922607
+    },
+    {
+      "auxiliary_loss_clip": 0.01187315,
+      "auxiliary_loss_mlp": 0.01025418,
+      "balance_loss_clip": 1.04354703,
+      "balance_loss_mlp": 1.01844716,
+      "epoch": 0.9077135814344977,
+      "flos": 19931571290880.0,
+      "grad_norm": 2.603434562959775,
+      "language_loss": 0.73568833,
+      "learning_rate": 8.85812534937389e-08,
+      "loss": 0.75781566,
+      "num_input_tokens_seen": 163242425,
+      "step": 7549,
+      "time_per_iteration": 2.7400050163269043
+    },
+    {
+      "auxiliary_loss_clip": 0.01184476,
+      "auxiliary_loss_mlp": 0.01025295,
+      "balance_loss_clip": 1.04814696,
+      "balance_loss_mlp": 1.01780879,
+      "epoch": 0.9078338243251368,
+      "flos": 17529650784000.0,
+      "grad_norm": 2.5954846067357,
+      "language_loss": 0.67344677,
+      "learning_rate": 8.835213772278583e-08,
+      "loss": 0.69554442,
+      "num_input_tokens_seen": 163259280,
+      "step": 7550,
+      "time_per_iteration": 3.4169626235961914
+    },
+    {
+      "auxiliary_loss_clip": 0.01186949,
+      "auxiliary_loss_mlp": 0.01022981,
+      "balance_loss_clip": 1.04368496,
+      "balance_loss_mlp": 1.01608443,
+      "epoch": 0.9079540672157759,
+      "flos": 28803410277120.0,
+      "grad_norm": 1.638688293250881,
+      "language_loss": 0.79064226,
+      "learning_rate": 8.812331194729373e-08,
+      "loss": 0.81274152,
+      "num_input_tokens_seen": 163278925,
+      "step": 7551,
+      "time_per_iteration": 2.6712772846221924
+    },
+    {
+      "auxiliary_loss_clip": 0.01172579,
+      "auxiliary_loss_mlp": 0.01028219,
+      "balance_loss_clip": 1.05031037,
+      "balance_loss_mlp": 1.02065504,
+      "epoch": 0.9080743101064149,
+      "flos": 23513840622720.0,
+      "grad_norm": 1.7589348248158867,
+      "language_loss": 0.72136188,
+      "learning_rate": 8.789477620197461e-08,
+      "loss": 0.74336988,
+      "num_input_tokens_seen": 163298450,
+      "step": 7552,
+      "time_per_iteration": 2.547487258911133
+    },
+    {
+      "auxiliary_loss_clip": 0.01181963,
+      "auxiliary_loss_mlp": 0.01027315,
+      "balance_loss_clip": 1.04347765,
+      "balance_loss_mlp": 1.01959682,
+      "epoch": 0.9081945529970541,
+      "flos": 22778102344320.0,
+      "grad_norm": 2.0157573403732716,
+      "language_loss": 0.79120421,
+      "learning_rate": 8.766653052149831e-08,
+      "loss": 0.81329691,
+      "num_input_tokens_seen": 163313635,
+      "step": 7553,
+      "time_per_iteration": 2.626213312149048
+    },
+    {
+      "auxiliary_loss_clip": 0.01185993,
+      "auxiliary_loss_mlp": 0.0102394,
+      "balance_loss_clip": 1.04449165,
+      "balance_loss_mlp": 1.01651037,
+      "epoch": 0.9083147958876931,
+      "flos": 18873714821760.0,
+      "grad_norm": 2.049634372574394,
+      "language_loss": 0.74618959,
+      "learning_rate": 8.743857494048823e-08,
+      "loss": 0.76828891,
+      "num_input_tokens_seen": 163330450,
+      "step": 7554,
+      "time_per_iteration": 2.6287925243377686
+    },
+    {
+      "auxiliary_loss_clip": 0.01195663,
+      "auxiliary_loss_mlp": 0.01021782,
+      "balance_loss_clip": 1.04526162,
+      "balance_loss_mlp": 1.01515126,
+      "epoch": 0.9084350387783322,
+      "flos": 18909374048640.0,
+      "grad_norm": 1.9059670139713698,
+      "language_loss": 0.62614667,
+      "learning_rate": 8.721090949352605e-08,
+      "loss": 0.64832115,
+      "num_input_tokens_seen": 163346690,
+      "step": 7555,
+      "time_per_iteration": 2.692394256591797
+    },
+    {
+      "auxiliary_loss_clip": 0.01187407,
+      "auxiliary_loss_mlp": 0.01024984,
+      "balance_loss_clip": 1.0485419,
+      "balance_loss_mlp": 1.0171876,
+      "epoch": 0.9085552816689714,
+      "flos": 20595488325120.0,
+      "grad_norm": 2.1281077006432425,
+      "language_loss": 0.73273051,
+      "learning_rate": 8.698353421514793e-08,
+      "loss": 0.75485444,
+      "num_input_tokens_seen": 163365065,
+      "step": 7556,
+      "time_per_iteration": 2.713810443878174
+    },
+    {
+      "auxiliary_loss_clip": 0.01174312,
+      "auxiliary_loss_mlp": 0.01028947,
+      "balance_loss_clip": 1.04644871,
+      "balance_loss_mlp": 1.02196383,
+      "epoch": 0.9086755245596104,
+      "flos": 18113163223680.0,
+      "grad_norm": 2.1220760509398864,
+      "language_loss": 0.80396748,
+      "learning_rate": 8.67564491398467e-08,
+      "loss": 0.82600009,
+      "num_input_tokens_seen": 163382070,
+      "step": 7557,
+      "time_per_iteration": 2.558793783187866
+    },
+    {
+      "auxiliary_loss_clip": 0.01179734,
+      "auxiliary_loss_mlp": 0.01027234,
+      "balance_loss_clip": 1.04552948,
+      "balance_loss_mlp": 1.02005124,
+      "epoch": 0.9087957674502495,
+      "flos": 19129793857920.0,
+      "grad_norm": 1.740021430366877,
+      "language_loss": 0.73906791,
+      "learning_rate": 8.652965430207104e-08,
+      "loss": 0.76113755,
+      "num_input_tokens_seen": 163399975,
+      "step": 7558,
+      "time_per_iteration": 2.6516034603118896
+    },
+    {
+      "auxiliary_loss_clip": 0.01180017,
+      "auxiliary_loss_mlp": 0.01029494,
+      "balance_loss_clip": 1.04579008,
+      "balance_loss_mlp": 1.02185917,
+      "epoch": 0.9089160103408886,
+      "flos": 18109930999680.0,
+      "grad_norm": 2.0710771370538272,
+      "language_loss": 0.65487176,
+      "learning_rate": 8.630314973622521e-08,
+      "loss": 0.67696685,
+      "num_input_tokens_seen": 163417520,
+      "step": 7559,
+      "time_per_iteration": 2.5550737380981445
+    },
+    {
+      "auxiliary_loss_clip": 0.01176189,
+      "auxiliary_loss_mlp": 0.01024351,
+      "balance_loss_clip": 1.04893148,
+      "balance_loss_mlp": 1.0174098,
+      "epoch": 0.9090362532315277,
+      "flos": 33364855336320.0,
+      "grad_norm": 1.8526635128722064,
+      "language_loss": 0.70926571,
+      "learning_rate": 8.607693547666995e-08,
+      "loss": 0.73127103,
+      "num_input_tokens_seen": 163440060,
+      "step": 7560,
+      "time_per_iteration": 2.7018625736236572
+    },
+    {
+      "auxiliary_loss_clip": 0.01098781,
+      "auxiliary_loss_mlp": 0.00999062,
+      "balance_loss_clip": 1.00916028,
+      "balance_loss_mlp": 0.99795324,
+      "epoch": 0.9091564961221668,
+      "flos": 71480585082240.0,
+      "grad_norm": 0.8900648790096518,
+      "language_loss": 0.5793305,
+      "learning_rate": 8.585101155772201e-08,
+      "loss": 0.60030895,
+      "num_input_tokens_seen": 163502180,
+      "step": 7561,
+      "time_per_iteration": 3.3317320346832275
+    },
+    {
+      "auxiliary_loss_clip": 0.01173038,
+      "auxiliary_loss_mlp": 0.01026622,
+      "balance_loss_clip": 1.03956318,
+      "balance_loss_mlp": 1.01949334,
+      "epoch": 0.9092767390128058,
+      "flos": 24712574232960.0,
+      "grad_norm": 1.7523994628692559,
+      "language_loss": 0.68874151,
+      "learning_rate": 8.562537801365377e-08,
+      "loss": 0.71073812,
+      "num_input_tokens_seen": 163521915,
+      "step": 7562,
+      "time_per_iteration": 2.6456046104431152
+    },
+    {
+      "auxiliary_loss_clip": 0.01167747,
+      "auxiliary_loss_mlp": 0.01025533,
+      "balance_loss_clip": 1.04688907,
+      "balance_loss_mlp": 1.01751077,
+      "epoch": 0.909396981903445,
+      "flos": 23586487879680.0,
+      "grad_norm": 1.725881088007337,
+      "language_loss": 0.70162749,
+      "learning_rate": 8.540003487869362e-08,
+      "loss": 0.72356027,
+      "num_input_tokens_seen": 163543585,
+      "step": 7563,
+      "time_per_iteration": 2.6980996131896973
+    },
+    {
+      "auxiliary_loss_clip": 0.01179033,
+      "auxiliary_loss_mlp": 0.01029104,
+      "balance_loss_clip": 1.04043794,
+      "balance_loss_mlp": 1.0216949,
+      "epoch": 0.909517224794084,
+      "flos": 23404169422080.0,
+      "grad_norm": 2.3860543179735947,
+      "language_loss": 0.79800594,
+      "learning_rate": 8.517498218702557e-08,
+      "loss": 0.82008731,
+      "num_input_tokens_seen": 163561515,
+      "step": 7564,
+      "time_per_iteration": 2.6648495197296143
+    },
+    {
+      "auxiliary_loss_clip": 0.01185446,
+      "auxiliary_loss_mlp": 0.01021802,
+      "balance_loss_clip": 1.04043472,
+      "balance_loss_mlp": 1.01462543,
+      "epoch": 0.9096374676847231,
+      "flos": 19208618254080.0,
+      "grad_norm": 1.6328773110875199,
+      "language_loss": 0.69703418,
+      "learning_rate": 8.49502199727905e-08,
+      "loss": 0.71910667,
+      "num_input_tokens_seen": 163579540,
+      "step": 7565,
+      "time_per_iteration": 2.6490581035614014
+    },
+    {
+      "auxiliary_loss_clip": 0.01168512,
+      "auxiliary_loss_mlp": 0.01030082,
+      "balance_loss_clip": 1.04109573,
+      "balance_loss_mlp": 1.02220213,
+      "epoch": 0.9097577105753623,
+      "flos": 33292495388160.0,
+      "grad_norm": 2.444107435388698,
+      "language_loss": 0.65925193,
+      "learning_rate": 8.472574827008428e-08,
+      "loss": 0.68123794,
+      "num_input_tokens_seen": 163600425,
+      "step": 7566,
+      "time_per_iteration": 3.64900279045105
+    },
+    {
+      "auxiliary_loss_clip": 0.01178717,
+      "auxiliary_loss_mlp": 0.01024351,
+      "balance_loss_clip": 1.04584825,
+      "balance_loss_mlp": 1.01719534,
+      "epoch": 0.9098779534660013,
+      "flos": 21906443001600.0,
+      "grad_norm": 1.6318193180462692,
+      "language_loss": 0.84067166,
+      "learning_rate": 8.450156711295942e-08,
+      "loss": 0.86270225,
+      "num_input_tokens_seen": 163620595,
+      "step": 7567,
+      "time_per_iteration": 2.6893296241760254
+    },
+    {
+      "auxiliary_loss_clip": 0.0118378,
+      "auxiliary_loss_mlp": 0.01028563,
+      "balance_loss_clip": 1.04646039,
+      "balance_loss_mlp": 1.02158642,
+      "epoch": 0.9099981963566404,
+      "flos": 25730354102400.0,
+      "grad_norm": 1.930160805931789,
+      "language_loss": 0.8681227,
+      "learning_rate": 8.427767653542383e-08,
+      "loss": 0.89024615,
+      "num_input_tokens_seen": 163635765,
+      "step": 7568,
+      "time_per_iteration": 2.6325042247772217
+    },
+    {
+      "auxiliary_loss_clip": 0.01196849,
+      "auxiliary_loss_mlp": 0.01025471,
+      "balance_loss_clip": 1.04006469,
+      "balance_loss_mlp": 1.01860476,
+      "epoch": 0.9101184392472795,
+      "flos": 21069437304960.0,
+      "grad_norm": 1.740888936769195,
+      "language_loss": 0.70053625,
+      "learning_rate": 8.405407657144125e-08,
+      "loss": 0.72275943,
+      "num_input_tokens_seen": 163654925,
+      "step": 7569,
+      "time_per_iteration": 2.7721943855285645
+    },
+    {
+      "auxiliary_loss_clip": 0.01177456,
+      "auxiliary_loss_mlp": 0.01027273,
+      "balance_loss_clip": 1.04310799,
+      "balance_loss_mlp": 1.01998341,
+      "epoch": 0.9102386821379186,
+      "flos": 24752614919040.0,
+      "grad_norm": 1.8050131802233684,
+      "language_loss": 0.72513235,
+      "learning_rate": 8.383076725493232e-08,
+      "loss": 0.74717963,
+      "num_input_tokens_seen": 163672245,
+      "step": 7570,
+      "time_per_iteration": 3.566356658935547
+    },
+    {
+      "auxiliary_loss_clip": 0.01175719,
+      "auxiliary_loss_mlp": 0.01022317,
+      "balance_loss_clip": 1.04468179,
+      "balance_loss_mlp": 1.01528692,
+      "epoch": 0.9103589250285576,
+      "flos": 22562818179840.0,
+      "grad_norm": 2.0432104491595884,
+      "language_loss": 0.67941582,
+      "learning_rate": 8.360774861977216e-08,
+      "loss": 0.70139623,
+      "num_input_tokens_seen": 163691365,
+      "step": 7571,
+      "time_per_iteration": 3.4600698947906494
+    },
+    {
+      "auxiliary_loss_clip": 0.01180495,
+      "auxiliary_loss_mlp": 0.01023123,
+      "balance_loss_clip": 1.03953815,
+      "balance_loss_mlp": 1.01568401,
+      "epoch": 0.9104791679191968,
+      "flos": 25373474524800.0,
+      "grad_norm": 2.003997180253617,
+      "language_loss": 0.7440486,
+      "learning_rate": 8.338502069979281e-08,
+      "loss": 0.76608479,
+      "num_input_tokens_seen": 163711675,
+      "step": 7572,
+      "time_per_iteration": 2.6929636001586914
+    },
+    {
+      "auxiliary_loss_clip": 0.01175263,
+      "auxiliary_loss_mlp": 0.01027973,
+      "balance_loss_clip": 1.04235303,
+      "balance_loss_mlp": 1.0205698,
+      "epoch": 0.9105994108098359,
+      "flos": 14426681558400.0,
+      "grad_norm": 3.156125523669606,
+      "language_loss": 0.80854678,
+      "learning_rate": 8.316258352878214e-08,
+      "loss": 0.83057916,
+      "num_input_tokens_seen": 163728095,
+      "step": 7573,
+      "time_per_iteration": 2.544158935546875
+    },
+    {
+      "auxiliary_loss_clip": 0.01180019,
+      "auxiliary_loss_mlp": 0.01021275,
+      "balance_loss_clip": 1.04569817,
+      "balance_loss_mlp": 1.01424754,
+      "epoch": 0.9107196537004749,
+      "flos": 26718292748160.0,
+      "grad_norm": 1.7809485400531129,
+      "language_loss": 0.70886236,
+      "learning_rate": 8.294043714048338e-08,
+      "loss": 0.73087525,
+      "num_input_tokens_seen": 163747175,
+      "step": 7574,
+      "time_per_iteration": 2.720402717590332
+    },
+    {
+      "auxiliary_loss_clip": 0.01086,
+      "auxiliary_loss_mlp": 0.01002293,
+      "balance_loss_clip": 1.00908232,
+      "balance_loss_mlp": 1.00113702,
+      "epoch": 0.9108398965911141,
+      "flos": 66532634703360.0,
+      "grad_norm": 0.7494417691554045,
+      "language_loss": 0.60437191,
+      "learning_rate": 8.271858156859624e-08,
+      "loss": 0.62525487,
+      "num_input_tokens_seen": 163812545,
+      "step": 7575,
+      "time_per_iteration": 3.31634259223938
+    },
+    {
+      "auxiliary_loss_clip": 0.01164106,
+      "auxiliary_loss_mlp": 0.01026016,
+      "balance_loss_clip": 1.04549932,
+      "balance_loss_mlp": 1.01906347,
+      "epoch": 0.9109601394817531,
+      "flos": 25411073086080.0,
+      "grad_norm": 1.6249152493924315,
+      "language_loss": 0.73925269,
+      "learning_rate": 8.249701684677557e-08,
+      "loss": 0.76115388,
+      "num_input_tokens_seen": 163833870,
+      "step": 7576,
+      "time_per_iteration": 2.5734169483184814
+    },
+    {
+      "auxiliary_loss_clip": 0.01178328,
+      "auxiliary_loss_mlp": 0.01023627,
+      "balance_loss_clip": 1.04990363,
+      "balance_loss_mlp": 1.01608384,
+      "epoch": 0.9110803823723922,
+      "flos": 22747794243840.0,
+      "grad_norm": 1.909107378960764,
+      "language_loss": 0.81030345,
+      "learning_rate": 8.227574300863294e-08,
+      "loss": 0.83232301,
+      "num_input_tokens_seen": 163854040,
+      "step": 7577,
+      "time_per_iteration": 3.6243858337402344
+    },
+    {
+      "auxiliary_loss_clip": 0.01189961,
+      "auxiliary_loss_mlp": 0.01021875,
+      "balance_loss_clip": 1.04635382,
+      "balance_loss_mlp": 1.01442194,
+      "epoch": 0.9112006252630314,
+      "flos": 48469924131840.0,
+      "grad_norm": 1.6818632121610129,
+      "language_loss": 0.69769609,
+      "learning_rate": 8.205476008773548e-08,
+      "loss": 0.71981442,
+      "num_input_tokens_seen": 163878040,
+      "step": 7578,
+      "time_per_iteration": 2.84867525100708
+    },
+    {
+      "auxiliary_loss_clip": 0.01188833,
+      "auxiliary_loss_mlp": 0.01027246,
+      "balance_loss_clip": 1.04450643,
+      "balance_loss_mlp": 1.01958084,
+      "epoch": 0.9113208681536704,
+      "flos": 30009649829760.0,
+      "grad_norm": 2.009826471171645,
+      "language_loss": 0.82904303,
+      "learning_rate": 8.183406811760596e-08,
+      "loss": 0.8512038,
+      "num_input_tokens_seen": 163897770,
+      "step": 7579,
+      "time_per_iteration": 2.7619709968566895
+    },
+    {
+      "auxiliary_loss_clip": 0.01179665,
+      "auxiliary_loss_mlp": 0.01027123,
+      "balance_loss_clip": 1.04188287,
+      "balance_loss_mlp": 1.02019095,
+      "epoch": 0.9114411110443095,
+      "flos": 25594971742080.0,
+      "grad_norm": 1.6245575400791936,
+      "language_loss": 0.73915178,
+      "learning_rate": 8.161366713172313e-08,
+      "loss": 0.76121968,
+      "num_input_tokens_seen": 163920160,
+      "step": 7580,
+      "time_per_iteration": 2.6986281871795654
+    },
+    {
+      "auxiliary_loss_clip": 0.01196404,
+      "auxiliary_loss_mlp": 0.01026735,
+      "balance_loss_clip": 1.04135728,
+      "balance_loss_mlp": 1.01907611,
+      "epoch": 0.9115613539349486,
+      "flos": 18399729928320.0,
+      "grad_norm": 2.349394812055369,
+      "language_loss": 0.8402406,
+      "learning_rate": 8.139355716352137e-08,
+      "loss": 0.86247206,
+      "num_input_tokens_seen": 163935000,
+      "step": 7581,
+      "time_per_iteration": 2.6584115028381348
+    },
+    {
+      "auxiliary_loss_clip": 0.01186489,
+      "auxiliary_loss_mlp": 0.0102637,
+      "balance_loss_clip": 1.04299045,
+      "balance_loss_mlp": 1.01880288,
+      "epoch": 0.9116815968255877,
+      "flos": 21726171619200.0,
+      "grad_norm": 1.6066692538603609,
+      "language_loss": 0.7003817,
+      "learning_rate": 8.117373824639196e-08,
+      "loss": 0.72251034,
+      "num_input_tokens_seen": 163955265,
+      "step": 7582,
+      "time_per_iteration": 2.6353492736816406
+    },
+    {
+      "auxiliary_loss_clip": 0.01059819,
+      "auxiliary_loss_mlp": 0.0100217,
+      "balance_loss_clip": 1.00880623,
+      "balance_loss_mlp": 1.00108492,
+      "epoch": 0.9118018397162267,
+      "flos": 65363526835200.0,
+      "grad_norm": 0.7213409140852138,
+      "language_loss": 0.59224498,
+      "learning_rate": 8.095421041368067e-08,
+      "loss": 0.61286485,
+      "num_input_tokens_seen": 164014680,
+      "step": 7583,
+      "time_per_iteration": 3.1141934394836426
+    },
+    {
+      "auxiliary_loss_clip": 0.01182479,
+      "auxiliary_loss_mlp": 0.01378149,
+      "balance_loss_clip": 1.0452441,
+      "balance_loss_mlp": 1.00013709,
+      "epoch": 0.9119220826068659,
+      "flos": 20922885815040.0,
+      "grad_norm": 2.122074076544407,
+      "language_loss": 0.70366037,
+      "learning_rate": 8.073497369868999e-08,
+      "loss": 0.72926664,
+      "num_input_tokens_seen": 164033140,
+      "step": 7584,
+      "time_per_iteration": 2.662602186203003
+    },
+    {
+      "auxiliary_loss_clip": 0.01191234,
+      "auxiliary_loss_mlp": 0.01021839,
+      "balance_loss_clip": 1.0442965,
+      "balance_loss_mlp": 1.01414466,
+      "epoch": 0.912042325497505,
+      "flos": 28366449327360.0,
+      "grad_norm": 1.5987158698763753,
+      "language_loss": 0.75559944,
+      "learning_rate": 8.051602813467772e-08,
+      "loss": 0.77773017,
+      "num_input_tokens_seen": 164054995,
+      "step": 7585,
+      "time_per_iteration": 2.6948559284210205
+    },
+    {
+      "auxiliary_loss_clip": 0.01178721,
+      "auxiliary_loss_mlp": 0.0102474,
+      "balance_loss_clip": 1.04663777,
+      "balance_loss_mlp": 1.01766849,
+      "epoch": 0.912162568388144,
+      "flos": 17566782468480.0,
+      "grad_norm": 1.785342714970948,
+      "language_loss": 0.71195912,
+      "learning_rate": 8.029737375485756e-08,
+      "loss": 0.73399377,
+      "num_input_tokens_seen": 164074225,
+      "step": 7586,
+      "time_per_iteration": 2.6458895206451416
+    },
+    {
+      "auxiliary_loss_clip": 0.01168646,
+      "auxiliary_loss_mlp": 0.01021602,
+      "balance_loss_clip": 1.04770398,
+      "balance_loss_mlp": 1.01400256,
+      "epoch": 0.9122828112787832,
+      "flos": 19827897661440.0,
+      "grad_norm": 1.7599387487745644,
+      "language_loss": 0.721892,
+      "learning_rate": 8.007901059239986e-08,
+      "loss": 0.7437945,
+      "num_input_tokens_seen": 164093505,
+      "step": 7587,
+      "time_per_iteration": 2.5693204402923584
+    },
+    {
+      "auxiliary_loss_clip": 0.01182573,
+      "auxiliary_loss_mlp": 0.01024428,
+      "balance_loss_clip": 1.04161036,
+      "balance_loss_mlp": 1.01723385,
+      "epoch": 0.9124030541694222,
+      "flos": 20813789232000.0,
+      "grad_norm": 1.6555199959687823,
+      "language_loss": 0.79626441,
+      "learning_rate": 7.986093868042964e-08,
+      "loss": 0.8183344,
+      "num_input_tokens_seen": 164113750,
+      "step": 7588,
+      "time_per_iteration": 2.69376540184021
+    },
+    {
+      "auxiliary_loss_clip": 0.01174898,
+      "auxiliary_loss_mlp": 0.01026505,
+      "balance_loss_clip": 1.04578733,
+      "balance_loss_mlp": 1.02012992,
+      "epoch": 0.9125232970600613,
+      "flos": 25192305302400.0,
+      "grad_norm": 1.770396095399832,
+      "language_loss": 0.67838025,
+      "learning_rate": 7.964315805202826e-08,
+      "loss": 0.70039433,
+      "num_input_tokens_seen": 164134330,
+      "step": 7589,
+      "time_per_iteration": 2.6720666885375977
+    },
+    {
+      "auxiliary_loss_clip": 0.01185768,
+      "auxiliary_loss_mlp": 0.01026185,
+      "balance_loss_clip": 1.04446316,
+      "balance_loss_mlp": 1.01885653,
+      "epoch": 0.9126435399507005,
+      "flos": 19719591177600.0,
+      "grad_norm": 1.7821864886057974,
+      "language_loss": 0.73009229,
+      "learning_rate": 7.942566874023304e-08,
+      "loss": 0.75221181,
+      "num_input_tokens_seen": 164153515,
+      "step": 7590,
+      "time_per_iteration": 2.6359989643096924
+    },
+    {
+      "auxiliary_loss_clip": 0.0117932,
+      "auxiliary_loss_mlp": 0.01019809,
+      "balance_loss_clip": 1.04191697,
+      "balance_loss_mlp": 1.01268911,
+      "epoch": 0.9127637828413395,
+      "flos": 19573614305280.0,
+      "grad_norm": 2.3549860471458994,
+      "language_loss": 0.70088214,
+      "learning_rate": 7.920847077803649e-08,
+      "loss": 0.72287345,
+      "num_input_tokens_seen": 164171305,
+      "step": 7591,
+      "time_per_iteration": 2.5678529739379883
+    },
+    {
+      "auxiliary_loss_clip": 0.01183882,
+      "auxiliary_loss_mlp": 0.01030745,
+      "balance_loss_clip": 1.03519583,
+      "balance_loss_mlp": 1.0237956,
+      "epoch": 0.9128840257319786,
+      "flos": 20230635928320.0,
+      "grad_norm": 1.826435280088008,
+      "language_loss": 0.81989932,
+      "learning_rate": 7.899156419838826e-08,
+      "loss": 0.84204555,
+      "num_input_tokens_seen": 164190275,
+      "step": 7592,
+      "time_per_iteration": 3.657386541366577
+    },
+    {
+      "auxiliary_loss_clip": 0.0119044,
+      "auxiliary_loss_mlp": 0.0102791,
+      "balance_loss_clip": 1.04193187,
+      "balance_loss_mlp": 1.02096558,
+      "epoch": 0.9130042686226177,
+      "flos": 24858658846080.0,
+      "grad_norm": 1.7933298894395047,
+      "language_loss": 0.65910459,
+      "learning_rate": 7.87749490341918e-08,
+      "loss": 0.68128812,
+      "num_input_tokens_seen": 164210550,
+      "step": 7593,
+      "time_per_iteration": 2.7077548503875732
+    },
+    {
+      "auxiliary_loss_clip": 0.01171664,
+      "auxiliary_loss_mlp": 0.01026717,
+      "balance_loss_clip": 1.04889619,
+      "balance_loss_mlp": 1.01924539,
+      "epoch": 0.9131245115132568,
+      "flos": 23581747284480.0,
+      "grad_norm": 1.9528776397657162,
+      "language_loss": 0.83380967,
+      "learning_rate": 7.855862531830836e-08,
+      "loss": 0.85579348,
+      "num_input_tokens_seen": 164226660,
+      "step": 7594,
+      "time_per_iteration": 2.581590414047241
+    },
+    {
+      "auxiliary_loss_clip": 0.01170819,
+      "auxiliary_loss_mlp": 0.01025749,
+      "balance_loss_clip": 1.04303348,
+      "balance_loss_mlp": 1.01834583,
+      "epoch": 0.9132447544038959,
+      "flos": 19931607204480.0,
+      "grad_norm": 1.7574401606583503,
+      "language_loss": 0.72797918,
+      "learning_rate": 7.834259308355373e-08,
+      "loss": 0.74994481,
+      "num_input_tokens_seen": 164245425,
+      "step": 7595,
+      "time_per_iteration": 3.510378122329712
+    },
+    {
+      "auxiliary_loss_clip": 0.01191416,
+      "auxiliary_loss_mlp": 0.01026776,
+      "balance_loss_clip": 1.03847182,
+      "balance_loss_mlp": 1.01945686,
+      "epoch": 0.9133649972945349,
+      "flos": 21981747864960.0,
+      "grad_norm": 7.387302881285032,
+      "language_loss": 0.74860656,
+      "learning_rate": 7.812685236269989e-08,
+      "loss": 0.77078849,
+      "num_input_tokens_seen": 164264085,
+      "step": 7596,
+      "time_per_iteration": 2.736605644226074
+    },
+    {
+      "auxiliary_loss_clip": 0.01093978,
+      "auxiliary_loss_mlp": 0.01001005,
+      "balance_loss_clip": 1.00987113,
+      "balance_loss_mlp": 0.99988407,
+      "epoch": 0.9134852401851741,
+      "flos": 71240523511680.0,
+      "grad_norm": 0.7924383527087546,
+      "language_loss": 0.58673722,
+      "learning_rate": 7.791140318847445e-08,
+      "loss": 0.60768706,
+      "num_input_tokens_seen": 164322220,
+      "step": 7597,
+      "time_per_iteration": 4.13280725479126
+    },
+    {
+      "auxiliary_loss_clip": 0.01181427,
+      "auxiliary_loss_mlp": 0.01028201,
+      "balance_loss_clip": 1.04605448,
+      "balance_loss_mlp": 1.02160549,
+      "epoch": 0.9136054830758131,
+      "flos": 23626923615360.0,
+      "grad_norm": 1.6552329886663624,
+      "language_loss": 0.80395776,
+      "learning_rate": 7.769624559356081e-08,
+      "loss": 0.8260541,
+      "num_input_tokens_seen": 164345615,
+      "step": 7598,
+      "time_per_iteration": 2.7800025939941406
+    },
+    {
+      "auxiliary_loss_clip": 0.01174238,
+      "auxiliary_loss_mlp": 0.01025172,
+      "balance_loss_clip": 1.04453635,
+      "balance_loss_mlp": 1.01745629,
+      "epoch": 0.9137257259664522,
+      "flos": 23438858981760.0,
+      "grad_norm": 3.1135486074152614,
+      "language_loss": 0.74956989,
+      "learning_rate": 7.748137961059842e-08,
+      "loss": 0.77156401,
+      "num_input_tokens_seen": 164359595,
+      "step": 7599,
+      "time_per_iteration": 2.6657750606536865
+    },
+    {
+      "auxiliary_loss_clip": 0.01166208,
+      "auxiliary_loss_mlp": 0.01025068,
+      "balance_loss_clip": 1.0481559,
+      "balance_loss_mlp": 1.01828504,
+      "epoch": 0.9138459688570914,
+      "flos": 19127854523520.0,
+      "grad_norm": 2.136078321431987,
+      "language_loss": 0.65264726,
+      "learning_rate": 7.726680527218211e-08,
+      "loss": 0.67456007,
+      "num_input_tokens_seen": 164376635,
+      "step": 7600,
+      "time_per_iteration": 2.646888256072998
+    },
+    {
+      "auxiliary_loss_clip": 0.01167908,
+      "auxiliary_loss_mlp": 0.01025696,
+      "balance_loss_clip": 1.04521585,
+      "balance_loss_mlp": 1.01790822,
+      "epoch": 0.9139662117477304,
+      "flos": 46281240714240.0,
+      "grad_norm": 1.8386386314895873,
+      "language_loss": 0.75580394,
+      "learning_rate": 7.70525226108627e-08,
+      "loss": 0.77773994,
+      "num_input_tokens_seen": 164400305,
+      "step": 7601,
+      "time_per_iteration": 2.8000574111938477
+    },
+    {
+      "auxiliary_loss_clip": 0.0118011,
+      "auxiliary_loss_mlp": 0.01026202,
+      "balance_loss_clip": 1.04908061,
+      "balance_loss_mlp": 1.01904988,
+      "epoch": 0.9140864546383695,
+      "flos": 22273198819200.0,
+      "grad_norm": 2.0320750971959893,
+      "language_loss": 0.79713035,
+      "learning_rate": 7.683853165914666e-08,
+      "loss": 0.81919348,
+      "num_input_tokens_seen": 164418075,
+      "step": 7602,
+      "time_per_iteration": 3.563960552215576
+    },
+    {
+      "auxiliary_loss_clip": 0.01202612,
+      "auxiliary_loss_mlp": 0.01027625,
+      "balance_loss_clip": 1.04162264,
+      "balance_loss_mlp": 1.02015638,
+      "epoch": 0.9142066975290086,
+      "flos": 17530009920000.0,
+      "grad_norm": 2.408229685194719,
+      "language_loss": 0.77170682,
+      "learning_rate": 7.662483244949602e-08,
+      "loss": 0.79400915,
+      "num_input_tokens_seen": 164435335,
+      "step": 7603,
+      "time_per_iteration": 2.765648603439331
+    },
+    {
+      "auxiliary_loss_clip": 0.01186201,
+      "auxiliary_loss_mlp": 0.01023991,
+      "balance_loss_clip": 1.04184055,
+      "balance_loss_mlp": 1.01715159,
+      "epoch": 0.9143269404196477,
+      "flos": 17712148809600.0,
+      "grad_norm": 2.3092717370937543,
+      "language_loss": 0.80412686,
+      "learning_rate": 7.641142501432951e-08,
+      "loss": 0.82622874,
+      "num_input_tokens_seen": 164451530,
+      "step": 7604,
+      "time_per_iteration": 2.6561129093170166
+    },
+    {
+      "auxiliary_loss_clip": 0.01179932,
+      "auxiliary_loss_mlp": 0.01031226,
+      "balance_loss_clip": 1.04213428,
+      "balance_loss_mlp": 1.02386427,
+      "epoch": 0.9144471833102867,
+      "flos": 33323414019840.0,
+      "grad_norm": 2.3511741028615405,
+      "language_loss": 0.73713005,
+      "learning_rate": 7.619830938602013e-08,
+      "loss": 0.75924164,
+      "num_input_tokens_seen": 164472755,
+      "step": 7605,
+      "time_per_iteration": 2.7594525814056396
+    },
+    {
+      "auxiliary_loss_clip": 0.01168375,
+      "auxiliary_loss_mlp": 0.01024272,
+      "balance_loss_clip": 1.04473138,
+      "balance_loss_mlp": 1.01694012,
+      "epoch": 0.9145674262009259,
+      "flos": 21068970428160.0,
+      "grad_norm": 6.653798930516699,
+      "language_loss": 0.82328582,
+      "learning_rate": 7.598548559689777e-08,
+      "loss": 0.84521234,
+      "num_input_tokens_seen": 164491155,
+      "step": 7606,
+      "time_per_iteration": 2.595553398132324
+    },
+    {
+      "auxiliary_loss_clip": 0.01184303,
+      "auxiliary_loss_mlp": 0.01024005,
+      "balance_loss_clip": 1.04105103,
+      "balance_loss_mlp": 1.01689434,
+      "epoch": 0.914687669091565,
+      "flos": 16800269212800.0,
+      "grad_norm": 2.2894450147109167,
+      "language_loss": 0.81213999,
+      "learning_rate": 7.577295367924751e-08,
+      "loss": 0.83422309,
+      "num_input_tokens_seen": 164507555,
+      "step": 7607,
+      "time_per_iteration": 2.6750619411468506
+    },
+    {
+      "auxiliary_loss_clip": 0.01191962,
+      "auxiliary_loss_mlp": 0.01024347,
+      "balance_loss_clip": 1.04700494,
+      "balance_loss_mlp": 1.01702714,
+      "epoch": 0.914807911982204,
+      "flos": 25773627012480.0,
+      "grad_norm": 2.311815280086121,
+      "language_loss": 0.82082736,
+      "learning_rate": 7.556071366531002e-08,
+      "loss": 0.84299052,
+      "num_input_tokens_seen": 164528525,
+      "step": 7608,
+      "time_per_iteration": 2.6764302253723145
+    },
+    {
+      "auxiliary_loss_clip": 0.01176023,
+      "auxiliary_loss_mlp": 0.0103086,
+      "balance_loss_clip": 1.04589415,
+      "balance_loss_mlp": 1.02342176,
+      "epoch": 0.9149281548728432,
+      "flos": 19208043636480.0,
+      "grad_norm": 4.027985119354868,
+      "language_loss": 0.79069477,
+      "learning_rate": 7.53487655872822e-08,
+      "loss": 0.81276357,
+      "num_input_tokens_seen": 164547695,
+      "step": 7609,
+      "time_per_iteration": 2.6549649238586426
+    },
+    {
+      "auxiliary_loss_clip": 0.01203907,
+      "auxiliary_loss_mlp": 0.01023471,
+      "balance_loss_clip": 1.03943932,
+      "balance_loss_mlp": 1.01653576,
+      "epoch": 0.9150483977634822,
+      "flos": 26870554500480.0,
+      "grad_norm": 2.0223752814736167,
+      "language_loss": 0.73725462,
+      "learning_rate": 7.513710947731656e-08,
+      "loss": 0.7595284,
+      "num_input_tokens_seen": 164568905,
+      "step": 7610,
+      "time_per_iteration": 2.7899904251098633
+    },
+    {
+      "auxiliary_loss_clip": 0.01174327,
+      "auxiliary_loss_mlp": 0.01026423,
+      "balance_loss_clip": 1.04283643,
+      "balance_loss_mlp": 1.01961923,
+      "epoch": 0.9151686406541213,
+      "flos": 21908956953600.0,
+      "grad_norm": 2.200684749209769,
+      "language_loss": 0.85162568,
+      "learning_rate": 7.492574536752095e-08,
+      "loss": 0.87363321,
+      "num_input_tokens_seen": 164588895,
+      "step": 7611,
+      "time_per_iteration": 2.6686530113220215
+    },
+    {
+      "auxiliary_loss_clip": 0.01174399,
+      "auxiliary_loss_mlp": 0.01021699,
+      "balance_loss_clip": 1.04648805,
+      "balance_loss_mlp": 1.01509237,
+      "epoch": 0.9152888835447605,
+      "flos": 27308556944640.0,
+      "grad_norm": 1.9237483262776582,
+      "language_loss": 0.78099233,
+      "learning_rate": 7.471467328995907e-08,
+      "loss": 0.80295324,
+      "num_input_tokens_seen": 164607705,
+      "step": 7612,
+      "time_per_iteration": 2.723728656768799
+    },
+    {
+      "auxiliary_loss_clip": 0.01235081,
+      "auxiliary_loss_mlp": 0.01023464,
+      "balance_loss_clip": 1.03702974,
+      "balance_loss_mlp": 1.01598358,
+      "epoch": 0.9154091264353995,
+      "flos": 13370728510080.0,
+      "grad_norm": 2.4383751461649013,
+      "language_loss": 0.60786998,
+      "learning_rate": 7.450389327665018e-08,
+      "loss": 0.63045543,
+      "num_input_tokens_seen": 164625540,
+      "step": 7613,
+      "time_per_iteration": 3.1337428092956543
+    },
+    {
+      "auxiliary_loss_clip": 0.01196236,
+      "auxiliary_loss_mlp": 0.01023284,
+      "balance_loss_clip": 1.04584396,
+      "balance_loss_mlp": 1.01579189,
+      "epoch": 0.9155293693260386,
+      "flos": 20193037367040.0,
+      "grad_norm": 2.403811149476224,
+      "language_loss": 0.6795519,
+      "learning_rate": 7.429340535957029e-08,
+      "loss": 0.70174706,
+      "num_input_tokens_seen": 164640735,
+      "step": 7614,
+      "time_per_iteration": 3.045193910598755
+    },
+    {
+      "auxiliary_loss_clip": 0.01187739,
+      "auxiliary_loss_mlp": 0.01022599,
+      "balance_loss_clip": 1.04512382,
+      "balance_loss_mlp": 1.01538706,
+      "epoch": 0.9156496122166777,
+      "flos": 19354990176000.0,
+      "grad_norm": 2.6929445124277485,
+      "language_loss": 0.70418817,
+      "learning_rate": 7.40832095706494e-08,
+      "loss": 0.72629154,
+      "num_input_tokens_seen": 164657430,
+      "step": 7615,
+      "time_per_iteration": 2.617128849029541
+    },
+    {
+      "auxiliary_loss_clip": 0.01201557,
+      "auxiliary_loss_mlp": 0.01020443,
+      "balance_loss_clip": 1.04510474,
+      "balance_loss_mlp": 1.01349878,
+      "epoch": 0.9157698551073168,
+      "flos": 21107287261440.0,
+      "grad_norm": 1.8115430165904447,
+      "language_loss": 0.80103171,
+      "learning_rate": 7.387330594177443e-08,
+      "loss": 0.82325172,
+      "num_input_tokens_seen": 164679505,
+      "step": 7616,
+      "time_per_iteration": 2.7083215713500977
+    },
+    {
+      "auxiliary_loss_clip": 0.01189541,
+      "auxiliary_loss_mlp": 0.01025099,
+      "balance_loss_clip": 1.04437101,
+      "balance_loss_mlp": 1.01769614,
+      "epoch": 0.9158900979979558,
+      "flos": 25193167228800.0,
+      "grad_norm": 2.2818230829149533,
+      "language_loss": 0.78858614,
+      "learning_rate": 7.366369450478749e-08,
+      "loss": 0.81073248,
+      "num_input_tokens_seen": 164700615,
+      "step": 7617,
+      "time_per_iteration": 3.626487970352173
+    },
+    {
+      "auxiliary_loss_clip": 0.01187252,
+      "auxiliary_loss_mlp": 0.01023101,
+      "balance_loss_clip": 1.0422318,
+      "balance_loss_mlp": 1.01618052,
+      "epoch": 0.916010340888595,
+      "flos": 30146648302080.0,
+      "grad_norm": 1.7036797478402306,
+      "language_loss": 0.66451824,
+      "learning_rate": 7.345437529148646e-08,
+      "loss": 0.68662179,
+      "num_input_tokens_seen": 164719625,
+      "step": 7618,
+      "time_per_iteration": 2.731440544128418
+    },
+    {
+      "auxiliary_loss_clip": 0.0119264,
+      "auxiliary_loss_mlp": 0.01025481,
+      "balance_loss_clip": 1.04261148,
+      "balance_loss_mlp": 1.01864779,
+      "epoch": 0.9161305837792341,
+      "flos": 17091827907840.0,
+      "grad_norm": 1.9159254236010428,
+      "language_loss": 0.72796553,
+      "learning_rate": 7.324534833362483e-08,
+      "loss": 0.75014675,
+      "num_input_tokens_seen": 164737200,
+      "step": 7619,
+      "time_per_iteration": 2.6449859142303467
+    },
+    {
+      "auxiliary_loss_clip": 0.01185204,
+      "auxiliary_loss_mlp": 0.01028573,
+      "balance_loss_clip": 1.04614592,
+      "balance_loss_mlp": 1.02159381,
+      "epoch": 0.9162508266698731,
+      "flos": 22893699288960.0,
+      "grad_norm": 1.8004178594729294,
+      "language_loss": 0.6829887,
+      "learning_rate": 7.303661366291192e-08,
+      "loss": 0.7051264,
+      "num_input_tokens_seen": 164757870,
+      "step": 7620,
+      "time_per_iteration": 2.660576820373535
+    },
+    {
+      "auxiliary_loss_clip": 0.01197632,
+      "auxiliary_loss_mlp": 0.01025107,
+      "balance_loss_clip": 1.0399878,
+      "balance_loss_mlp": 1.01822519,
+      "epoch": 0.9163710695605123,
+      "flos": 19974808287360.0,
+      "grad_norm": 2.0604482402028954,
+      "language_loss": 0.81807172,
+      "learning_rate": 7.28281713110126e-08,
+      "loss": 0.84029913,
+      "num_input_tokens_seen": 164775945,
+      "step": 7621,
+      "time_per_iteration": 3.6666712760925293
+    },
+    {
+      "auxiliary_loss_clip": 0.0117907,
+      "auxiliary_loss_mlp": 0.01021236,
+      "balance_loss_clip": 1.04403996,
+      "balance_loss_mlp": 1.01430678,
+      "epoch": 0.9164913124511513,
+      "flos": 22783812606720.0,
+      "grad_norm": 1.8404589094003678,
+      "language_loss": 0.77135885,
+      "learning_rate": 7.262002130954759e-08,
+      "loss": 0.7933619,
+      "num_input_tokens_seen": 164794400,
+      "step": 7622,
+      "time_per_iteration": 3.613988161087036
+    },
+    {
+      "auxiliary_loss_clip": 0.01203451,
+      "auxiliary_loss_mlp": 0.01027855,
+      "balance_loss_clip": 1.03997397,
+      "balance_loss_mlp": 1.02053285,
+      "epoch": 0.9166115553417904,
+      "flos": 24900854348160.0,
+      "grad_norm": 1.8433396288163268,
+      "language_loss": 0.78748578,
+      "learning_rate": 7.241216369009296e-08,
+      "loss": 0.80979884,
+      "num_input_tokens_seen": 164814585,
+      "step": 7623,
+      "time_per_iteration": 2.7563016414642334
+    },
+    {
+      "auxiliary_loss_clip": 0.01168424,
+      "auxiliary_loss_mlp": 0.01025678,
+      "balance_loss_clip": 1.04670262,
+      "balance_loss_mlp": 1.01875198,
+      "epoch": 0.9167317982324296,
+      "flos": 25702919089920.0,
+      "grad_norm": 1.9894835084000808,
+      "language_loss": 0.66781497,
+      "learning_rate": 7.220459848418037e-08,
+      "loss": 0.68975604,
+      "num_input_tokens_seen": 164834660,
+      "step": 7624,
+      "time_per_iteration": 2.658539295196533
+    },
+    {
+      "auxiliary_loss_clip": 0.01166517,
+      "auxiliary_loss_mlp": 0.01026248,
+      "balance_loss_clip": 1.0485971,
+      "balance_loss_mlp": 1.01957512,
+      "epoch": 0.9168520411230686,
+      "flos": 15632813370240.0,
+      "grad_norm": 1.8442056059534566,
+      "language_loss": 0.79646373,
+      "learning_rate": 7.199732572329708e-08,
+      "loss": 0.81839132,
+      "num_input_tokens_seen": 164852560,
+      "step": 7625,
+      "time_per_iteration": 2.5389339923858643
+    },
+    {
+      "auxiliary_loss_clip": 0.01195951,
+      "auxiliary_loss_mlp": 0.01026662,
+      "balance_loss_clip": 1.04255176,
+      "balance_loss_mlp": 1.01965833,
+      "epoch": 0.9169722840137077,
+      "flos": 30258151096320.0,
+      "grad_norm": 2.5104371681564954,
+      "language_loss": 0.75936788,
+      "learning_rate": 7.179034543888684e-08,
+      "loss": 0.78159398,
+      "num_input_tokens_seen": 164872065,
+      "step": 7626,
+      "time_per_iteration": 2.7492763996124268
+    },
+    {
+      "auxiliary_loss_clip": 0.01176682,
+      "auxiliary_loss_mlp": 0.01021592,
+      "balance_loss_clip": 1.04369736,
+      "balance_loss_mlp": 1.01476157,
+      "epoch": 0.9170925269043467,
+      "flos": 22491643380480.0,
+      "grad_norm": 7.776888002302232,
+      "language_loss": 0.77499193,
+      "learning_rate": 7.158365766234808e-08,
+      "loss": 0.79697466,
+      "num_input_tokens_seen": 164890915,
+      "step": 7627,
+      "time_per_iteration": 2.638888120651245
+    },
+    {
+      "auxiliary_loss_clip": 0.01180247,
+      "auxiliary_loss_mlp": 0.01025323,
+      "balance_loss_clip": 1.03804541,
+      "balance_loss_mlp": 1.01762772,
+      "epoch": 0.9172127697949859,
+      "flos": 22893914770560.0,
+      "grad_norm": 1.7829833128632673,
+      "language_loss": 0.72326702,
+      "learning_rate": 7.137726242503527e-08,
+      "loss": 0.7453227,
+      "num_input_tokens_seen": 164909835,
+      "step": 7628,
+      "time_per_iteration": 3.585360288619995
+    },
+    {
+      "auxiliary_loss_clip": 0.01176318,
+      "auxiliary_loss_mlp": 0.01378678,
+      "balance_loss_clip": 1.04697216,
+      "balance_loss_mlp": 1.00016642,
+      "epoch": 0.917333012685625,
+      "flos": 17451867882240.0,
+      "grad_norm": 2.1843010119215793,
+      "language_loss": 0.77780735,
+      "learning_rate": 7.11711597582585e-08,
+      "loss": 0.80335736,
+      "num_input_tokens_seen": 164927195,
+      "step": 7629,
+      "time_per_iteration": 2.5966873168945312
+    },
+    {
+      "auxiliary_loss_clip": 0.01192471,
+      "auxiliary_loss_mlp": 0.01026777,
+      "balance_loss_clip": 1.0404793,
+      "balance_loss_mlp": 1.01994371,
+      "epoch": 0.917453255576264,
+      "flos": 14318949692160.0,
+      "grad_norm": 1.7424240705100842,
+      "language_loss": 0.80047178,
+      "learning_rate": 7.096534969328271e-08,
+      "loss": 0.82266426,
+      "num_input_tokens_seen": 164944640,
+      "step": 7630,
+      "time_per_iteration": 2.693420648574829
+    },
+    {
+      "auxiliary_loss_clip": 0.01185773,
+      "auxiliary_loss_mlp": 0.01024904,
+      "balance_loss_clip": 1.04142046,
+      "balance_loss_mlp": 1.01781678,
+      "epoch": 0.9175734984669032,
+      "flos": 20741177888640.0,
+      "grad_norm": 2.307011642584449,
+      "language_loss": 0.84167469,
+      "learning_rate": 7.075983226132987e-08,
+      "loss": 0.86378145,
+      "num_input_tokens_seen": 164963570,
+      "step": 7631,
+      "time_per_iteration": 2.6943302154541016
+    },
+    {
+      "auxiliary_loss_clip": 0.01189651,
+      "auxiliary_loss_mlp": 0.01379135,
+      "balance_loss_clip": 1.0440104,
+      "balance_loss_mlp": 1.00013113,
+      "epoch": 0.9176937413575422,
+      "flos": 14830497233280.0,
+      "grad_norm": 2.4147015268129315,
+      "language_loss": 0.790892,
+      "learning_rate": 7.055460749357656e-08,
+      "loss": 0.81657988,
+      "num_input_tokens_seen": 164979850,
+      "step": 7632,
+      "time_per_iteration": 2.633988618850708
+    },
+    {
+      "auxiliary_loss_clip": 0.01183499,
+      "auxiliary_loss_mlp": 0.01025326,
+      "balance_loss_clip": 1.04405439,
+      "balance_loss_mlp": 1.01812291,
+      "epoch": 0.9178139842481813,
+      "flos": 18474603828480.0,
+      "grad_norm": 1.633577770332044,
+      "language_loss": 0.70505285,
+      "learning_rate": 7.034967542115521e-08,
+      "loss": 0.72714108,
+      "num_input_tokens_seen": 164998115,
+      "step": 7633,
+      "time_per_iteration": 2.71527099609375
+    },
+    {
+      "auxiliary_loss_clip": 0.01163536,
+      "auxiliary_loss_mlp": 0.01378667,
+      "balance_loss_clip": 1.04293084,
+      "balance_loss_mlp": 1.00012016,
+      "epoch": 0.9179342271388204,
+      "flos": 20047455544320.0,
+      "grad_norm": 2.0472566824023537,
+      "language_loss": 0.75517672,
+      "learning_rate": 7.014503607515388e-08,
+      "loss": 0.78059876,
+      "num_input_tokens_seen": 165017420,
+      "step": 7634,
+      "time_per_iteration": 2.627797842025757
+    },
+    {
+      "auxiliary_loss_clip": 0.0118514,
+      "auxiliary_loss_mlp": 0.01026736,
+      "balance_loss_clip": 1.04704869,
+      "balance_loss_mlp": 1.01963139,
+      "epoch": 0.9180544700294595,
+      "flos": 24676232647680.0,
+      "grad_norm": 2.448042624905063,
+      "language_loss": 0.68216991,
+      "learning_rate": 6.994068948661592e-08,
+      "loss": 0.70428872,
+      "num_input_tokens_seen": 165035575,
+      "step": 7635,
+      "time_per_iteration": 2.717848777770996
+    },
+    {
+      "auxiliary_loss_clip": 0.01178387,
+      "auxiliary_loss_mlp": 0.01024517,
+      "balance_loss_clip": 1.04797459,
+      "balance_loss_mlp": 1.01622045,
+      "epoch": 0.9181747129200986,
+      "flos": 16727478301440.0,
+      "grad_norm": 1.9736718989535351,
+      "language_loss": 0.76875544,
+      "learning_rate": 6.973663568654142e-08,
+      "loss": 0.79078448,
+      "num_input_tokens_seen": 165053280,
+      "step": 7636,
+      "time_per_iteration": 2.5694196224212646
+    },
+    {
+      "auxiliary_loss_clip": 0.01166383,
+      "auxiliary_loss_mlp": 0.01025368,
+      "balance_loss_clip": 1.04687726,
+      "balance_loss_mlp": 1.01828051,
+      "epoch": 0.9182949558107377,
+      "flos": 24271626873600.0,
+      "grad_norm": 2.6824889317539395,
+      "language_loss": 0.65460968,
+      "learning_rate": 6.953287470588386e-08,
+      "loss": 0.6765272,
+      "num_input_tokens_seen": 165071235,
+      "step": 7637,
+      "time_per_iteration": 2.653327465057373
+    },
+    {
+      "auxiliary_loss_clip": 0.01179191,
+      "auxiliary_loss_mlp": 0.0102652,
+      "balance_loss_clip": 1.04435265,
+      "balance_loss_mlp": 1.01870561,
+      "epoch": 0.9184151987013768,
+      "flos": 22082117443200.0,
+      "grad_norm": 2.1623726469375755,
+      "language_loss": 0.85588366,
+      "learning_rate": 6.932940657555452e-08,
+      "loss": 0.87794077,
+      "num_input_tokens_seen": 165087365,
+      "step": 7638,
+      "time_per_iteration": 2.5825610160827637
+    },
+    {
+      "auxiliary_loss_clip": 0.01161674,
+      "auxiliary_loss_mlp": 0.01023743,
+      "balance_loss_clip": 1.04539073,
+      "balance_loss_mlp": 1.01721644,
+      "epoch": 0.9185354415920158,
+      "flos": 32166732257280.0,
+      "grad_norm": 1.4951725563036313,
+      "language_loss": 0.76348734,
+      "learning_rate": 6.912623132641938e-08,
+      "loss": 0.78534156,
+      "num_input_tokens_seen": 165112455,
+      "step": 7639,
+      "time_per_iteration": 2.7463901042938232
+    },
+    {
+      "auxiliary_loss_clip": 0.01185554,
+      "auxiliary_loss_mlp": 0.01028088,
+      "balance_loss_clip": 1.04391122,
+      "balance_loss_mlp": 1.02021384,
+      "epoch": 0.918655684482655,
+      "flos": 20997831542400.0,
+      "grad_norm": 1.9963680235136336,
+      "language_loss": 0.76933783,
+      "learning_rate": 6.892334898929952e-08,
+      "loss": 0.79147422,
+      "num_input_tokens_seen": 165132700,
+      "step": 7640,
+      "time_per_iteration": 2.6399028301239014
+    },
+    {
+      "auxiliary_loss_clip": 0.01167196,
+      "auxiliary_loss_mlp": 0.01026475,
+      "balance_loss_clip": 1.04289401,
+      "balance_loss_mlp": 1.01916742,
+      "epoch": 0.918775927373294,
+      "flos": 15560704817280.0,
+      "grad_norm": 3.2101658818412413,
+      "language_loss": 0.84704006,
+      "learning_rate": 6.872075959497236e-08,
+      "loss": 0.86897677,
+      "num_input_tokens_seen": 165151475,
+      "step": 7641,
+      "time_per_iteration": 2.6764779090881348
+    },
+    {
+      "auxiliary_loss_clip": 0.01177039,
+      "auxiliary_loss_mlp": 0.01022008,
+      "balance_loss_clip": 1.04380214,
+      "balance_loss_mlp": 1.01493919,
+      "epoch": 0.9188961702639331,
+      "flos": 29934057657600.0,
+      "grad_norm": 1.7792698315007114,
+      "language_loss": 0.82608986,
+      "learning_rate": 6.85184631741702e-08,
+      "loss": 0.84808028,
+      "num_input_tokens_seen": 165172040,
+      "step": 7642,
+      "time_per_iteration": 2.6268813610076904
+    },
+    {
+      "auxiliary_loss_clip": 0.01174889,
+      "auxiliary_loss_mlp": 0.01026186,
+      "balance_loss_clip": 1.04559755,
+      "balance_loss_mlp": 1.01872659,
+      "epoch": 0.9190164131545723,
+      "flos": 20701244943360.0,
+      "grad_norm": 1.815818113124842,
+      "language_loss": 0.77205485,
+      "learning_rate": 6.831645975758161e-08,
+      "loss": 0.79406559,
+      "num_input_tokens_seen": 165189980,
+      "step": 7643,
+      "time_per_iteration": 2.590512990951538
+    },
+    {
+      "auxiliary_loss_clip": 0.0117761,
+      "auxiliary_loss_mlp": 0.01024339,
+      "balance_loss_clip": 1.04586279,
+      "balance_loss_mlp": 1.01662064,
+      "epoch": 0.9191366560452113,
+      "flos": 25629912696960.0,
+      "grad_norm": 1.7522653936788855,
+      "language_loss": 0.6752423,
+      "learning_rate": 6.811474937585026e-08,
+      "loss": 0.69726175,
+      "num_input_tokens_seen": 165209770,
+      "step": 7644,
+      "time_per_iteration": 3.6651031970977783
+    },
+    {
+      "auxiliary_loss_clip": 0.01189704,
+      "auxiliary_loss_mlp": 0.01023128,
+      "balance_loss_clip": 1.04224849,
+      "balance_loss_mlp": 1.01648164,
+      "epoch": 0.9192568989358504,
+      "flos": 21434325615360.0,
+      "grad_norm": 1.6976534981068192,
+      "language_loss": 0.79248405,
+      "learning_rate": 6.79133320595755e-08,
+      "loss": 0.81461239,
+      "num_input_tokens_seen": 165229690,
+      "step": 7645,
+      "time_per_iteration": 2.718583583831787
+    },
+    {
+      "auxiliary_loss_clip": 0.01189157,
+      "auxiliary_loss_mlp": 0.01025514,
+      "balance_loss_clip": 1.04694307,
+      "balance_loss_mlp": 1.01839733,
+      "epoch": 0.9193771418264896,
+      "flos": 23185078416000.0,
+      "grad_norm": 1.6781816319082703,
+      "language_loss": 0.75271654,
+      "learning_rate": 6.771220783931198e-08,
+      "loss": 0.77486324,
+      "num_input_tokens_seen": 165249850,
+      "step": 7646,
+      "time_per_iteration": 2.653042793273926
+    },
+    {
+      "auxiliary_loss_clip": 0.01156855,
+      "auxiliary_loss_mlp": 0.01373574,
+      "balance_loss_clip": 1.02167749,
+      "balance_loss_mlp": 0.99974674,
+      "epoch": 0.9194973847171286,
+      "flos": 70582963184640.0,
+      "grad_norm": 0.8291854618155998,
+      "language_loss": 0.64588392,
+      "learning_rate": 6.751137674556994e-08,
+      "loss": 0.67118812,
+      "num_input_tokens_seen": 165310235,
+      "step": 7647,
+      "time_per_iteration": 4.573877334594727
+    },
+    {
+      "auxiliary_loss_clip": 0.01178405,
+      "auxiliary_loss_mlp": 0.01024701,
+      "balance_loss_clip": 1.04369342,
+      "balance_loss_mlp": 1.017802,
+      "epoch": 0.9196176276077677,
+      "flos": 14720682378240.0,
+      "grad_norm": 1.9950618405868943,
+      "language_loss": 0.77709055,
+      "learning_rate": 6.731083880881572e-08,
+      "loss": 0.79912162,
+      "num_input_tokens_seen": 165326455,
+      "step": 7648,
+      "time_per_iteration": 4.053877353668213
+    },
+    {
+      "auxiliary_loss_clip": 0.01185543,
+      "auxiliary_loss_mlp": 0.01029804,
+      "balance_loss_clip": 1.04534626,
+      "balance_loss_mlp": 1.02325654,
+      "epoch": 0.9197378704984068,
+      "flos": 23294893271040.0,
+      "grad_norm": 6.4723927851160745,
+      "language_loss": 0.81224155,
+      "learning_rate": 6.711059405947072e-08,
+      "loss": 0.83439493,
+      "num_input_tokens_seen": 165344645,
+      "step": 7649,
+      "time_per_iteration": 3.634269952774048
+    },
+    {
+      "auxiliary_loss_clip": 0.0118975,
+      "auxiliary_loss_mlp": 0.01020914,
+      "balance_loss_clip": 1.04298007,
+      "balance_loss_mlp": 1.01394284,
+      "epoch": 0.9198581133890459,
+      "flos": 20302564913280.0,
+      "grad_norm": 2.8877738849871544,
+      "language_loss": 0.76896846,
+      "learning_rate": 6.691064252791156e-08,
+      "loss": 0.79107511,
+      "num_input_tokens_seen": 165364120,
+      "step": 7650,
+      "time_per_iteration": 2.7106704711914062
+    },
+    {
+      "auxiliary_loss_clip": 0.01197622,
+      "auxiliary_loss_mlp": 0.01023972,
+      "balance_loss_clip": 1.04243445,
+      "balance_loss_mlp": 1.01625907,
+      "epoch": 0.9199783562796849,
+      "flos": 17675663569920.0,
+      "grad_norm": 1.5515824261706093,
+      "language_loss": 0.77851599,
+      "learning_rate": 6.67109842444713e-08,
+      "loss": 0.80073196,
+      "num_input_tokens_seen": 165383050,
+      "step": 7651,
+      "time_per_iteration": 2.65402889251709
+    },
+    {
+      "auxiliary_loss_clip": 0.01175342,
+      "auxiliary_loss_mlp": 0.01378517,
+      "balance_loss_clip": 1.04667401,
+      "balance_loss_mlp": 1.00012743,
+      "epoch": 0.9200985991703241,
+      "flos": 17676022705920.0,
+      "grad_norm": 1.968944858262557,
+      "language_loss": 0.76692903,
+      "learning_rate": 6.651161923943704e-08,
+      "loss": 0.79246759,
+      "num_input_tokens_seen": 165400955,
+      "step": 7652,
+      "time_per_iteration": 2.620016574859619
+    },
+    {
+      "auxiliary_loss_clip": 0.01167718,
+      "auxiliary_loss_mlp": 0.01023063,
+      "balance_loss_clip": 1.04372084,
+      "balance_loss_mlp": 1.01579666,
+      "epoch": 0.9202188420609632,
+      "flos": 20996574566400.0,
+      "grad_norm": 2.2751526622841545,
+      "language_loss": 0.76567471,
+      "learning_rate": 6.631254754305326e-08,
+      "loss": 0.78758252,
+      "num_input_tokens_seen": 165420415,
+      "step": 7653,
+      "time_per_iteration": 2.60598087310791
+    },
+    {
+      "auxiliary_loss_clip": 0.01167683,
+      "auxiliary_loss_mlp": 0.01023785,
+      "balance_loss_clip": 1.04592764,
+      "balance_loss_mlp": 1.01644468,
+      "epoch": 0.9203390849516022,
+      "flos": 13918222586880.0,
+      "grad_norm": 2.120863091498633,
+      "language_loss": 0.78027451,
+      "learning_rate": 6.611376918551848e-08,
+      "loss": 0.80218923,
+      "num_input_tokens_seen": 165439200,
+      "step": 7654,
+      "time_per_iteration": 2.6487441062927246
+    },
+    {
+      "auxiliary_loss_clip": 0.01191437,
+      "auxiliary_loss_mlp": 0.01378674,
+      "balance_loss_clip": 1.04269671,
+      "balance_loss_mlp": 1.00011647,
+      "epoch": 0.9204593278422414,
+      "flos": 21175912195200.0,
+      "grad_norm": 1.9872779689450901,
+      "language_loss": 0.79460686,
+      "learning_rate": 6.591528419698744e-08,
+      "loss": 0.82030797,
+      "num_input_tokens_seen": 165458985,
+      "step": 7655,
+      "time_per_iteration": 3.6161162853240967
+    },
+    {
+      "auxiliary_loss_clip": 0.01182735,
+      "auxiliary_loss_mlp": 0.01025523,
+      "balance_loss_clip": 1.04079413,
+      "balance_loss_mlp": 1.01861775,
+      "epoch": 0.9205795707328804,
+      "flos": 14501375890560.0,
+      "grad_norm": 2.6494101954492266,
+      "language_loss": 0.83514285,
+      "learning_rate": 6.571709260756986e-08,
+      "loss": 0.85722542,
+      "num_input_tokens_seen": 165475630,
+      "step": 7656,
+      "time_per_iteration": 2.615906000137329
+    },
+    {
+      "auxiliary_loss_clip": 0.01177469,
+      "auxiliary_loss_mlp": 0.01023522,
+      "balance_loss_clip": 1.04717779,
+      "balance_loss_mlp": 1.01651859,
+      "epoch": 0.9206998136235195,
+      "flos": 22417559579520.0,
+      "grad_norm": 2.155564871242244,
+      "language_loss": 0.76358938,
+      "learning_rate": 6.551919444733122e-08,
+      "loss": 0.78559935,
+      "num_input_tokens_seen": 165493445,
+      "step": 7657,
+      "time_per_iteration": 2.649564504623413
+    },
+    {
+      "auxiliary_loss_clip": 0.01186121,
+      "auxiliary_loss_mlp": 0.01026127,
+      "balance_loss_clip": 1.04653251,
+      "balance_loss_mlp": 1.01859951,
+      "epoch": 0.9208200565141585,
+      "flos": 53358407544960.0,
+      "grad_norm": 2.150301923906477,
+      "language_loss": 0.65891325,
+      "learning_rate": 6.53215897462931e-08,
+      "loss": 0.6810357,
+      "num_input_tokens_seen": 165517200,
+      "step": 7658,
+      "time_per_iteration": 2.892683506011963
+    },
+    {
+      "auxiliary_loss_clip": 0.01172057,
+      "auxiliary_loss_mlp": 0.01025512,
+      "balance_loss_clip": 1.04444242,
+      "balance_loss_mlp": 1.01842833,
+      "epoch": 0.9209402994047977,
+      "flos": 30589139946240.0,
+      "grad_norm": 3.2574581241948204,
+      "language_loss": 0.75046092,
+      "learning_rate": 6.512427853443103e-08,
+      "loss": 0.77243662,
+      "num_input_tokens_seen": 165539280,
+      "step": 7659,
+      "time_per_iteration": 2.7148525714874268
+    },
+    {
+      "auxiliary_loss_clip": 0.01177181,
+      "auxiliary_loss_mlp": 0.01024929,
+      "balance_loss_clip": 1.04526472,
+      "balance_loss_mlp": 1.01774669,
+      "epoch": 0.9210605422954368,
+      "flos": 29132711187840.0,
+      "grad_norm": 1.487771169476471,
+      "language_loss": 0.75862914,
+      "learning_rate": 6.492726084167799e-08,
+      "loss": 0.7806502,
+      "num_input_tokens_seen": 165561395,
+      "step": 7660,
+      "time_per_iteration": 2.6635515689849854
+    },
+    {
+      "auxiliary_loss_clip": 0.0106002,
+      "auxiliary_loss_mlp": 0.01002512,
+      "balance_loss_clip": 1.00897741,
+      "balance_loss_mlp": 1.00149238,
+      "epoch": 0.9211807851860758,
+      "flos": 54853838472960.0,
+      "grad_norm": 0.7764271375059278,
+      "language_loss": 0.57535434,
+      "learning_rate": 6.473053669792072e-08,
+      "loss": 0.59597969,
+      "num_input_tokens_seen": 165616085,
+      "step": 7661,
+      "time_per_iteration": 3.1392672061920166
+    },
+    {
+      "auxiliary_loss_clip": 0.01173054,
+      "auxiliary_loss_mlp": 0.01025677,
+      "balance_loss_clip": 1.0438379,
+      "balance_loss_mlp": 1.01840568,
+      "epoch": 0.921301028076715,
+      "flos": 19201974238080.0,
+      "grad_norm": 4.42536018255282,
+      "language_loss": 0.72561103,
+      "learning_rate": 6.453410613300248e-08,
+      "loss": 0.74759829,
+      "num_input_tokens_seen": 165634015,
+      "step": 7662,
+      "time_per_iteration": 2.6199100017547607
+    },
+    {
+      "auxiliary_loss_clip": 0.01212793,
+      "auxiliary_loss_mlp": 0.01022888,
+      "balance_loss_clip": 1.04209757,
+      "balance_loss_mlp": 1.01571798,
+      "epoch": 0.921421270967354,
+      "flos": 27526893765120.0,
+      "grad_norm": 1.7936314859156268,
+      "language_loss": 0.58115268,
+      "learning_rate": 6.43379691767214e-08,
+      "loss": 0.60350955,
+      "num_input_tokens_seen": 165653220,
+      "step": 7663,
+      "time_per_iteration": 2.987335681915283
+    },
+    {
+      "auxiliary_loss_clip": 0.01110841,
+      "auxiliary_loss_mlp": 0.01000457,
+      "balance_loss_clip": 1.0086658,
+      "balance_loss_mlp": 0.99927104,
+      "epoch": 0.9215415138579931,
+      "flos": 70209311955840.0,
+      "grad_norm": 0.7211815051765912,
+      "language_loss": 0.55128974,
+      "learning_rate": 6.414212585883105e-08,
+      "loss": 0.57240272,
+      "num_input_tokens_seen": 165715850,
+      "step": 7664,
+      "time_per_iteration": 3.7366700172424316
+    },
+    {
+      "auxiliary_loss_clip": 0.01188535,
+      "auxiliary_loss_mlp": 0.01030534,
+      "balance_loss_clip": 1.04441047,
+      "balance_loss_mlp": 1.02351284,
+      "epoch": 0.9216617567486323,
+      "flos": 35553107790720.0,
+      "grad_norm": 1.4609687889538947,
+      "language_loss": 0.69610399,
+      "learning_rate": 6.394657620904143e-08,
+      "loss": 0.71829462,
+      "num_input_tokens_seen": 165738960,
+      "step": 7665,
+      "time_per_iteration": 2.756194829940796
+    },
+    {
+      "auxiliary_loss_clip": 0.0117272,
+      "auxiliary_loss_mlp": 0.01025899,
+      "balance_loss_clip": 1.04837286,
+      "balance_loss_mlp": 1.01788807,
+      "epoch": 0.9217819996392713,
+      "flos": 29533330552320.0,
+      "grad_norm": 1.7776632030146027,
+      "language_loss": 0.71466064,
+      "learning_rate": 6.375132025701657e-08,
+      "loss": 0.73664683,
+      "num_input_tokens_seen": 165761260,
+      "step": 7666,
+      "time_per_iteration": 2.74495530128479
+    },
+    {
+      "auxiliary_loss_clip": 0.01170376,
+      "auxiliary_loss_mlp": 0.0102431,
+      "balance_loss_clip": 1.04864454,
+      "balance_loss_mlp": 1.01680613,
+      "epoch": 0.9219022425299104,
+      "flos": 14574669592320.0,
+      "grad_norm": 2.4073193239029727,
+      "language_loss": 0.6910947,
+      "learning_rate": 6.355635803237724e-08,
+      "loss": 0.71304154,
+      "num_input_tokens_seen": 165776960,
+      "step": 7667,
+      "time_per_iteration": 2.6223180294036865
+    },
+    {
+      "auxiliary_loss_clip": 0.01173758,
+      "auxiliary_loss_mlp": 0.0102545,
+      "balance_loss_clip": 1.04528916,
+      "balance_loss_mlp": 1.01846147,
+      "epoch": 0.9220224854205495,
+      "flos": 18077503996800.0,
+      "grad_norm": 3.6885590744371792,
+      "language_loss": 0.80262566,
+      "learning_rate": 6.336168956469867e-08,
+      "loss": 0.82461774,
+      "num_input_tokens_seen": 165795435,
+      "step": 7668,
+      "time_per_iteration": 2.6044728755950928
+    },
+    {
+      "auxiliary_loss_clip": 0.01176908,
+      "auxiliary_loss_mlp": 0.01024465,
+      "balance_loss_clip": 1.04262602,
+      "balance_loss_mlp": 1.01746464,
+      "epoch": 0.9221427283111886,
+      "flos": 24790464875520.0,
+      "grad_norm": 1.6423901863418509,
+      "language_loss": 0.72085875,
+      "learning_rate": 6.316731488351168e-08,
+      "loss": 0.74287248,
+      "num_input_tokens_seen": 165816625,
+      "step": 7669,
+      "time_per_iteration": 3.6488425731658936
+    },
+    {
+      "auxiliary_loss_clip": 0.01176226,
+      "auxiliary_loss_mlp": 0.01028258,
+      "balance_loss_clip": 1.0456053,
+      "balance_loss_mlp": 1.02106118,
+      "epoch": 0.9222629712018277,
+      "flos": 13845036625920.0,
+      "grad_norm": 1.9243572781106366,
+      "language_loss": 0.63064432,
+      "learning_rate": 6.297323401830334e-08,
+      "loss": 0.6526891,
+      "num_input_tokens_seen": 165835410,
+      "step": 7670,
+      "time_per_iteration": 2.545971155166626
+    },
+    {
+      "auxiliary_loss_clip": 0.01177987,
+      "auxiliary_loss_mlp": 0.01026286,
+      "balance_loss_clip": 1.04486692,
+      "balance_loss_mlp": 1.01945496,
+      "epoch": 0.9223832140924668,
+      "flos": 21616177196160.0,
+      "grad_norm": 1.849112503992362,
+      "language_loss": 0.69166207,
+      "learning_rate": 6.277944699851523e-08,
+      "loss": 0.71370476,
+      "num_input_tokens_seen": 165854930,
+      "step": 7671,
+      "time_per_iteration": 2.6314375400543213
+    },
+    {
+      "auxiliary_loss_clip": 0.01168616,
+      "auxiliary_loss_mlp": 0.01027357,
+      "balance_loss_clip": 1.04739904,
+      "balance_loss_mlp": 1.0201509,
+      "epoch": 0.9225034569831059,
+      "flos": 21142084561920.0,
+      "grad_norm": 1.7867240911212325,
+      "language_loss": 0.73294008,
+      "learning_rate": 6.25859538535447e-08,
+      "loss": 0.7548998,
+      "num_input_tokens_seen": 165875725,
+      "step": 7672,
+      "time_per_iteration": 2.565683126449585
+    },
+    {
+      "auxiliary_loss_clip": 0.01182356,
+      "auxiliary_loss_mlp": 0.0102623,
+      "balance_loss_clip": 1.04389834,
+      "balance_loss_mlp": 1.01883924,
+      "epoch": 0.9226236998737449,
+      "flos": 12495046844160.0,
+      "grad_norm": 2.8641864881281256,
+      "language_loss": 0.78413033,
+      "learning_rate": 6.239275461274474e-08,
+      "loss": 0.80621618,
+      "num_input_tokens_seen": 165892100,
+      "step": 7673,
+      "time_per_iteration": 3.537278652191162
+    },
+    {
+      "auxiliary_loss_clip": 0.01177088,
+      "auxiliary_loss_mlp": 0.01027261,
+      "balance_loss_clip": 1.04667294,
+      "balance_loss_mlp": 1.02010202,
+      "epoch": 0.9227439427643841,
+      "flos": 26214071581440.0,
+      "grad_norm": 1.6442020384691833,
+      "language_loss": 0.85953295,
+      "learning_rate": 6.219984930542299e-08,
+      "loss": 0.88157642,
+      "num_input_tokens_seen": 165912840,
+      "step": 7674,
+      "time_per_iteration": 2.649054765701294
+    },
+    {
+      "auxiliary_loss_clip": 0.01178353,
+      "auxiliary_loss_mlp": 0.01021615,
+      "balance_loss_clip": 1.04624391,
+      "balance_loss_mlp": 1.01453125,
+      "epoch": 0.9228641856550232,
+      "flos": 17967581400960.0,
+      "grad_norm": 2.0272248166418043,
+      "language_loss": 0.76079547,
+      "learning_rate": 6.200723796084383e-08,
+      "loss": 0.78279519,
+      "num_input_tokens_seen": 165930935,
+      "step": 7675,
+      "time_per_iteration": 3.6455888748168945
+    },
+    {
+      "auxiliary_loss_clip": 0.01101234,
+      "auxiliary_loss_mlp": 0.01000931,
+      "balance_loss_clip": 1.00914168,
+      "balance_loss_mlp": 0.99982196,
+      "epoch": 0.9229844285456622,
+      "flos": 70420609710720.0,
+      "grad_norm": 0.7644146054501015,
+      "language_loss": 0.62995791,
+      "learning_rate": 6.181492060822546e-08,
+      "loss": 0.65097952,
+      "num_input_tokens_seen": 165991110,
+      "step": 7676,
+      "time_per_iteration": 3.253247022628784
+    },
+    {
+      "auxiliary_loss_clip": 0.01198505,
+      "auxiliary_loss_mlp": 0.01024281,
+      "balance_loss_clip": 1.04044402,
+      "balance_loss_mlp": 1.01703334,
+      "epoch": 0.9231046714363014,
+      "flos": 17967832796160.0,
+      "grad_norm": 2.0747918759853516,
+      "language_loss": 0.81729424,
+      "learning_rate": 6.162289727674274e-08,
+      "loss": 0.83952212,
+      "num_input_tokens_seen": 166008790,
+      "step": 7677,
+      "time_per_iteration": 2.7503082752227783
+    },
+    {
+      "auxiliary_loss_clip": 0.0119434,
+      "auxiliary_loss_mlp": 0.01024515,
+      "balance_loss_clip": 1.04209423,
+      "balance_loss_mlp": 1.01778591,
+      "epoch": 0.9232249143269404,
+      "flos": 17858233422720.0,
+      "grad_norm": 3.171409048800749,
+      "language_loss": 0.88040006,
+      "learning_rate": 6.143116799552527e-08,
+      "loss": 0.90258861,
+      "num_input_tokens_seen": 166025035,
+      "step": 7678,
+      "time_per_iteration": 2.6987507343292236
+    },
+    {
+      "auxiliary_loss_clip": 0.01181606,
+      "auxiliary_loss_mlp": 0.01029766,
+      "balance_loss_clip": 1.04845548,
+      "balance_loss_mlp": 1.02242279,
+      "epoch": 0.9233451572175795,
+      "flos": 23404384903680.0,
+      "grad_norm": 2.406544775956482,
+      "language_loss": 0.55989015,
+      "learning_rate": 6.123973279365802e-08,
+      "loss": 0.58200383,
+      "num_input_tokens_seen": 166044010,
+      "step": 7679,
+      "time_per_iteration": 2.666292667388916
+    },
+    {
+      "auxiliary_loss_clip": 0.01181007,
+      "auxiliary_loss_mlp": 0.01027369,
+      "balance_loss_clip": 1.04778647,
+      "balance_loss_mlp": 1.02066612,
+      "epoch": 0.9234654001082186,
+      "flos": 17999326045440.0,
+      "grad_norm": 2.740011276319156,
+      "language_loss": 0.77909732,
+      "learning_rate": 6.10485917001824e-08,
+      "loss": 0.80118108,
+      "num_input_tokens_seen": 166061865,
+      "step": 7680,
+      "time_per_iteration": 3.5075716972351074
+    },
+    {
+      "auxiliary_loss_clip": 0.01187974,
+      "auxiliary_loss_mlp": 0.01021873,
+      "balance_loss_clip": 1.04346251,
+      "balance_loss_mlp": 1.01461339,
+      "epoch": 0.9235856429988577,
+      "flos": 24750747411840.0,
+      "grad_norm": 1.4975340937261987,
+      "language_loss": 0.81104207,
+      "learning_rate": 6.085774474409322e-08,
+      "loss": 0.83314049,
+      "num_input_tokens_seen": 166082425,
+      "step": 7681,
+      "time_per_iteration": 2.7795047760009766
+    },
+    {
+      "auxiliary_loss_clip": 0.01185538,
+      "auxiliary_loss_mlp": 0.01028216,
+      "balance_loss_clip": 1.04746616,
+      "balance_loss_mlp": 1.02124834,
+      "epoch": 0.9237058858894968,
+      "flos": 14099894599680.0,
+      "grad_norm": 1.9467823659646608,
+      "language_loss": 0.70577973,
+      "learning_rate": 6.066719195434267e-08,
+      "loss": 0.72791725,
+      "num_input_tokens_seen": 166100225,
+      "step": 7682,
+      "time_per_iteration": 2.5578393936157227
+    },
+    {
+      "auxiliary_loss_clip": 0.01180075,
+      "auxiliary_loss_mlp": 0.01028172,
+      "balance_loss_clip": 1.04680061,
+      "balance_loss_mlp": 1.02024126,
+      "epoch": 0.9238261287801359,
+      "flos": 28694529175680.0,
+      "grad_norm": 2.0540086574115937,
+      "language_loss": 0.6663233,
+      "learning_rate": 6.047693335983717e-08,
+      "loss": 0.68840575,
+      "num_input_tokens_seen": 166122570,
+      "step": 7683,
+      "time_per_iteration": 2.7147469520568848
+    },
+    {
+      "auxiliary_loss_clip": 0.01178191,
+      "auxiliary_loss_mlp": 0.01024017,
+      "balance_loss_clip": 1.04417396,
+      "balance_loss_mlp": 1.01710308,
+      "epoch": 0.923946371670775,
+      "flos": 23111856541440.0,
+      "grad_norm": 3.719094461814953,
+      "language_loss": 0.82437426,
+      "learning_rate": 6.028696898943853e-08,
+      "loss": 0.84639639,
+      "num_input_tokens_seen": 166141630,
+      "step": 7684,
+      "time_per_iteration": 2.662731170654297
+    },
+    {
+      "auxiliary_loss_clip": 0.01182806,
+      "auxiliary_loss_mlp": 0.01378881,
+      "balance_loss_clip": 1.04194558,
+      "balance_loss_mlp": 1.00014126,
+      "epoch": 0.924066614561414,
+      "flos": 21867120587520.0,
+      "grad_norm": 1.9478755892772863,
+      "language_loss": 0.70595187,
+      "learning_rate": 6.00972988719648e-08,
+      "loss": 0.73156875,
+      "num_input_tokens_seen": 166159865,
+      "step": 7685,
+      "time_per_iteration": 2.6689705848693848
+    },
+    {
+      "auxiliary_loss_clip": 0.0119575,
+      "auxiliary_loss_mlp": 0.01378849,
+      "balance_loss_clip": 1.04321074,
+      "balance_loss_mlp": 1.00017476,
+      "epoch": 0.9241868574520532,
+      "flos": 28511887495680.0,
+      "grad_norm": 2.5227790456789423,
+      "language_loss": 0.70612997,
+      "learning_rate": 5.990792303618807e-08,
+      "loss": 0.7318759,
+      "num_input_tokens_seen": 166179445,
+      "step": 7686,
+      "time_per_iteration": 2.740675210952759
+    },
+    {
+      "auxiliary_loss_clip": 0.01191351,
+      "auxiliary_loss_mlp": 0.01026372,
+      "balance_loss_clip": 1.04137814,
+      "balance_loss_mlp": 1.01959217,
+      "epoch": 0.9243071003426923,
+      "flos": 30518324282880.0,
+      "grad_norm": 1.7000744052033627,
+      "language_loss": 0.69360518,
+      "learning_rate": 5.971884151083695e-08,
+      "loss": 0.71578246,
+      "num_input_tokens_seen": 166201855,
+      "step": 7687,
+      "time_per_iteration": 2.7787866592407227
+    },
+    {
+      "auxiliary_loss_clip": 0.01185056,
+      "auxiliary_loss_mlp": 0.01024657,
+      "balance_loss_clip": 1.04370308,
+      "balance_loss_mlp": 1.01788044,
+      "epoch": 0.9244273432333313,
+      "flos": 28658331244800.0,
+      "grad_norm": 1.983781193230455,
+      "language_loss": 0.74187797,
+      "learning_rate": 5.9530054324595124e-08,
+      "loss": 0.76397514,
+      "num_input_tokens_seen": 166221970,
+      "step": 7688,
+      "time_per_iteration": 2.714290142059326
+    },
+    {
+      "auxiliary_loss_clip": 0.01068578,
+      "auxiliary_loss_mlp": 0.01373733,
+      "balance_loss_clip": 1.00921297,
+      "balance_loss_mlp": 0.99979287,
+      "epoch": 0.9245475861239704,
+      "flos": 66230589237120.0,
+      "grad_norm": 0.873955429003935,
+      "language_loss": 0.5750761,
+      "learning_rate": 5.934156150610103e-08,
+      "loss": 0.59949923,
+      "num_input_tokens_seen": 166279335,
+      "step": 7689,
+      "time_per_iteration": 3.2330780029296875
+    },
+    {
+      "auxiliary_loss_clip": 0.01181058,
+      "auxiliary_loss_mlp": 0.0103093,
+      "balance_loss_clip": 1.04362595,
+      "balance_loss_mlp": 1.0236578,
+      "epoch": 0.9246678290146095,
+      "flos": 24239918142720.0,
+      "grad_norm": 2.270082752709778,
+      "language_loss": 0.79216605,
+      "learning_rate": 5.915336308394914e-08,
+      "loss": 0.81428587,
+      "num_input_tokens_seen": 166298170,
+      "step": 7690,
+      "time_per_iteration": 2.613739013671875
+    },
+    {
+      "auxiliary_loss_clip": 0.01170833,
+      "auxiliary_loss_mlp": 0.01025221,
+      "balance_loss_clip": 1.04431796,
+      "balance_loss_mlp": 1.01850367,
+      "epoch": 0.9247880719052486,
+      "flos": 18988808976000.0,
+      "grad_norm": 1.682175295223415,
+      "language_loss": 0.76942503,
+      "learning_rate": 5.89654590866886e-08,
+      "loss": 0.79138553,
+      "num_input_tokens_seen": 166317670,
+      "step": 7691,
+      "time_per_iteration": 2.53904390335083
+    },
+    {
+      "auxiliary_loss_clip": 0.01217694,
+      "auxiliary_loss_mlp": 0.01027025,
+      "balance_loss_clip": 1.04430556,
+      "balance_loss_mlp": 1.01900864,
+      "epoch": 0.9249083147958876,
+      "flos": 24024095274240.0,
+      "grad_norm": 2.407655237901151,
+      "language_loss": 0.88606131,
+      "learning_rate": 5.877784954282483e-08,
+      "loss": 0.90850848,
+      "num_input_tokens_seen": 166337010,
+      "step": 7692,
+      "time_per_iteration": 2.8267343044281006
+    },
+    {
+      "auxiliary_loss_clip": 0.01179585,
+      "auxiliary_loss_mlp": 0.01029647,
+      "balance_loss_clip": 1.04558527,
+      "balance_loss_mlp": 1.02190423,
+      "epoch": 0.9250285576865268,
+      "flos": 30773972355840.0,
+      "grad_norm": 2.1037495065219627,
+      "language_loss": 0.72253656,
+      "learning_rate": 5.8590534480817963e-08,
+      "loss": 0.74462891,
+      "num_input_tokens_seen": 166358735,
+      "step": 7693,
+      "time_per_iteration": 2.6698756217956543
+    },
+    {
+      "auxiliary_loss_clip": 0.01167962,
+      "auxiliary_loss_mlp": 0.01024705,
+      "balance_loss_clip": 1.04836643,
+      "balance_loss_mlp": 1.01749861,
+      "epoch": 0.9251488005771659,
+      "flos": 10633581348480.0,
+      "grad_norm": 2.1772638928433916,
+      "language_loss": 0.72409284,
+      "learning_rate": 5.840351392908349e-08,
+      "loss": 0.74601948,
+      "num_input_tokens_seen": 166374455,
+      "step": 7694,
+      "time_per_iteration": 2.5729236602783203
+    },
+    {
+      "auxiliary_loss_clip": 0.01191128,
+      "auxiliary_loss_mlp": 0.01378559,
+      "balance_loss_clip": 1.04468584,
+      "balance_loss_mlp": 1.00018346,
+      "epoch": 0.9252690434678049,
+      "flos": 23586416052480.0,
+      "grad_norm": 2.498990277537258,
+      "language_loss": 0.70782667,
+      "learning_rate": 5.821678791599205e-08,
+      "loss": 0.73352355,
+      "num_input_tokens_seen": 166393900,
+      "step": 7695,
+      "time_per_iteration": 3.6639485359191895
+    },
+    {
+      "auxiliary_loss_clip": 0.01186108,
+      "auxiliary_loss_mlp": 0.01022171,
+      "balance_loss_clip": 1.04637229,
+      "balance_loss_mlp": 1.01500988,
+      "epoch": 0.9253892863584441,
+      "flos": 21469158829440.0,
+      "grad_norm": 2.979054351588214,
+      "language_loss": 0.8070696,
+      "learning_rate": 5.803035646986965e-08,
+      "loss": 0.82915235,
+      "num_input_tokens_seen": 166413235,
+      "step": 7696,
+      "time_per_iteration": 2.663562297821045
+    },
+    {
+      "auxiliary_loss_clip": 0.01169663,
+      "auxiliary_loss_mlp": 0.01024309,
+      "balance_loss_clip": 1.0468874,
+      "balance_loss_mlp": 1.01678717,
+      "epoch": 0.9255095292490831,
+      "flos": 17456680304640.0,
+      "grad_norm": 3.0281031801484697,
+      "language_loss": 0.67634082,
+      "learning_rate": 5.7844219618998766e-08,
+      "loss": 0.69828057,
+      "num_input_tokens_seen": 166427560,
+      "step": 7697,
+      "time_per_iteration": 2.5029969215393066
+    },
+    {
+      "auxiliary_loss_clip": 0.01177573,
+      "auxiliary_loss_mlp": 0.01021493,
+      "balance_loss_clip": 1.03970385,
+      "balance_loss_mlp": 1.0144062,
+      "epoch": 0.9256297721397222,
+      "flos": 24750675584640.0,
+      "grad_norm": 1.7432972857348334,
+      "language_loss": 0.71493614,
+      "learning_rate": 5.765837739161505e-08,
+      "loss": 0.73692685,
+      "num_input_tokens_seen": 166446680,
+      "step": 7698,
+      "time_per_iteration": 2.7021374702453613
+    },
+    {
+      "auxiliary_loss_clip": 0.01195888,
+      "auxiliary_loss_mlp": 0.01023417,
+      "balance_loss_clip": 1.04209256,
+      "balance_loss_mlp": 1.01625824,
+      "epoch": 0.9257500150303614,
+      "flos": 23112215677440.0,
+      "grad_norm": 1.5852229053247051,
+      "language_loss": 0.74280834,
+      "learning_rate": 5.7472829815911504e-08,
+      "loss": 0.7650013,
+      "num_input_tokens_seen": 166465505,
+      "step": 7699,
+      "time_per_iteration": 3.758185386657715
+    },
+    {
+      "auxiliary_loss_clip": 0.01177198,
+      "auxiliary_loss_mlp": 0.01031482,
+      "balance_loss_clip": 1.04225802,
+      "balance_loss_mlp": 1.02391219,
+      "epoch": 0.9258702579210004,
+      "flos": 22564685687040.0,
+      "grad_norm": 2.2337231373180244,
+      "language_loss": 0.81568778,
+      "learning_rate": 5.7287576920035164e-08,
+      "loss": 0.83777457,
+      "num_input_tokens_seen": 166484520,
+      "step": 7700,
+      "time_per_iteration": 2.637949228286743
+    },
+    {
+      "auxiliary_loss_clip": 0.0119022,
+      "auxiliary_loss_mlp": 0.01022954,
+      "balance_loss_clip": 1.04264855,
+      "balance_loss_mlp": 1.01600432,
+      "epoch": 0.9259905008116395,
+      "flos": 30004298703360.0,
+      "grad_norm": 1.7435176646382122,
+      "language_loss": 0.76689994,
+      "learning_rate": 5.7102618732088435e-08,
+      "loss": 0.78903168,
+      "num_input_tokens_seen": 166503850,
+      "step": 7701,
+      "time_per_iteration": 3.574610948562622
+    },
+    {
+      "auxiliary_loss_clip": 0.01188857,
+      "auxiliary_loss_mlp": 0.01019035,
+      "balance_loss_clip": 1.04481065,
+      "balance_loss_mlp": 1.01207304,
+      "epoch": 0.9261107437022786,
+      "flos": 24572128055040.0,
+      "grad_norm": 1.5150337981344593,
+      "language_loss": 0.74768424,
+      "learning_rate": 5.6917955280130216e-08,
+      "loss": 0.76976311,
+      "num_input_tokens_seen": 166525330,
+      "step": 7702,
+      "time_per_iteration": 2.65103816986084
+    },
+    {
+      "auxiliary_loss_clip": 0.01176715,
+      "auxiliary_loss_mlp": 0.01025239,
+      "balance_loss_clip": 1.0480597,
+      "balance_loss_mlp": 1.01750851,
+      "epoch": 0.9262309865929177,
+      "flos": 22018448586240.0,
+      "grad_norm": 5.626523180990815,
+      "language_loss": 0.71969098,
+      "learning_rate": 5.6733586592172755e-08,
+      "loss": 0.74171054,
+      "num_input_tokens_seen": 166544825,
+      "step": 7703,
+      "time_per_iteration": 2.584062099456787
+    },
+    {
+      "auxiliary_loss_clip": 0.01176818,
+      "auxiliary_loss_mlp": 0.01378185,
+      "balance_loss_clip": 1.04060733,
+      "balance_loss_mlp": 1.00010514,
+      "epoch": 0.9263512294835567,
+      "flos": 20339481116160.0,
+      "grad_norm": 1.95491690161956,
+      "language_loss": 0.79927486,
+      "learning_rate": 5.6549512696185244e-08,
+      "loss": 0.82482493,
+      "num_input_tokens_seen": 166563325,
+      "step": 7704,
+      "time_per_iteration": 2.682770013809204
+    },
+    {
+      "auxiliary_loss_clip": 0.01165399,
+      "auxiliary_loss_mlp": 0.01025062,
+      "balance_loss_clip": 1.04754066,
+      "balance_loss_mlp": 1.01796937,
+      "epoch": 0.9264714723741959,
+      "flos": 21215378263680.0,
+      "grad_norm": 1.6030387356103857,
+      "language_loss": 0.68077433,
+      "learning_rate": 5.636573362009156e-08,
+      "loss": 0.70267892,
+      "num_input_tokens_seen": 166583385,
+      "step": 7705,
+      "time_per_iteration": 2.551318883895874
+    },
+    {
+      "auxiliary_loss_clip": 0.01169453,
+      "auxiliary_loss_mlp": 0.01020009,
+      "balance_loss_clip": 1.04685724,
+      "balance_loss_mlp": 1.01249266,
+      "epoch": 0.926591715264835,
+      "flos": 18004964480640.0,
+      "grad_norm": 1.954262922582468,
+      "language_loss": 0.7693612,
+      "learning_rate": 5.618224939177074e-08,
+      "loss": 0.79125583,
+      "num_input_tokens_seen": 166601290,
+      "step": 7706,
+      "time_per_iteration": 3.5156848430633545
+    },
+    {
+      "auxiliary_loss_clip": 0.01171852,
+      "auxiliary_loss_mlp": 0.01027833,
+      "balance_loss_clip": 1.04282522,
+      "balance_loss_mlp": 1.02075756,
+      "epoch": 0.926711958155474,
+      "flos": 36167969825280.0,
+      "grad_norm": 1.726943564433637,
+      "language_loss": 0.7030288,
+      "learning_rate": 5.599906003905719e-08,
+      "loss": 0.72502565,
+      "num_input_tokens_seen": 166623835,
+      "step": 7707,
+      "time_per_iteration": 2.75311279296875
+    },
+    {
+      "auxiliary_loss_clip": 0.01171258,
+      "auxiliary_loss_mlp": 0.01029095,
+      "balance_loss_clip": 1.04675531,
+      "balance_loss_mlp": 1.02101862,
+      "epoch": 0.9268322010461132,
+      "flos": 21032736583680.0,
+      "grad_norm": 2.1765077738720016,
+      "language_loss": 0.81789136,
+      "learning_rate": 5.581616558974023e-08,
+      "loss": 0.83989489,
+      "num_input_tokens_seen": 166642400,
+      "step": 7708,
+      "time_per_iteration": 2.6756787300109863
+    },
+    {
+      "auxiliary_loss_clip": 0.01179395,
+      "auxiliary_loss_mlp": 0.01378997,
+      "balance_loss_clip": 1.04518962,
+      "balance_loss_mlp": 1.0001682,
+      "epoch": 0.9269524439367522,
+      "flos": 22964838174720.0,
+      "grad_norm": 2.0760942955845603,
+      "language_loss": 0.79088783,
+      "learning_rate": 5.5633566071565444e-08,
+      "loss": 0.81647176,
+      "num_input_tokens_seen": 166661640,
+      "step": 7709,
+      "time_per_iteration": 2.6174354553222656
+    },
+    {
+      "auxiliary_loss_clip": 0.01216256,
+      "auxiliary_loss_mlp": 0.01023813,
+      "balance_loss_clip": 1.04077864,
+      "balance_loss_mlp": 1.01624322,
+      "epoch": 0.9270726868273913,
+      "flos": 41975551468800.0,
+      "grad_norm": 1.9876357383591106,
+      "language_loss": 0.70604694,
+      "learning_rate": 5.5451261512232896e-08,
+      "loss": 0.72844768,
+      "num_input_tokens_seen": 166684320,
+      "step": 7710,
+      "time_per_iteration": 2.9070885181427
+    },
+    {
+      "auxiliary_loss_clip": 0.01179418,
+      "auxiliary_loss_mlp": 0.01028446,
+      "balance_loss_clip": 1.04463983,
+      "balance_loss_mlp": 1.0207088,
+      "epoch": 0.9271929297180305,
+      "flos": 19791771557760.0,
+      "grad_norm": 1.8351666535555773,
+      "language_loss": 0.62704945,
+      "learning_rate": 5.5269251939397576e-08,
+      "loss": 0.64912814,
+      "num_input_tokens_seen": 166703835,
+      "step": 7711,
+      "time_per_iteration": 2.5822901725769043
+    },
+    {
+      "auxiliary_loss_clip": 0.01192431,
+      "auxiliary_loss_mlp": 0.01024914,
+      "balance_loss_clip": 1.04016805,
+      "balance_loss_mlp": 1.0177319,
+      "epoch": 0.9273131726086695,
+      "flos": 19968343839360.0,
+      "grad_norm": 2.0736446064438505,
+      "language_loss": 0.76577711,
+      "learning_rate": 5.508753738067073e-08,
+      "loss": 0.78795052,
+      "num_input_tokens_seen": 166723375,
+      "step": 7712,
+      "time_per_iteration": 2.661391019821167
+    },
+    {
+      "auxiliary_loss_clip": 0.01178939,
+      "auxiliary_loss_mlp": 0.010192,
+      "balance_loss_clip": 1.04527342,
+      "balance_loss_mlp": 1.0119586,
+      "epoch": 0.9274334154993086,
+      "flos": 23258587599360.0,
+      "grad_norm": 1.9439029464696138,
+      "language_loss": 0.79250395,
+      "learning_rate": 5.4906117863617875e-08,
+      "loss": 0.81448543,
+      "num_input_tokens_seen": 166742760,
+      "step": 7713,
+      "time_per_iteration": 2.5700273513793945
+    },
+    {
+      "auxiliary_loss_clip": 0.01186224,
+      "auxiliary_loss_mlp": 0.01022452,
+      "balance_loss_clip": 1.04020703,
+      "balance_loss_mlp": 1.01592255,
+      "epoch": 0.9275536583899477,
+      "flos": 31795343585280.0,
+      "grad_norm": 2.0318917546833277,
+      "language_loss": 0.78094882,
+      "learning_rate": 5.4724993415760533e-08,
+      "loss": 0.80303562,
+      "num_input_tokens_seen": 166761115,
+      "step": 7714,
+      "time_per_iteration": 2.696192502975464
+    },
+    {
+      "auxiliary_loss_clip": 0.01199742,
+      "auxiliary_loss_mlp": 0.01378585,
+      "balance_loss_clip": 1.04154599,
+      "balance_loss_mlp": 1.00017643,
+      "epoch": 0.9276739012805868,
+      "flos": 18696998885760.0,
+      "grad_norm": 2.457053331108182,
+      "language_loss": 0.74746764,
+      "learning_rate": 5.454416406457496e-08,
+      "loss": 0.77325094,
+      "num_input_tokens_seen": 166780210,
+      "step": 7715,
+      "time_per_iteration": 2.657360315322876
+    },
+    {
+      "auxiliary_loss_clip": 0.01173254,
+      "auxiliary_loss_mlp": 0.01021987,
+      "balance_loss_clip": 1.04342782,
+      "balance_loss_mlp": 1.01521611,
+      "epoch": 0.9277941441712259,
+      "flos": 13879079740800.0,
+      "grad_norm": 2.750235371518242,
+      "language_loss": 0.73590064,
+      "learning_rate": 5.436362983749299e-08,
+      "loss": 0.75785309,
+      "num_input_tokens_seen": 166795380,
+      "step": 7716,
+      "time_per_iteration": 2.548280715942383
+    },
+    {
+      "auxiliary_loss_clip": 0.01188851,
+      "auxiliary_loss_mlp": 0.01024633,
+      "balance_loss_clip": 1.04580522,
+      "balance_loss_mlp": 1.01823413,
+      "epoch": 0.927914387061865,
+      "flos": 23258659426560.0,
+      "grad_norm": 1.9356208156641352,
+      "language_loss": 0.64109504,
+      "learning_rate": 5.418339076190137e-08,
+      "loss": 0.66322988,
+      "num_input_tokens_seen": 166814890,
+      "step": 7717,
+      "time_per_iteration": 2.666433095932007
+    },
+    {
+      "auxiliary_loss_clip": 0.01175568,
+      "auxiliary_loss_mlp": 0.01028032,
+      "balance_loss_clip": 1.04384232,
+      "balance_loss_mlp": 1.02077866,
+      "epoch": 0.9280346299525041,
+      "flos": 18073733068800.0,
+      "grad_norm": 1.8397622367512985,
+      "language_loss": 0.88491297,
+      "learning_rate": 5.400344686514202e-08,
+      "loss": 0.90694898,
+      "num_input_tokens_seen": 166832475,
+      "step": 7718,
+      "time_per_iteration": 2.549764394760132
+    },
+    {
+      "auxiliary_loss_clip": 0.01177233,
+      "auxiliary_loss_mlp": 0.0102652,
+      "balance_loss_clip": 1.04711103,
+      "balance_loss_mlp": 1.019418,
+      "epoch": 0.9281548728431431,
+      "flos": 22342901160960.0,
+      "grad_norm": 2.041997555516203,
+      "language_loss": 0.66457242,
+      "learning_rate": 5.38237981745131e-08,
+      "loss": 0.68660998,
+      "num_input_tokens_seen": 166850590,
+      "step": 7719,
+      "time_per_iteration": 2.6074352264404297
+    },
+    {
+      "auxiliary_loss_clip": 0.0117804,
+      "auxiliary_loss_mlp": 0.01378313,
+      "balance_loss_clip": 1.04553151,
+      "balance_loss_mlp": 1.00014997,
+      "epoch": 0.9282751157337822,
+      "flos": 18843765857280.0,
+      "grad_norm": 1.6243687683351775,
+      "language_loss": 0.81288177,
+      "learning_rate": 5.364444471726592e-08,
+      "loss": 0.83844531,
+      "num_input_tokens_seen": 166869795,
+      "step": 7720,
+      "time_per_iteration": 2.577554941177368
+    },
+    {
+      "auxiliary_loss_clip": 0.0117442,
+      "auxiliary_loss_mlp": 0.01022911,
+      "balance_loss_clip": 1.04421067,
+      "balance_loss_mlp": 1.01584744,
+      "epoch": 0.9283953586244214,
+      "flos": 25556834476800.0,
+      "grad_norm": 2.146061040690408,
+      "language_loss": 0.80006468,
+      "learning_rate": 5.346538652060939e-08,
+      "loss": 0.82203805,
+      "num_input_tokens_seen": 166891150,
+      "step": 7721,
+      "time_per_iteration": 3.5751163959503174
+    },
+    {
+      "auxiliary_loss_clip": 0.01183206,
+      "auxiliary_loss_mlp": 0.01027357,
+      "balance_loss_clip": 1.04684639,
+      "balance_loss_mlp": 1.01993585,
+      "epoch": 0.9285156015150604,
+      "flos": 18223480869120.0,
+      "grad_norm": 1.89829398468031,
+      "language_loss": 0.70112908,
+      "learning_rate": 5.3286623611705994e-08,
+      "loss": 0.72323465,
+      "num_input_tokens_seen": 166909195,
+      "step": 7722,
+      "time_per_iteration": 2.71737003326416
+    },
+    {
+      "auxiliary_loss_clip": 0.01059937,
+      "auxiliary_loss_mlp": 0.01000612,
+      "balance_loss_clip": 1.00891638,
+      "balance_loss_mlp": 0.99955696,
+      "epoch": 0.9286358444056995,
+      "flos": 66400017690240.0,
+      "grad_norm": 0.8189718829122191,
+      "language_loss": 0.60640383,
+      "learning_rate": 5.3108156017673824e-08,
+      "loss": 0.62700939,
+      "num_input_tokens_seen": 166970955,
+      "step": 7723,
+      "time_per_iteration": 3.2331368923187256
+    },
+    {
+      "auxiliary_loss_clip": 0.01192123,
+      "auxiliary_loss_mlp": 0.01022939,
+      "balance_loss_clip": 1.0456692,
+      "balance_loss_mlp": 1.01572704,
+      "epoch": 0.9287560872963386,
+      "flos": 22345630594560.0,
+      "grad_norm": 1.6230210666836087,
+      "language_loss": 0.71570414,
+      "learning_rate": 5.2929983765586775e-08,
+      "loss": 0.73785472,
+      "num_input_tokens_seen": 166989735,
+      "step": 7724,
+      "time_per_iteration": 2.6482787132263184
+    },
+    {
+      "auxiliary_loss_clip": 0.0116639,
+      "auxiliary_loss_mlp": 0.01021051,
+      "balance_loss_clip": 1.04743791,
+      "balance_loss_mlp": 1.01376772,
+      "epoch": 0.9288763301869777,
+      "flos": 25700225569920.0,
+      "grad_norm": 2.5993830622088088,
+      "language_loss": 0.62579197,
+      "learning_rate": 5.275210688247278e-08,
+      "loss": 0.64766639,
+      "num_input_tokens_seen": 167010060,
+      "step": 7725,
+      "time_per_iteration": 3.5197906494140625
+    },
+    {
+      "auxiliary_loss_clip": 0.01203982,
+      "auxiliary_loss_mlp": 0.01023052,
+      "balance_loss_clip": 1.04396868,
+      "balance_loss_mlp": 1.0161382,
+      "epoch": 0.9289965730776167,
+      "flos": 12312046028160.0,
+      "grad_norm": 2.472917254948725,
+      "language_loss": 0.85364187,
+      "learning_rate": 5.257452539531604e-08,
+      "loss": 0.87591219,
+      "num_input_tokens_seen": 167027130,
+      "step": 7726,
+      "time_per_iteration": 2.6786510944366455
+    },
+    {
+      "auxiliary_loss_clip": 0.01175622,
+      "auxiliary_loss_mlp": 0.01019758,
+      "balance_loss_clip": 1.04399002,
+      "balance_loss_mlp": 1.01286733,
+      "epoch": 0.9291168159682559,
+      "flos": 26685973486080.0,
+      "grad_norm": 1.4978134361758402,
+      "language_loss": 0.68473351,
+      "learning_rate": 5.2397239331055445e-08,
+      "loss": 0.70668727,
+      "num_input_tokens_seen": 167049130,
+      "step": 7727,
+      "time_per_iteration": 3.6154468059539795
+    },
+    {
+      "auxiliary_loss_clip": 0.0118069,
+      "auxiliary_loss_mlp": 0.01022321,
+      "balance_loss_clip": 1.04514956,
+      "balance_loss_mlp": 1.01463807,
+      "epoch": 0.929237058858895,
+      "flos": 14538256179840.0,
+      "grad_norm": 2.117684270166136,
+      "language_loss": 0.8118369,
+      "learning_rate": 5.2220248716585036e-08,
+      "loss": 0.83386701,
+      "num_input_tokens_seen": 167066810,
+      "step": 7728,
+      "time_per_iteration": 2.615736722946167
+    },
+    {
+      "auxiliary_loss_clip": 0.01164497,
+      "auxiliary_loss_mlp": 0.01031346,
+      "balance_loss_clip": 1.04207587,
+      "balance_loss_mlp": 1.02405941,
+      "epoch": 0.929357301749534,
+      "flos": 23835456023040.0,
+      "grad_norm": 2.265199114294253,
+      "language_loss": 0.75432837,
+      "learning_rate": 5.204355357875445e-08,
+      "loss": 0.77628678,
+      "num_input_tokens_seen": 167085155,
+      "step": 7729,
+      "time_per_iteration": 2.6278128623962402
+    },
+    {
+      "auxiliary_loss_clip": 0.01181154,
+      "auxiliary_loss_mlp": 0.01023739,
+      "balance_loss_clip": 1.04321337,
+      "balance_loss_mlp": 1.0168488,
+      "epoch": 0.9294775446401732,
+      "flos": 12969319046400.0,
+      "grad_norm": 2.640820518868172,
+      "language_loss": 0.70550931,
+      "learning_rate": 5.1867153944367584e-08,
+      "loss": 0.72755826,
+      "num_input_tokens_seen": 167101545,
+      "step": 7730,
+      "time_per_iteration": 2.5854170322418213
+    },
+    {
+      "auxiliary_loss_clip": 0.01197227,
+      "auxiliary_loss_mlp": 0.01023461,
+      "balance_loss_clip": 1.04284739,
+      "balance_loss_mlp": 1.01635051,
+      "epoch": 0.9295977875308122,
+      "flos": 26211809024640.0,
+      "grad_norm": 1.5520177258686938,
+      "language_loss": 0.73609471,
+      "learning_rate": 5.16910498401848e-08,
+      "loss": 0.75830162,
+      "num_input_tokens_seen": 167120995,
+      "step": 7731,
+      "time_per_iteration": 2.7541136741638184
+    },
+    {
+      "auxiliary_loss_clip": 0.01165643,
+      "auxiliary_loss_mlp": 0.01027176,
+      "balance_loss_clip": 1.0476737,
+      "balance_loss_mlp": 1.02025318,
+      "epoch": 0.9297180304214513,
+      "flos": 16472297105280.0,
+      "grad_norm": 1.9089810534128586,
+      "language_loss": 0.83322948,
+      "learning_rate": 5.151524129292073e-08,
+      "loss": 0.85515767,
+      "num_input_tokens_seen": 167138890,
+      "step": 7732,
+      "time_per_iteration": 3.373880624771118
+    },
+    {
+      "auxiliary_loss_clip": 0.01176955,
+      "auxiliary_loss_mlp": 0.0102675,
+      "balance_loss_clip": 1.04689503,
+      "balance_loss_mlp": 1.019678,
+      "epoch": 0.9298382733120905,
+      "flos": 24060436859520.0,
+      "grad_norm": 1.9580543804342088,
+      "language_loss": 0.66307104,
+      "learning_rate": 5.1339728329245155e-08,
+      "loss": 0.68510807,
+      "num_input_tokens_seen": 167159455,
+      "step": 7733,
+      "time_per_iteration": 2.6227240562438965
+    },
+    {
+      "auxiliary_loss_clip": 0.01169265,
+      "auxiliary_loss_mlp": 0.01025284,
+      "balance_loss_clip": 1.04612303,
+      "balance_loss_mlp": 1.01818538,
+      "epoch": 0.9299585162027295,
+      "flos": 22127652910080.0,
+      "grad_norm": 2.092131103859893,
+      "language_loss": 0.7948631,
+      "learning_rate": 5.116451097578367e-08,
+      "loss": 0.81680858,
+      "num_input_tokens_seen": 167178495,
+      "step": 7734,
+      "time_per_iteration": 2.567070245742798
+    },
+    {
+      "auxiliary_loss_clip": 0.01189758,
+      "auxiliary_loss_mlp": 0.0102067,
+      "balance_loss_clip": 1.04116714,
+      "balance_loss_mlp": 1.01394367,
+      "epoch": 0.9300787590933686,
+      "flos": 21471780522240.0,
+      "grad_norm": 1.6554260859612695,
+      "language_loss": 0.74299914,
+      "learning_rate": 5.0989589259115895e-08,
+      "loss": 0.76510346,
+      "num_input_tokens_seen": 167199380,
+      "step": 7735,
+      "time_per_iteration": 2.7052767276763916
+    },
+    {
+      "auxiliary_loss_clip": 0.01172927,
+      "auxiliary_loss_mlp": 0.0102409,
+      "balance_loss_clip": 1.04358327,
+      "balance_loss_mlp": 1.01616263,
+      "epoch": 0.9301990019840077,
+      "flos": 17779588594560.0,
+      "grad_norm": 1.8647468479127345,
+      "language_loss": 0.71428424,
+      "learning_rate": 5.081496320577816e-08,
+      "loss": 0.73625439,
+      "num_input_tokens_seen": 167216500,
+      "step": 7736,
+      "time_per_iteration": 2.596349000930786
+    },
+    {
+      "auxiliary_loss_clip": 0.0108876,
+      "auxiliary_loss_mlp": 0.01000137,
+      "balance_loss_clip": 1.01572633,
+      "balance_loss_mlp": 0.99912351,
+      "epoch": 0.9303192448746468,
+      "flos": 58896122307840.0,
+      "grad_norm": 0.9176887874911803,
+      "language_loss": 0.61244059,
+      "learning_rate": 5.0640632842260835e-08,
+      "loss": 0.63332963,
+      "num_input_tokens_seen": 167276760,
+      "step": 7737,
+      "time_per_iteration": 3.3437211513519287
+    },
+    {
+      "auxiliary_loss_clip": 0.01193591,
+      "auxiliary_loss_mlp": 0.01378472,
+      "balance_loss_clip": 1.04624796,
+      "balance_loss_mlp": 1.00013399,
+      "epoch": 0.9304394877652858,
+      "flos": 57663522172800.0,
+      "grad_norm": 1.4349720565474386,
+      "language_loss": 0.72426462,
+      "learning_rate": 5.0466598195009426e-08,
+      "loss": 0.74998522,
+      "num_input_tokens_seen": 167303630,
+      "step": 7738,
+      "time_per_iteration": 3.0098605155944824
+    },
+    {
+      "auxiliary_loss_clip": 0.01196113,
+      "auxiliary_loss_mlp": 0.01025815,
+      "balance_loss_clip": 1.04414713,
+      "balance_loss_mlp": 1.01892757,
+      "epoch": 0.930559730655925,
+      "flos": 20996143603200.0,
+      "grad_norm": 1.8462735862302495,
+      "language_loss": 0.70206422,
+      "learning_rate": 5.0292859290425036e-08,
+      "loss": 0.72428346,
+      "num_input_tokens_seen": 167321500,
+      "step": 7739,
+      "time_per_iteration": 2.653343677520752
+    },
+    {
+      "auxiliary_loss_clip": 0.01166511,
+      "auxiliary_loss_mlp": 0.01023883,
+      "balance_loss_clip": 1.04755366,
+      "balance_loss_mlp": 1.0174576,
+      "epoch": 0.9306799735465641,
+      "flos": 23258264376960.0,
+      "grad_norm": 1.8499084502199332,
+      "language_loss": 0.77676666,
+      "learning_rate": 5.011941615486348e-08,
+      "loss": 0.79867065,
+      "num_input_tokens_seen": 167340615,
+      "step": 7740,
+      "time_per_iteration": 2.5917210578918457
+    },
+    {
+      "auxiliary_loss_clip": 0.01167586,
+      "auxiliary_loss_mlp": 0.01026369,
+      "balance_loss_clip": 1.04756975,
+      "balance_loss_mlp": 1.01939249,
+      "epoch": 0.9308002164372031,
+      "flos": 15231547560960.0,
+      "grad_norm": 1.9558434051784355,
+      "language_loss": 0.84475476,
+      "learning_rate": 4.994626881463659e-08,
+      "loss": 0.86669433,
+      "num_input_tokens_seen": 167356870,
+      "step": 7741,
+      "time_per_iteration": 2.515688419342041
+    },
+    {
+      "auxiliary_loss_clip": 0.01185572,
+      "auxiliary_loss_mlp": 0.01025189,
+      "balance_loss_clip": 1.03931773,
+      "balance_loss_mlp": 1.01791739,
+      "epoch": 0.9309204593278423,
+      "flos": 30847481539200.0,
+      "grad_norm": 1.7152072772996674,
+      "language_loss": 0.70838916,
+      "learning_rate": 4.9773417296009814e-08,
+      "loss": 0.73049676,
+      "num_input_tokens_seen": 167378390,
+      "step": 7742,
+      "time_per_iteration": 2.7832376956939697
+    },
+    {
+      "auxiliary_loss_clip": 0.01180577,
+      "auxiliary_loss_mlp": 0.01022379,
+      "balance_loss_clip": 1.04760754,
+      "balance_loss_mlp": 1.01450515,
+      "epoch": 0.9310407022184813,
+      "flos": 23037269950080.0,
+      "grad_norm": 1.8789217010907049,
+      "language_loss": 0.65254378,
+      "learning_rate": 4.960086162520527e-08,
+      "loss": 0.67457336,
+      "num_input_tokens_seen": 167398480,
+      "step": 7743,
+      "time_per_iteration": 2.63679575920105
+    },
+    {
+      "auxiliary_loss_clip": 0.012108,
+      "auxiliary_loss_mlp": 0.01020197,
+      "balance_loss_clip": 1.04426897,
+      "balance_loss_mlp": 1.01334584,
+      "epoch": 0.9311609451091204,
+      "flos": 22127976132480.0,
+      "grad_norm": 1.9059094215605652,
+      "language_loss": 0.82385671,
+      "learning_rate": 4.942860182839936e-08,
+      "loss": 0.84616673,
+      "num_input_tokens_seen": 167416825,
+      "step": 7744,
+      "time_per_iteration": 2.76179838180542
+    },
+    {
+      "auxiliary_loss_clip": 0.01182315,
+      "auxiliary_loss_mlp": 0.01029998,
+      "balance_loss_clip": 1.0437932,
+      "balance_loss_mlp": 1.02238083,
+      "epoch": 0.9312811879997596,
+      "flos": 21099206701440.0,
+      "grad_norm": 2.233657312251956,
+      "language_loss": 0.79680371,
+      "learning_rate": 4.925663793172341e-08,
+      "loss": 0.81892681,
+      "num_input_tokens_seen": 167434785,
+      "step": 7745,
+      "time_per_iteration": 2.644158124923706
+    },
+    {
+      "auxiliary_loss_clip": 0.01082569,
+      "auxiliary_loss_mlp": 0.01373673,
+      "balance_loss_clip": 1.01019502,
+      "balance_loss_mlp": 0.99982339,
+      "epoch": 0.9314014308903986,
+      "flos": 67148179096320.0,
+      "grad_norm": 0.7840882582309235,
+      "language_loss": 0.56510955,
+      "learning_rate": 4.908496996126477e-08,
+      "loss": 0.58967197,
+      "num_input_tokens_seen": 167498245,
+      "step": 7746,
+      "time_per_iteration": 3.282951831817627
+    },
+    {
+      "auxiliary_loss_clip": 0.01176988,
+      "auxiliary_loss_mlp": 0.01026594,
+      "balance_loss_clip": 1.04982412,
+      "balance_loss_mlp": 1.01893771,
+      "epoch": 0.9315216737810377,
+      "flos": 22565583527040.0,
+      "grad_norm": 1.468563504632021,
+      "language_loss": 0.76166737,
+      "learning_rate": 4.89135979430646e-08,
+      "loss": 0.78370321,
+      "num_input_tokens_seen": 167518290,
+      "step": 7747,
+      "time_per_iteration": 3.56777286529541
+    },
+    {
+      "auxiliary_loss_clip": 0.01167948,
+      "auxiliary_loss_mlp": 0.01024882,
+      "balance_loss_clip": 1.04844379,
+      "balance_loss_mlp": 1.01720762,
+      "epoch": 0.9316419166716768,
+      "flos": 23984054588160.0,
+      "grad_norm": 1.7113281867237826,
+      "language_loss": 0.85404062,
+      "learning_rate": 4.874252190312078e-08,
+      "loss": 0.87596893,
+      "num_input_tokens_seen": 167538675,
+      "step": 7748,
+      "time_per_iteration": 2.5617198944091797
+    },
+    {
+      "auxiliary_loss_clip": 0.01178563,
+      "auxiliary_loss_mlp": 0.01031094,
+      "balance_loss_clip": 1.04521906,
+      "balance_loss_mlp": 1.02277362,
+      "epoch": 0.9317621595623159,
+      "flos": 30230464688640.0,
+      "grad_norm": 2.017901559023009,
+      "language_loss": 0.65061224,
+      "learning_rate": 4.857174186738477e-08,
+      "loss": 0.67270881,
+      "num_input_tokens_seen": 167562025,
+      "step": 7749,
+      "time_per_iteration": 2.6953608989715576
+    },
+    {
+      "auxiliary_loss_clip": 0.01169641,
+      "auxiliary_loss_mlp": 0.01026909,
+      "balance_loss_clip": 1.04977536,
+      "balance_loss_mlp": 1.01980972,
+      "epoch": 0.931882402452955,
+      "flos": 15742735966080.0,
+      "grad_norm": 2.1307267185636163,
+      "language_loss": 0.7313441,
+      "learning_rate": 4.840125786176408e-08,
+      "loss": 0.75330961,
+      "num_input_tokens_seen": 167578230,
+      "step": 7750,
+      "time_per_iteration": 2.5581443309783936
+    },
+    {
+      "auxiliary_loss_clip": 0.0117942,
+      "auxiliary_loss_mlp": 0.01019899,
+      "balance_loss_clip": 1.04279447,
+      "balance_loss_mlp": 1.01299691,
+      "epoch": 0.932002645343594,
+      "flos": 28366521154560.0,
+      "grad_norm": 1.7582790267526067,
+      "language_loss": 0.77526677,
+      "learning_rate": 4.823106991212067e-08,
+      "loss": 0.79725993,
+      "num_input_tokens_seen": 167597470,
+      "step": 7751,
+      "time_per_iteration": 3.584836721420288
+    },
+    {
+      "auxiliary_loss_clip": 0.01178001,
+      "auxiliary_loss_mlp": 0.01024983,
+      "balance_loss_clip": 1.04544735,
+      "balance_loss_mlp": 1.0183996,
+      "epoch": 0.9321228882342332,
+      "flos": 15341146934400.0,
+      "grad_norm": 1.8997253742973028,
+      "language_loss": 0.82900161,
+      "learning_rate": 4.806117804427212e-08,
+      "loss": 0.85103142,
+      "num_input_tokens_seen": 167615405,
+      "step": 7752,
+      "time_per_iteration": 2.6271846294403076
+    },
+    {
+      "auxiliary_loss_clip": 0.01169921,
+      "auxiliary_loss_mlp": 0.01023198,
+      "balance_loss_clip": 1.04414749,
+      "balance_loss_mlp": 1.01583147,
+      "epoch": 0.9322431311248722,
+      "flos": 17895365107200.0,
+      "grad_norm": 2.248324433480775,
+      "language_loss": 0.64405727,
+      "learning_rate": 4.7891582283990926e-08,
+      "loss": 0.66598856,
+      "num_input_tokens_seen": 167634130,
+      "step": 7753,
+      "time_per_iteration": 3.515371799468994
+    },
+    {
+      "auxiliary_loss_clip": 0.0119195,
+      "auxiliary_loss_mlp": 0.0103036,
+      "balance_loss_clip": 1.04210877,
+      "balance_loss_mlp": 1.02331471,
+      "epoch": 0.9323633740155113,
+      "flos": 24169713010560.0,
+      "grad_norm": 1.722748482018521,
+      "language_loss": 0.72668099,
+      "learning_rate": 4.772228265700473e-08,
+      "loss": 0.74890411,
+      "num_input_tokens_seen": 167654990,
+      "step": 7754,
+      "time_per_iteration": 2.7152297496795654
+    },
+    {
+      "auxiliary_loss_clip": 0.0117826,
+      "auxiliary_loss_mlp": 0.01028155,
+      "balance_loss_clip": 1.04541707,
+      "balance_loss_mlp": 1.02021265,
+      "epoch": 0.9324836169061504,
+      "flos": 15043482927360.0,
+      "grad_norm": 2.0626155377399806,
+      "language_loss": 0.75859207,
+      "learning_rate": 4.75532791889961e-08,
+      "loss": 0.78065622,
+      "num_input_tokens_seen": 167671690,
+      "step": 7755,
+      "time_per_iteration": 2.6027402877807617
+    },
+    {
+      "auxiliary_loss_clip": 0.01172179,
+      "auxiliary_loss_mlp": 0.01025215,
+      "balance_loss_clip": 1.04311919,
+      "balance_loss_mlp": 1.0179373,
+      "epoch": 0.9326038597967895,
+      "flos": 18624890332800.0,
+      "grad_norm": 1.957239479196228,
+      "language_loss": 0.65767437,
+      "learning_rate": 4.738457190560252e-08,
+      "loss": 0.67964828,
+      "num_input_tokens_seen": 167690800,
+      "step": 7756,
+      "time_per_iteration": 2.6303696632385254
+    },
+    {
+      "auxiliary_loss_clip": 0.01200887,
+      "auxiliary_loss_mlp": 0.0102419,
+      "balance_loss_clip": 1.04351163,
+      "balance_loss_mlp": 1.01746941,
+      "epoch": 0.9327241026874286,
+      "flos": 18952646958720.0,
+      "grad_norm": 2.155936107569324,
+      "language_loss": 0.78889161,
+      "learning_rate": 4.721616083241664e-08,
+      "loss": 0.81114239,
+      "num_input_tokens_seen": 167709055,
+      "step": 7757,
+      "time_per_iteration": 2.701907157897949
+    },
+    {
+      "auxiliary_loss_clip": 0.01170686,
+      "auxiliary_loss_mlp": 0.01029836,
+      "balance_loss_clip": 1.04523599,
+      "balance_loss_mlp": 1.02229023,
+      "epoch": 0.9328443455780677,
+      "flos": 29570282668800.0,
+      "grad_norm": 1.724588796472838,
+      "language_loss": 0.77740788,
+      "learning_rate": 4.7048045994986684e-08,
+      "loss": 0.79941314,
+      "num_input_tokens_seen": 167729915,
+      "step": 7758,
+      "time_per_iteration": 3.5772109031677246
+    },
+    {
+      "auxiliary_loss_clip": 0.01182178,
+      "auxiliary_loss_mlp": 0.01023906,
+      "balance_loss_clip": 1.04733968,
+      "balance_loss_mlp": 1.01674736,
+      "epoch": 0.9329645884687068,
+      "flos": 30081722469120.0,
+      "grad_norm": 2.2406519839477914,
+      "language_loss": 0.91125745,
+      "learning_rate": 4.688022741881559e-08,
+      "loss": 0.93331826,
+      "num_input_tokens_seen": 167750440,
+      "step": 7759,
+      "time_per_iteration": 2.689298391342163
+    },
+    {
+      "auxiliary_loss_clip": 0.01171791,
+      "auxiliary_loss_mlp": 0.01023955,
+      "balance_loss_clip": 1.04465151,
+      "balance_loss_mlp": 1.01738656,
+      "epoch": 0.9330848313593458,
+      "flos": 21867982513920.0,
+      "grad_norm": 1.8332045752816242,
+      "language_loss": 0.75074673,
+      "learning_rate": 4.671270512936076e-08,
+      "loss": 0.77270424,
+      "num_input_tokens_seen": 167769600,
+      "step": 7760,
+      "time_per_iteration": 2.6059141159057617
+    },
+    {
+      "auxiliary_loss_clip": 0.01185651,
+      "auxiliary_loss_mlp": 0.01029169,
+      "balance_loss_clip": 1.04129243,
+      "balance_loss_mlp": 1.02243662,
+      "epoch": 0.933205074249985,
+      "flos": 22127221946880.0,
+      "grad_norm": 2.7882332313149867,
+      "language_loss": 0.82990772,
+      "learning_rate": 4.6545479152035884e-08,
+      "loss": 0.85205591,
+      "num_input_tokens_seen": 167788770,
+      "step": 7761,
+      "time_per_iteration": 2.696234703063965
+    },
+    {
+      "auxiliary_loss_clip": 0.01180029,
+      "auxiliary_loss_mlp": 0.01023885,
+      "balance_loss_clip": 1.04746509,
+      "balance_loss_mlp": 1.01703644,
+      "epoch": 0.9333253171406241,
+      "flos": 15341254675200.0,
+      "grad_norm": 2.1005158519710334,
+      "language_loss": 0.76059246,
+      "learning_rate": 4.637854951220821e-08,
+      "loss": 0.78263152,
+      "num_input_tokens_seen": 167805555,
+      "step": 7762,
+      "time_per_iteration": 2.5514473915100098
+    },
+    {
+      "auxiliary_loss_clip": 0.01187328,
+      "auxiliary_loss_mlp": 0.01024664,
+      "balance_loss_clip": 1.04209185,
+      "balance_loss_mlp": 1.01721978,
+      "epoch": 0.9334455600312631,
+      "flos": 15706142985600.0,
+      "grad_norm": 2.035762143329696,
+      "language_loss": 0.75210375,
+      "learning_rate": 4.621191623520171e-08,
+      "loss": 0.77422369,
+      "num_input_tokens_seen": 167823985,
+      "step": 7763,
+      "time_per_iteration": 2.754770278930664
+    },
+    {
+      "auxiliary_loss_clip": 0.0122602,
+      "auxiliary_loss_mlp": 0.01024596,
+      "balance_loss_clip": 1.04255939,
+      "balance_loss_mlp": 1.01732457,
+      "epoch": 0.9335658029219023,
+      "flos": 22163563532160.0,
+      "grad_norm": 2.5412907397197118,
+      "language_loss": 0.84432667,
+      "learning_rate": 4.604557934629372e-08,
+      "loss": 0.86683285,
+      "num_input_tokens_seen": 167843060,
+      "step": 7764,
+      "time_per_iteration": 2.7558391094207764
+    },
+    {
+      "auxiliary_loss_clip": 0.01178692,
+      "auxiliary_loss_mlp": 0.01028462,
+      "balance_loss_clip": 1.04382932,
+      "balance_loss_mlp": 1.0213989,
+      "epoch": 0.9336860458125413,
+      "flos": 20266833859200.0,
+      "grad_norm": 1.912224865488971,
+      "language_loss": 0.80305141,
+      "learning_rate": 4.587953887071805e-08,
+      "loss": 0.82512295,
+      "num_input_tokens_seen": 167862880,
+      "step": 7765,
+      "time_per_iteration": 2.674241542816162
+    },
+    {
+      "auxiliary_loss_clip": 0.01177367,
+      "auxiliary_loss_mlp": 0.01027496,
+      "balance_loss_clip": 1.04110897,
+      "balance_loss_mlp": 1.02040279,
+      "epoch": 0.9338062887031804,
+      "flos": 20919689504640.0,
+      "grad_norm": 1.7912256634861887,
+      "language_loss": 0.85710418,
+      "learning_rate": 4.5713794833662554e-08,
+      "loss": 0.87915283,
+      "num_input_tokens_seen": 167882095,
+      "step": 7766,
+      "time_per_iteration": 2.662278652191162
+    },
+    {
+      "auxiliary_loss_clip": 0.01169111,
+      "auxiliary_loss_mlp": 0.01025077,
+      "balance_loss_clip": 1.04730678,
+      "balance_loss_mlp": 1.0173161,
+      "epoch": 0.9339265315938196,
+      "flos": 23221635482880.0,
+      "grad_norm": 1.8544237184575554,
+      "language_loss": 0.63127422,
+      "learning_rate": 4.5548347260270236e-08,
+      "loss": 0.65321612,
+      "num_input_tokens_seen": 167901385,
+      "step": 7767,
+      "time_per_iteration": 2.63283109664917
+    },
+    {
+      "auxiliary_loss_clip": 0.01191579,
+      "auxiliary_loss_mlp": 0.01025307,
+      "balance_loss_clip": 1.04386151,
+      "balance_loss_mlp": 1.01844049,
+      "epoch": 0.9340467744844586,
+      "flos": 22820261932800.0,
+      "grad_norm": 1.8196192161742994,
+      "language_loss": 0.69270957,
+      "learning_rate": 4.538319617564012e-08,
+      "loss": 0.71487844,
+      "num_input_tokens_seen": 167920405,
+      "step": 7768,
+      "time_per_iteration": 2.7043559551239014
+    },
+    {
+      "auxiliary_loss_clip": 0.0118162,
+      "auxiliary_loss_mlp": 0.01027346,
+      "balance_loss_clip": 1.04283845,
+      "balance_loss_mlp": 1.01981831,
+      "epoch": 0.9341670173750977,
+      "flos": 23660428026240.0,
+      "grad_norm": 2.043851074557788,
+      "language_loss": 0.74577248,
+      "learning_rate": 4.521834160482485e-08,
+      "loss": 0.76786208,
+      "num_input_tokens_seen": 167939145,
+      "step": 7769,
+      "time_per_iteration": 2.664968967437744
+    },
+    {
+      "auxiliary_loss_clip": 0.01179537,
+      "auxiliary_loss_mlp": 0.01025607,
+      "balance_loss_clip": 1.04688728,
+      "balance_loss_mlp": 1.01854134,
+      "epoch": 0.9342872602657368,
+      "flos": 24824256595200.0,
+      "grad_norm": 1.6125694887665936,
+      "language_loss": 0.81700349,
+      "learning_rate": 4.5053783572832846e-08,
+      "loss": 0.83905488,
+      "num_input_tokens_seen": 167959325,
+      "step": 7770,
+      "time_per_iteration": 2.6430249214172363
+    },
+    {
+      "auxiliary_loss_clip": 0.0117459,
+      "auxiliary_loss_mlp": 0.0102794,
+      "balance_loss_clip": 1.04605544,
+      "balance_loss_mlp": 1.02058172,
+      "epoch": 0.9344075031563759,
+      "flos": 25771831332480.0,
+      "grad_norm": 1.6418389329162506,
+      "language_loss": 0.76341903,
+      "learning_rate": 4.488952210462771e-08,
+      "loss": 0.78544426,
+      "num_input_tokens_seen": 167979530,
+      "step": 7771,
+      "time_per_iteration": 2.6204662322998047
+    },
+    {
+      "auxiliary_loss_clip": 0.01167086,
+      "auxiliary_loss_mlp": 0.01028206,
+      "balance_loss_clip": 1.04795325,
+      "balance_loss_mlp": 1.02122068,
+      "epoch": 0.9345277460470149,
+      "flos": 25551303782400.0,
+      "grad_norm": 1.8090590636152735,
+      "language_loss": 0.85611975,
+      "learning_rate": 4.4725557225127495e-08,
+      "loss": 0.87807262,
+      "num_input_tokens_seen": 167997870,
+      "step": 7772,
+      "time_per_iteration": 2.62441349029541
+    },
+    {
+      "auxiliary_loss_clip": 0.01178578,
+      "auxiliary_loss_mlp": 0.01025011,
+      "balance_loss_clip": 1.04666483,
+      "balance_loss_mlp": 1.01828754,
+      "epoch": 0.9346479889376541,
+      "flos": 34313112432000.0,
+      "grad_norm": 1.5798412179172765,
+      "language_loss": 0.79463351,
+      "learning_rate": 4.456188895920565e-08,
+      "loss": 0.81666946,
+      "num_input_tokens_seen": 168019625,
+      "step": 7773,
+      "time_per_iteration": 3.5899994373321533
+    },
+    {
+      "auxiliary_loss_clip": 0.01168771,
+      "auxiliary_loss_mlp": 0.01023283,
+      "balance_loss_clip": 1.04771566,
+      "balance_loss_mlp": 1.0158143,
+      "epoch": 0.9347682318282932,
+      "flos": 19093739581440.0,
+      "grad_norm": 2.052552415056983,
+      "language_loss": 0.85510504,
+      "learning_rate": 4.439851733169031e-08,
+      "loss": 0.8770256,
+      "num_input_tokens_seen": 168037415,
+      "step": 7774,
+      "time_per_iteration": 2.5415220260620117
+    },
+    {
+      "auxiliary_loss_clip": 0.01192723,
+      "auxiliary_loss_mlp": 0.0102383,
+      "balance_loss_clip": 1.04217196,
+      "balance_loss_mlp": 1.0169313,
+      "epoch": 0.9348884747189322,
+      "flos": 26249587153920.0,
+      "grad_norm": 3.3266690447433214,
+      "language_loss": 0.69148797,
+      "learning_rate": 4.4235442367365204e-08,
+      "loss": 0.7136535,
+      "num_input_tokens_seen": 168057725,
+      "step": 7775,
+      "time_per_iteration": 2.7863287925720215
+    },
+    {
+      "auxiliary_loss_clip": 0.01176664,
+      "auxiliary_loss_mlp": 0.01025345,
+      "balance_loss_clip": 1.0407002,
+      "balance_loss_mlp": 1.01813841,
+      "epoch": 0.9350087176095714,
+      "flos": 18333080242560.0,
+      "grad_norm": 1.933404453800415,
+      "language_loss": 0.79255641,
+      "learning_rate": 4.4072664090968545e-08,
+      "loss": 0.81457651,
+      "num_input_tokens_seen": 168076110,
+      "step": 7776,
+      "time_per_iteration": 2.635148763656616
+    },
+    {
+      "auxiliary_loss_clip": 0.01182578,
+      "auxiliary_loss_mlp": 0.010234,
+      "balance_loss_clip": 1.04124999,
+      "balance_loss_mlp": 1.01623869,
+      "epoch": 0.9351289605002104,
+      "flos": 19318253541120.0,
+      "grad_norm": 1.7796379282127908,
+      "language_loss": 0.84687281,
+      "learning_rate": 4.391018252719347e-08,
+      "loss": 0.8689326,
+      "num_input_tokens_seen": 168095905,
+      "step": 7777,
+      "time_per_iteration": 3.5820493698120117
+    },
+    {
+      "auxiliary_loss_clip": 0.01185064,
+      "auxiliary_loss_mlp": 0.01028756,
+      "balance_loss_clip": 1.04285288,
+      "balance_loss_mlp": 1.02141881,
+      "epoch": 0.9352492033908495,
+      "flos": 18799990156800.0,
+      "grad_norm": 1.7479053931319843,
+      "language_loss": 0.69432288,
+      "learning_rate": 4.374799770068849e-08,
+      "loss": 0.71646106,
+      "num_input_tokens_seen": 168112580,
+      "step": 7778,
+      "time_per_iteration": 2.6149957180023193
+    },
+    {
+      "auxiliary_loss_clip": 0.01174543,
+      "auxiliary_loss_mlp": 0.0102512,
+      "balance_loss_clip": 1.04619122,
+      "balance_loss_mlp": 1.0173471,
+      "epoch": 0.9353694462814887,
+      "flos": 29530134241920.0,
+      "grad_norm": 1.9961886540456177,
+      "language_loss": 0.74762487,
+      "learning_rate": 4.358610963605658e-08,
+      "loss": 0.76962149,
+      "num_input_tokens_seen": 168133030,
+      "step": 7779,
+      "time_per_iteration": 3.596085548400879
+    },
+    {
+      "auxiliary_loss_clip": 0.01170858,
+      "auxiliary_loss_mlp": 0.01022759,
+      "balance_loss_clip": 1.0481689,
+      "balance_loss_mlp": 1.01526356,
+      "epoch": 0.9354896891721277,
+      "flos": 30665450390400.0,
+      "grad_norm": 2.503748262725146,
+      "language_loss": 0.68884194,
+      "learning_rate": 4.342451835785677e-08,
+      "loss": 0.71077812,
+      "num_input_tokens_seen": 168153940,
+      "step": 7780,
+      "time_per_iteration": 2.643629550933838
+    },
+    {
+      "auxiliary_loss_clip": 0.01181589,
+      "auxiliary_loss_mlp": 0.0102391,
+      "balance_loss_clip": 1.04437435,
+      "balance_loss_mlp": 1.01672149,
+      "epoch": 0.9356099320627668,
+      "flos": 19463907191040.0,
+      "grad_norm": 1.6934176498445064,
+      "language_loss": 0.75158226,
+      "learning_rate": 4.3263223890601665e-08,
+      "loss": 0.77363724,
+      "num_input_tokens_seen": 168172650,
+      "step": 7781,
+      "time_per_iteration": 2.685864210128784
+    },
+    {
+      "auxiliary_loss_clip": 0.01170353,
+      "auxiliary_loss_mlp": 0.01378357,
+      "balance_loss_clip": 1.04627514,
+      "balance_loss_mlp": 1.00021088,
+      "epoch": 0.9357301749534058,
+      "flos": 19098156954240.0,
+      "grad_norm": 1.756255285801717,
+      "language_loss": 0.7936542,
+      "learning_rate": 4.31022262587597e-08,
+      "loss": 0.81914127,
+      "num_input_tokens_seen": 168191325,
+      "step": 7782,
+      "time_per_iteration": 2.6016461849212646
+    },
+    {
+      "auxiliary_loss_clip": 0.01177415,
+      "auxiliary_loss_mlp": 0.01027931,
+      "balance_loss_clip": 1.04772019,
+      "balance_loss_mlp": 1.01995003,
+      "epoch": 0.935850417844045,
+      "flos": 23550361776000.0,
+      "grad_norm": 1.7356395571383632,
+      "language_loss": 0.65937603,
+      "learning_rate": 4.2941525486754225e-08,
+      "loss": 0.68142951,
+      "num_input_tokens_seen": 168211645,
+      "step": 7783,
+      "time_per_iteration": 2.598583936691284
+    },
+    {
+      "auxiliary_loss_clip": 0.01189381,
+      "auxiliary_loss_mlp": 0.01023747,
+      "balance_loss_clip": 1.04408503,
+      "balance_loss_mlp": 1.01727104,
+      "epoch": 0.935970660734684,
+      "flos": 18588333265920.0,
+      "grad_norm": 1.8535449363642638,
+      "language_loss": 0.79432744,
+      "learning_rate": 4.278112159896286e-08,
+      "loss": 0.81645864,
+      "num_input_tokens_seen": 168229485,
+      "step": 7784,
+      "time_per_iteration": 3.516096830368042
+    },
+    {
+      "auxiliary_loss_clip": 0.01175099,
+      "auxiliary_loss_mlp": 0.01018883,
+      "balance_loss_clip": 1.04046869,
+      "balance_loss_mlp": 1.01242435,
+      "epoch": 0.9360909036253231,
+      "flos": 20631255292800.0,
+      "grad_norm": 2.2213790646184157,
+      "language_loss": 0.67723441,
+      "learning_rate": 4.2621014619719896e-08,
+      "loss": 0.69917423,
+      "num_input_tokens_seen": 168247250,
+      "step": 7785,
+      "time_per_iteration": 2.6217610836029053
+    },
+    {
+      "auxiliary_loss_clip": 0.01084289,
+      "auxiliary_loss_mlp": 0.0100297,
+      "balance_loss_clip": 1.01022339,
+      "balance_loss_mlp": 1.00195646,
+      "epoch": 0.9362111465159623,
+      "flos": 61791421052160.0,
+      "grad_norm": 0.718696518542313,
+      "language_loss": 0.58604312,
+      "learning_rate": 4.246120457331215e-08,
+      "loss": 0.60691571,
+      "num_input_tokens_seen": 168309425,
+      "step": 7786,
+      "time_per_iteration": 3.2606430053710938
+    },
+    {
+      "auxiliary_loss_clip": 0.0118031,
+      "auxiliary_loss_mlp": 0.01029621,
+      "balance_loss_clip": 1.04711509,
+      "balance_loss_mlp": 1.02212811,
+      "epoch": 0.9363313894066013,
+      "flos": 24170395368960.0,
+      "grad_norm": 2.0469867316278303,
+      "language_loss": 0.71962106,
+      "learning_rate": 4.2301691483983325e-08,
+      "loss": 0.74172032,
+      "num_input_tokens_seen": 168329545,
+      "step": 7787,
+      "time_per_iteration": 2.6304144859313965
+    },
+    {
+      "auxiliary_loss_clip": 0.01180872,
+      "auxiliary_loss_mlp": 0.01027071,
+      "balance_loss_clip": 1.04651237,
+      "balance_loss_mlp": 1.02063966,
+      "epoch": 0.9364516322972404,
+      "flos": 20120354196480.0,
+      "grad_norm": 2.065555403343176,
+      "language_loss": 0.75793493,
+      "learning_rate": 4.214247537593163e-08,
+      "loss": 0.7800144,
+      "num_input_tokens_seen": 168348795,
+      "step": 7788,
+      "time_per_iteration": 2.588043689727783
+    },
+    {
+      "auxiliary_loss_clip": 0.01182717,
+      "auxiliary_loss_mlp": 0.01026392,
+      "balance_loss_clip": 1.04212236,
+      "balance_loss_mlp": 1.01872969,
+      "epoch": 0.9365718751878795,
+      "flos": 20703758895360.0,
+      "grad_norm": 2.0433805395196374,
+      "language_loss": 0.80592191,
+      "learning_rate": 4.1983556273309293e-08,
+      "loss": 0.82801294,
+      "num_input_tokens_seen": 168367545,
+      "step": 7789,
+      "time_per_iteration": 2.6374399662017822
+    },
+    {
+      "auxiliary_loss_clip": 0.01170983,
+      "auxiliary_loss_mlp": 0.0102866,
+      "balance_loss_clip": 1.04832625,
+      "balance_loss_mlp": 1.02083993,
+      "epoch": 0.9366921180785186,
+      "flos": 18655270260480.0,
+      "grad_norm": 2.9585011187172685,
+      "language_loss": 0.6929068,
+      "learning_rate": 4.182493420022526e-08,
+      "loss": 0.71490324,
+      "num_input_tokens_seen": 168383215,
+      "step": 7790,
+      "time_per_iteration": 2.5790600776672363
+    },
+    {
+      "auxiliary_loss_clip": 0.01194292,
+      "auxiliary_loss_mlp": 0.01025185,
+      "balance_loss_clip": 1.04243684,
+      "balance_loss_mlp": 1.01853609,
+      "epoch": 0.9368123609691577,
+      "flos": 25774955815680.0,
+      "grad_norm": 2.4192796487055226,
+      "language_loss": 0.78351915,
+      "learning_rate": 4.166660918074139e-08,
+      "loss": 0.80571389,
+      "num_input_tokens_seen": 168403120,
+      "step": 7791,
+      "time_per_iteration": 2.6883041858673096
+    },
+    {
+      "auxiliary_loss_clip": 0.01188702,
+      "auxiliary_loss_mlp": 0.01025457,
+      "balance_loss_clip": 1.04206228,
+      "balance_loss_mlp": 1.0185008,
+      "epoch": 0.9369326038597968,
+      "flos": 25553386771200.0,
+      "grad_norm": 1.4852892472545582,
+      "language_loss": 0.73407972,
+      "learning_rate": 4.15085812388758e-08,
+      "loss": 0.75622129,
+      "num_input_tokens_seen": 168425340,
+      "step": 7792,
+      "time_per_iteration": 2.68436598777771
+    },
+    {
+      "auxiliary_loss_clip": 0.01182977,
+      "auxiliary_loss_mlp": 0.01027731,
+      "balance_loss_clip": 1.04460549,
+      "balance_loss_mlp": 1.02040839,
+      "epoch": 0.9370528467504359,
+      "flos": 23220019370880.0,
+      "grad_norm": 1.6591853853716512,
+      "language_loss": 0.78666353,
+      "learning_rate": 4.135085039860153e-08,
+      "loss": 0.80877066,
+      "num_input_tokens_seen": 168444740,
+      "step": 7793,
+      "time_per_iteration": 2.7614285945892334
+    },
+    {
+      "auxiliary_loss_clip": 0.01184021,
+      "auxiliary_loss_mlp": 0.01026055,
+      "balance_loss_clip": 1.0479517,
+      "balance_loss_mlp": 1.01853859,
+      "epoch": 0.9371730896410749,
+      "flos": 24967468120320.0,
+      "grad_norm": 2.0982200927413266,
+      "language_loss": 0.7824645,
+      "learning_rate": 4.1193416683845906e-08,
+      "loss": 0.80456525,
+      "num_input_tokens_seen": 168463670,
+      "step": 7794,
+      "time_per_iteration": 2.6550183296203613
+    },
+    {
+      "auxiliary_loss_clip": 0.01195052,
+      "auxiliary_loss_mlp": 0.01022863,
+      "balance_loss_clip": 1.04457188,
+      "balance_loss_mlp": 1.01679802,
+      "epoch": 0.9372933325317141,
+      "flos": 15553091134080.0,
+      "grad_norm": 2.514372932226363,
+      "language_loss": 0.83519292,
+      "learning_rate": 4.103628011849136e-08,
+      "loss": 0.85737211,
+      "num_input_tokens_seen": 168479030,
+      "step": 7795,
+      "time_per_iteration": 2.6553494930267334
+    },
+    {
+      "auxiliary_loss_clip": 0.01189402,
+      "auxiliary_loss_mlp": 0.01024669,
+      "balance_loss_clip": 1.04644096,
+      "balance_loss_mlp": 1.01740885,
+      "epoch": 0.9374135754223532,
+      "flos": 21871861182720.0,
+      "grad_norm": 1.9090935711584602,
+      "language_loss": 0.75868082,
+      "learning_rate": 4.0879440726375506e-08,
+      "loss": 0.78082156,
+      "num_input_tokens_seen": 168496815,
+      "step": 7796,
+      "time_per_iteration": 2.616743326187134
+    },
+    {
+      "auxiliary_loss_clip": 0.01180511,
+      "auxiliary_loss_mlp": 0.01023924,
+      "balance_loss_clip": 1.04185653,
+      "balance_loss_mlp": 1.01644647,
+      "epoch": 0.9375338183129922,
+      "flos": 22631048064000.0,
+      "grad_norm": 3.412105688637198,
+      "language_loss": 0.56560236,
+      "learning_rate": 4.0722898531291074e-08,
+      "loss": 0.58764672,
+      "num_input_tokens_seen": 168514055,
+      "step": 7797,
+      "time_per_iteration": 2.6676807403564453
+    },
+    {
+      "auxiliary_loss_clip": 0.01191194,
+      "auxiliary_loss_mlp": 0.01024752,
+      "balance_loss_clip": 1.04455233,
+      "balance_loss_mlp": 1.01748347,
+      "epoch": 0.9376540612036314,
+      "flos": 26104292640000.0,
+      "grad_norm": 1.7926690708662874,
+      "language_loss": 0.76458901,
+      "learning_rate": 4.0566653556985295e-08,
+      "loss": 0.78674847,
+      "num_input_tokens_seen": 168534600,
+      "step": 7798,
+      "time_per_iteration": 2.708671808242798
+    },
+    {
+      "auxiliary_loss_clip": 0.01223435,
+      "auxiliary_loss_mlp": 0.01027087,
+      "balance_loss_clip": 1.04014432,
+      "balance_loss_mlp": 1.01936257,
+      "epoch": 0.9377743040942704,
+      "flos": 19717580016000.0,
+      "grad_norm": 2.1901960514743934,
+      "language_loss": 0.81847239,
+      "learning_rate": 4.0410705827159886e-08,
+      "loss": 0.84097755,
+      "num_input_tokens_seen": 168551895,
+      "step": 7799,
+      "time_per_iteration": 3.6599738597869873
+    },
+    {
+      "auxiliary_loss_clip": 0.01176934,
+      "auxiliary_loss_mlp": 0.01024675,
+      "balance_loss_clip": 1.04057777,
+      "balance_loss_mlp": 1.01747513,
+      "epoch": 0.9378945469849095,
+      "flos": 15267530010240.0,
+      "grad_norm": 2.437993749468358,
+      "language_loss": 0.71011752,
+      "learning_rate": 4.0255055365472356e-08,
+      "loss": 0.73213357,
+      "num_input_tokens_seen": 168569990,
+      "step": 7800,
+      "time_per_iteration": 2.622145652770996
+    },
+    {
+      "auxiliary_loss_clip": 0.01206048,
+      "auxiliary_loss_mlp": 0.01024645,
+      "balance_loss_clip": 1.03548884,
+      "balance_loss_mlp": 1.01726604,
+      "epoch": 0.9380147898755486,
+      "flos": 20591394174720.0,
+      "grad_norm": 2.0494616224162705,
+      "language_loss": 0.74655032,
+      "learning_rate": 4.009970219553471e-08,
+      "loss": 0.76885724,
+      "num_input_tokens_seen": 168586940,
+      "step": 7801,
+      "time_per_iteration": 2.7894363403320312
+    },
+    {
+      "auxiliary_loss_clip": 0.01181326,
+      "auxiliary_loss_mlp": 0.01023637,
+      "balance_loss_clip": 1.0466814,
+      "balance_loss_mlp": 1.01630592,
+      "epoch": 0.9381350327661877,
+      "flos": 26281116316800.0,
+      "grad_norm": 5.691337520229002,
+      "language_loss": 0.7663275,
+      "learning_rate": 3.99446463409141e-08,
+      "loss": 0.78837711,
+      "num_input_tokens_seen": 168604795,
+      "step": 7802,
+      "time_per_iteration": 2.6798899173736572
+    },
+    {
+      "auxiliary_loss_clip": 0.01182338,
+      "auxiliary_loss_mlp": 0.01026568,
+      "balance_loss_clip": 1.0459857,
+      "balance_loss_mlp": 1.01904631,
+      "epoch": 0.9382552756568268,
+      "flos": 23586344225280.0,
+      "grad_norm": 2.0979927557256204,
+      "language_loss": 0.6888299,
+      "learning_rate": 3.978988782513215e-08,
+      "loss": 0.71091902,
+      "num_input_tokens_seen": 168622290,
+      "step": 7803,
+      "time_per_iteration": 3.5201451778411865
+    },
+    {
+      "auxiliary_loss_clip": 0.01180348,
+      "auxiliary_loss_mlp": 0.01026866,
+      "balance_loss_clip": 1.04643679,
+      "balance_loss_mlp": 1.01937938,
+      "epoch": 0.9383755185474659,
+      "flos": 28438809275520.0,
+      "grad_norm": 1.7636392681828357,
+      "language_loss": 0.764525,
+      "learning_rate": 3.963542667166586e-08,
+      "loss": 0.78659713,
+      "num_input_tokens_seen": 168642395,
+      "step": 7804,
+      "time_per_iteration": 2.6585140228271484
+    },
+    {
+      "auxiliary_loss_clip": 0.01196066,
+      "auxiliary_loss_mlp": 0.01025315,
+      "balance_loss_clip": 1.04602981,
+      "balance_loss_mlp": 1.01795423,
+      "epoch": 0.938495761438105,
+      "flos": 20449583280000.0,
+      "grad_norm": 1.7714183347062267,
+      "language_loss": 0.68489754,
+      "learning_rate": 3.9481262903946486e-08,
+      "loss": 0.70711136,
+      "num_input_tokens_seen": 168661840,
+      "step": 7805,
+      "time_per_iteration": 3.6184566020965576
+    },
+    {
+      "auxiliary_loss_clip": 0.01113689,
+      "auxiliary_loss_mlp": 0.01001401,
+      "balance_loss_clip": 1.00992572,
+      "balance_loss_mlp": 1.00022638,
+      "epoch": 0.938616004328744,
+      "flos": 69302711658240.0,
+      "grad_norm": 0.7904284562757873,
+      "language_loss": 0.5453226,
+      "learning_rate": 3.932739654536066e-08,
+      "loss": 0.56647348,
+      "num_input_tokens_seen": 168724540,
+      "step": 7806,
+      "time_per_iteration": 3.2290704250335693
+    },
+    {
+      "auxiliary_loss_clip": 0.01177407,
+      "auxiliary_loss_mlp": 0.0102307,
+      "balance_loss_clip": 1.04759598,
+      "balance_loss_mlp": 1.0158875,
+      "epoch": 0.9387362472193832,
+      "flos": 18911636605440.0,
+      "grad_norm": 2.0545586211299502,
+      "language_loss": 0.74202752,
+      "learning_rate": 3.917382761925014e-08,
+      "loss": 0.7640323,
+      "num_input_tokens_seen": 168740375,
+      "step": 7807,
+      "time_per_iteration": 2.5922107696533203
+    },
+    {
+      "auxiliary_loss_clip": 0.01170905,
+      "auxiliary_loss_mlp": 0.01027301,
+      "balance_loss_clip": 1.04475653,
+      "balance_loss_mlp": 1.0201695,
+      "epoch": 0.9388564901100223,
+      "flos": 26501967089280.0,
+      "grad_norm": 1.7114516354311031,
+      "language_loss": 0.79089034,
+      "learning_rate": 3.9020556148910754e-08,
+      "loss": 0.81287241,
+      "num_input_tokens_seen": 168759730,
+      "step": 7808,
+      "time_per_iteration": 2.6428685188293457
+    },
+    {
+      "auxiliary_loss_clip": 0.01088247,
+      "auxiliary_loss_mlp": 0.00999903,
+      "balance_loss_clip": 1.00944996,
+      "balance_loss_mlp": 0.99888366,
+      "epoch": 0.9389767330006613,
+      "flos": 58941083157120.0,
+      "grad_norm": 0.7092155859165561,
+      "language_loss": 0.5668239,
+      "learning_rate": 3.8867582157593895e-08,
+      "loss": 0.58770543,
+      "num_input_tokens_seen": 168813935,
+      "step": 7809,
+      "time_per_iteration": 3.927100896835327
+    },
+    {
+      "auxiliary_loss_clip": 0.011729,
+      "auxiliary_loss_mlp": 0.01025057,
+      "balance_loss_clip": 1.04597282,
+      "balance_loss_mlp": 1.01814866,
+      "epoch": 0.9390969758913005,
+      "flos": 31102554994560.0,
+      "grad_norm": 1.5388339679948333,
+      "language_loss": 0.76694846,
+      "learning_rate": 3.871490566850544e-08,
+      "loss": 0.78892803,
+      "num_input_tokens_seen": 168838145,
+      "step": 7810,
+      "time_per_iteration": 2.8618102073669434
+    },
+    {
+      "auxiliary_loss_clip": 0.01178107,
+      "auxiliary_loss_mlp": 0.01027232,
+      "balance_loss_clip": 1.04228079,
+      "balance_loss_mlp": 1.01979351,
+      "epoch": 0.9392172187819395,
+      "flos": 22419391173120.0,
+      "grad_norm": 1.6444413036042622,
+      "language_loss": 0.70545238,
+      "learning_rate": 3.856252670480642e-08,
+      "loss": 0.7275058,
+      "num_input_tokens_seen": 168856805,
+      "step": 7811,
+      "time_per_iteration": 2.7023887634277344
+    },
+    {
+      "auxiliary_loss_clip": 0.01178717,
+      "auxiliary_loss_mlp": 0.01023002,
+      "balance_loss_clip": 1.04083848,
+      "balance_loss_mlp": 1.01599264,
+      "epoch": 0.9393374616725786,
+      "flos": 19719483436800.0,
+      "grad_norm": 3.3513171231453245,
+      "language_loss": 0.81113058,
+      "learning_rate": 3.841044528961279e-08,
+      "loss": 0.83314776,
+      "num_input_tokens_seen": 168874600,
+      "step": 7812,
+      "time_per_iteration": 2.7007110118865967
+    },
+    {
+      "auxiliary_loss_clip": 0.01167727,
+      "auxiliary_loss_mlp": 0.01021764,
+      "balance_loss_clip": 1.0458945,
+      "balance_loss_mlp": 1.01477814,
+      "epoch": 0.9394577045632178,
+      "flos": 24170215800960.0,
+      "grad_norm": 2.123398251929975,
+      "language_loss": 0.79252863,
+      "learning_rate": 3.825866144599477e-08,
+      "loss": 0.81442356,
+      "num_input_tokens_seen": 168893655,
+      "step": 7813,
+      "time_per_iteration": 2.586637020111084
+    },
+    {
+      "auxiliary_loss_clip": 0.01182702,
+      "auxiliary_loss_mlp": 0.01026349,
+      "balance_loss_clip": 1.04230475,
+      "balance_loss_mlp": 1.01907122,
+      "epoch": 0.9395779474538568,
+      "flos": 19023929498880.0,
+      "grad_norm": 2.051664438257648,
+      "language_loss": 0.75353181,
+      "learning_rate": 3.8107175196978145e-08,
+      "loss": 0.77562231,
+      "num_input_tokens_seen": 168909960,
+      "step": 7814,
+      "time_per_iteration": 2.740838050842285
+    },
+    {
+      "auxiliary_loss_clip": 0.01187947,
+      "auxiliary_loss_mlp": 0.01026159,
+      "balance_loss_clip": 1.0422051,
+      "balance_loss_mlp": 1.0193851,
+      "epoch": 0.9396981903444959,
+      "flos": 14319129260160.0,
+      "grad_norm": 1.8668336036048623,
+      "language_loss": 0.76996946,
+      "learning_rate": 3.7955986565542996e-08,
+      "loss": 0.7921105,
+      "num_input_tokens_seen": 168928040,
+      "step": 7815,
+      "time_per_iteration": 2.6475954055786133
+    },
+    {
+      "auxiliary_loss_clip": 0.01192265,
+      "auxiliary_loss_mlp": 0.01027597,
+      "balance_loss_clip": 1.04211617,
+      "balance_loss_mlp": 1.02044773,
+      "epoch": 0.9398184332351349,
+      "flos": 34787564202240.0,
+      "grad_norm": 1.8307270343626816,
+      "language_loss": 0.6843313,
+      "learning_rate": 3.780509557462497e-08,
+      "loss": 0.70652986,
+      "num_input_tokens_seen": 168948240,
+      "step": 7816,
+      "time_per_iteration": 2.78251314163208
+    },
+    {
+      "auxiliary_loss_clip": 0.01181675,
+      "auxiliary_loss_mlp": 0.0102607,
+      "balance_loss_clip": 1.04276645,
+      "balance_loss_mlp": 1.01804399,
+      "epoch": 0.9399386761257741,
+      "flos": 25372253462400.0,
+      "grad_norm": 1.6258889618667836,
+      "language_loss": 0.75371504,
+      "learning_rate": 3.765450224711375e-08,
+      "loss": 0.77579248,
+      "num_input_tokens_seen": 168968745,
+      "step": 7817,
+      "time_per_iteration": 2.6710259914398193
+    },
+    {
+      "auxiliary_loss_clip": 0.01180624,
+      "auxiliary_loss_mlp": 0.01021911,
+      "balance_loss_clip": 1.04472673,
+      "balance_loss_mlp": 1.01473498,
+      "epoch": 0.9400589190164131,
+      "flos": 27304965584640.0,
+      "grad_norm": 1.7217894066860928,
+      "language_loss": 0.79893959,
+      "learning_rate": 3.750420660585396e-08,
+      "loss": 0.82096493,
+      "num_input_tokens_seen": 168990685,
+      "step": 7818,
+      "time_per_iteration": 2.7300424575805664
+    },
+    {
+      "auxiliary_loss_clip": 0.01164873,
+      "auxiliary_loss_mlp": 0.01033228,
+      "balance_loss_clip": 1.04648769,
+      "balance_loss_mlp": 1.0263133,
+      "epoch": 0.9401791619070522,
+      "flos": 23399859790080.0,
+      "grad_norm": 1.625375827164733,
+      "language_loss": 0.79798365,
+      "learning_rate": 3.735420867364603e-08,
+      "loss": 0.81996465,
+      "num_input_tokens_seen": 169011665,
+      "step": 7819,
+      "time_per_iteration": 2.5684077739715576
+    },
+    {
+      "auxiliary_loss_clip": 0.01203468,
+      "auxiliary_loss_mlp": 0.01023712,
+      "balance_loss_clip": 1.03785086,
+      "balance_loss_mlp": 1.01697636,
+      "epoch": 0.9402994047976914,
+      "flos": 35881403120640.0,
+      "grad_norm": 1.7764425604093932,
+      "language_loss": 0.6174016,
+      "learning_rate": 3.7204508473244186e-08,
+      "loss": 0.63967335,
+      "num_input_tokens_seen": 169035290,
+      "step": 7820,
+      "time_per_iteration": 2.9204766750335693
+    },
+    {
+      "auxiliary_loss_clip": 0.01215281,
+      "auxiliary_loss_mlp": 0.01023156,
+      "balance_loss_clip": 1.03918219,
+      "balance_loss_mlp": 1.01598525,
+      "epoch": 0.9404196476883304,
+      "flos": 22236821320320.0,
+      "grad_norm": 1.6568454446855143,
+      "language_loss": 0.69213611,
+      "learning_rate": 3.7055106027357395e-08,
+      "loss": 0.71452051,
+      "num_input_tokens_seen": 169055155,
+      "step": 7821,
+      "time_per_iteration": 2.7979581356048584
+    },
+    {
+      "auxiliary_loss_clip": 0.01173715,
+      "auxiliary_loss_mlp": 0.01024745,
+      "balance_loss_clip": 1.04622102,
+      "balance_loss_mlp": 1.0177716,
+      "epoch": 0.9405398905789695,
+      "flos": 18915802583040.0,
+      "grad_norm": 2.232736883358314,
+      "language_loss": 0.7172603,
+      "learning_rate": 3.690600135865063e-08,
+      "loss": 0.73924494,
+      "num_input_tokens_seen": 169072080,
+      "step": 7822,
+      "time_per_iteration": 2.575455904006958
+    },
+    {
+      "auxiliary_loss_clip": 0.01110427,
+      "auxiliary_loss_mlp": 0.01002264,
+      "balance_loss_clip": 1.00894213,
+      "balance_loss_mlp": 1.0011971,
+      "epoch": 0.9406601334696086,
+      "flos": 70274130048000.0,
+      "grad_norm": 0.7907832711778058,
+      "language_loss": 0.58110058,
+      "learning_rate": 3.675719448974246e-08,
+      "loss": 0.60222745,
+      "num_input_tokens_seen": 169137170,
+      "step": 7823,
+      "time_per_iteration": 3.384734869003296
+    },
+    {
+      "auxiliary_loss_clip": 0.01197934,
+      "auxiliary_loss_mlp": 0.01378475,
+      "balance_loss_clip": 1.04191232,
+      "balance_loss_mlp": 1.00012755,
+      "epoch": 0.9407803763602477,
+      "flos": 22165071903360.0,
+      "grad_norm": 2.1840287963531226,
+      "language_loss": 0.60308206,
+      "learning_rate": 3.6608685443207054e-08,
+      "loss": 0.62884611,
+      "num_input_tokens_seen": 169156320,
+      "step": 7824,
+      "time_per_iteration": 2.760082721710205
+    },
+    {
+      "auxiliary_loss_clip": 0.01195305,
+      "auxiliary_loss_mlp": 0.01022035,
+      "balance_loss_clip": 1.04359865,
+      "balance_loss_mlp": 1.01522231,
+      "epoch": 0.9409006192508867,
+      "flos": 18879496911360.0,
+      "grad_norm": 2.085572424439765,
+      "language_loss": 0.66619414,
+      "learning_rate": 3.646047424157306e-08,
+      "loss": 0.68836749,
+      "num_input_tokens_seen": 169173295,
+      "step": 7825,
+      "time_per_iteration": 3.5783863067626953
+    },
+    {
+      "auxiliary_loss_clip": 0.0118257,
+      "auxiliary_loss_mlp": 0.0102842,
+      "balance_loss_clip": 1.04427862,
+      "balance_loss_mlp": 1.0208981,
+      "epoch": 0.9410208621415259,
+      "flos": 23368258800000.0,
+      "grad_norm": 2.2494285690890248,
+      "language_loss": 0.6810748,
+      "learning_rate": 3.631256090732382e-08,
+      "loss": 0.70318472,
+      "num_input_tokens_seen": 169193755,
+      "step": 7826,
+      "time_per_iteration": 2.6524181365966797
+    },
+    {
+      "auxiliary_loss_clip": 0.01198226,
+      "auxiliary_loss_mlp": 0.01024156,
+      "balance_loss_clip": 1.04717553,
+      "balance_loss_mlp": 1.0175513,
+      "epoch": 0.941141105032165,
+      "flos": 22742227635840.0,
+      "grad_norm": 1.899591809508871,
+      "language_loss": 0.826841,
+      "learning_rate": 3.6164945462897833e-08,
+      "loss": 0.84906483,
+      "num_input_tokens_seen": 169213045,
+      "step": 7827,
+      "time_per_iteration": 2.7027251720428467
+    },
+    {
+      "auxiliary_loss_clip": 0.01174329,
+      "auxiliary_loss_mlp": 0.01378397,
+      "balance_loss_clip": 1.04620075,
+      "balance_loss_mlp": 1.0000875,
+      "epoch": 0.941261347922804,
+      "flos": 20704908130560.0,
+      "grad_norm": 1.8637482957061327,
+      "language_loss": 0.75701606,
+      "learning_rate": 3.6017627930687856e-08,
+      "loss": 0.7825433,
+      "num_input_tokens_seen": 169232870,
+      "step": 7828,
+      "time_per_iteration": 2.6765573024749756
+    },
+    {
+      "auxiliary_loss_clip": 0.01194063,
+      "auxiliary_loss_mlp": 0.0102722,
+      "balance_loss_clip": 1.03714216,
+      "balance_loss_mlp": 1.01985931,
+      "epoch": 0.9413815908134432,
+      "flos": 19421998997760.0,
+      "grad_norm": 2.408657775289213,
+      "language_loss": 0.77218276,
+      "learning_rate": 3.587060833304267e-08,
+      "loss": 0.79439557,
+      "num_input_tokens_seen": 169251060,
+      "step": 7829,
+      "time_per_iteration": 3.5643179416656494
+    },
+    {
+      "auxiliary_loss_clip": 0.01180032,
+      "auxiliary_loss_mlp": 0.01025254,
+      "balance_loss_clip": 1.04734838,
+      "balance_loss_mlp": 1.01800585,
+      "epoch": 0.9415018337040822,
+      "flos": 17493452853120.0,
+      "grad_norm": 2.1554236553295767,
+      "language_loss": 0.6386627,
+      "learning_rate": 3.5723886692264225e-08,
+      "loss": 0.66071558,
+      "num_input_tokens_seen": 169268600,
+      "step": 7830,
+      "time_per_iteration": 2.6051759719848633
+    },
+    {
+      "auxiliary_loss_clip": 0.01181288,
+      "auxiliary_loss_mlp": 0.01029471,
+      "balance_loss_clip": 1.04253006,
+      "balance_loss_mlp": 1.02246785,
+      "epoch": 0.9416220765947213,
+      "flos": 31831613343360.0,
+      "grad_norm": 2.062597526122502,
+      "language_loss": 0.6173178,
+      "learning_rate": 3.557746303061071e-08,
+      "loss": 0.6394254,
+      "num_input_tokens_seen": 169290355,
+      "step": 7831,
+      "time_per_iteration": 3.6576995849609375
+    },
+    {
+      "auxiliary_loss_clip": 0.01182888,
+      "auxiliary_loss_mlp": 0.01028658,
+      "balance_loss_clip": 1.04445243,
+      "balance_loss_mlp": 1.02112985,
+      "epoch": 0.9417423194853605,
+      "flos": 23511973115520.0,
+      "grad_norm": 1.584166291348187,
+      "language_loss": 0.72505748,
+      "learning_rate": 3.543133737029391e-08,
+      "loss": 0.74717295,
+      "num_input_tokens_seen": 169310865,
+      "step": 7832,
+      "time_per_iteration": 2.6457176208496094
+    },
+    {
+      "auxiliary_loss_clip": 0.0117992,
+      "auxiliary_loss_mlp": 0.0102425,
+      "balance_loss_clip": 1.04647017,
+      "balance_loss_mlp": 1.01664472,
+      "epoch": 0.9418625623759995,
+      "flos": 23915106432000.0,
+      "grad_norm": 2.049672237123612,
+      "language_loss": 0.68713939,
+      "learning_rate": 3.5285509733481214e-08,
+      "loss": 0.70918113,
+      "num_input_tokens_seen": 169330590,
+      "step": 7833,
+      "time_per_iteration": 2.6344072818756104
+    },
+    {
+      "auxiliary_loss_clip": 0.01170012,
+      "auxiliary_loss_mlp": 0.01025862,
+      "balance_loss_clip": 1.04386652,
+      "balance_loss_mlp": 1.01860857,
+      "epoch": 0.9419828052666386,
+      "flos": 18076965292800.0,
+      "grad_norm": 2.1050798985615864,
+      "language_loss": 0.76527947,
+      "learning_rate": 3.513998014229469e-08,
+      "loss": 0.78723824,
+      "num_input_tokens_seen": 169349540,
+      "step": 7834,
+      "time_per_iteration": 2.6360387802124023
+    },
+    {
+      "auxiliary_loss_clip": 0.0118914,
+      "auxiliary_loss_mlp": 0.01022379,
+      "balance_loss_clip": 1.04779005,
+      "balance_loss_mlp": 1.01578712,
+      "epoch": 0.9421030481572777,
+      "flos": 17712328377600.0,
+      "grad_norm": 2.600681365026926,
+      "language_loss": 0.86399543,
+      "learning_rate": 3.499474861881069e-08,
+      "loss": 0.88611066,
+      "num_input_tokens_seen": 169366765,
+      "step": 7835,
+      "time_per_iteration": 3.4368443489074707
+    },
+    {
+      "auxiliary_loss_clip": 0.01211337,
+      "auxiliary_loss_mlp": 0.01023029,
+      "balance_loss_clip": 1.04018974,
+      "balance_loss_mlp": 1.01618898,
+      "epoch": 0.9422232910479168,
+      "flos": 20194114775040.0,
+      "grad_norm": 2.1170523455524934,
+      "language_loss": 0.68431163,
+      "learning_rate": 3.4849815185061136e-08,
+      "loss": 0.70665532,
+      "num_input_tokens_seen": 169386655,
+      "step": 7836,
+      "time_per_iteration": 2.703338384628296
+    },
+    {
+      "auxiliary_loss_clip": 0.01171717,
+      "auxiliary_loss_mlp": 0.01024029,
+      "balance_loss_clip": 1.0425247,
+      "balance_loss_mlp": 1.01679897,
+      "epoch": 0.9423435339385559,
+      "flos": 18442571875200.0,
+      "grad_norm": 1.7919121266566316,
+      "language_loss": 0.76089287,
+      "learning_rate": 3.470517986303223e-08,
+      "loss": 0.78285027,
+      "num_input_tokens_seen": 169405640,
+      "step": 7837,
+      "time_per_iteration": 2.5996344089508057
+    },
+    {
+      "auxiliary_loss_clip": 0.01190529,
+      "auxiliary_loss_mlp": 0.01028807,
+      "balance_loss_clip": 1.04504275,
+      "balance_loss_mlp": 1.02145803,
+      "epoch": 0.942463776829195,
+      "flos": 20080636732800.0,
+      "grad_norm": 1.9274375889246675,
+      "language_loss": 0.79443312,
+      "learning_rate": 3.4560842674664856e-08,
+      "loss": 0.81662649,
+      "num_input_tokens_seen": 169424155,
+      "step": 7838,
+      "time_per_iteration": 2.7252748012542725
+    },
+    {
+      "auxiliary_loss_clip": 0.01174355,
+      "auxiliary_loss_mlp": 0.01022099,
+      "balance_loss_clip": 1.04219115,
+      "balance_loss_mlp": 1.0147202,
+      "epoch": 0.9425840197198341,
+      "flos": 22636255536000.0,
+      "grad_norm": 2.0674101951669157,
+      "language_loss": 0.75394732,
+      "learning_rate": 3.441680364185506e-08,
+      "loss": 0.77591181,
+      "num_input_tokens_seen": 169444025,
+      "step": 7839,
+      "time_per_iteration": 2.6444005966186523
+    },
+    {
+      "auxiliary_loss_clip": 0.01192033,
+      "auxiliary_loss_mlp": 0.01031542,
+      "balance_loss_clip": 1.04902458,
+      "balance_loss_mlp": 1.02423453,
+      "epoch": 0.9427042626104731,
+      "flos": 19937892084480.0,
+      "grad_norm": 7.7115292592870555,
+      "language_loss": 0.74634546,
+      "learning_rate": 3.427306278645314e-08,
+      "loss": 0.76858121,
+      "num_input_tokens_seen": 169462480,
+      "step": 7840,
+      "time_per_iteration": 2.6884560585021973
+    },
+    {
+      "auxiliary_loss_clip": 0.01204864,
+      "auxiliary_loss_mlp": 0.01020681,
+      "balance_loss_clip": 1.04247141,
+      "balance_loss_mlp": 1.0137279,
+      "epoch": 0.9428245055011123,
+      "flos": 22856998567680.0,
+      "grad_norm": 1.681363416738494,
+      "language_loss": 0.72984767,
+      "learning_rate": 3.4129620130264767e-08,
+      "loss": 0.75210309,
+      "num_input_tokens_seen": 169480840,
+      "step": 7841,
+      "time_per_iteration": 2.7377214431762695
+    },
+    {
+      "auxiliary_loss_clip": 0.01187392,
+      "auxiliary_loss_mlp": 0.01378468,
+      "balance_loss_clip": 1.04507816,
+      "balance_loss_mlp": 1.00015807,
+      "epoch": 0.9429447483917514,
+      "flos": 20951757371520.0,
+      "grad_norm": 2.609455664937956,
+      "language_loss": 0.77832711,
+      "learning_rate": 3.398647569505009e-08,
+      "loss": 0.80398571,
+      "num_input_tokens_seen": 169498265,
+      "step": 7842,
+      "time_per_iteration": 2.6449289321899414
+    },
+    {
+      "auxiliary_loss_clip": 0.01199174,
+      "auxiliary_loss_mlp": 0.01025608,
+      "balance_loss_clip": 1.0437367,
+      "balance_loss_mlp": 1.01747763,
+      "epoch": 0.9430649912823904,
+      "flos": 18843658116480.0,
+      "grad_norm": 3.194429178400648,
+      "language_loss": 0.75072122,
+      "learning_rate": 3.384362950252373e-08,
+      "loss": 0.77296913,
+      "num_input_tokens_seen": 169515235,
+      "step": 7843,
+      "time_per_iteration": 2.6873764991760254
+    },
+    {
+      "auxiliary_loss_clip": 0.01181603,
+      "auxiliary_loss_mlp": 0.01029022,
+      "balance_loss_clip": 1.04307854,
+      "balance_loss_mlp": 1.02185142,
+      "epoch": 0.9431852341730296,
+      "flos": 32556038837760.0,
+      "grad_norm": 1.9234303450588353,
+      "language_loss": 0.56915742,
+      "learning_rate": 3.3701081574355473e-08,
+      "loss": 0.59126365,
+      "num_input_tokens_seen": 169537195,
+      "step": 7844,
+      "time_per_iteration": 2.7262182235717773
+    },
+    {
+      "auxiliary_loss_clip": 0.01087861,
+      "auxiliary_loss_mlp": 0.01001695,
+      "balance_loss_clip": 1.00918627,
+      "balance_loss_mlp": 1.00068188,
+      "epoch": 0.9433054770636686,
+      "flos": 66904490252160.0,
+      "grad_norm": 0.6918854757375554,
+      "language_loss": 0.51663202,
+      "learning_rate": 3.3558831932169796e-08,
+      "loss": 0.53752762,
+      "num_input_tokens_seen": 169605865,
+      "step": 7845,
+      "time_per_iteration": 3.317070245742798
+    },
+    {
+      "auxiliary_loss_clip": 0.01172722,
+      "auxiliary_loss_mlp": 0.01026668,
+      "balance_loss_clip": 1.04428077,
+      "balance_loss_mlp": 1.01956558,
+      "epoch": 0.9434257199543077,
+      "flos": 26140346916480.0,
+      "grad_norm": 2.016743898144662,
+      "language_loss": 0.88472176,
+      "learning_rate": 3.341688059754588e-08,
+      "loss": 0.90671569,
+      "num_input_tokens_seen": 169621520,
+      "step": 7846,
+      "time_per_iteration": 2.7120139598846436
+    },
+    {
+      "auxiliary_loss_clip": 0.01200364,
+      "auxiliary_loss_mlp": 0.01378457,
+      "balance_loss_clip": 1.04263401,
+      "balance_loss_mlp": 1.00009,
+      "epoch": 0.9435459628449467,
+      "flos": 25003486483200.0,
+      "grad_norm": 1.9045799879940122,
+      "language_loss": 0.77777058,
+      "learning_rate": 3.327522759201762e-08,
+      "loss": 0.80355877,
+      "num_input_tokens_seen": 169641390,
+      "step": 7847,
+      "time_per_iteration": 2.733912467956543
+    },
+    {
+      "auxiliary_loss_clip": 0.01190902,
+      "auxiliary_loss_mlp": 0.01025701,
+      "balance_loss_clip": 1.04304397,
+      "balance_loss_mlp": 1.01830661,
+      "epoch": 0.9436662057355859,
+      "flos": 22163240309760.0,
+      "grad_norm": 2.2648486286530134,
+      "language_loss": 0.67093372,
+      "learning_rate": 3.313387293707359e-08,
+      "loss": 0.69309974,
+      "num_input_tokens_seen": 169660095,
+      "step": 7848,
+      "time_per_iteration": 2.7453079223632812
+    },
+    {
+      "auxiliary_loss_clip": 0.01189087,
+      "auxiliary_loss_mlp": 0.01029085,
+      "balance_loss_clip": 1.04281545,
+      "balance_loss_mlp": 1.02124095,
+      "epoch": 0.943786448626225,
+      "flos": 20118522602880.0,
+      "grad_norm": 4.20035957004185,
+      "language_loss": 0.68138301,
+      "learning_rate": 3.29928166541571e-08,
+      "loss": 0.70356476,
+      "num_input_tokens_seen": 169679050,
+      "step": 7849,
+      "time_per_iteration": 2.7097692489624023
+    },
+    {
+      "auxiliary_loss_clip": 0.01173936,
+      "auxiliary_loss_mlp": 0.0101993,
+      "balance_loss_clip": 1.04238999,
+      "balance_loss_mlp": 1.012658,
+      "epoch": 0.943906691516864,
+      "flos": 22090808534400.0,
+      "grad_norm": 1.9564543141961521,
+      "language_loss": 0.80505884,
+      "learning_rate": 3.2852058764666346e-08,
+      "loss": 0.82699752,
+      "num_input_tokens_seen": 169698150,
+      "step": 7850,
+      "time_per_iteration": 2.684955358505249
+    },
+    {
+      "auxiliary_loss_clip": 0.01185526,
+      "auxiliary_loss_mlp": 0.01020507,
+      "balance_loss_clip": 1.04649329,
+      "balance_loss_mlp": 1.01374769,
+      "epoch": 0.9440269344075032,
+      "flos": 35298501212160.0,
+      "grad_norm": 1.8320232736862583,
+      "language_loss": 0.68660843,
+      "learning_rate": 3.2711599289954264e-08,
+      "loss": 0.70866877,
+      "num_input_tokens_seen": 169722185,
+      "step": 7851,
+      "time_per_iteration": 3.732515573501587
+    },
+    {
+      "auxiliary_loss_clip": 0.0121058,
+      "auxiliary_loss_mlp": 0.01029904,
+      "balance_loss_clip": 1.03969419,
+      "balance_loss_mlp": 1.02288294,
+      "epoch": 0.9441471772981422,
+      "flos": 19238136255360.0,
+      "grad_norm": 1.7246786487280472,
+      "language_loss": 0.77860868,
+      "learning_rate": 3.257143825132847e-08,
+      "loss": 0.80101353,
+      "num_input_tokens_seen": 169740355,
+      "step": 7852,
+      "time_per_iteration": 2.7688329219818115
+    },
+    {
+      "auxiliary_loss_clip": 0.01185498,
+      "auxiliary_loss_mlp": 0.01018985,
+      "balance_loss_clip": 1.04443145,
+      "balance_loss_mlp": 1.01233315,
+      "epoch": 0.9442674201887813,
+      "flos": 25739799379200.0,
+      "grad_norm": 1.6968222784022937,
+      "language_loss": 0.75964224,
+      "learning_rate": 3.243157567005106e-08,
+      "loss": 0.78168714,
+      "num_input_tokens_seen": 169758535,
+      "step": 7853,
+      "time_per_iteration": 2.7105188369750977
+    },
+    {
+      "auxiliary_loss_clip": 0.01173232,
+      "auxiliary_loss_mlp": 0.01022588,
+      "balance_loss_clip": 1.05123138,
+      "balance_loss_mlp": 1.01558423,
+      "epoch": 0.9443876630794205,
+      "flos": 15523321737600.0,
+      "grad_norm": 1.8787869255206688,
+      "language_loss": 0.63920772,
+      "learning_rate": 3.2292011567339296e-08,
+      "loss": 0.66116595,
+      "num_input_tokens_seen": 169776340,
+      "step": 7854,
+      "time_per_iteration": 2.574603319168091
+    },
+    {
+      "auxiliary_loss_clip": 0.01175972,
+      "auxiliary_loss_mlp": 0.01378188,
+      "balance_loss_clip": 1.04493082,
+      "balance_loss_mlp": 1.0001173,
+      "epoch": 0.9445079059700595,
+      "flos": 13400821128960.0,
+      "grad_norm": 2.203625224036494,
+      "language_loss": 0.56087351,
+      "learning_rate": 3.21527459643649e-08,
+      "loss": 0.58641511,
+      "num_input_tokens_seen": 169793225,
+      "step": 7855,
+      "time_per_iteration": 3.5303163528442383
+    },
+    {
+      "auxiliary_loss_clip": 0.01179395,
+      "auxiliary_loss_mlp": 0.01022772,
+      "balance_loss_clip": 1.04646301,
+      "balance_loss_mlp": 1.01576579,
+      "epoch": 0.9446281488606986,
+      "flos": 23659242877440.0,
+      "grad_norm": 2.11493387427436,
+      "language_loss": 0.73962677,
+      "learning_rate": 3.2013778882254536e-08,
+      "loss": 0.76164842,
+      "num_input_tokens_seen": 169812020,
+      "step": 7856,
+      "time_per_iteration": 2.682004451751709
+    },
+    {
+      "auxiliary_loss_clip": 0.01165917,
+      "auxiliary_loss_mlp": 0.01023328,
+      "balance_loss_clip": 1.04488325,
+      "balance_loss_mlp": 1.01648188,
+      "epoch": 0.9447483917513377,
+      "flos": 25557337267200.0,
+      "grad_norm": 2.007791268915012,
+      "language_loss": 0.75991535,
+      "learning_rate": 3.1875110342088676e-08,
+      "loss": 0.78180778,
+      "num_input_tokens_seen": 169833470,
+      "step": 7857,
+      "time_per_iteration": 3.5733439922332764
+    },
+    {
+      "auxiliary_loss_clip": 0.01180429,
+      "auxiliary_loss_mlp": 0.01026248,
+      "balance_loss_clip": 1.04546928,
+      "balance_loss_mlp": 1.01901186,
+      "epoch": 0.9448686346419768,
+      "flos": 24535463247360.0,
+      "grad_norm": 1.6159140780170484,
+      "language_loss": 0.65696543,
+      "learning_rate": 3.1736740364904035e-08,
+      "loss": 0.67903221,
+      "num_input_tokens_seen": 169854000,
+      "step": 7858,
+      "time_per_iteration": 2.6782848834991455
+    },
+    {
+      "auxiliary_loss_clip": 0.01199364,
+      "auxiliary_loss_mlp": 0.01378391,
+      "balance_loss_clip": 1.04218674,
+      "balance_loss_mlp": 1.00023067,
+      "epoch": 0.9449888775326158,
+      "flos": 14721256995840.0,
+      "grad_norm": 2.082099669914836,
+      "language_loss": 0.77133119,
+      "learning_rate": 3.159866897169094e-08,
+      "loss": 0.79710877,
+      "num_input_tokens_seen": 169872200,
+      "step": 7859,
+      "time_per_iteration": 2.670823335647583
+    },
+    {
+      "auxiliary_loss_clip": 0.01202557,
+      "auxiliary_loss_mlp": 0.01026268,
+      "balance_loss_clip": 1.04583597,
+      "balance_loss_mlp": 1.01893973,
+      "epoch": 0.945109120423255,
+      "flos": 15447873219840.0,
+      "grad_norm": 1.8647553362869813,
+      "language_loss": 0.75516498,
+      "learning_rate": 3.146089618339487e-08,
+      "loss": 0.77745318,
+      "num_input_tokens_seen": 169889055,
+      "step": 7860,
+      "time_per_iteration": 2.652198314666748
+    },
+    {
+      "auxiliary_loss_clip": 0.01195447,
+      "auxiliary_loss_mlp": 0.0102699,
+      "balance_loss_clip": 1.04446352,
+      "balance_loss_mlp": 1.01943779,
+      "epoch": 0.9452293633138941,
+      "flos": 25448097029760.0,
+      "grad_norm": 2.4478238905518657,
+      "language_loss": 0.68445909,
+      "learning_rate": 3.132342202091554e-08,
+      "loss": 0.70668352,
+      "num_input_tokens_seen": 169909280,
+      "step": 7861,
+      "time_per_iteration": 3.513662815093994
+    },
+    {
+      "auxiliary_loss_clip": 0.0116968,
+      "auxiliary_loss_mlp": 0.0102565,
+      "balance_loss_clip": 1.04782736,
+      "balance_loss_mlp": 1.01826477,
+      "epoch": 0.9453496062045331,
+      "flos": 21215342350080.0,
+      "grad_norm": 2.791225658425068,
+      "language_loss": 0.68457675,
+      "learning_rate": 3.1186246505107595e-08,
+      "loss": 0.70653003,
+      "num_input_tokens_seen": 169928420,
+      "step": 7862,
+      "time_per_iteration": 2.4502196311950684
+    },
+    {
+      "auxiliary_loss_clip": 0.01176427,
+      "auxiliary_loss_mlp": 0.01021001,
+      "balance_loss_clip": 1.04825497,
+      "balance_loss_mlp": 1.01405668,
+      "epoch": 0.9454698490951723,
+      "flos": 20010898477440.0,
+      "grad_norm": 2.0786747383191257,
+      "language_loss": 0.83689326,
+      "learning_rate": 3.104936965678084e-08,
+      "loss": 0.85886753,
+      "num_input_tokens_seen": 169946750,
+      "step": 7863,
+      "time_per_iteration": 2.469641923904419
+    },
+    {
+      "auxiliary_loss_clip": 0.01175797,
+      "auxiliary_loss_mlp": 0.010208,
+      "balance_loss_clip": 1.04420936,
+      "balance_loss_mlp": 1.01361775,
+      "epoch": 0.9455900919858113,
+      "flos": 21069652786560.0,
+      "grad_norm": 2.478955569744802,
+      "language_loss": 0.81909823,
+      "learning_rate": 3.091279149669956e-08,
+      "loss": 0.84106421,
+      "num_input_tokens_seen": 169965540,
+      "step": 7864,
+      "time_per_iteration": 2.481698751449585
+    },
+    {
+      "auxiliary_loss_clip": 0.01175353,
+      "auxiliary_loss_mlp": 0.01378468,
+      "balance_loss_clip": 1.04491258,
+      "balance_loss_mlp": 1.0000875,
+      "epoch": 0.9457103348764504,
+      "flos": 20740854666240.0,
+      "grad_norm": 2.153779905686746,
+      "language_loss": 0.73615932,
+      "learning_rate": 3.0776512045581624e-08,
+      "loss": 0.76169753,
+      "num_input_tokens_seen": 169984330,
+      "step": 7865,
+      "time_per_iteration": 2.584444999694824
+    },
+    {
+      "auxiliary_loss_clip": 0.01179105,
+      "auxiliary_loss_mlp": 0.01026993,
+      "balance_loss_clip": 1.04435384,
+      "balance_loss_mlp": 1.01923263,
+      "epoch": 0.9458305777670896,
+      "flos": 21428363957760.0,
+      "grad_norm": 2.6849565580589636,
+      "language_loss": 0.7800855,
+      "learning_rate": 3.0640531324101384e-08,
+      "loss": 0.80214643,
+      "num_input_tokens_seen": 170002095,
+      "step": 7866,
+      "time_per_iteration": 2.5936598777770996
+    },
+    {
+      "auxiliary_loss_clip": 0.0118089,
+      "auxiliary_loss_mlp": 0.01024458,
+      "balance_loss_clip": 1.0505929,
+      "balance_loss_mlp": 1.01620841,
+      "epoch": 0.9459508206577286,
+      "flos": 20011185786240.0,
+      "grad_norm": 1.7888126485084987,
+      "language_loss": 0.76057845,
+      "learning_rate": 3.0504849352886554e-08,
+      "loss": 0.78263193,
+      "num_input_tokens_seen": 170020240,
+      "step": 7867,
+      "time_per_iteration": 2.5696942806243896
+    },
+    {
+      "auxiliary_loss_clip": 0.01177819,
+      "auxiliary_loss_mlp": 0.01030121,
+      "balance_loss_clip": 1.04866719,
+      "balance_loss_mlp": 1.02196681,
+      "epoch": 0.9460710635483677,
+      "flos": 12166428291840.0,
+      "grad_norm": 2.212393083821583,
+      "language_loss": 0.71501076,
+      "learning_rate": 3.036946615252023e-08,
+      "loss": 0.73709017,
+      "num_input_tokens_seen": 170035770,
+      "step": 7868,
+      "time_per_iteration": 2.5790722370147705
+    },
+    {
+      "auxiliary_loss_clip": 0.01191938,
+      "auxiliary_loss_mlp": 0.01026536,
+      "balance_loss_clip": 1.0456512,
+      "balance_loss_mlp": 1.01944923,
+      "epoch": 0.9461913064390068,
+      "flos": 34276196229120.0,
+      "grad_norm": 2.4437905344169124,
+      "language_loss": 0.67261708,
+      "learning_rate": 3.0234381743539984e-08,
+      "loss": 0.69480181,
+      "num_input_tokens_seen": 170053385,
+      "step": 7869,
+      "time_per_iteration": 2.721407890319824
+    },
+    {
+      "auxiliary_loss_clip": 0.01187692,
+      "auxiliary_loss_mlp": 0.01026478,
+      "balance_loss_clip": 1.04313743,
+      "balance_loss_mlp": 1.01931345,
+      "epoch": 0.9463115493296459,
+      "flos": 19463763536640.0,
+      "grad_norm": 2.059736902585293,
+      "language_loss": 0.79822773,
+      "learning_rate": 3.0099596146437863e-08,
+      "loss": 0.82036948,
+      "num_input_tokens_seen": 170070490,
+      "step": 7870,
+      "time_per_iteration": 2.5962307453155518
+    },
+    {
+      "auxiliary_loss_clip": 0.01059567,
+      "auxiliary_loss_mlp": 0.01003174,
+      "balance_loss_clip": 1.00867462,
+      "balance_loss_mlp": 1.00214291,
+      "epoch": 0.946431792220285,
+      "flos": 70570824387840.0,
+      "grad_norm": 0.7786979246873001,
+      "language_loss": 0.60035902,
+      "learning_rate": 2.996510938166086e-08,
+      "loss": 0.6209864,
+      "num_input_tokens_seen": 170133465,
+      "step": 7871,
+      "time_per_iteration": 3.189035654067993
+    },
+    {
+      "auxiliary_loss_clip": 0.0117562,
+      "auxiliary_loss_mlp": 0.01021257,
+      "balance_loss_clip": 1.04660273,
+      "balance_loss_mlp": 1.01423824,
+      "epoch": 0.9465520351109241,
+      "flos": 18947906363520.0,
+      "grad_norm": 2.1543819149633094,
+      "language_loss": 0.7395305,
+      "learning_rate": 2.983092146960997e-08,
+      "loss": 0.76149929,
+      "num_input_tokens_seen": 170150810,
+      "step": 7872,
+      "time_per_iteration": 2.51602840423584
+    },
+    {
+      "auxiliary_loss_clip": 0.01186145,
+      "auxiliary_loss_mlp": 0.01026308,
+      "balance_loss_clip": 1.04380548,
+      "balance_loss_mlp": 1.01916134,
+      "epoch": 0.9466722780015632,
+      "flos": 19135647774720.0,
+      "grad_norm": 3.6314311088258835,
+      "language_loss": 0.8018465,
+      "learning_rate": 2.9697032430642256e-08,
+      "loss": 0.82397103,
+      "num_input_tokens_seen": 170169025,
+      "step": 7873,
+      "time_per_iteration": 2.565406084060669
+    },
+    {
+      "auxiliary_loss_clip": 0.01163745,
+      "auxiliary_loss_mlp": 0.01021819,
+      "balance_loss_clip": 1.04630232,
+      "balance_loss_mlp": 1.01538777,
+      "epoch": 0.9467925208922022,
+      "flos": 17237912520960.0,
+      "grad_norm": 2.2827524552140637,
+      "language_loss": 0.73529255,
+      "learning_rate": 2.9563442285067906e-08,
+      "loss": 0.75714815,
+      "num_input_tokens_seen": 170186070,
+      "step": 7874,
+      "time_per_iteration": 2.5927228927612305
+    },
+    {
+      "auxiliary_loss_clip": 0.01181731,
+      "auxiliary_loss_mlp": 0.01025002,
+      "balance_loss_clip": 1.04818559,
+      "balance_loss_mlp": 1.01788831,
+      "epoch": 0.9469127637828414,
+      "flos": 29169016859520.0,
+      "grad_norm": 2.0451869660456503,
+      "language_loss": 0.79805917,
+      "learning_rate": 2.943015105315294e-08,
+      "loss": 0.82012647,
+      "num_input_tokens_seen": 170206265,
+      "step": 7875,
+      "time_per_iteration": 2.669466257095337
+    },
+    {
+      "auxiliary_loss_clip": 0.01202099,
+      "auxiliary_loss_mlp": 0.01023339,
+      "balance_loss_clip": 1.04060698,
+      "balance_loss_mlp": 1.01524472,
+      "epoch": 0.9470330066734804,
+      "flos": 26030460234240.0,
+      "grad_norm": 2.5977755443795036,
+      "language_loss": 0.66655302,
+      "learning_rate": 2.929715875511718e-08,
+      "loss": 0.68880737,
+      "num_input_tokens_seen": 170225300,
+      "step": 7876,
+      "time_per_iteration": 2.785858392715454
+    },
+    {
+      "auxiliary_loss_clip": 0.0117668,
+      "auxiliary_loss_mlp": 0.01026255,
+      "balance_loss_clip": 1.04362369,
+      "balance_loss_mlp": 1.01929283,
+      "epoch": 0.9471532495641195,
+      "flos": 23440906056960.0,
+      "grad_norm": 1.9396745473771768,
+      "language_loss": 0.70077795,
+      "learning_rate": 2.9164465411135375e-08,
+      "loss": 0.72280723,
+      "num_input_tokens_seen": 170245070,
+      "step": 7877,
+      "time_per_iteration": 3.5203018188476562
+    },
+    {
+      "auxiliary_loss_clip": 0.01178196,
+      "auxiliary_loss_mlp": 0.01024202,
+      "balance_loss_clip": 1.04790461,
+      "balance_loss_mlp": 1.01703715,
+      "epoch": 0.9472734924547586,
+      "flos": 15815850099840.0,
+      "grad_norm": 1.9801077944440315,
+      "language_loss": 0.80912173,
+      "learning_rate": 2.9032071041337426e-08,
+      "loss": 0.83114564,
+      "num_input_tokens_seen": 170263305,
+      "step": 7878,
+      "time_per_iteration": 2.632666826248169
+    },
+    {
+      "auxiliary_loss_clip": 0.01177251,
+      "auxiliary_loss_mlp": 0.01025595,
+      "balance_loss_clip": 1.04396558,
+      "balance_loss_mlp": 1.01809072,
+      "epoch": 0.9473937353453977,
+      "flos": 11181793697280.0,
+      "grad_norm": 1.577815836907772,
+      "language_loss": 0.72548151,
+      "learning_rate": 2.889997566580704e-08,
+      "loss": 0.74750996,
+      "num_input_tokens_seen": 170281460,
+      "step": 7879,
+      "time_per_iteration": 2.592383623123169
+    },
+    {
+      "auxiliary_loss_clip": 0.01168305,
+      "auxiliary_loss_mlp": 0.01020787,
+      "balance_loss_clip": 1.04655814,
+      "balance_loss_mlp": 1.01270437,
+      "epoch": 0.9475139782360368,
+      "flos": 25775530433280.0,
+      "grad_norm": 1.6819917535810027,
+      "language_loss": 0.70269889,
+      "learning_rate": 2.8768179304583086e-08,
+      "loss": 0.72458982,
+      "num_input_tokens_seen": 170303515,
+      "step": 7880,
+      "time_per_iteration": 2.606621026992798
+    },
+    {
+      "auxiliary_loss_clip": 0.01194139,
+      "auxiliary_loss_mlp": 0.01026466,
+      "balance_loss_clip": 1.04699898,
+      "balance_loss_mlp": 1.0196054,
+      "epoch": 0.9476342211266758,
+      "flos": 22820046451200.0,
+      "grad_norm": 1.631215065000974,
+      "language_loss": 0.73702115,
+      "learning_rate": 2.8636681977659117e-08,
+      "loss": 0.75922722,
+      "num_input_tokens_seen": 170323165,
+      "step": 7881,
+      "time_per_iteration": 3.6160757541656494
+    },
+    {
+      "auxiliary_loss_clip": 0.01200618,
+      "auxiliary_loss_mlp": 0.01026389,
+      "balance_loss_clip": 1.04465365,
+      "balance_loss_mlp": 1.01927495,
+      "epoch": 0.947754464017315,
+      "flos": 20193611984640.0,
+      "grad_norm": 2.059812608659302,
+      "language_loss": 0.78130019,
+      "learning_rate": 2.850548370498318e-08,
+      "loss": 0.80357033,
+      "num_input_tokens_seen": 170341005,
+      "step": 7882,
+      "time_per_iteration": 2.6671254634857178
+    },
+    {
+      "auxiliary_loss_clip": 0.01173979,
+      "auxiliary_loss_mlp": 0.01023325,
+      "balance_loss_clip": 1.04412901,
+      "balance_loss_mlp": 1.01646733,
+      "epoch": 0.9478747069079541,
+      "flos": 24717925359360.0,
+      "grad_norm": 2.5995918655878314,
+      "language_loss": 0.71153688,
+      "learning_rate": 2.8374584506457798e-08,
+      "loss": 0.7335099,
+      "num_input_tokens_seen": 170362280,
+      "step": 7883,
+      "time_per_iteration": 3.5553853511810303
+    },
+    {
+      "auxiliary_loss_clip": 0.01182763,
+      "auxiliary_loss_mlp": 0.01021315,
+      "balance_loss_clip": 1.0459739,
+      "balance_loss_mlp": 1.0144453,
+      "epoch": 0.9479949497985931,
+      "flos": 21361355136000.0,
+      "grad_norm": 2.8739276222250303,
+      "language_loss": 0.67566115,
+      "learning_rate": 2.824398440193998e-08,
+      "loss": 0.69770193,
+      "num_input_tokens_seen": 170381080,
+      "step": 7884,
+      "time_per_iteration": 2.616255283355713
+    },
+    {
+      "auxiliary_loss_clip": 0.01191711,
+      "auxiliary_loss_mlp": 0.01030446,
+      "balance_loss_clip": 1.0393703,
+      "balance_loss_mlp": 1.02275705,
+      "epoch": 0.9481151926892323,
+      "flos": 18148606968960.0,
+      "grad_norm": 1.9987690906191513,
+      "language_loss": 0.71392095,
+      "learning_rate": 2.811368341124232e-08,
+      "loss": 0.73614252,
+      "num_input_tokens_seen": 170400150,
+      "step": 7885,
+      "time_per_iteration": 2.74189829826355
+    },
+    {
+      "auxiliary_loss_clip": 0.0118315,
+      "auxiliary_loss_mlp": 0.01027808,
+      "balance_loss_clip": 1.0436641,
+      "balance_loss_mlp": 1.02119493,
+      "epoch": 0.9482354355798713,
+      "flos": 22128012046080.0,
+      "grad_norm": 2.176987519881095,
+      "language_loss": 0.68031299,
+      "learning_rate": 2.7983681554131222e-08,
+      "loss": 0.70242262,
+      "num_input_tokens_seen": 170420410,
+      "step": 7886,
+      "time_per_iteration": 2.642841339111328
+    },
+    {
+      "auxiliary_loss_clip": 0.01180348,
+      "auxiliary_loss_mlp": 0.01025742,
+      "balance_loss_clip": 1.04291177,
+      "balance_loss_mlp": 1.01823139,
+      "epoch": 0.9483556784705104,
+      "flos": 19063072344960.0,
+      "grad_norm": 2.808359659323168,
+      "language_loss": 0.70681137,
+      "learning_rate": 2.7853978850327365e-08,
+      "loss": 0.72887224,
+      "num_input_tokens_seen": 170439580,
+      "step": 7887,
+      "time_per_iteration": 3.424467086791992
+    },
+    {
+      "auxiliary_loss_clip": 0.01195433,
+      "auxiliary_loss_mlp": 0.01025892,
+      "balance_loss_clip": 1.04656005,
+      "balance_loss_mlp": 1.01906157,
+      "epoch": 0.9484759213611496,
+      "flos": 25777110631680.0,
+      "grad_norm": 1.8246759011907532,
+      "language_loss": 0.87322366,
+      "learning_rate": 2.7724575319507225e-08,
+      "loss": 0.89543688,
+      "num_input_tokens_seen": 170459290,
+      "step": 7888,
+      "time_per_iteration": 2.683687686920166
+    },
+    {
+      "auxiliary_loss_clip": 0.01172009,
+      "auxiliary_loss_mlp": 0.01024807,
+      "balance_loss_clip": 1.04229784,
+      "balance_loss_mlp": 1.0177592,
+      "epoch": 0.9485961642517886,
+      "flos": 20667740532480.0,
+      "grad_norm": 1.9808486023840748,
+      "language_loss": 0.77073216,
+      "learning_rate": 2.759547098130044e-08,
+      "loss": 0.79270035,
+      "num_input_tokens_seen": 170478020,
+      "step": 7889,
+      "time_per_iteration": 2.6390879154205322
+    },
+    {
+      "auxiliary_loss_clip": 0.01165104,
+      "auxiliary_loss_mlp": 0.01023461,
+      "balance_loss_clip": 1.04677939,
+      "balance_loss_mlp": 1.01660609,
+      "epoch": 0.9487164071424277,
+      "flos": 22674069578880.0,
+      "grad_norm": 1.9698479503757487,
+      "language_loss": 0.76449919,
+      "learning_rate": 2.746666585529267e-08,
+      "loss": 0.78638482,
+      "num_input_tokens_seen": 170498295,
+      "step": 7890,
+      "time_per_iteration": 2.596662998199463
+    },
+    {
+      "auxiliary_loss_clip": 0.01166283,
+      "auxiliary_loss_mlp": 0.01026473,
+      "balance_loss_clip": 1.04463983,
+      "balance_loss_mlp": 1.01912379,
+      "epoch": 0.9488366500330668,
+      "flos": 38726461716480.0,
+      "grad_norm": 2.038830734461327,
+      "language_loss": 0.74142158,
+      "learning_rate": 2.73381599610234e-08,
+      "loss": 0.76334918,
+      "num_input_tokens_seen": 170518695,
+      "step": 7891,
+      "time_per_iteration": 2.7323691844940186
+    },
+    {
+      "auxiliary_loss_clip": 0.0117029,
+      "auxiliary_loss_mlp": 0.01024404,
+      "balance_loss_clip": 1.04279971,
+      "balance_loss_mlp": 1.01717424,
+      "epoch": 0.9489568929237059,
+      "flos": 27890920149120.0,
+      "grad_norm": 1.7401188324821253,
+      "language_loss": 0.71394187,
+      "learning_rate": 2.7209953317987033e-08,
+      "loss": 0.73588884,
+      "num_input_tokens_seen": 170539735,
+      "step": 7892,
+      "time_per_iteration": 2.6636712551116943
+    },
+    {
+      "auxiliary_loss_clip": 0.01177645,
+      "auxiliary_loss_mlp": 0.01028352,
+      "balance_loss_clip": 1.04634738,
+      "balance_loss_mlp": 1.02031755,
+      "epoch": 0.9490771358143449,
+      "flos": 33580642291200.0,
+      "grad_norm": 1.7934737492269301,
+      "language_loss": 0.78269863,
+      "learning_rate": 2.7082045945631793e-08,
+      "loss": 0.80475855,
+      "num_input_tokens_seen": 170561950,
+      "step": 7893,
+      "time_per_iteration": 2.68916916847229
+    },
+    {
+      "auxiliary_loss_clip": 0.0118248,
+      "auxiliary_loss_mlp": 0.01021752,
+      "balance_loss_clip": 1.04037404,
+      "balance_loss_mlp": 1.0147754,
+      "epoch": 0.9491973787049841,
+      "flos": 14793796512000.0,
+      "grad_norm": 2.001928266055011,
+      "language_loss": 0.69230354,
+      "learning_rate": 2.6954437863361712e-08,
+      "loss": 0.71434581,
+      "num_input_tokens_seen": 170579865,
+      "step": 7894,
+      "time_per_iteration": 2.7016501426696777
+    },
+    {
+      "auxiliary_loss_clip": 0.01215088,
+      "auxiliary_loss_mlp": 0.01024617,
+      "balance_loss_clip": 1.04112577,
+      "balance_loss_mlp": 1.01785731,
+      "epoch": 0.9493176215956232,
+      "flos": 25332535998720.0,
+      "grad_norm": 2.388876417407643,
+      "language_loss": 0.71302581,
+      "learning_rate": 2.6827129090534862e-08,
+      "loss": 0.73542285,
+      "num_input_tokens_seen": 170600165,
+      "step": 7895,
+      "time_per_iteration": 2.8630664348602295
+    },
+    {
+      "auxiliary_loss_clip": 0.01183115,
+      "auxiliary_loss_mlp": 0.01026576,
+      "balance_loss_clip": 1.04540491,
+      "balance_loss_mlp": 1.01870847,
+      "epoch": 0.9494378644862622,
+      "flos": 21029971236480.0,
+      "grad_norm": 1.8772368419634569,
+      "language_loss": 0.77726364,
+      "learning_rate": 2.670011964646335e-08,
+      "loss": 0.79936051,
+      "num_input_tokens_seen": 170618845,
+      "step": 7896,
+      "time_per_iteration": 2.644531011581421
+    },
+    {
+      "auxiliary_loss_clip": 0.01219214,
+      "auxiliary_loss_mlp": 0.01024588,
+      "balance_loss_clip": 1.03350842,
+      "balance_loss_mlp": 1.01704478,
+      "epoch": 0.9495581073769014,
+      "flos": 15195134148480.0,
+      "grad_norm": 2.097317671410859,
+      "language_loss": 0.68497032,
+      "learning_rate": 2.657340955041487e-08,
+      "loss": 0.70740837,
+      "num_input_tokens_seen": 170637620,
+      "step": 7897,
+      "time_per_iteration": 2.7765042781829834
+    },
+    {
+      "auxiliary_loss_clip": 0.01183258,
+      "auxiliary_loss_mlp": 0.01029145,
+      "balance_loss_clip": 1.04534948,
+      "balance_loss_mlp": 1.02175438,
+      "epoch": 0.9496783502675404,
+      "flos": 28616566705920.0,
+      "grad_norm": 1.799005028467176,
+      "language_loss": 0.71459329,
+      "learning_rate": 2.6446998821611167e-08,
+      "loss": 0.73671734,
+      "num_input_tokens_seen": 170657815,
+      "step": 7898,
+      "time_per_iteration": 2.7279322147369385
+    },
+    {
+      "auxiliary_loss_clip": 0.01203688,
+      "auxiliary_loss_mlp": 0.01022923,
+      "balance_loss_clip": 1.04187322,
+      "balance_loss_mlp": 1.01589584,
+      "epoch": 0.9497985931581795,
+      "flos": 14866874732160.0,
+      "grad_norm": 2.98495279240996,
+      "language_loss": 0.71830803,
+      "learning_rate": 2.6320887479228228e-08,
+      "loss": 0.74057412,
+      "num_input_tokens_seen": 170674415,
+      "step": 7899,
+      "time_per_iteration": 2.6663155555725098
+    },
+    {
+      "auxiliary_loss_clip": 0.01187196,
+      "auxiliary_loss_mlp": 0.01023645,
+      "balance_loss_clip": 1.04405928,
+      "balance_loss_mlp": 1.01684666,
+      "epoch": 0.9499188360488187,
+      "flos": 27193319136000.0,
+      "grad_norm": 2.2736280506311126,
+      "language_loss": 0.72728354,
+      "learning_rate": 2.619507554239786e-08,
+      "loss": 0.74939191,
+      "num_input_tokens_seen": 170692975,
+      "step": 7900,
+      "time_per_iteration": 2.651700496673584
+    },
+    {
+      "auxiliary_loss_clip": 0.01181394,
+      "auxiliary_loss_mlp": 0.01023316,
+      "balance_loss_clip": 1.04294968,
+      "balance_loss_mlp": 1.01614547,
+      "epoch": 0.9500390789394577,
+      "flos": 24316479982080.0,
+      "grad_norm": 1.7595273329278152,
+      "language_loss": 0.69832337,
+      "learning_rate": 2.606956303020502e-08,
+      "loss": 0.72037053,
+      "num_input_tokens_seen": 170713780,
+      "step": 7901,
+      "time_per_iteration": 2.755941152572632
+    },
+    {
+      "auxiliary_loss_clip": 0.01177728,
+      "auxiliary_loss_mlp": 0.01027407,
+      "balance_loss_clip": 1.04769039,
+      "balance_loss_mlp": 1.02032626,
+      "epoch": 0.9501593218300968,
+      "flos": 14354752573440.0,
+      "grad_norm": 1.7612391112750518,
+      "language_loss": 0.84225214,
+      "learning_rate": 2.5944349961690036e-08,
+      "loss": 0.86430353,
+      "num_input_tokens_seen": 170730800,
+      "step": 7902,
+      "time_per_iteration": 2.5821144580841064
+    },
+    {
+      "auxiliary_loss_clip": 0.01193984,
+      "auxiliary_loss_mlp": 0.01027148,
+      "balance_loss_clip": 1.04319668,
+      "balance_loss_mlp": 1.01930439,
+      "epoch": 0.9502795647207359,
+      "flos": 38728113742080.0,
+      "grad_norm": 1.5840721472548458,
+      "language_loss": 0.73285609,
+      "learning_rate": 2.581943635584749e-08,
+      "loss": 0.75506747,
+      "num_input_tokens_seen": 170753630,
+      "step": 7903,
+      "time_per_iteration": 3.7187469005584717
+    },
+    {
+      "auxiliary_loss_clip": 0.01173996,
+      "auxiliary_loss_mlp": 0.01022695,
+      "balance_loss_clip": 1.04417419,
+      "balance_loss_mlp": 1.01519656,
+      "epoch": 0.950399807611375,
+      "flos": 40808023799040.0,
+      "grad_norm": 1.9965681977191005,
+      "language_loss": 0.65230489,
+      "learning_rate": 2.569482223162689e-08,
+      "loss": 0.67427182,
+      "num_input_tokens_seen": 170777605,
+      "step": 7904,
+      "time_per_iteration": 2.870558738708496
+    },
+    {
+      "auxiliary_loss_clip": 0.01176012,
+      "auxiliary_loss_mlp": 0.01025975,
+      "balance_loss_clip": 1.04395401,
+      "balance_loss_mlp": 1.01826859,
+      "epoch": 0.950520050502014,
+      "flos": 23440403266560.0,
+      "grad_norm": 1.885934573762322,
+      "language_loss": 0.72535586,
+      "learning_rate": 2.5570507607932e-08,
+      "loss": 0.74737567,
+      "num_input_tokens_seen": 170797520,
+      "step": 7905,
+      "time_per_iteration": 2.6401379108428955
+    },
+    {
+      "auxiliary_loss_clip": 0.01180038,
+      "auxiliary_loss_mlp": 0.01024636,
+      "balance_loss_clip": 1.04681659,
+      "balance_loss_mlp": 1.01722765,
+      "epoch": 0.9506402933926532,
+      "flos": 17783718658560.0,
+      "grad_norm": 3.2743642650206586,
+      "language_loss": 0.63832748,
+      "learning_rate": 2.54464925036213e-08,
+      "loss": 0.66037428,
+      "num_input_tokens_seen": 170814810,
+      "step": 7906,
+      "time_per_iteration": 3.480067491531372
+    },
+    {
+      "auxiliary_loss_clip": 0.01174246,
+      "auxiliary_loss_mlp": 0.01023475,
+      "balance_loss_clip": 1.04522133,
+      "balance_loss_mlp": 1.01653719,
+      "epoch": 0.9507605362832923,
+      "flos": 32561928668160.0,
+      "grad_norm": 1.8796007738090905,
+      "language_loss": 0.60589862,
+      "learning_rate": 2.532277693750773e-08,
+      "loss": 0.6278758,
+      "num_input_tokens_seen": 170835735,
+      "step": 7907,
+      "time_per_iteration": 2.6632297039031982
+    },
+    {
+      "auxiliary_loss_clip": 0.01200478,
+      "auxiliary_loss_mlp": 0.01029699,
+      "balance_loss_clip": 1.04568052,
+      "balance_loss_mlp": 1.02281511,
+      "epoch": 0.9508807791739313,
+      "flos": 19602054898560.0,
+      "grad_norm": 1.922821152143249,
+      "language_loss": 0.75810635,
+      "learning_rate": 2.5199360928358948e-08,
+      "loss": 0.78040814,
+      "num_input_tokens_seen": 170852970,
+      "step": 7908,
+      "time_per_iteration": 3.637299060821533
+    },
+    {
+      "auxiliary_loss_clip": 0.011645,
+      "auxiliary_loss_mlp": 0.01377934,
+      "balance_loss_clip": 1.04275405,
+      "balance_loss_mlp": 1.00009704,
+      "epoch": 0.9510010220645704,
+      "flos": 21471852349440.0,
+      "grad_norm": 1.8055852098037843,
+      "language_loss": 0.87208921,
+      "learning_rate": 2.507624449489665e-08,
+      "loss": 0.89751351,
+      "num_input_tokens_seen": 170871600,
+      "step": 7909,
+      "time_per_iteration": 2.658816337585449
+    },
+    {
+      "auxiliary_loss_clip": 0.01186118,
+      "auxiliary_loss_mlp": 0.01027647,
+      "balance_loss_clip": 1.04514623,
+      "balance_loss_mlp": 1.02075934,
+      "epoch": 0.9511212649552095,
+      "flos": 18879999701760.0,
+      "grad_norm": 2.205816272803594,
+      "language_loss": 0.64726734,
+      "learning_rate": 2.495342765579811e-08,
+      "loss": 0.66940498,
+      "num_input_tokens_seen": 170890260,
+      "step": 7910,
+      "time_per_iteration": 2.614304304122925
+    },
+    {
+      "auxiliary_loss_clip": 0.01200845,
+      "auxiliary_loss_mlp": 0.01027007,
+      "balance_loss_clip": 1.04309118,
+      "balance_loss_mlp": 1.01974773,
+      "epoch": 0.9512415078458486,
+      "flos": 20810521094400.0,
+      "grad_norm": 1.72373043566932,
+      "language_loss": 0.71557456,
+      "learning_rate": 2.4830910429693984e-08,
+      "loss": 0.73785311,
+      "num_input_tokens_seen": 170910220,
+      "step": 7911,
+      "time_per_iteration": 2.841581106185913
+    },
+    {
+      "auxiliary_loss_clip": 0.01168414,
+      "auxiliary_loss_mlp": 0.01025837,
+      "balance_loss_clip": 1.04783416,
+      "balance_loss_mlp": 1.01854157,
+      "epoch": 0.9513617507364877,
+      "flos": 18369565482240.0,
+      "grad_norm": 1.9902368841392881,
+      "language_loss": 0.79289848,
+      "learning_rate": 2.470869283517052e-08,
+      "loss": 0.81484103,
+      "num_input_tokens_seen": 170928255,
+      "step": 7912,
+      "time_per_iteration": 3.3664004802703857
+    },
+    {
+      "auxiliary_loss_clip": 0.01167598,
+      "auxiliary_loss_mlp": 0.01029827,
+      "balance_loss_clip": 1.04359794,
+      "balance_loss_mlp": 1.02277601,
+      "epoch": 0.9514819936271268,
+      "flos": 25010166412800.0,
+      "grad_norm": 1.5472760374844128,
+      "language_loss": 0.76995289,
+      "learning_rate": 2.458677489076777e-08,
+      "loss": 0.7919271,
+      "num_input_tokens_seen": 170949265,
+      "step": 7913,
+      "time_per_iteration": 2.6369616985321045
+    },
+    {
+      "auxiliary_loss_clip": 0.01163258,
+      "auxiliary_loss_mlp": 0.01019479,
+      "balance_loss_clip": 1.04199946,
+      "balance_loss_mlp": 1.01240671,
+      "epoch": 0.9516022365177659,
+      "flos": 18662129758080.0,
+      "grad_norm": 2.029996048511996,
+      "language_loss": 0.83122241,
+      "learning_rate": 2.446515661498072e-08,
+      "loss": 0.85304976,
+      "num_input_tokens_seen": 170968595,
+      "step": 7914,
+      "time_per_iteration": 2.544128656387329
+    },
+    {
+      "auxiliary_loss_clip": 0.01210553,
+      "auxiliary_loss_mlp": 0.01026925,
+      "balance_loss_clip": 1.04070222,
+      "balance_loss_mlp": 1.01980793,
+      "epoch": 0.9517224794084049,
+      "flos": 25372109808000.0,
+      "grad_norm": 2.289593619335178,
+      "language_loss": 0.75162971,
+      "learning_rate": 2.434383802625861e-08,
+      "loss": 0.77400446,
+      "num_input_tokens_seen": 170987550,
+      "step": 7915,
+      "time_per_iteration": 2.76873517036438
+    },
+    {
+      "auxiliary_loss_clip": 0.01191993,
+      "auxiliary_loss_mlp": 0.0102685,
+      "balance_loss_clip": 1.04119837,
+      "balance_loss_mlp": 1.01956058,
+      "epoch": 0.9518427222990441,
+      "flos": 21470918595840.0,
+      "grad_norm": 1.8279842668347677,
+      "language_loss": 0.73981094,
+      "learning_rate": 2.4222819143005168e-08,
+      "loss": 0.76199937,
+      "num_input_tokens_seen": 171007145,
+      "step": 7916,
+      "time_per_iteration": 2.6582484245300293
+    },
+    {
+      "auxiliary_loss_clip": 0.01166155,
+      "auxiliary_loss_mlp": 0.01022561,
+      "balance_loss_clip": 1.04783726,
+      "balance_loss_mlp": 1.01556039,
+      "epoch": 0.9519629651896832,
+      "flos": 21033634423680.0,
+      "grad_norm": 1.812082125761576,
+      "language_loss": 0.80984312,
+      "learning_rate": 2.4102099983579706e-08,
+      "loss": 0.83173031,
+      "num_input_tokens_seen": 171026295,
+      "step": 7917,
+      "time_per_iteration": 2.5719892978668213
+    },
+    {
+      "auxiliary_loss_clip": 0.01173379,
+      "auxiliary_loss_mlp": 0.01032621,
+      "balance_loss_clip": 1.04418397,
+      "balance_loss_mlp": 1.02441955,
+      "epoch": 0.9520832080803222,
+      "flos": 21689219502720.0,
+      "grad_norm": 1.697466838169946,
+      "language_loss": 0.77415586,
+      "learning_rate": 2.3981680566294236e-08,
+      "loss": 0.79621577,
+      "num_input_tokens_seen": 171045895,
+      "step": 7918,
+      "time_per_iteration": 2.64448881149292
+    },
+    {
+      "auxiliary_loss_clip": 0.01166932,
+      "auxiliary_loss_mlp": 0.01024756,
+      "balance_loss_clip": 1.04839838,
+      "balance_loss_mlp": 1.01809812,
+      "epoch": 0.9522034509709614,
+      "flos": 23145289125120.0,
+      "grad_norm": 2.083737078821117,
+      "language_loss": 0.73498094,
+      "learning_rate": 2.3861560909416822e-08,
+      "loss": 0.75689781,
+      "num_input_tokens_seen": 171065445,
+      "step": 7919,
+      "time_per_iteration": 2.5723423957824707
+    },
+    {
+      "auxiliary_loss_clip": 0.01201851,
+      "auxiliary_loss_mlp": 0.01021628,
+      "balance_loss_clip": 1.042781,
+      "balance_loss_mlp": 1.01480913,
+      "epoch": 0.9523236938616004,
+      "flos": 24679428958080.0,
+      "grad_norm": 1.6382096433838724,
+      "language_loss": 0.82709247,
+      "learning_rate": 2.3741741031169325e-08,
+      "loss": 0.84932733,
+      "num_input_tokens_seen": 171085015,
+      "step": 7920,
+      "time_per_iteration": 2.7010409832000732
+    },
+    {
+      "auxiliary_loss_clip": 0.01195315,
+      "auxiliary_loss_mlp": 0.010269,
+      "balance_loss_clip": 1.03907585,
+      "balance_loss_mlp": 1.01982188,
+      "epoch": 0.9524439367522395,
+      "flos": 22672309812480.0,
+      "grad_norm": 1.8737949966149243,
+      "language_loss": 0.71677619,
+      "learning_rate": 2.3622220949728544e-08,
+      "loss": 0.73899829,
+      "num_input_tokens_seen": 171103900,
+      "step": 7921,
+      "time_per_iteration": 2.703613042831421
+    },
+    {
+      "auxiliary_loss_clip": 0.01165693,
+      "auxiliary_loss_mlp": 0.0102779,
+      "balance_loss_clip": 1.04325855,
+      "balance_loss_mlp": 1.02019691,
+      "epoch": 0.9525641796428787,
+      "flos": 34055525024640.0,
+      "grad_norm": 2.747911001025932,
+      "language_loss": 0.60920703,
+      "learning_rate": 2.3503000683225526e-08,
+      "loss": 0.63114184,
+      "num_input_tokens_seen": 171121615,
+      "step": 7922,
+      "time_per_iteration": 2.7420654296875
+    },
+    {
+      "auxiliary_loss_clip": 0.01166267,
+      "auxiliary_loss_mlp": 0.010234,
+      "balance_loss_clip": 1.04578447,
+      "balance_loss_mlp": 1.01560032,
+      "epoch": 0.9526844225335177,
+      "flos": 16727083251840.0,
+      "grad_norm": 2.112624304987332,
+      "language_loss": 0.84461355,
+      "learning_rate": 2.3384080249745585e-08,
+      "loss": 0.86651021,
+      "num_input_tokens_seen": 171139505,
+      "step": 7923,
+      "time_per_iteration": 2.5985491275787354
+    },
+    {
+      "auxiliary_loss_clip": 0.01206146,
+      "auxiliary_loss_mlp": 0.01022682,
+      "balance_loss_clip": 1.04188633,
+      "balance_loss_mlp": 1.01552081,
+      "epoch": 0.9528046654241568,
+      "flos": 36939367330560.0,
+      "grad_norm": 2.124288211496096,
+      "language_loss": 0.83124322,
+      "learning_rate": 2.3265459667329178e-08,
+      "loss": 0.85353148,
+      "num_input_tokens_seen": 171158995,
+      "step": 7924,
+      "time_per_iteration": 2.8664088249206543
+    },
+    {
+      "auxiliary_loss_clip": 0.01187157,
+      "auxiliary_loss_mlp": 0.0102111,
+      "balance_loss_clip": 1.04687905,
+      "balance_loss_mlp": 1.0139451,
+      "epoch": 0.9529249083147959,
+      "flos": 18255010032000.0,
+      "grad_norm": 2.2897573403769496,
+      "language_loss": 0.86652762,
+      "learning_rate": 2.31471389539708e-08,
+      "loss": 0.88861018,
+      "num_input_tokens_seen": 171176120,
+      "step": 7925,
+      "time_per_iteration": 2.598381996154785
+    },
+    {
+      "auxiliary_loss_clip": 0.01178266,
+      "auxiliary_loss_mlp": 0.01378338,
+      "balance_loss_clip": 1.04722333,
+      "balance_loss_mlp": 1.00008631,
+      "epoch": 0.953045151205435,
+      "flos": 28658438985600.0,
+      "grad_norm": 1.805648634160502,
+      "language_loss": 0.72871447,
+      "learning_rate": 2.3029118127619872e-08,
+      "loss": 0.75428045,
+      "num_input_tokens_seen": 171195835,
+      "step": 7926,
+      "time_per_iteration": 2.704482078552246
+    },
+    {
+      "auxiliary_loss_clip": 0.01174494,
+      "auxiliary_loss_mlp": 0.01021902,
+      "balance_loss_clip": 1.04315889,
+      "balance_loss_mlp": 1.01465404,
+      "epoch": 0.953165394096074,
+      "flos": 21835232288640.0,
+      "grad_norm": 2.1204245391254526,
+      "language_loss": 0.87010956,
+      "learning_rate": 2.2911397206179628e-08,
+      "loss": 0.89207351,
+      "num_input_tokens_seen": 171212585,
+      "step": 7927,
+      "time_per_iteration": 2.6242263317108154
+    },
+    {
+      "auxiliary_loss_clip": 0.01166774,
+      "auxiliary_loss_mlp": 0.01023,
+      "balance_loss_clip": 1.04768527,
+      "balance_loss_mlp": 1.01635456,
+      "epoch": 0.9532856369867132,
+      "flos": 19975059682560.0,
+      "grad_norm": 1.865264207609896,
+      "language_loss": 0.63080728,
+      "learning_rate": 2.279397620750845e-08,
+      "loss": 0.65270507,
+      "num_input_tokens_seen": 171231630,
+      "step": 7928,
+      "time_per_iteration": 2.6109635829925537
+    },
+    {
+      "auxiliary_loss_clip": 0.01177246,
+      "auxiliary_loss_mlp": 0.01026754,
+      "balance_loss_clip": 1.04212976,
+      "balance_loss_mlp": 1.01973569,
+      "epoch": 0.9534058798773523,
+      "flos": 15049588239360.0,
+      "grad_norm": 2.3206545000053347,
+      "language_loss": 0.78829408,
+      "learning_rate": 2.2676855149419195e-08,
+      "loss": 0.81033409,
+      "num_input_tokens_seen": 171248800,
+      "step": 7929,
+      "time_per_iteration": 3.5679969787597656
+    },
+    {
+      "auxiliary_loss_clip": 0.01181445,
+      "auxiliary_loss_mlp": 0.01026074,
+      "balance_loss_clip": 1.04653251,
+      "balance_loss_mlp": 1.01943755,
+      "epoch": 0.9535261227679913,
+      "flos": 17602800831360.0,
+      "grad_norm": 2.24137995434547,
+      "language_loss": 0.75228763,
+      "learning_rate": 2.2560034049678988e-08,
+      "loss": 0.77436286,
+      "num_input_tokens_seen": 171263150,
+      "step": 7930,
+      "time_per_iteration": 2.6088168621063232
+    },
+    {
+      "auxiliary_loss_clip": 0.01169582,
+      "auxiliary_loss_mlp": 0.01018684,
+      "balance_loss_clip": 1.04799151,
+      "balance_loss_mlp": 1.0116446,
+      "epoch": 0.9536463656586305,
+      "flos": 23142954741120.0,
+      "grad_norm": 2.684946224409654,
+      "language_loss": 0.75282669,
+      "learning_rate": 2.2443512926008988e-08,
+      "loss": 0.77470934,
+      "num_input_tokens_seen": 171282480,
+      "step": 7931,
+      "time_per_iteration": 2.6887295246124268
+    },
+    {
+      "auxiliary_loss_clip": 0.01194222,
+      "auxiliary_loss_mlp": 0.01026597,
+      "balance_loss_clip": 1.04170465,
+      "balance_loss_mlp": 1.01988232,
+      "epoch": 0.9537666085492695,
+      "flos": 18625033987200.0,
+      "grad_norm": 2.357433373916841,
+      "language_loss": 0.70016837,
+      "learning_rate": 2.2327291796085946e-08,
+      "loss": 0.72237659,
+      "num_input_tokens_seen": 171300840,
+      "step": 7932,
+      "time_per_iteration": 3.6372971534729004
+    },
+    {
+      "auxiliary_loss_clip": 0.0116797,
+      "auxiliary_loss_mlp": 0.01025314,
+      "balance_loss_clip": 1.04649627,
+      "balance_loss_mlp": 1.01738071,
+      "epoch": 0.9538868514399086,
+      "flos": 18989347680000.0,
+      "grad_norm": 2.7067873248488414,
+      "language_loss": 0.77292651,
+      "learning_rate": 2.2211370677540197e-08,
+      "loss": 0.79485941,
+      "num_input_tokens_seen": 171317365,
+      "step": 7933,
+      "time_per_iteration": 2.5712270736694336
+    },
+    {
+      "auxiliary_loss_clip": 0.01168674,
+      "auxiliary_loss_mlp": 0.01023498,
+      "balance_loss_clip": 1.04704535,
+      "balance_loss_mlp": 1.01671839,
+      "epoch": 0.9540070943305478,
+      "flos": 16800556521600.0,
+      "grad_norm": 2.739432802084937,
+      "language_loss": 0.78393495,
+      "learning_rate": 2.2095749587957012e-08,
+      "loss": 0.8058567,
+      "num_input_tokens_seen": 171335270,
+      "step": 7934,
+      "time_per_iteration": 3.4707016944885254
+    },
+    {
+      "auxiliary_loss_clip": 0.01179893,
+      "auxiliary_loss_mlp": 0.01021813,
+      "balance_loss_clip": 1.04302108,
+      "balance_loss_mlp": 1.01393032,
+      "epoch": 0.9541273372211868,
+      "flos": 20156911263360.0,
+      "grad_norm": 10.869194331429066,
+      "language_loss": 0.69731098,
+      "learning_rate": 2.1980428544876138e-08,
+      "loss": 0.71932799,
+      "num_input_tokens_seen": 171353910,
+      "step": 7935,
+      "time_per_iteration": 2.615004301071167
+    },
+    {
+      "auxiliary_loss_clip": 0.01189164,
+      "auxiliary_loss_mlp": 0.0102524,
+      "balance_loss_clip": 1.03612399,
+      "balance_loss_mlp": 1.01780105,
+      "epoch": 0.9542475801118259,
+      "flos": 26725511381760.0,
+      "grad_norm": 1.534552934669465,
+      "language_loss": 0.74314547,
+      "learning_rate": 2.1865407565791584e-08,
+      "loss": 0.7652896,
+      "num_input_tokens_seen": 171375480,
+      "step": 7936,
+      "time_per_iteration": 2.74215030670166
+    },
+    {
+      "auxiliary_loss_clip": 0.01183211,
+      "auxiliary_loss_mlp": 0.01020457,
+      "balance_loss_clip": 1.0412457,
+      "balance_loss_mlp": 1.01297939,
+      "epoch": 0.954367823002465,
+      "flos": 23330911633920.0,
+      "grad_norm": 2.133683555307259,
+      "language_loss": 0.7707094,
+      "learning_rate": 2.175068666815183e-08,
+      "loss": 0.79274607,
+      "num_input_tokens_seen": 171396320,
+      "step": 7937,
+      "time_per_iteration": 2.6172852516174316
+    },
+    {
+      "auxiliary_loss_clip": 0.01192412,
+      "auxiliary_loss_mlp": 0.01027366,
+      "balance_loss_clip": 1.0429287,
+      "balance_loss_mlp": 1.02021933,
+      "epoch": 0.9544880658931041,
+      "flos": 14902713527040.0,
+      "grad_norm": 2.800638775609954,
+      "language_loss": 0.7881943,
+      "learning_rate": 2.163626586935985e-08,
+      "loss": 0.81039202,
+      "num_input_tokens_seen": 171412860,
+      "step": 7938,
+      "time_per_iteration": 3.500763177871704
+    },
+    {
+      "auxiliary_loss_clip": 0.01171925,
+      "auxiliary_loss_mlp": 0.01024477,
+      "balance_loss_clip": 1.04366612,
+      "balance_loss_mlp": 1.01683021,
+      "epoch": 0.9546083087837431,
+      "flos": 29095902725760.0,
+      "grad_norm": 2.8015335580199276,
+      "language_loss": 0.63247216,
+      "learning_rate": 2.1522145186773755e-08,
+      "loss": 0.65443623,
+      "num_input_tokens_seen": 171431780,
+      "step": 7939,
+      "time_per_iteration": 2.639981269836426
+    },
+    {
+      "auxiliary_loss_clip": 0.01186265,
+      "auxiliary_loss_mlp": 0.01024282,
+      "balance_loss_clip": 1.04555511,
+      "balance_loss_mlp": 1.01754093,
+      "epoch": 0.9547285516743822,
+      "flos": 21142335957120.0,
+      "grad_norm": 1.7231165338694647,
+      "language_loss": 0.85329401,
+      "learning_rate": 2.140832463770481e-08,
+      "loss": 0.87539947,
+      "num_input_tokens_seen": 171450975,
+      "step": 7940,
+      "time_per_iteration": 2.702608346939087
+    },
+    {
+      "auxiliary_loss_clip": 0.01189223,
+      "auxiliary_loss_mlp": 0.01027182,
+      "balance_loss_clip": 1.04424977,
+      "balance_loss_mlp": 1.01989269,
+      "epoch": 0.9548487945650214,
+      "flos": 27490157130240.0,
+      "grad_norm": 1.9094283624308843,
+      "language_loss": 0.75804007,
+      "learning_rate": 2.129480423941987e-08,
+      "loss": 0.78020406,
+      "num_input_tokens_seen": 171467645,
+      "step": 7941,
+      "time_per_iteration": 2.699990749359131
+    },
+    {
+      "auxiliary_loss_clip": 0.01188136,
+      "auxiliary_loss_mlp": 0.0102277,
+      "balance_loss_clip": 1.04518092,
+      "balance_loss_mlp": 1.01590335,
+      "epoch": 0.9549690374556604,
+      "flos": 22273198819200.0,
+      "grad_norm": 1.6064018638406603,
+      "language_loss": 0.801404,
+      "learning_rate": 2.1181584009140052e-08,
+      "loss": 0.82351309,
+      "num_input_tokens_seen": 171487185,
+      "step": 7942,
+      "time_per_iteration": 2.627187967300415
+    },
+    {
+      "auxiliary_loss_clip": 0.01198988,
+      "auxiliary_loss_mlp": 0.01024917,
+      "balance_loss_clip": 1.04154634,
+      "balance_loss_mlp": 1.01829195,
+      "epoch": 0.9550892803462995,
+      "flos": 17595294888960.0,
+      "grad_norm": 2.121505274361009,
+      "language_loss": 0.8393482,
+      "learning_rate": 2.10686639640405e-08,
+      "loss": 0.86158723,
+      "num_input_tokens_seen": 171501275,
+      "step": 7943,
+      "time_per_iteration": 2.6289148330688477
+    },
+    {
+      "auxiliary_loss_clip": 0.01179075,
+      "auxiliary_loss_mlp": 0.01024606,
+      "balance_loss_clip": 1.04525578,
+      "balance_loss_mlp": 1.01801109,
+      "epoch": 0.9552095232369386,
+      "flos": 24353144789760.0,
+      "grad_norm": 1.6386625722232246,
+      "language_loss": 0.81392586,
+      "learning_rate": 2.0956044121251294e-08,
+      "loss": 0.83596265,
+      "num_input_tokens_seen": 171520060,
+      "step": 7944,
+      "time_per_iteration": 2.6942026615142822
+    },
+    {
+      "auxiliary_loss_clip": 0.01191439,
+      "auxiliary_loss_mlp": 0.01025228,
+      "balance_loss_clip": 1.04336953,
+      "balance_loss_mlp": 1.01799774,
+      "epoch": 0.9553297661275777,
+      "flos": 22746860490240.0,
+      "grad_norm": 1.9401178358957543,
+      "language_loss": 0.80956399,
+      "learning_rate": 2.084372449785654e-08,
+      "loss": 0.83173066,
+      "num_input_tokens_seen": 171539895,
+      "step": 7945,
+      "time_per_iteration": 2.792404890060425
+    },
+    {
+      "auxiliary_loss_clip": 0.01177548,
+      "auxiliary_loss_mlp": 0.01027114,
+      "balance_loss_clip": 1.04171133,
+      "balance_loss_mlp": 1.02005124,
+      "epoch": 0.9554500090182168,
+      "flos": 15413866018560.0,
+      "grad_norm": 1.9768384059277941,
+      "language_loss": 0.68612003,
+      "learning_rate": 2.0731705110895282e-08,
+      "loss": 0.70816666,
+      "num_input_tokens_seen": 171557385,
+      "step": 7946,
+      "time_per_iteration": 2.5832293033599854
+    },
+    {
+      "auxiliary_loss_clip": 0.01179295,
+      "auxiliary_loss_mlp": 0.01028755,
+      "balance_loss_clip": 1.04811502,
+      "balance_loss_mlp": 1.02098823,
+      "epoch": 0.9555702519088559,
+      "flos": 23513517400320.0,
+      "grad_norm": 3.6036723018910424,
+      "language_loss": 0.86693692,
+      "learning_rate": 2.0619985977360587e-08,
+      "loss": 0.88901746,
+      "num_input_tokens_seen": 171575705,
+      "step": 7947,
+      "time_per_iteration": 2.592747211456299
+    },
+    {
+      "auxiliary_loss_clip": 0.01199763,
+      "auxiliary_loss_mlp": 0.01021835,
+      "balance_loss_clip": 1.03816128,
+      "balance_loss_mlp": 1.01492095,
+      "epoch": 0.955690494799495,
+      "flos": 22962072827520.0,
+      "grad_norm": 1.920917230183842,
+      "language_loss": 0.76796669,
+      "learning_rate": 2.0508567114200237e-08,
+      "loss": 0.79018271,
+      "num_input_tokens_seen": 171595620,
+      "step": 7948,
+      "time_per_iteration": 2.6971254348754883
+    },
+    {
+      "auxiliary_loss_clip": 0.01188381,
+      "auxiliary_loss_mlp": 0.01020941,
+      "balance_loss_clip": 1.04407263,
+      "balance_loss_mlp": 1.01457822,
+      "epoch": 0.955810737690134,
+      "flos": 26031250333440.0,
+      "grad_norm": 32.504262147788864,
+      "language_loss": 0.78580374,
+      "learning_rate": 2.0397448538316485e-08,
+      "loss": 0.80789697,
+      "num_input_tokens_seen": 171616660,
+      "step": 7949,
+      "time_per_iteration": 2.690518617630005
+    },
+    {
+      "auxiliary_loss_clip": 0.01187083,
+      "auxiliary_loss_mlp": 0.01024395,
+      "balance_loss_clip": 1.04219532,
+      "balance_loss_mlp": 1.01731133,
+      "epoch": 0.9559309805807732,
+      "flos": 20849951249280.0,
+      "grad_norm": 2.4460259473624597,
+      "language_loss": 0.67184907,
+      "learning_rate": 2.028663026656563e-08,
+      "loss": 0.69396389,
+      "num_input_tokens_seen": 171635515,
+      "step": 7950,
+      "time_per_iteration": 2.641770362854004
+    },
+    {
+      "auxiliary_loss_clip": 0.01164759,
+      "auxiliary_loss_mlp": 0.01378451,
+      "balance_loss_clip": 1.04717565,
+      "balance_loss_mlp": 1.00014019,
+      "epoch": 0.9560512234714122,
+      "flos": 21578219498880.0,
+      "grad_norm": 2.6812069022517266,
+      "language_loss": 0.71852762,
+      "learning_rate": 2.0176112315758885e-08,
+      "loss": 0.74395972,
+      "num_input_tokens_seen": 171653305,
+      "step": 7951,
+      "time_per_iteration": 2.598801851272583
+    },
+    {
+      "auxiliary_loss_clip": 0.01208017,
+      "auxiliary_loss_mlp": 0.01024832,
+      "balance_loss_clip": 1.04124236,
+      "balance_loss_mlp": 1.01767349,
+      "epoch": 0.9561714663620513,
+      "flos": 17450144029440.0,
+      "grad_norm": 2.236896025172401,
+      "language_loss": 0.68924284,
+      "learning_rate": 2.0065894702661957e-08,
+      "loss": 0.71157134,
+      "num_input_tokens_seen": 171669980,
+      "step": 7952,
+      "time_per_iteration": 2.6499736309051514
+    },
+    {
+      "auxiliary_loss_clip": 0.01184023,
+      "auxiliary_loss_mlp": 0.01378627,
+      "balance_loss_clip": 1.04159486,
+      "balance_loss_mlp": 1.00011384,
+      "epoch": 0.9562917092526905,
+      "flos": 26098510550400.0,
+      "grad_norm": 1.635288953180144,
+      "language_loss": 0.78194118,
+      "learning_rate": 1.9955977443994577e-08,
+      "loss": 0.80756772,
+      "num_input_tokens_seen": 171689970,
+      "step": 7953,
+      "time_per_iteration": 2.7349345684051514
+    },
+    {
+      "auxiliary_loss_clip": 0.01181629,
+      "auxiliary_loss_mlp": 0.01030317,
+      "balance_loss_clip": 1.04342484,
+      "balance_loss_mlp": 1.02156091,
+      "epoch": 0.9564119521433295,
+      "flos": 24096742531200.0,
+      "grad_norm": 2.069260241105606,
+      "language_loss": 0.6241405,
+      "learning_rate": 1.9846360556430965e-08,
+      "loss": 0.64626002,
+      "num_input_tokens_seen": 171708270,
+      "step": 7954,
+      "time_per_iteration": 2.6562232971191406
+    },
+    {
+      "auxiliary_loss_clip": 0.01164665,
+      "auxiliary_loss_mlp": 0.01018506,
+      "balance_loss_clip": 1.04578698,
+      "balance_loss_mlp": 1.01177406,
+      "epoch": 0.9565321950339686,
+      "flos": 32008903896960.0,
+      "grad_norm": 2.3081112001327475,
+      "language_loss": 0.61576933,
+      "learning_rate": 1.973704405660004e-08,
+      "loss": 0.63760102,
+      "num_input_tokens_seen": 171729385,
+      "step": 7955,
+      "time_per_iteration": 3.5475876331329346
+    },
+    {
+      "auxiliary_loss_clip": 0.0120823,
+      "auxiliary_loss_mlp": 0.01025255,
+      "balance_loss_clip": 1.03919005,
+      "balance_loss_mlp": 1.01826072,
+      "epoch": 0.9566524379246077,
+      "flos": 23588642695680.0,
+      "grad_norm": 2.3269000185168616,
+      "language_loss": 0.78171295,
+      "learning_rate": 1.9628027961085203e-08,
+      "loss": 0.80404776,
+      "num_input_tokens_seen": 171752615,
+      "step": 7956,
+      "time_per_iteration": 2.796542167663574
+    },
+    {
+      "auxiliary_loss_clip": 0.01177633,
+      "auxiliary_loss_mlp": 0.01028791,
+      "balance_loss_clip": 1.03831935,
+      "balance_loss_mlp": 1.02182055,
+      "epoch": 0.9567726808152468,
+      "flos": 38067716240640.0,
+      "grad_norm": 1.7088599344754167,
+      "language_loss": 0.84021121,
+      "learning_rate": 1.9519312286423894e-08,
+      "loss": 0.86227548,
+      "num_input_tokens_seen": 171775810,
+      "step": 7957,
+      "time_per_iteration": 2.8080971240997314
+    },
+    {
+      "auxiliary_loss_clip": 0.0117437,
+      "auxiliary_loss_mlp": 0.01024979,
+      "balance_loss_clip": 1.04609823,
+      "balance_loss_mlp": 1.01737654,
+      "epoch": 0.9568929237058859,
+      "flos": 22744059229440.0,
+      "grad_norm": 1.7291238247297622,
+      "language_loss": 0.77744555,
+      "learning_rate": 1.9410897049108255e-08,
+      "loss": 0.79943907,
+      "num_input_tokens_seen": 171795090,
+      "step": 7958,
+      "time_per_iteration": 3.518179416656494
+    },
+    {
+      "auxiliary_loss_clip": 0.01172652,
+      "auxiliary_loss_mlp": 0.01029752,
+      "balance_loss_clip": 1.04956818,
+      "balance_loss_mlp": 1.02164245,
+      "epoch": 0.957013166596525,
+      "flos": 23841633162240.0,
+      "grad_norm": 2.735553167501594,
+      "language_loss": 0.91459513,
+      "learning_rate": 1.9302782265584905e-08,
+      "loss": 0.93661916,
+      "num_input_tokens_seen": 171815755,
+      "step": 7959,
+      "time_per_iteration": 2.5864739418029785
+    },
+    {
+      "auxiliary_loss_clip": 0.01187782,
+      "auxiliary_loss_mlp": 0.01024535,
+      "balance_loss_clip": 1.03961682,
+      "balance_loss_mlp": 1.01748633,
+      "epoch": 0.9571334094871641,
+      "flos": 17639286071040.0,
+      "grad_norm": 2.1353422920186906,
+      "language_loss": 0.86840093,
+      "learning_rate": 1.9194967952254282e-08,
+      "loss": 0.89052403,
+      "num_input_tokens_seen": 171834330,
+      "step": 7960,
+      "time_per_iteration": 3.6016504764556885
+    },
+    {
+      "auxiliary_loss_clip": 0.01176693,
+      "auxiliary_loss_mlp": 0.01026586,
+      "balance_loss_clip": 1.04736209,
+      "balance_loss_mlp": 1.01875961,
+      "epoch": 0.9572536523778031,
+      "flos": 15369623441280.0,
+      "grad_norm": 2.3679924030860664,
+      "language_loss": 0.8088035,
+      "learning_rate": 1.9087454125472635e-08,
+      "loss": 0.8308363,
+      "num_input_tokens_seen": 171848805,
+      "step": 7961,
+      "time_per_iteration": 2.596151113510132
+    },
+    {
+      "auxiliary_loss_clip": 0.01166427,
+      "auxiliary_loss_mlp": 0.01029128,
+      "balance_loss_clip": 1.04644156,
+      "balance_loss_mlp": 1.02202618,
+      "epoch": 0.9573738952684423,
+      "flos": 24969838417920.0,
+      "grad_norm": 2.7842869159659953,
+      "language_loss": 0.78562105,
+      "learning_rate": 1.8980240801548696e-08,
+      "loss": 0.8075766,
+      "num_input_tokens_seen": 171867995,
+      "step": 7962,
+      "time_per_iteration": 2.5639843940734863
+    },
+    {
+      "auxiliary_loss_clip": 0.01181695,
+      "auxiliary_loss_mlp": 0.01024451,
+      "balance_loss_clip": 1.04508519,
+      "balance_loss_mlp": 1.01772463,
+      "epoch": 0.9574941381590814,
+      "flos": 25769461034880.0,
+      "grad_norm": 1.9109906993139985,
+      "language_loss": 0.74088091,
+      "learning_rate": 1.8873327996747458e-08,
+      "loss": 0.76294237,
+      "num_input_tokens_seen": 171886495,
+      "step": 7963,
+      "time_per_iteration": 2.741687059402466
+    },
+    {
+      "auxiliary_loss_clip": 0.01176213,
+      "auxiliary_loss_mlp": 0.01023445,
+      "balance_loss_clip": 1.04414535,
+      "balance_loss_mlp": 1.01629257,
+      "epoch": 0.9576143810497204,
+      "flos": 32307178435200.0,
+      "grad_norm": 1.9979819184025092,
+      "language_loss": 0.66068935,
+      "learning_rate": 1.8766715727287053e-08,
+      "loss": 0.68268597,
+      "num_input_tokens_seen": 171908200,
+      "step": 7964,
+      "time_per_iteration": 2.6596953868865967
+    },
+    {
+      "auxiliary_loss_clip": 0.01179767,
+      "auxiliary_loss_mlp": 0.01378601,
+      "balance_loss_clip": 1.04463542,
+      "balance_loss_mlp": 1.00022161,
+      "epoch": 0.9577346239403596,
+      "flos": 27745733376000.0,
+      "grad_norm": 1.789019689959651,
+      "language_loss": 0.79288733,
+      "learning_rate": 1.8660404009340546e-08,
+      "loss": 0.81847101,
+      "num_input_tokens_seen": 171928650,
+      "step": 7965,
+      "time_per_iteration": 3.554100751876831
+    },
+    {
+      "auxiliary_loss_clip": 0.01073182,
+      "auxiliary_loss_mlp": 0.01000466,
+      "balance_loss_clip": 1.00832283,
+      "balance_loss_mlp": 0.99944633,
+      "epoch": 0.9578548668309986,
+      "flos": 57468313710720.0,
+      "grad_norm": 0.8703765387373714,
+      "language_loss": 0.59523529,
+      "learning_rate": 1.8554392859035485e-08,
+      "loss": 0.61597174,
+      "num_input_tokens_seen": 171986400,
+      "step": 7966,
+      "time_per_iteration": 3.2047946453094482
+    },
+    {
+      "auxiliary_loss_clip": 0.01222616,
+      "auxiliary_loss_mlp": 0.01022011,
+      "balance_loss_clip": 1.03833699,
+      "balance_loss_mlp": 1.01491535,
+      "epoch": 0.9579751097216377,
+      "flos": 19756040503680.0,
+      "grad_norm": 9.764687970915283,
+      "language_loss": 0.7900005,
+      "learning_rate": 1.8448682292453444e-08,
+      "loss": 0.81244677,
+      "num_input_tokens_seen": 172005475,
+      "step": 7967,
+      "time_per_iteration": 2.819157600402832
+    },
+    {
+      "auxiliary_loss_clip": 0.01167166,
+      "auxiliary_loss_mlp": 0.01026816,
+      "balance_loss_clip": 1.047001,
+      "balance_loss_mlp": 1.01938033,
+      "epoch": 0.9580953526122769,
+      "flos": 18041270152320.0,
+      "grad_norm": 1.7555567727162855,
+      "language_loss": 0.66609293,
+      "learning_rate": 1.8343272325631154e-08,
+      "loss": 0.68803275,
+      "num_input_tokens_seen": 172024420,
+      "step": 7968,
+      "time_per_iteration": 2.5797340869903564
+    },
+    {
+      "auxiliary_loss_clip": 0.01223108,
+      "auxiliary_loss_mlp": 0.01379018,
+      "balance_loss_clip": 1.03883469,
+      "balance_loss_mlp": 1.00021374,
+      "epoch": 0.9582155955029159,
+      "flos": 24270154416000.0,
+      "grad_norm": 2.416901734359382,
+      "language_loss": 0.77931416,
+      "learning_rate": 1.8238162974558492e-08,
+      "loss": 0.8053354,
+      "num_input_tokens_seen": 172038350,
+      "step": 7969,
+      "time_per_iteration": 2.757838726043701
+    },
+    {
+      "auxiliary_loss_clip": 0.01185145,
+      "auxiliary_loss_mlp": 0.01030705,
+      "balance_loss_clip": 1.04726672,
+      "balance_loss_mlp": 1.02374005,
+      "epoch": 0.958335838393555,
+      "flos": 22783309816320.0,
+      "grad_norm": 1.905719358962909,
+      "language_loss": 0.74962914,
+      "learning_rate": 1.8133354255181144e-08,
+      "loss": 0.77178764,
+      "num_input_tokens_seen": 172058665,
+      "step": 7970,
+      "time_per_iteration": 2.7022156715393066
+    },
+    {
+      "auxiliary_loss_clip": 0.01168205,
+      "auxiliary_loss_mlp": 0.01030433,
+      "balance_loss_clip": 1.04256868,
+      "balance_loss_mlp": 1.02322972,
+      "epoch": 0.958456081284194,
+      "flos": 16911484698240.0,
+      "grad_norm": 2.161242907746701,
+      "language_loss": 0.74370235,
+      "learning_rate": 1.802884618339795e-08,
+      "loss": 0.76568878,
+      "num_input_tokens_seen": 172077470,
+      "step": 7971,
+      "time_per_iteration": 2.579522132873535
+    },
+    {
+      "auxiliary_loss_clip": 0.01179549,
+      "auxiliary_loss_mlp": 0.01026502,
+      "balance_loss_clip": 1.04869771,
+      "balance_loss_mlp": 1.0189327,
+      "epoch": 0.9585763241748332,
+      "flos": 19974951941760.0,
+      "grad_norm": 1.9721173011927364,
+      "language_loss": 0.8083123,
+      "learning_rate": 1.7924638775062894e-08,
+      "loss": 0.83037281,
+      "num_input_tokens_seen": 172096590,
+      "step": 7972,
+      "time_per_iteration": 2.6081061363220215
+    },
+    {
+      "auxiliary_loss_clip": 0.01189058,
+      "auxiliary_loss_mlp": 0.01020774,
+      "balance_loss_clip": 1.045645,
+      "balance_loss_mlp": 1.01417542,
+      "epoch": 0.9586965670654722,
+      "flos": 21395649646080.0,
+      "grad_norm": 1.847834612150888,
+      "language_loss": 0.8152473,
+      "learning_rate": 1.7820732045984444e-08,
+      "loss": 0.8373456,
+      "num_input_tokens_seen": 172116735,
+      "step": 7973,
+      "time_per_iteration": 2.6868276596069336
+    },
+    {
+      "auxiliary_loss_clip": 0.01170116,
+      "auxiliary_loss_mlp": 0.01026038,
+      "balance_loss_clip": 1.04430807,
+      "balance_loss_mlp": 1.0184269,
+      "epoch": 0.9588168099561113,
+      "flos": 21435115714560.0,
+      "grad_norm": 1.7345031842177931,
+      "language_loss": 0.73813641,
+      "learning_rate": 1.7717126011924655e-08,
+      "loss": 0.76009798,
+      "num_input_tokens_seen": 172138320,
+      "step": 7974,
+      "time_per_iteration": 2.644552230834961
+    },
+    {
+      "auxiliary_loss_clip": 0.01192557,
+      "auxiliary_loss_mlp": 0.01031651,
+      "balance_loss_clip": 1.03762901,
+      "balance_loss_mlp": 1.02418804,
+      "epoch": 0.9589370528467505,
+      "flos": 11763761852160.0,
+      "grad_norm": 3.1447908641959232,
+      "language_loss": 0.76434922,
+      "learning_rate": 1.7613820688600957e-08,
+      "loss": 0.78659129,
+      "num_input_tokens_seen": 172154225,
+      "step": 7975,
+      "time_per_iteration": 2.7012951374053955
+    },
+    {
+      "auxiliary_loss_clip": 0.01190951,
+      "auxiliary_loss_mlp": 0.01028145,
+      "balance_loss_clip": 1.04446816,
+      "balance_loss_mlp": 1.02075982,
+      "epoch": 0.9590572957373895,
+      "flos": 23441516588160.0,
+      "grad_norm": 1.7445014109067596,
+      "language_loss": 0.78420413,
+      "learning_rate": 1.7510816091684588e-08,
+      "loss": 0.80639511,
+      "num_input_tokens_seen": 172174150,
+      "step": 7976,
+      "time_per_iteration": 2.70542573928833
+    },
+    {
+      "auxiliary_loss_clip": 0.01185673,
+      "auxiliary_loss_mlp": 0.01024303,
+      "balance_loss_clip": 1.04630876,
+      "balance_loss_mlp": 1.01639378,
+      "epoch": 0.9591775386280286,
+      "flos": 22528272274560.0,
+      "grad_norm": 2.21027226672016,
+      "language_loss": 0.7859515,
+      "learning_rate": 1.740811223680083e-08,
+      "loss": 0.80805123,
+      "num_input_tokens_seen": 172191005,
+      "step": 7977,
+      "time_per_iteration": 2.631293773651123
+    },
+    {
+      "auxiliary_loss_clip": 0.01167764,
+      "auxiliary_loss_mlp": 0.0102372,
+      "balance_loss_clip": 1.04874182,
+      "balance_loss_mlp": 1.01669288,
+      "epoch": 0.9592977815186677,
+      "flos": 18186959715840.0,
+      "grad_norm": 2.3541318140493894,
+      "language_loss": 0.74042708,
+      "learning_rate": 1.7305709139530334e-08,
+      "loss": 0.76234186,
+      "num_input_tokens_seen": 172209785,
+      "step": 7978,
+      "time_per_iteration": 2.6371102333068848
+    },
+    {
+      "auxiliary_loss_clip": 0.01166885,
+      "auxiliary_loss_mlp": 0.0102435,
+      "balance_loss_clip": 1.04319441,
+      "balance_loss_mlp": 1.01647651,
+      "epoch": 0.9594180244093068,
+      "flos": 16537797555840.0,
+      "grad_norm": 2.980997690106469,
+      "language_loss": 0.74961096,
+      "learning_rate": 1.7203606815407334e-08,
+      "loss": 0.77152336,
+      "num_input_tokens_seen": 172224380,
+      "step": 7979,
+      "time_per_iteration": 2.745439052581787
+    },
+    {
+      "auxiliary_loss_clip": 0.01189506,
+      "auxiliary_loss_mlp": 0.01027447,
+      "balance_loss_clip": 1.04611218,
+      "balance_loss_mlp": 1.02011299,
+      "epoch": 0.9595382672999458,
+      "flos": 20554334317440.0,
+      "grad_norm": 1.8681823246310985,
+      "language_loss": 0.79447663,
+      "learning_rate": 1.7101805279920557e-08,
+      "loss": 0.8166461,
+      "num_input_tokens_seen": 172242540,
+      "step": 7980,
+      "time_per_iteration": 2.6220850944519043
+    },
+    {
+      "auxiliary_loss_clip": 0.01168712,
+      "auxiliary_loss_mlp": 0.01024901,
+      "balance_loss_clip": 1.04850888,
+      "balance_loss_mlp": 1.01745677,
+      "epoch": 0.959658510190585,
+      "flos": 22638266697600.0,
+      "grad_norm": 1.9216840332540366,
+      "language_loss": 0.80853933,
+      "learning_rate": 1.7000304548513643e-08,
+      "loss": 0.83047545,
+      "num_input_tokens_seen": 172262645,
+      "step": 7981,
+      "time_per_iteration": 3.5196900367736816
+    },
+    {
+      "auxiliary_loss_clip": 0.01191521,
+      "auxiliary_loss_mlp": 0.01026723,
+      "balance_loss_clip": 1.04233193,
+      "balance_loss_mlp": 1.01857543,
+      "epoch": 0.9597787530812241,
+      "flos": 19135252725120.0,
+      "grad_norm": 1.9850649253149772,
+      "language_loss": 0.82707655,
+      "learning_rate": 1.6899104636583394e-08,
+      "loss": 0.84925902,
+      "num_input_tokens_seen": 172280695,
+      "step": 7982,
+      "time_per_iteration": 2.6496903896331787
+    },
+    {
+      "auxiliary_loss_clip": 0.01073714,
+      "auxiliary_loss_mlp": 0.0100158,
+      "balance_loss_clip": 1.00862551,
+      "balance_loss_mlp": 1.00050092,
+      "epoch": 0.9598989959718631,
+      "flos": 60098124055680.0,
+      "grad_norm": 0.7309499438775974,
+      "language_loss": 0.62106109,
+      "learning_rate": 1.6798205559482638e-08,
+      "loss": 0.64181399,
+      "num_input_tokens_seen": 172343075,
+      "step": 7983,
+      "time_per_iteration": 3.326014757156372
+    },
+    {
+      "auxiliary_loss_clip": 0.01196658,
+      "auxiliary_loss_mlp": 0.01024084,
+      "balance_loss_clip": 1.04428363,
+      "balance_loss_mlp": 1.01673782,
+      "epoch": 0.9600192388625023,
+      "flos": 20886795624960.0,
+      "grad_norm": 1.9571757532130716,
+      "language_loss": 0.76519746,
+      "learning_rate": 1.669760733251713e-08,
+      "loss": 0.78740489,
+      "num_input_tokens_seen": 172361950,
+      "step": 7984,
+      "time_per_iteration": 3.6186366081237793
+    },
+    {
+      "auxiliary_loss_clip": 0.01217097,
+      "auxiliary_loss_mlp": 0.01022361,
+      "balance_loss_clip": 1.04065275,
+      "balance_loss_mlp": 1.01566434,
+      "epoch": 0.9601394817531413,
+      "flos": 20445740524800.0,
+      "grad_norm": 1.758561837107692,
+      "language_loss": 0.82366168,
+      "learning_rate": 1.659730997094755e-08,
+      "loss": 0.84605628,
+      "num_input_tokens_seen": 172380440,
+      "step": 7985,
+      "time_per_iteration": 2.7133355140686035
+    },
+    {
+      "auxiliary_loss_clip": 0.01166418,
+      "auxiliary_loss_mlp": 0.01023172,
+      "balance_loss_clip": 1.0435077,
+      "balance_loss_mlp": 1.01601362,
+      "epoch": 0.9602597246437804,
+      "flos": 21507152440320.0,
+      "grad_norm": 1.8604406877256832,
+      "language_loss": 0.61960578,
+      "learning_rate": 1.6497313489989283e-08,
+      "loss": 0.64150167,
+      "num_input_tokens_seen": 172400265,
+      "step": 7986,
+      "time_per_iteration": 3.5773725509643555
+    },
+    {
+      "auxiliary_loss_clip": 0.01194703,
+      "auxiliary_loss_mlp": 0.01025498,
+      "balance_loss_clip": 1.03507185,
+      "balance_loss_mlp": 1.01803803,
+      "epoch": 0.9603799675344196,
+      "flos": 29935099152000.0,
+      "grad_norm": 2.1279821366739577,
+      "language_loss": 0.69570136,
+      "learning_rate": 1.639761790481131e-08,
+      "loss": 0.71790338,
+      "num_input_tokens_seen": 172421145,
+      "step": 7987,
+      "time_per_iteration": 2.7609593868255615
+    },
+    {
+      "auxiliary_loss_clip": 0.01180099,
+      "auxiliary_loss_mlp": 0.01030747,
+      "balance_loss_clip": 1.047791,
+      "balance_loss_mlp": 1.02359486,
+      "epoch": 0.9605002104250586,
+      "flos": 28001525103360.0,
+      "grad_norm": 1.9534078228340435,
+      "language_loss": 0.79189855,
+      "learning_rate": 1.6298223230537754e-08,
+      "loss": 0.81400704,
+      "num_input_tokens_seen": 172438945,
+      "step": 7988,
+      "time_per_iteration": 2.6909539699554443
+    },
+    {
+      "auxiliary_loss_clip": 0.01185582,
+      "auxiliary_loss_mlp": 0.01378995,
+      "balance_loss_clip": 1.0460453,
+      "balance_loss_mlp": 1.00018764,
+      "epoch": 0.9606204533156977,
+      "flos": 35590490870400.0,
+      "grad_norm": 2.1363359350126485,
+      "language_loss": 0.69747186,
+      "learning_rate": 1.619912948224611e-08,
+      "loss": 0.72311759,
+      "num_input_tokens_seen": 172460150,
+      "step": 7989,
+      "time_per_iteration": 2.8254292011260986
+    },
+    {
+      "auxiliary_loss_clip": 0.01186037,
+      "auxiliary_loss_mlp": 0.01030406,
+      "balance_loss_clip": 1.04261637,
+      "balance_loss_mlp": 1.02223992,
+      "epoch": 0.9607406962063368,
+      "flos": 26574614346240.0,
+      "grad_norm": 2.442258279845257,
+      "language_loss": 0.60934281,
+      "learning_rate": 1.6100336674969682e-08,
+      "loss": 0.63150728,
+      "num_input_tokens_seen": 172478990,
+      "step": 7990,
+      "time_per_iteration": 3.630671977996826
+    },
+    {
+      "auxiliary_loss_clip": 0.01204412,
+      "auxiliary_loss_mlp": 0.01027862,
+      "balance_loss_clip": 1.04039407,
+      "balance_loss_mlp": 1.02002716,
+      "epoch": 0.9608609390969759,
+      "flos": 25331781813120.0,
+      "grad_norm": 1.7455468638683846,
+      "language_loss": 0.76369154,
+      "learning_rate": 1.600184482369449e-08,
+      "loss": 0.78601432,
+      "num_input_tokens_seen": 172498905,
+      "step": 7991,
+      "time_per_iteration": 2.7898263931274414
+    },
+    {
+      "auxiliary_loss_clip": 0.01196819,
+      "auxiliary_loss_mlp": 0.01024731,
+      "balance_loss_clip": 1.04301429,
+      "balance_loss_mlp": 1.01621914,
+      "epoch": 0.960981181987615,
+      "flos": 21069114082560.0,
+      "grad_norm": 2.1027472696656204,
+      "language_loss": 0.89194286,
+      "learning_rate": 1.5903653943362126e-08,
+      "loss": 0.91415834,
+      "num_input_tokens_seen": 172517900,
+      "step": 7992,
+      "time_per_iteration": 2.6638236045837402
+    },
+    {
+      "auxiliary_loss_clip": 0.01187518,
+      "auxiliary_loss_mlp": 0.01024912,
+      "balance_loss_clip": 1.04586697,
+      "balance_loss_mlp": 1.01778018,
+      "epoch": 0.9611014248782541,
+      "flos": 17823256554240.0,
+      "grad_norm": 1.9473473366138725,
+      "language_loss": 0.76794779,
+      "learning_rate": 1.580576404886802e-08,
+      "loss": 0.79007208,
+      "num_input_tokens_seen": 172536430,
+      "step": 7993,
+      "time_per_iteration": 2.6770193576812744
+    },
+    {
+      "auxiliary_loss_clip": 0.01175956,
+      "auxiliary_loss_mlp": 0.01024165,
+      "balance_loss_clip": 1.04597461,
+      "balance_loss_mlp": 1.01744163,
+      "epoch": 0.9612216677688932,
+      "flos": 19354631040000.0,
+      "grad_norm": 2.0981439497244345,
+      "language_loss": 0.79685903,
+      "learning_rate": 1.570817515506162e-08,
+      "loss": 0.81886023,
+      "num_input_tokens_seen": 172555120,
+      "step": 7994,
+      "time_per_iteration": 2.605721950531006
+    },
+    {
+      "auxiliary_loss_clip": 0.01167485,
+      "auxiliary_loss_mlp": 0.01023364,
+      "balance_loss_clip": 1.04881108,
+      "balance_loss_mlp": 1.01627755,
+      "epoch": 0.9613419106595322,
+      "flos": 15808739207040.0,
+      "grad_norm": 2.458804813565086,
+      "language_loss": 0.81742924,
+      "learning_rate": 1.561088727674753e-08,
+      "loss": 0.83933777,
+      "num_input_tokens_seen": 172569330,
+      "step": 7995,
+      "time_per_iteration": 2.5296075344085693
+    },
+    {
+      "auxiliary_loss_clip": 0.01214628,
+      "auxiliary_loss_mlp": 0.01022378,
+      "balance_loss_clip": 1.04196239,
+      "balance_loss_mlp": 1.01483202,
+      "epoch": 0.9614621535501714,
+      "flos": 25702488126720.0,
+      "grad_norm": 2.0541077135349863,
+      "language_loss": 0.71090031,
+      "learning_rate": 1.551390042868417e-08,
+      "loss": 0.73327041,
+      "num_input_tokens_seen": 172591100,
+      "step": 7996,
+      "time_per_iteration": 2.751762866973877
+    },
+    {
+      "auxiliary_loss_clip": 0.01176931,
+      "auxiliary_loss_mlp": 0.01021151,
+      "balance_loss_clip": 1.04663599,
+      "balance_loss_mlp": 1.01408792,
+      "epoch": 0.9615823964408104,
+      "flos": 17819054663040.0,
+      "grad_norm": 1.913891030687383,
+      "language_loss": 0.70822585,
+      "learning_rate": 1.5417214625584207e-08,
+      "loss": 0.73020667,
+      "num_input_tokens_seen": 172608755,
+      "step": 7997,
+      "time_per_iteration": 2.585134744644165
+    },
+    {
+      "auxiliary_loss_clip": 0.01169506,
+      "auxiliary_loss_mlp": 0.01031315,
+      "balance_loss_clip": 1.04422951,
+      "balance_loss_mlp": 1.02395368,
+      "epoch": 0.9617026393314495,
+      "flos": 20190020624640.0,
+      "grad_norm": 1.6299594516574176,
+      "language_loss": 0.85243738,
+      "learning_rate": 1.5320829882114806e-08,
+      "loss": 0.87444556,
+      "num_input_tokens_seen": 172626830,
+      "step": 7998,
+      "time_per_iteration": 2.635711669921875
+    },
+    {
+      "auxiliary_loss_clip": 0.01165431,
+      "auxiliary_loss_mlp": 0.0102357,
+      "balance_loss_clip": 1.04481208,
+      "balance_loss_mlp": 1.01635814,
+      "epoch": 0.9618228822220887,
+      "flos": 20267013427200.0,
+      "grad_norm": 1.920543044086676,
+      "language_loss": 0.79101807,
+      "learning_rate": 1.5224746212897378e-08,
+      "loss": 0.81290805,
+      "num_input_tokens_seen": 172646125,
+      "step": 7999,
+      "time_per_iteration": 2.5438179969787598
+    },
+    {
+      "auxiliary_loss_clip": 0.01162676,
+      "auxiliary_loss_mlp": 0.01031561,
+      "balance_loss_clip": 1.04549384,
+      "balance_loss_mlp": 1.02411604,
+      "epoch": 0.9619431251127277,
+      "flos": 21031300039680.0,
+      "grad_norm": 1.6564562558411031,
+      "language_loss": 0.77238065,
+      "learning_rate": 1.512896363250804e-08,
+      "loss": 0.79432303,
+      "num_input_tokens_seen": 172666235,
+      "step": 8000,
+      "time_per_iteration": 2.5871317386627197
+    },
+    {
+      "auxiliary_loss_clip": 0.01178752,
+      "auxiliary_loss_mlp": 0.01024957,
+      "balance_loss_clip": 1.04556286,
+      "balance_loss_mlp": 1.01771188,
+      "epoch": 0.9620633680033668,
+      "flos": 22382654538240.0,
+      "grad_norm": 3.77317939122289,
+      "language_loss": 0.75552726,
+      "learning_rate": 1.503348215547673e-08,
+      "loss": 0.77756441,
+      "num_input_tokens_seen": 172687325,
+      "step": 8001,
+      "time_per_iteration": 2.6221468448638916
+    },
+    {
+      "auxiliary_loss_clip": 0.01180424,
+      "auxiliary_loss_mlp": 0.01025368,
+      "balance_loss_clip": 1.04165912,
+      "balance_loss_mlp": 1.01789308,
+      "epoch": 0.962183610894006,
+      "flos": 18471730740480.0,
+      "grad_norm": 1.8056863308768285,
+      "language_loss": 0.80950326,
+      "learning_rate": 1.4938301796288078e-08,
+      "loss": 0.83156115,
+      "num_input_tokens_seen": 172703895,
+      "step": 8002,
+      "time_per_iteration": 2.6453654766082764
+    },
+    {
+      "auxiliary_loss_clip": 0.01166799,
+      "auxiliary_loss_mlp": 0.01026196,
+      "balance_loss_clip": 1.04715991,
+      "balance_loss_mlp": 1.0190022,
+      "epoch": 0.962303853784645,
+      "flos": 18435245500800.0,
+      "grad_norm": 2.214978168215993,
+      "language_loss": 0.81837046,
+      "learning_rate": 1.4843422569380537e-08,
+      "loss": 0.84030038,
+      "num_input_tokens_seen": 172720650,
+      "step": 8003,
+      "time_per_iteration": 2.5336596965789795
+    },
+    {
+      "auxiliary_loss_clip": 0.01200155,
+      "auxiliary_loss_mlp": 0.01024365,
+      "balance_loss_clip": 1.03997278,
+      "balance_loss_mlp": 1.0170157,
+      "epoch": 0.9624240966752841,
+      "flos": 26391074826240.0,
+      "grad_norm": 1.6996596059039746,
+      "language_loss": 0.8291676,
+      "learning_rate": 1.4748844489147483e-08,
+      "loss": 0.85141277,
+      "num_input_tokens_seen": 172737640,
+      "step": 8004,
+      "time_per_iteration": 2.775167465209961
+    },
+    {
+      "auxiliary_loss_clip": 0.01181058,
+      "auxiliary_loss_mlp": 0.01024641,
+      "balance_loss_clip": 1.04067516,
+      "balance_loss_mlp": 1.01795673,
+      "epoch": 0.9625443395659231,
+      "flos": 14647675985280.0,
+      "grad_norm": 1.9282012940308844,
+      "language_loss": 0.70749909,
+      "learning_rate": 1.4654567569936326e-08,
+      "loss": 0.72955608,
+      "num_input_tokens_seen": 172755215,
+      "step": 8005,
+      "time_per_iteration": 2.598421096801758
+    },
+    {
+      "auxiliary_loss_clip": 0.01195412,
+      "auxiliary_loss_mlp": 0.0102364,
+      "balance_loss_clip": 1.04182172,
+      "balance_loss_mlp": 1.01620722,
+      "epoch": 0.9626645824565623,
+      "flos": 18367626147840.0,
+      "grad_norm": 1.8264450334911357,
+      "language_loss": 0.83073944,
+      "learning_rate": 1.456059182604874e-08,
+      "loss": 0.85293001,
+      "num_input_tokens_seen": 172774020,
+      "step": 8006,
+      "time_per_iteration": 2.646111249923706
+    },
+    {
+      "auxiliary_loss_clip": 0.01168792,
+      "auxiliary_loss_mlp": 0.01023065,
+      "balance_loss_clip": 1.04964924,
+      "balance_loss_mlp": 1.01507783,
+      "epoch": 0.9627848253472013,
+      "flos": 16580424021120.0,
+      "grad_norm": 1.9337125889337756,
+      "language_loss": 0.76542515,
+      "learning_rate": 1.4466917271740653e-08,
+      "loss": 0.78734374,
+      "num_input_tokens_seen": 172792220,
+      "step": 8007,
+      "time_per_iteration": 3.465574264526367
+    },
+    {
+      "auxiliary_loss_clip": 0.0117944,
+      "auxiliary_loss_mlp": 0.01024693,
+      "balance_loss_clip": 1.04328012,
+      "balance_loss_mlp": 1.01714659,
+      "epoch": 0.9629050682378404,
+      "flos": 20886867452160.0,
+      "grad_norm": 2.0789798772783836,
+      "language_loss": 0.6763072,
+      "learning_rate": 1.4373543921222697e-08,
+      "loss": 0.69834852,
+      "num_input_tokens_seen": 172811805,
+      "step": 8008,
+      "time_per_iteration": 2.661207437515259
+    },
+    {
+      "auxiliary_loss_clip": 0.0118021,
+      "auxiliary_loss_mlp": 0.0101993,
+      "balance_loss_clip": 1.04289019,
+      "balance_loss_mlp": 1.01255345,
+      "epoch": 0.9630253111284796,
+      "flos": 17019252478080.0,
+      "grad_norm": 1.7148169814555836,
+      "language_loss": 0.77901483,
+      "learning_rate": 1.428047178865932e-08,
+      "loss": 0.80101621,
+      "num_input_tokens_seen": 172828595,
+      "step": 8009,
+      "time_per_iteration": 2.6031832695007324
+    },
+    {
+      "auxiliary_loss_clip": 0.01181455,
+      "auxiliary_loss_mlp": 0.01032024,
+      "balance_loss_clip": 1.04071641,
+      "balance_loss_mlp": 1.02446055,
+      "epoch": 0.9631455540191186,
+      "flos": 20338942412160.0,
+      "grad_norm": 1.951110881688728,
+      "language_loss": 0.7461859,
+      "learning_rate": 1.4187700888169451e-08,
+      "loss": 0.76832074,
+      "num_input_tokens_seen": 172847770,
+      "step": 8010,
+      "time_per_iteration": 3.4985480308532715
+    },
+    {
+      "auxiliary_loss_clip": 0.01072944,
+      "auxiliary_loss_mlp": 0.01001218,
+      "balance_loss_clip": 1.00929499,
+      "balance_loss_mlp": 1.00017452,
+      "epoch": 0.9632657969097577,
+      "flos": 65956700033280.0,
+      "grad_norm": 0.7527100844620331,
+      "language_loss": 0.57009864,
+      "learning_rate": 1.40952312338265e-08,
+      "loss": 0.59084022,
+      "num_input_tokens_seen": 172912415,
+      "step": 8011,
+      "time_per_iteration": 3.286627769470215
+    },
+    {
+      "auxiliary_loss_clip": 0.01196058,
+      "auxiliary_loss_mlp": 0.01020454,
+      "balance_loss_clip": 1.04241562,
+      "balance_loss_mlp": 1.0134747,
+      "epoch": 0.9633860398003968,
+      "flos": 44419523823360.0,
+      "grad_norm": 1.6571526899702138,
+      "language_loss": 0.68308425,
+      "learning_rate": 1.4003062839657909e-08,
+      "loss": 0.70524943,
+      "num_input_tokens_seen": 172934895,
+      "step": 8012,
+      "time_per_iteration": 3.7917745113372803
+    },
+    {
+      "auxiliary_loss_clip": 0.01194919,
+      "auxiliary_loss_mlp": 0.01027137,
+      "balance_loss_clip": 1.04162836,
+      "balance_loss_mlp": 1.01963258,
+      "epoch": 0.9635062826910359,
+      "flos": 24827704300800.0,
+      "grad_norm": 1.6123178516992949,
+      "language_loss": 0.80135375,
+      "learning_rate": 1.391119571964583e-08,
+      "loss": 0.8235743,
+      "num_input_tokens_seen": 172955835,
+      "step": 8013,
+      "time_per_iteration": 2.694241762161255
+    },
+    {
+      "auxiliary_loss_clip": 0.01175693,
+      "auxiliary_loss_mlp": 0.01023625,
+      "balance_loss_clip": 1.04636049,
+      "balance_loss_mlp": 1.0167737,
+      "epoch": 0.9636265255816749,
+      "flos": 15961360095360.0,
+      "grad_norm": 1.7976897258228965,
+      "language_loss": 0.72940141,
+      "learning_rate": 1.3819629887726225e-08,
+      "loss": 0.75139463,
+      "num_input_tokens_seen": 172973925,
+      "step": 8014,
+      "time_per_iteration": 2.635942220687866
+    },
+    {
+      "auxiliary_loss_clip": 0.01188838,
+      "auxiliary_loss_mlp": 0.01023913,
+      "balance_loss_clip": 1.04521406,
+      "balance_loss_mlp": 1.01672447,
+      "epoch": 0.9637467684723141,
+      "flos": 22601781457920.0,
+      "grad_norm": 1.8857262901306486,
+      "language_loss": 0.76461107,
+      "learning_rate": 1.3728365357789317e-08,
+      "loss": 0.78673857,
+      "num_input_tokens_seen": 172993290,
+      "step": 8015,
+      "time_per_iteration": 2.615537405014038
+    },
+    {
+      "auxiliary_loss_clip": 0.01197376,
+      "auxiliary_loss_mlp": 0.01024648,
+      "balance_loss_clip": 1.03864002,
+      "balance_loss_mlp": 1.01803184,
+      "epoch": 0.9638670113629532,
+      "flos": 17565812801280.0,
+      "grad_norm": 2.564475130855009,
+      "language_loss": 0.76476657,
+      "learning_rate": 1.3637402143680254e-08,
+      "loss": 0.78698683,
+      "num_input_tokens_seen": 173008190,
+      "step": 8016,
+      "time_per_iteration": 2.7497217655181885
+    },
+    {
+      "auxiliary_loss_clip": 0.01095985,
+      "auxiliary_loss_mlp": 0.01003032,
+      "balance_loss_clip": 1.01051712,
+      "balance_loss_mlp": 1.0019238,
+      "epoch": 0.9639872542535922,
+      "flos": 55072139379840.0,
+      "grad_norm": 1.4433997859966206,
+      "language_loss": 0.55092883,
+      "learning_rate": 1.3546740259197998e-08,
+      "loss": 0.57191896,
+      "num_input_tokens_seen": 173061000,
+      "step": 8017,
+      "time_per_iteration": 4.0337748527526855
+    },
+    {
+      "auxiliary_loss_clip": 0.01184316,
+      "auxiliary_loss_mlp": 0.010225,
+      "balance_loss_clip": 1.04477489,
+      "balance_loss_mlp": 1.0149895,
+      "epoch": 0.9641074971442314,
+      "flos": 24134484746880.0,
+      "grad_norm": 2.087857512213157,
+      "language_loss": 0.70600772,
+      "learning_rate": 1.3456379718095989e-08,
+      "loss": 0.72807586,
+      "num_input_tokens_seen": 173081415,
+      "step": 8018,
+      "time_per_iteration": 2.66992449760437
+    },
+    {
+      "auxiliary_loss_clip": 0.01081654,
+      "auxiliary_loss_mlp": 0.00998945,
+      "balance_loss_clip": 1.00891197,
+      "balance_loss_mlp": 0.99787849,
+      "epoch": 0.9642277400348704,
+      "flos": 66747416077440.0,
+      "grad_norm": 0.8402974378243918,
+      "language_loss": 0.62003905,
+      "learning_rate": 1.3366320534081487e-08,
+      "loss": 0.640845,
+      "num_input_tokens_seen": 173144095,
+      "step": 8019,
+      "time_per_iteration": 3.2435712814331055
+    },
+    {
+      "auxiliary_loss_clip": 0.01174247,
+      "auxiliary_loss_mlp": 0.01022782,
+      "balance_loss_clip": 1.04544413,
+      "balance_loss_mlp": 1.01522458,
+      "epoch": 0.9643479829255095,
+      "flos": 30920272450560.0,
+      "grad_norm": 2.528944435427056,
+      "language_loss": 0.75668514,
+      "learning_rate": 1.3276562720816675e-08,
+      "loss": 0.77865547,
+      "num_input_tokens_seen": 173165605,
+      "step": 8020,
+      "time_per_iteration": 2.6778950691223145
+    },
+    {
+      "auxiliary_loss_clip": 0.01167229,
+      "auxiliary_loss_mlp": 0.01025136,
+      "balance_loss_clip": 1.04615927,
+      "balance_loss_mlp": 1.01745248,
+      "epoch": 0.9644682258161487,
+      "flos": 20048245643520.0,
+      "grad_norm": 2.310564609503307,
+      "language_loss": 0.825445,
+      "learning_rate": 1.3187106291917549e-08,
+      "loss": 0.8473686,
+      "num_input_tokens_seen": 173182595,
+      "step": 8021,
+      "time_per_iteration": 2.581456184387207
+    },
+    {
+      "auxiliary_loss_clip": 0.01173255,
+      "auxiliary_loss_mlp": 0.01026472,
+      "balance_loss_clip": 1.0469718,
+      "balance_loss_mlp": 1.01908064,
+      "epoch": 0.9645884687067877,
+      "flos": 21178713456000.0,
+      "grad_norm": 1.8618863565910584,
+      "language_loss": 0.70307082,
+      "learning_rate": 1.309795126095503e-08,
+      "loss": 0.72506809,
+      "num_input_tokens_seen": 173200895,
+      "step": 8022,
+      "time_per_iteration": 2.582960844039917
+    },
+    {
+      "auxiliary_loss_clip": 0.01213261,
+      "auxiliary_loss_mlp": 0.01020678,
+      "balance_loss_clip": 1.03552461,
+      "balance_loss_mlp": 1.01331711,
+      "epoch": 0.9647087115974268,
+      "flos": 18945967029120.0,
+      "grad_norm": 2.5193643385498286,
+      "language_loss": 0.80814976,
+      "learning_rate": 1.3009097641453192e-08,
+      "loss": 0.8304891,
+      "num_input_tokens_seen": 173218745,
+      "step": 8023,
+      "time_per_iteration": 2.852233648300171
+    },
+    {
+      "auxiliary_loss_clip": 0.01185475,
+      "auxiliary_loss_mlp": 0.01025255,
+      "balance_loss_clip": 1.04565752,
+      "balance_loss_mlp": 1.018031,
+      "epoch": 0.9648289544880659,
+      "flos": 16545088016640.0,
+      "grad_norm": 1.6625975227578502,
+      "language_loss": 0.75987142,
+      "learning_rate": 1.2920545446891474e-08,
+      "loss": 0.78197873,
+      "num_input_tokens_seen": 173235465,
+      "step": 8024,
+      "time_per_iteration": 2.706174373626709
+    },
+    {
+      "auxiliary_loss_clip": 0.01188201,
+      "auxiliary_loss_mlp": 0.01023825,
+      "balance_loss_clip": 1.04651237,
+      "balance_loss_mlp": 1.01671386,
+      "epoch": 0.964949197378705,
+      "flos": 24057527857920.0,
+      "grad_norm": 1.6715382253739768,
+      "language_loss": 0.70945603,
+      "learning_rate": 1.2832294690703127e-08,
+      "loss": 0.73157632,
+      "num_input_tokens_seen": 173254440,
+      "step": 8025,
+      "time_per_iteration": 2.7194104194641113
+    },
+    {
+      "auxiliary_loss_clip": 0.01177548,
+      "auxiliary_loss_mlp": 0.01023449,
+      "balance_loss_clip": 1.04856217,
+      "balance_loss_mlp": 1.01626635,
+      "epoch": 0.965069440269344,
+      "flos": 23365565280000.0,
+      "grad_norm": 3.0141205050788784,
+      "language_loss": 0.77478778,
+      "learning_rate": 1.2744345386275668e-08,
+      "loss": 0.79679775,
+      "num_input_tokens_seen": 173273980,
+      "step": 8026,
+      "time_per_iteration": 2.6510698795318604
+    },
+    {
+      "auxiliary_loss_clip": 0.01193265,
+      "auxiliary_loss_mlp": 0.01023868,
+      "balance_loss_clip": 1.04789686,
+      "balance_loss_mlp": 1.01657522,
+      "epoch": 0.9651896831599832,
+      "flos": 25374875155200.0,
+      "grad_norm": 2.307891447971173,
+      "language_loss": 0.78589183,
+      "learning_rate": 1.265669754695109e-08,
+      "loss": 0.80806315,
+      "num_input_tokens_seen": 173293550,
+      "step": 8027,
+      "time_per_iteration": 2.681586503982544
+    },
+    {
+      "auxiliary_loss_clip": 0.01210959,
+      "auxiliary_loss_mlp": 0.01029482,
+      "balance_loss_clip": 1.03795302,
+      "balance_loss_mlp": 1.0218879,
+      "epoch": 0.9653099260506223,
+      "flos": 22272875596800.0,
+      "grad_norm": 2.356414889688796,
+      "language_loss": 0.82101202,
+      "learning_rate": 1.2569351186025201e-08,
+      "loss": 0.84341639,
+      "num_input_tokens_seen": 173312005,
+      "step": 8028,
+      "time_per_iteration": 2.7647197246551514
+    },
+    {
+      "auxiliary_loss_clip": 0.01182221,
+      "auxiliary_loss_mlp": 0.01026182,
+      "balance_loss_clip": 1.0409447,
+      "balance_loss_mlp": 1.01910365,
+      "epoch": 0.9654301689412613,
+      "flos": 26760847386240.0,
+      "grad_norm": 1.4466527497048303,
+      "language_loss": 0.75764549,
+      "learning_rate": 1.2482306316748737e-08,
+      "loss": 0.77972955,
+      "num_input_tokens_seen": 173332450,
+      "step": 8029,
+      "time_per_iteration": 2.724609375
+    },
+    {
+      "auxiliary_loss_clip": 0.01179691,
+      "auxiliary_loss_mlp": 0.01024151,
+      "balance_loss_clip": 1.04423964,
+      "balance_loss_mlp": 1.01693869,
+      "epoch": 0.9655504118319005,
+      "flos": 17412689122560.0,
+      "grad_norm": 2.2235240587135365,
+      "language_loss": 0.78377235,
+      "learning_rate": 1.2395562952326021e-08,
+      "loss": 0.80581081,
+      "num_input_tokens_seen": 173349610,
+      "step": 8030,
+      "time_per_iteration": 2.6535146236419678
+    },
+    {
+      "auxiliary_loss_clip": 0.01198316,
+      "auxiliary_loss_mlp": 0.01029691,
+      "balance_loss_clip": 1.04980516,
+      "balance_loss_mlp": 1.02196074,
+      "epoch": 0.9656706547225395,
+      "flos": 22126970551680.0,
+      "grad_norm": 2.382093952799146,
+      "language_loss": 0.81476033,
+      "learning_rate": 1.2309121105916309e-08,
+      "loss": 0.83704042,
+      "num_input_tokens_seen": 173367900,
+      "step": 8031,
+      "time_per_iteration": 2.6106791496276855
+    },
+    {
+      "auxiliary_loss_clip": 0.01180901,
+      "auxiliary_loss_mlp": 0.01025928,
+      "balance_loss_clip": 1.04622412,
+      "balance_loss_mlp": 1.018507,
+      "epoch": 0.9657908976131786,
+      "flos": 37049289926400.0,
+      "grad_norm": 2.0168093497728004,
+      "language_loss": 0.69380617,
+      "learning_rate": 1.222298079063222e-08,
+      "loss": 0.71587449,
+      "num_input_tokens_seen": 173389040,
+      "step": 8032,
+      "time_per_iteration": 2.761599540710449
+    },
+    {
+      "auxiliary_loss_clip": 0.01178082,
+      "auxiliary_loss_mlp": 0.01025146,
+      "balance_loss_clip": 1.04690552,
+      "balance_loss_mlp": 1.01826215,
+      "epoch": 0.9659111405038178,
+      "flos": 24389809597440.0,
+      "grad_norm": 2.025597949479992,
+      "language_loss": 0.72503471,
+      "learning_rate": 1.2137142019541524e-08,
+      "loss": 0.74706697,
+      "num_input_tokens_seen": 173407595,
+      "step": 8033,
+      "time_per_iteration": 3.5749852657318115
+    },
+    {
+      "auxiliary_loss_clip": 0.01190366,
+      "auxiliary_loss_mlp": 0.01026687,
+      "balance_loss_clip": 1.04427528,
+      "balance_loss_mlp": 1.01959753,
+      "epoch": 0.9660313833944568,
+      "flos": 25009412227200.0,
+      "grad_norm": 2.090551501176105,
+      "language_loss": 0.73241448,
+      "learning_rate": 1.2051604805666027e-08,
+      "loss": 0.75458503,
+      "num_input_tokens_seen": 173424720,
+      "step": 8034,
+      "time_per_iteration": 2.772613763809204
+    },
+    {
+      "auxiliary_loss_clip": 0.0116711,
+      "auxiliary_loss_mlp": 0.01378592,
+      "balance_loss_clip": 1.04777932,
+      "balance_loss_mlp": 1.00018787,
+      "epoch": 0.9661516262850959,
+      "flos": 11801575895040.0,
+      "grad_norm": 2.7816219110201144,
+      "language_loss": 0.78498179,
+      "learning_rate": 1.196636916198135e-08,
+      "loss": 0.81043887,
+      "num_input_tokens_seen": 173442260,
+      "step": 8035,
+      "time_per_iteration": 2.573953866958618
+    },
+    {
+      "auxiliary_loss_clip": 0.01169079,
+      "auxiliary_loss_mlp": 0.01029188,
+      "balance_loss_clip": 1.04705894,
+      "balance_loss_mlp": 1.02206492,
+      "epoch": 0.9662718691757349,
+      "flos": 20047778766720.0,
+      "grad_norm": 1.862646700387711,
+      "language_loss": 0.76879162,
+      "learning_rate": 1.1881435101418036e-08,
+      "loss": 0.79077429,
+      "num_input_tokens_seen": 173461675,
+      "step": 8036,
+      "time_per_iteration": 3.4812228679656982
+    },
+    {
+      "auxiliary_loss_clip": 0.0108555,
+      "auxiliary_loss_mlp": 0.01003308,
+      "balance_loss_clip": 1.00923395,
+      "balance_loss_mlp": 1.00228882,
+      "epoch": 0.9663921120663741,
+      "flos": 68027703517440.0,
+      "grad_norm": 0.7254898863470339,
+      "language_loss": 0.65501094,
+      "learning_rate": 1.1796802636860003e-08,
+      "loss": 0.67589951,
+      "num_input_tokens_seen": 173530205,
+      "step": 8037,
+      "time_per_iteration": 3.253828525543213
+    },
+    {
+      "auxiliary_loss_clip": 0.01170994,
+      "auxiliary_loss_mlp": 0.01027135,
+      "balance_loss_clip": 1.0501107,
+      "balance_loss_mlp": 1.01991343,
+      "epoch": 0.9665123549570132,
+      "flos": 26322916769280.0,
+      "grad_norm": 2.2218235944751137,
+      "language_loss": 0.73909235,
+      "learning_rate": 1.1712471781146316e-08,
+      "loss": 0.76107371,
+      "num_input_tokens_seen": 173549540,
+      "step": 8038,
+      "time_per_iteration": 2.610583782196045
+    },
+    {
+      "auxiliary_loss_clip": 0.01165443,
+      "auxiliary_loss_mlp": 0.01028176,
+      "balance_loss_clip": 1.04543829,
+      "balance_loss_mlp": 1.0208683,
+      "epoch": 0.9666325978476522,
+      "flos": 43941121557120.0,
+      "grad_norm": 1.940540392237262,
+      "language_loss": 0.67163473,
+      "learning_rate": 1.1628442547069628e-08,
+      "loss": 0.69357091,
+      "num_input_tokens_seen": 173571740,
+      "step": 8039,
+      "time_per_iteration": 3.6019468307495117
+    },
+    {
+      "auxiliary_loss_clip": 0.01177878,
+      "auxiliary_loss_mlp": 0.01378781,
+      "balance_loss_clip": 1.04515243,
+      "balance_loss_mlp": 1.0001688,
+      "epoch": 0.9667528407382914,
+      "flos": 21543422198400.0,
+      "grad_norm": 1.8958092128226542,
+      "language_loss": 0.77058333,
+      "learning_rate": 1.1544714947377521e-08,
+      "loss": 0.79614991,
+      "num_input_tokens_seen": 173589425,
+      "step": 8040,
+      "time_per_iteration": 2.6907835006713867
+    },
+    {
+      "auxiliary_loss_clip": 0.0117122,
+      "auxiliary_loss_mlp": 0.01027217,
+      "balance_loss_clip": 1.04981899,
+      "balance_loss_mlp": 1.01922393,
+      "epoch": 0.9668730836289304,
+      "flos": 23878585278720.0,
+      "grad_norm": 4.088801755598811,
+      "language_loss": 0.70292461,
+      "learning_rate": 1.1461288994770945e-08,
+      "loss": 0.72490895,
+      "num_input_tokens_seen": 173608500,
+      "step": 8041,
+      "time_per_iteration": 2.5634610652923584
+    },
+    {
+      "auxiliary_loss_clip": 0.01170161,
+      "auxiliary_loss_mlp": 0.01022536,
+      "balance_loss_clip": 1.04633856,
+      "balance_loss_mlp": 1.01507926,
+      "epoch": 0.9669933265195695,
+      "flos": 28293011971200.0,
+      "grad_norm": 1.6713588268714414,
+      "language_loss": 0.77242255,
+      "learning_rate": 1.1378164701906002e-08,
+      "loss": 0.79434943,
+      "num_input_tokens_seen": 173630265,
+      "step": 8042,
+      "time_per_iteration": 2.65283203125
+    },
+    {
+      "auxiliary_loss_clip": 0.01170684,
+      "auxiliary_loss_mlp": 0.01026078,
+      "balance_loss_clip": 1.04781425,
+      "balance_loss_mlp": 1.01848733,
+      "epoch": 0.9671135694102087,
+      "flos": 22454763091200.0,
+      "grad_norm": 1.8827914633431122,
+      "language_loss": 0.66519994,
+      "learning_rate": 1.1295342081392156e-08,
+      "loss": 0.68716758,
+      "num_input_tokens_seen": 173649625,
+      "step": 8043,
+      "time_per_iteration": 3.4858925342559814
+    },
+    {
+      "auxiliary_loss_clip": 0.0118715,
+      "auxiliary_loss_mlp": 0.01023389,
+      "balance_loss_clip": 1.04421723,
+      "balance_loss_mlp": 1.01620698,
+      "epoch": 0.9672338123008477,
+      "flos": 20155941596160.0,
+      "grad_norm": 1.6428717779790205,
+      "language_loss": 0.69830543,
+      "learning_rate": 1.1212821145793804e-08,
+      "loss": 0.72041082,
+      "num_input_tokens_seen": 173669240,
+      "step": 8044,
+      "time_per_iteration": 2.640302896499634
+    },
+    {
+      "auxiliary_loss_clip": 0.01181435,
+      "auxiliary_loss_mlp": 0.01027415,
+      "balance_loss_clip": 1.04164124,
+      "balance_loss_mlp": 1.02022958,
+      "epoch": 0.9673540551914868,
+      "flos": 16977487939200.0,
+      "grad_norm": 1.8064406858215012,
+      "language_loss": 0.79027599,
+      "learning_rate": 1.1130601907629156e-08,
+      "loss": 0.81236446,
+      "num_input_tokens_seen": 173686970,
+      "step": 8045,
+      "time_per_iteration": 2.7194783687591553
+    },
+    {
+      "auxiliary_loss_clip": 0.01072971,
+      "auxiliary_loss_mlp": 0.01002724,
+      "balance_loss_clip": 1.00868189,
+      "balance_loss_mlp": 1.00168645,
+      "epoch": 0.9674742980821259,
+      "flos": 61892903952000.0,
+      "grad_norm": 0.8139560486441844,
+      "language_loss": 0.64828217,
+      "learning_rate": 1.1048684379370899e-08,
+      "loss": 0.66903913,
+      "num_input_tokens_seen": 173747655,
+      "step": 8046,
+      "time_per_iteration": 3.1915602684020996
+    },
+    {
+      "auxiliary_loss_clip": 0.01170925,
+      "auxiliary_loss_mlp": 0.01021024,
+      "balance_loss_clip": 1.0420264,
+      "balance_loss_mlp": 1.01458049,
+      "epoch": 0.967594540972765,
+      "flos": 18697824898560.0,
+      "grad_norm": 1.909654270487694,
+      "language_loss": 0.74269271,
+      "learning_rate": 1.0967068573445759e-08,
+      "loss": 0.7646122,
+      "num_input_tokens_seen": 173765140,
+      "step": 8047,
+      "time_per_iteration": 2.621072769165039
+    },
+    {
+      "auxiliary_loss_clip": 0.01180307,
+      "auxiliary_loss_mlp": 0.01024465,
+      "balance_loss_clip": 1.04226851,
+      "balance_loss_mlp": 1.01730394,
+      "epoch": 0.967714783863404,
+      "flos": 20777411733120.0,
+      "grad_norm": 2.44694456817161,
+      "language_loss": 0.65869373,
+      "learning_rate": 1.0885754502234945e-08,
+      "loss": 0.68074143,
+      "num_input_tokens_seen": 173784800,
+      "step": 8048,
+      "time_per_iteration": 2.6420323848724365
+    },
+    {
+      "auxiliary_loss_clip": 0.01191273,
+      "auxiliary_loss_mlp": 0.01020527,
+      "balance_loss_clip": 1.04237974,
+      "balance_loss_mlp": 1.01373184,
+      "epoch": 0.9678350267540432,
+      "flos": 23185473465600.0,
+      "grad_norm": 2.294548447563964,
+      "language_loss": 0.77920389,
+      "learning_rate": 1.08047421780737e-08,
+      "loss": 0.80132186,
+      "num_input_tokens_seen": 173803990,
+      "step": 8049,
+      "time_per_iteration": 2.6512672901153564
+    },
+    {
+      "auxiliary_loss_clip": 0.01192916,
+      "auxiliary_loss_mlp": 0.01378519,
+      "balance_loss_clip": 1.04631102,
+      "balance_loss_mlp": 1.00016367,
+      "epoch": 0.9679552696446823,
+      "flos": 21726063878400.0,
+      "grad_norm": 2.0369810073414523,
+      "language_loss": 0.73730123,
+      "learning_rate": 1.0724031613251305e-08,
+      "loss": 0.76301557,
+      "num_input_tokens_seen": 173821890,
+      "step": 8050,
+      "time_per_iteration": 2.6463544368743896
+    },
+    {
+      "auxiliary_loss_clip": 0.01184793,
+      "auxiliary_loss_mlp": 0.01025721,
+      "balance_loss_clip": 1.04902458,
+      "balance_loss_mlp": 1.01831245,
+      "epoch": 0.9680755125353213,
+      "flos": 26869046129280.0,
+      "grad_norm": 2.3772070141229853,
+      "language_loss": 0.66956186,
+      "learning_rate": 1.0643622820011744e-08,
+      "loss": 0.69166702,
+      "num_input_tokens_seen": 173842945,
+      "step": 8051,
+      "time_per_iteration": 2.6376290321350098
+    },
+    {
+      "auxiliary_loss_clip": 0.01172571,
+      "auxiliary_loss_mlp": 0.0102489,
+      "balance_loss_clip": 1.04887307,
+      "balance_loss_mlp": 1.01720715,
+      "epoch": 0.9681957554259605,
+      "flos": 28325008010880.0,
+      "grad_norm": 2.230424446274845,
+      "language_loss": 0.68222195,
+      "learning_rate": 1.0563515810552814e-08,
+      "loss": 0.70419657,
+      "num_input_tokens_seen": 173859915,
+      "step": 8052,
+      "time_per_iteration": 2.5395851135253906
+    },
+    {
+      "auxiliary_loss_clip": 0.01168277,
+      "auxiliary_loss_mlp": 0.01029998,
+      "balance_loss_clip": 1.04830837,
+      "balance_loss_mlp": 1.0230484,
+      "epoch": 0.9683159983165995,
+      "flos": 20557674282240.0,
+      "grad_norm": 2.286542587779488,
+      "language_loss": 0.7361989,
+      "learning_rate": 1.0483710597026795e-08,
+      "loss": 0.75818169,
+      "num_input_tokens_seen": 173879775,
+      "step": 8053,
+      "time_per_iteration": 2.609600782394409
+    },
+    {
+      "auxiliary_loss_clip": 0.01195154,
+      "auxiliary_loss_mlp": 0.01023295,
+      "balance_loss_clip": 1.04261565,
+      "balance_loss_mlp": 1.01628864,
+      "epoch": 0.9684362412072386,
+      "flos": 24207958016640.0,
+      "grad_norm": 2.3696512799360057,
+      "language_loss": 0.73934531,
+      "learning_rate": 1.0404207191540227e-08,
+      "loss": 0.76152986,
+      "num_input_tokens_seen": 173900230,
+      "step": 8054,
+      "time_per_iteration": 2.688913106918335
+    },
+    {
+      "auxiliary_loss_clip": 0.0116773,
+      "auxiliary_loss_mlp": 0.01021818,
+      "balance_loss_clip": 1.04762721,
+      "balance_loss_mlp": 1.01483226,
+      "epoch": 0.9685564840978778,
+      "flos": 22346241125760.0,
+      "grad_norm": 1.9065306795608965,
+      "language_loss": 0.74727416,
+      "learning_rate": 1.0325005606153236e-08,
+      "loss": 0.76916969,
+      "num_input_tokens_seen": 173919690,
+      "step": 8055,
+      "time_per_iteration": 2.5932376384735107
+    },
+    {
+      "auxiliary_loss_clip": 0.01207175,
+      "auxiliary_loss_mlp": 0.01027252,
+      "balance_loss_clip": 1.04246879,
+      "balance_loss_mlp": 1.01945519,
+      "epoch": 0.9686767269885168,
+      "flos": 14386389477120.0,
+      "grad_norm": 2.522997131945559,
+      "language_loss": 0.79180908,
+      "learning_rate": 1.0246105852881104e-08,
+      "loss": 0.81415331,
+      "num_input_tokens_seen": 173934790,
+      "step": 8056,
+      "time_per_iteration": 2.6516788005828857
+    },
+    {
+      "auxiliary_loss_clip": 0.0116794,
+      "auxiliary_loss_mlp": 0.0102921,
+      "balance_loss_clip": 1.0460676,
+      "balance_loss_mlp": 1.0213896,
+      "epoch": 0.9687969698791559,
+      "flos": 21287630471040.0,
+      "grad_norm": 1.856664061357211,
+      "language_loss": 0.78477019,
+      "learning_rate": 1.0167507943692476e-08,
+      "loss": 0.80674165,
+      "num_input_tokens_seen": 173953875,
+      "step": 8057,
+      "time_per_iteration": 2.585435390472412
+    },
+    {
+      "auxiliary_loss_clip": 0.01174762,
+      "auxiliary_loss_mlp": 0.01027419,
+      "balance_loss_clip": 1.04784346,
+      "balance_loss_mlp": 1.02004278,
+      "epoch": 0.968917212769795,
+      "flos": 19828328624640.0,
+      "grad_norm": 2.256776495041318,
+      "language_loss": 0.71218109,
+      "learning_rate": 1.008921189051093e-08,
+      "loss": 0.73420286,
+      "num_input_tokens_seen": 173971220,
+      "step": 8058,
+      "time_per_iteration": 2.6012964248657227
+    },
+    {
+      "auxiliary_loss_clip": 0.01170256,
+      "auxiliary_loss_mlp": 0.01026741,
+      "balance_loss_clip": 1.04931211,
+      "balance_loss_mlp": 1.01845598,
+      "epoch": 0.9690374556604341,
+      "flos": 21681749473920.0,
+      "grad_norm": 4.145056309096784,
+      "language_loss": 0.77274513,
+      "learning_rate": 1.0011217705213848e-08,
+      "loss": 0.79471511,
+      "num_input_tokens_seen": 173989095,
+      "step": 8059,
+      "time_per_iteration": 3.476640224456787
+    },
+    {
+      "auxiliary_loss_clip": 0.01175617,
+      "auxiliary_loss_mlp": 0.01028386,
+      "balance_loss_clip": 1.04754436,
+      "balance_loss_mlp": 1.02138209,
+      "epoch": 0.9691576985510731,
+      "flos": 32635437851520.0,
+      "grad_norm": 1.8999062136973375,
+      "language_loss": 0.7446965,
+      "learning_rate": 9.933525399632658e-09,
+      "loss": 0.76673651,
+      "num_input_tokens_seen": 174007330,
+      "step": 8060,
+      "time_per_iteration": 2.691225051879883
+    },
+    {
+      "auxiliary_loss_clip": 0.01181461,
+      "auxiliary_loss_mlp": 0.01026243,
+      "balance_loss_clip": 1.04285192,
+      "balance_loss_mlp": 1.01826787,
+      "epoch": 0.9692779414417123,
+      "flos": 35663174040960.0,
+      "grad_norm": 1.7590242588326181,
+      "language_loss": 0.65521443,
+      "learning_rate": 9.856134985553488e-09,
+      "loss": 0.67729151,
+      "num_input_tokens_seen": 174027055,
+      "step": 8061,
+      "time_per_iteration": 2.6957755088806152
+    },
+    {
+      "auxiliary_loss_clip": 0.01165189,
+      "auxiliary_loss_mlp": 0.01023578,
+      "balance_loss_clip": 1.04594254,
+      "balance_loss_mlp": 1.01633251,
+      "epoch": 0.9693981843323514,
+      "flos": 28366952117760.0,
+      "grad_norm": 1.7404422947953855,
+      "language_loss": 0.73769844,
+      "learning_rate": 9.77904647471628e-09,
+      "loss": 0.7595861,
+      "num_input_tokens_seen": 174050235,
+      "step": 8062,
+      "time_per_iteration": 3.532994508743286
+    },
+    {
+      "auxiliary_loss_clip": 0.01191729,
+      "auxiliary_loss_mlp": 0.01025637,
+      "balance_loss_clip": 1.03838158,
+      "balance_loss_mlp": 1.01859176,
+      "epoch": 0.9695184272229904,
+      "flos": 23622865378560.0,
+      "grad_norm": 1.5667260731783592,
+      "language_loss": 0.74168605,
+      "learning_rate": 9.702259878815454e-09,
+      "loss": 0.76385975,
+      "num_input_tokens_seen": 174070560,
+      "step": 8063,
+      "time_per_iteration": 2.6842405796051025
+    },
+    {
+      "auxiliary_loss_clip": 0.01180998,
+      "auxiliary_loss_mlp": 0.010283,
+      "balance_loss_clip": 1.0484097,
+      "balance_loss_mlp": 1.02053905,
+      "epoch": 0.9696386701136296,
+      "flos": 23294677789440.0,
+      "grad_norm": 2.206103038586952,
+      "language_loss": 0.74448574,
+      "learning_rate": 9.625775209499254e-09,
+      "loss": 0.76657867,
+      "num_input_tokens_seen": 174090565,
+      "step": 8064,
+      "time_per_iteration": 2.627938985824585
+    },
+    {
+      "auxiliary_loss_clip": 0.01184392,
+      "auxiliary_loss_mlp": 0.01024957,
+      "balance_loss_clip": 1.0411334,
+      "balance_loss_mlp": 1.01780462,
+      "epoch": 0.9697589130042686,
+      "flos": 15121876360320.0,
+      "grad_norm": 2.180411185992323,
+      "language_loss": 0.74333823,
+      "learning_rate": 9.549592478370172e-09,
+      "loss": 0.76543176,
+      "num_input_tokens_seen": 174108745,
+      "step": 8065,
+      "time_per_iteration": 3.569671630859375
+    },
+    {
+      "auxiliary_loss_clip": 0.01178861,
+      "auxiliary_loss_mlp": 0.01022681,
+      "balance_loss_clip": 1.04568231,
+      "balance_loss_mlp": 1.01538563,
+      "epoch": 0.9698791558949077,
+      "flos": 18879532824960.0,
+      "grad_norm": 1.6979887902957793,
+      "language_loss": 0.79125631,
+      "learning_rate": 9.473711696985632e-09,
+      "loss": 0.8132717,
+      "num_input_tokens_seen": 174128075,
+      "step": 8066,
+      "time_per_iteration": 2.5596041679382324
+    },
+    {
+      "auxiliary_loss_clip": 0.0118355,
+      "auxiliary_loss_mlp": 0.01023298,
+      "balance_loss_clip": 1.04456079,
+      "balance_loss_mlp": 1.01587772,
+      "epoch": 0.9699993987855468,
+      "flos": 17931455297280.0,
+      "grad_norm": 2.2266225439953713,
+      "language_loss": 0.75988746,
+      "learning_rate": 9.398132876856201e-09,
+      "loss": 0.78195596,
+      "num_input_tokens_seen": 174147040,
+      "step": 8067,
+      "time_per_iteration": 2.6683573722839355
+    },
+    {
+      "auxiliary_loss_clip": 0.01110652,
+      "auxiliary_loss_mlp": 0.01000802,
+      "balance_loss_clip": 1.00893021,
+      "balance_loss_mlp": 0.99962789,
+      "epoch": 0.9701196416761859,
+      "flos": 67182186297600.0,
+      "grad_norm": 0.7763553724371846,
+      "language_loss": 0.60814625,
+      "learning_rate": 9.322856029447379e-09,
+      "loss": 0.62926084,
+      "num_input_tokens_seen": 174208225,
+      "step": 8068,
+      "time_per_iteration": 4.002663850784302
+    },
+    {
+      "auxiliary_loss_clip": 0.01165885,
+      "auxiliary_loss_mlp": 0.01017539,
+      "balance_loss_clip": 1.04804349,
+      "balance_loss_mlp": 1.00996017,
+      "epoch": 0.970239884566825,
+      "flos": 24277804012800.0,
+      "grad_norm": 2.4181133193192688,
+      "language_loss": 0.8018229,
+      "learning_rate": 9.247881166178695e-09,
+      "loss": 0.82365716,
+      "num_input_tokens_seen": 174226935,
+      "step": 8069,
+      "time_per_iteration": 2.6099495887756348
+    },
+    {
+      "auxiliary_loss_clip": 0.01201073,
+      "auxiliary_loss_mlp": 0.01025529,
+      "balance_loss_clip": 1.0435878,
+      "balance_loss_mlp": 1.01840043,
+      "epoch": 0.970360127457464,
+      "flos": 25301689194240.0,
+      "grad_norm": 2.361590245034372,
+      "language_loss": 0.76719999,
+      "learning_rate": 9.173208298423274e-09,
+      "loss": 0.78946602,
+      "num_input_tokens_seen": 174248140,
+      "step": 8070,
+      "time_per_iteration": 2.863656520843506
+    },
+    {
+      "auxiliary_loss_clip": 0.01199356,
+      "auxiliary_loss_mlp": 0.01378509,
+      "balance_loss_clip": 1.04044223,
+      "balance_loss_mlp": 1.00017142,
+      "epoch": 0.9704803703481032,
+      "flos": 29572473398400.0,
+      "grad_norm": 1.5230172124944248,
+      "language_loss": 0.76184762,
+      "learning_rate": 9.09883743750961e-09,
+      "loss": 0.78762627,
+      "num_input_tokens_seen": 174271030,
+      "step": 8071,
+      "time_per_iteration": 2.780150890350342
+    },
+    {
+      "auxiliary_loss_clip": 0.01181412,
+      "auxiliary_loss_mlp": 0.01022301,
+      "balance_loss_clip": 1.04348755,
+      "balance_loss_mlp": 1.01558924,
+      "epoch": 0.9706006132387422,
+      "flos": 17380046638080.0,
+      "grad_norm": 1.592930316199334,
+      "language_loss": 0.84254348,
+      "learning_rate": 9.024768594719124e-09,
+      "loss": 0.86458057,
+      "num_input_tokens_seen": 174289410,
+      "step": 8072,
+      "time_per_iteration": 2.7416577339172363
+    },
+    {
+      "auxiliary_loss_clip": 0.01193854,
+      "auxiliary_loss_mlp": 0.01021957,
+      "balance_loss_clip": 1.04338646,
+      "balance_loss_mlp": 1.01475072,
+      "epoch": 0.9707208561293813,
+      "flos": 18186421011840.0,
+      "grad_norm": 2.318621053676266,
+      "language_loss": 0.72601694,
+      "learning_rate": 8.95100178128816e-09,
+      "loss": 0.74817502,
+      "num_input_tokens_seen": 174308550,
+      "step": 8073,
+      "time_per_iteration": 2.6385881900787354
+    },
+    {
+      "auxiliary_loss_clip": 0.01186583,
+      "auxiliary_loss_mlp": 0.0102287,
+      "balance_loss_clip": 1.04618907,
+      "balance_loss_mlp": 1.01518095,
+      "epoch": 0.9708410990200205,
+      "flos": 31248388212480.0,
+      "grad_norm": 2.041218353436397,
+      "language_loss": 0.69936228,
+      "learning_rate": 8.877537008407321e-09,
+      "loss": 0.72145677,
+      "num_input_tokens_seen": 174328600,
+      "step": 8074,
+      "time_per_iteration": 2.7813045978546143
+    },
+    {
+      "auxiliary_loss_clip": 0.01188245,
+      "auxiliary_loss_mlp": 0.01023438,
+      "balance_loss_clip": 1.04415321,
+      "balance_loss_mlp": 1.01560628,
+      "epoch": 0.9709613419106595,
+      "flos": 30554450386560.0,
+      "grad_norm": 1.6944349806544645,
+      "language_loss": 0.68636388,
+      "learning_rate": 8.804374287221028e-09,
+      "loss": 0.70848072,
+      "num_input_tokens_seen": 174349835,
+      "step": 8075,
+      "time_per_iteration": 2.730463743209839
+    },
+    {
+      "auxiliary_loss_clip": 0.01183164,
+      "auxiliary_loss_mlp": 0.01027432,
+      "balance_loss_clip": 1.03877997,
+      "balance_loss_mlp": 1.02005327,
+      "epoch": 0.9710815848012986,
+      "flos": 23730166281600.0,
+      "grad_norm": 1.7513967022253343,
+      "language_loss": 0.84599191,
+      "learning_rate": 8.731513628827958e-09,
+      "loss": 0.8680979,
+      "num_input_tokens_seen": 174369200,
+      "step": 8076,
+      "time_per_iteration": 2.713466167449951
+    },
+    {
+      "auxiliary_loss_clip": 0.01178217,
+      "auxiliary_loss_mlp": 0.01021838,
+      "balance_loss_clip": 1.04678702,
+      "balance_loss_mlp": 1.01484597,
+      "epoch": 0.9712018276919377,
+      "flos": 23761875012480.0,
+      "grad_norm": 2.1039747604616843,
+      "language_loss": 0.82712305,
+      "learning_rate": 8.658955044280825e-09,
+      "loss": 0.84912366,
+      "num_input_tokens_seen": 174388125,
+      "step": 8077,
+      "time_per_iteration": 2.730912446975708
+    },
+    {
+      "auxiliary_loss_clip": 0.01174331,
+      "auxiliary_loss_mlp": 0.0102265,
+      "balance_loss_clip": 1.04630208,
+      "balance_loss_mlp": 1.01583767,
+      "epoch": 0.9713220705825768,
+      "flos": 23330983461120.0,
+      "grad_norm": 1.6712497779987634,
+      "language_loss": 0.77503091,
+      "learning_rate": 8.586698544587268e-09,
+      "loss": 0.79700071,
+      "num_input_tokens_seen": 174409735,
+      "step": 8078,
+      "time_per_iteration": 2.65451717376709
+    },
+    {
+      "auxiliary_loss_clip": 0.01173925,
+      "auxiliary_loss_mlp": 0.01025686,
+      "balance_loss_clip": 1.04214406,
+      "balance_loss_mlp": 1.01788998,
+      "epoch": 0.9714423134732159,
+      "flos": 22200946611840.0,
+      "grad_norm": 1.8222876688370344,
+      "language_loss": 0.73995793,
+      "learning_rate": 8.514744140707853e-09,
+      "loss": 0.76195395,
+      "num_input_tokens_seen": 174428875,
+      "step": 8079,
+      "time_per_iteration": 2.6984763145446777
+    },
+    {
+      "auxiliary_loss_clip": 0.01166526,
+      "auxiliary_loss_mlp": 0.01022231,
+      "balance_loss_clip": 1.0474062,
+      "balance_loss_mlp": 1.01543665,
+      "epoch": 0.971562556363855,
+      "flos": 20229917656320.0,
+      "grad_norm": 1.8108634838952364,
+      "language_loss": 0.76132566,
+      "learning_rate": 8.443091843558515e-09,
+      "loss": 0.78321326,
+      "num_input_tokens_seen": 174447960,
+      "step": 8080,
+      "time_per_iteration": 2.604602098464966
+    },
+    {
+      "auxiliary_loss_clip": 0.01178746,
+      "auxiliary_loss_mlp": 0.01022558,
+      "balance_loss_clip": 1.04374945,
+      "balance_loss_mlp": 1.01541483,
+      "epoch": 0.9716827992544941,
+      "flos": 24970197553920.0,
+      "grad_norm": 2.225976523048117,
+      "language_loss": 0.64466655,
+      "learning_rate": 8.37174166400878e-09,
+      "loss": 0.66667956,
+      "num_input_tokens_seen": 174463535,
+      "step": 8081,
+      "time_per_iteration": 2.6905605792999268
+    },
+    {
+      "auxiliary_loss_clip": 0.01167332,
+      "auxiliary_loss_mlp": 0.01028921,
+      "balance_loss_clip": 1.04865837,
+      "balance_loss_mlp": 1.02130961,
+      "epoch": 0.9718030421451331,
+      "flos": 24681476033280.0,
+      "grad_norm": 2.2439992588931807,
+      "language_loss": 0.84895796,
+      "learning_rate": 8.300693612881992e-09,
+      "loss": 0.87092054,
+      "num_input_tokens_seen": 174483600,
+      "step": 8082,
+      "time_per_iteration": 2.615447521209717
+    },
+    {
+      "auxiliary_loss_clip": 0.01174481,
+      "auxiliary_loss_mlp": 0.01378627,
+      "balance_loss_clip": 1.04574609,
+      "balance_loss_mlp": 1.00013041,
+      "epoch": 0.9719232850357723,
+      "flos": 22090700793600.0,
+      "grad_norm": 2.2446195634907036,
+      "language_loss": 0.81305492,
+      "learning_rate": 8.22994770095664e-09,
+      "loss": 0.83858597,
+      "num_input_tokens_seen": 174502175,
+      "step": 8083,
+      "time_per_iteration": 2.6529533863067627
+    },
+    {
+      "auxiliary_loss_clip": 0.01185764,
+      "auxiliary_loss_mlp": 0.01031801,
+      "balance_loss_clip": 1.04636157,
+      "balance_loss_mlp": 1.02452672,
+      "epoch": 0.9720435279264114,
+      "flos": 23656908493440.0,
+      "grad_norm": 2.8608103673089698,
+      "language_loss": 0.75382447,
+      "learning_rate": 8.159503938964585e-09,
+      "loss": 0.77600014,
+      "num_input_tokens_seen": 174519495,
+      "step": 8084,
+      "time_per_iteration": 2.6193418502807617
+    },
+    {
+      "auxiliary_loss_clip": 0.01186021,
+      "auxiliary_loss_mlp": 0.01030383,
+      "balance_loss_clip": 1.04142165,
+      "balance_loss_mlp": 1.02326608,
+      "epoch": 0.9721637708170504,
+      "flos": 28365910623360.0,
+      "grad_norm": 1.7922078997240822,
+      "language_loss": 0.70351422,
+      "learning_rate": 8.089362337592164e-09,
+      "loss": 0.72567821,
+      "num_input_tokens_seen": 174543120,
+      "step": 8085,
+      "time_per_iteration": 3.665126323699951
+    },
+    {
+      "auxiliary_loss_clip": 0.01182808,
+      "auxiliary_loss_mlp": 0.01022118,
+      "balance_loss_clip": 1.04637551,
+      "balance_loss_mlp": 1.01521266,
+      "epoch": 0.9722840137076896,
+      "flos": 29130807767040.0,
+      "grad_norm": 1.5996072595876905,
+      "language_loss": 0.72325838,
+      "learning_rate": 8.019522907479536e-09,
+      "loss": 0.74530768,
+      "num_input_tokens_seen": 174563480,
+      "step": 8086,
+      "time_per_iteration": 2.711486577987671
+    },
+    {
+      "auxiliary_loss_clip": 0.01180763,
+      "auxiliary_loss_mlp": 0.01025737,
+      "balance_loss_clip": 1.04847491,
+      "balance_loss_mlp": 1.01871622,
+      "epoch": 0.9724042565983286,
+      "flos": 19243954258560.0,
+      "grad_norm": 2.3992177981970033,
+      "language_loss": 0.77345061,
+      "learning_rate": 7.949985659221558e-09,
+      "loss": 0.7955156,
+      "num_input_tokens_seen": 174580745,
+      "step": 8087,
+      "time_per_iteration": 2.6796162128448486
+    },
+    {
+      "auxiliary_loss_clip": 0.01189041,
+      "auxiliary_loss_mlp": 0.01024847,
+      "balance_loss_clip": 1.04497957,
+      "balance_loss_mlp": 1.01779592,
+      "epoch": 0.9725244994889677,
+      "flos": 23039676161280.0,
+      "grad_norm": 2.0293115078747257,
+      "language_loss": 0.78760314,
+      "learning_rate": 7.880750603366904e-09,
+      "loss": 0.80974197,
+      "num_input_tokens_seen": 174599615,
+      "step": 8088,
+      "time_per_iteration": 3.5887598991394043
+    },
+    {
+      "auxiliary_loss_clip": 0.01201064,
+      "auxiliary_loss_mlp": 0.01026342,
+      "balance_loss_clip": 1.04340744,
+      "balance_loss_mlp": 1.01848006,
+      "epoch": 0.9726447423796069,
+      "flos": 23367468700800.0,
+      "grad_norm": 2.223253214627558,
+      "language_loss": 0.79652268,
+      "learning_rate": 7.811817750418282e-09,
+      "loss": 0.81879675,
+      "num_input_tokens_seen": 174618375,
+      "step": 8089,
+      "time_per_iteration": 2.675347328186035
+    },
+    {
+      "auxiliary_loss_clip": 0.01191406,
+      "auxiliary_loss_mlp": 0.01029577,
+      "balance_loss_clip": 1.04354763,
+      "balance_loss_mlp": 1.02184629,
+      "epoch": 0.9727649852702459,
+      "flos": 26541648639360.0,
+      "grad_norm": 1.67319592072457,
+      "language_loss": 0.80066973,
+      "learning_rate": 7.743187110833105e-09,
+      "loss": 0.82287961,
+      "num_input_tokens_seen": 174641135,
+      "step": 8090,
+      "time_per_iteration": 2.776275634765625
+    },
+    {
+      "auxiliary_loss_clip": 0.01186742,
+      "auxiliary_loss_mlp": 0.01021975,
+      "balance_loss_clip": 1.04292262,
+      "balance_loss_mlp": 1.01491499,
+      "epoch": 0.972885228160885,
+      "flos": 20522338277760.0,
+      "grad_norm": 1.4676817863306282,
+      "language_loss": 0.806656,
+      "learning_rate": 7.674858695022602e-09,
+      "loss": 0.82874316,
+      "num_input_tokens_seen": 174659490,
+      "step": 8091,
+      "time_per_iteration": 3.5480682849884033
+    },
+    {
+      "auxiliary_loss_clip": 0.01170077,
+      "auxiliary_loss_mlp": 0.01026414,
+      "balance_loss_clip": 1.04893208,
+      "balance_loss_mlp": 1.01881433,
+      "epoch": 0.9730054710515241,
+      "flos": 17566064196480.0,
+      "grad_norm": 6.0102743692865666,
+      "language_loss": 0.76155335,
+      "learning_rate": 7.606832513351591e-09,
+      "loss": 0.78351825,
+      "num_input_tokens_seen": 174677440,
+      "step": 8092,
+      "time_per_iteration": 2.579463243484497
+    },
+    {
+      "auxiliary_loss_clip": 0.01059655,
+      "auxiliary_loss_mlp": 0.01373654,
+      "balance_loss_clip": 1.00857997,
+      "balance_loss_mlp": 0.99979419,
+      "epoch": 0.9731257139421632,
+      "flos": 68972010117120.0,
+      "grad_norm": 0.8299982544655193,
+      "language_loss": 0.63938487,
+      "learning_rate": 7.539108576140264e-09,
+      "loss": 0.66371799,
+      "num_input_tokens_seen": 174741550,
+      "step": 8093,
+      "time_per_iteration": 3.2650418281555176
+    },
+    {
+      "auxiliary_loss_clip": 0.01201492,
+      "auxiliary_loss_mlp": 0.01025253,
+      "balance_loss_clip": 1.04308558,
+      "balance_loss_mlp": 1.01859522,
+      "epoch": 0.9732459568328022,
+      "flos": 18478841633280.0,
+      "grad_norm": 3.2401152369517323,
+      "language_loss": 0.70547378,
+      "learning_rate": 7.471686893661732e-09,
+      "loss": 0.72774124,
+      "num_input_tokens_seen": 174759845,
+      "step": 8094,
+      "time_per_iteration": 3.5785751342773438
+    },
+    {
+      "auxiliary_loss_clip": 0.01185768,
+      "auxiliary_loss_mlp": 0.01024565,
+      "balance_loss_clip": 1.04683375,
+      "balance_loss_mlp": 1.0175643,
+      "epoch": 0.9733661997234414,
+      "flos": 20883886623360.0,
+      "grad_norm": 1.7448971927758334,
+      "language_loss": 0.64233792,
+      "learning_rate": 7.4045674761442636e-09,
+      "loss": 0.66444123,
+      "num_input_tokens_seen": 174777175,
+      "step": 8095,
+      "time_per_iteration": 2.6914403438568115
+    },
+    {
+      "auxiliary_loss_clip": 0.01165708,
+      "auxiliary_loss_mlp": 0.01378752,
+      "balance_loss_clip": 1.04613042,
+      "balance_loss_mlp": 1.00013232,
+      "epoch": 0.9734864426140805,
+      "flos": 23766795175680.0,
+      "grad_norm": 5.443078660572433,
+      "language_loss": 0.7432791,
+      "learning_rate": 7.337750333769488e-09,
+      "loss": 0.76872367,
+      "num_input_tokens_seen": 174796980,
+      "step": 8096,
+      "time_per_iteration": 2.65468692779541
+    },
+    {
+      "auxiliary_loss_clip": 0.01187386,
+      "auxiliary_loss_mlp": 0.01030925,
+      "balance_loss_clip": 1.04122937,
+      "balance_loss_mlp": 1.02362359,
+      "epoch": 0.9736066855047195,
+      "flos": 35042422176000.0,
+      "grad_norm": 1.8844505194539891,
+      "language_loss": 0.72924715,
+      "learning_rate": 7.2712354766737425e-09,
+      "loss": 0.75143027,
+      "num_input_tokens_seen": 174817310,
+      "step": 8097,
+      "time_per_iteration": 2.7477498054504395
+    },
+    {
+      "auxiliary_loss_clip": 0.01185633,
+      "auxiliary_loss_mlp": 0.01027642,
+      "balance_loss_clip": 1.04429197,
+      "balance_loss_mlp": 1.02011955,
+      "epoch": 0.9737269283953586,
+      "flos": 20410620001920.0,
+      "grad_norm": 1.6382276631126553,
+      "language_loss": 0.80752015,
+      "learning_rate": 7.2050229149469565e-09,
+      "loss": 0.82965291,
+      "num_input_tokens_seen": 174837320,
+      "step": 8098,
+      "time_per_iteration": 2.757800817489624
+    },
+    {
+      "auxiliary_loss_clip": 0.0119472,
+      "auxiliary_loss_mlp": 0.01024382,
+      "balance_loss_clip": 1.04052365,
+      "balance_loss_mlp": 1.01759303,
+      "epoch": 0.9738471712859977,
+      "flos": 28911680847360.0,
+      "grad_norm": 1.8280588007797318,
+      "language_loss": 0.63780653,
+      "learning_rate": 7.139112658633984e-09,
+      "loss": 0.65999758,
+      "num_input_tokens_seen": 174857470,
+      "step": 8099,
+      "time_per_iteration": 2.74727463722229
+    },
+    {
+      "auxiliary_loss_clip": 0.01192439,
+      "auxiliary_loss_mlp": 0.01021971,
+      "balance_loss_clip": 1.04453278,
+      "balance_loss_mlp": 1.01520324,
+      "epoch": 0.9739674141766368,
+      "flos": 27782326356480.0,
+      "grad_norm": 2.176180288478959,
+      "language_loss": 0.70406854,
+      "learning_rate": 7.073504717733048e-09,
+      "loss": 0.72621262,
+      "num_input_tokens_seen": 174877035,
+      "step": 8100,
+      "time_per_iteration": 2.819019317626953
+    },
+    {
+      "auxiliary_loss_clip": 0.01110086,
+      "auxiliary_loss_mlp": 0.01002635,
+      "balance_loss_clip": 1.01055837,
+      "balance_loss_mlp": 1.001508,
+      "epoch": 0.9740876570672758,
+      "flos": 68863057188480.0,
+      "grad_norm": 0.7318880887675816,
+      "language_loss": 0.57215011,
+      "learning_rate": 7.008199102196855e-09,
+      "loss": 0.59327734,
+      "num_input_tokens_seen": 174938460,
+      "step": 8101,
+      "time_per_iteration": 3.251774311065674
+    },
+    {
+      "auxiliary_loss_clip": 0.01085475,
+      "auxiliary_loss_mlp": 0.01000718,
+      "balance_loss_clip": 1.01595247,
+      "balance_loss_mlp": 0.99966258,
+      "epoch": 0.974207899957915,
+      "flos": 58236622646400.0,
+      "grad_norm": 0.7980972852632402,
+      "language_loss": 0.58983892,
+      "learning_rate": 6.9431958219321464e-09,
+      "loss": 0.61070091,
+      "num_input_tokens_seen": 174994625,
+      "step": 8102,
+      "time_per_iteration": 3.210480213165283
+    },
+    {
+      "auxiliary_loss_clip": 0.01182441,
+      "auxiliary_loss_mlp": 0.01030465,
+      "balance_loss_clip": 1.04352045,
+      "balance_loss_mlp": 1.02299392,
+      "epoch": 0.9743281428485541,
+      "flos": 22600057605120.0,
+      "grad_norm": 1.6188067152321075,
+      "language_loss": 0.7783615,
+      "learning_rate": 6.878494886800146e-09,
+      "loss": 0.80049062,
+      "num_input_tokens_seen": 175015400,
+      "step": 8103,
+      "time_per_iteration": 2.6794118881225586
+    },
+    {
+      "auxiliary_loss_clip": 0.01186648,
+      "auxiliary_loss_mlp": 0.01019564,
+      "balance_loss_clip": 1.04588199,
+      "balance_loss_mlp": 1.01251316,
+      "epoch": 0.9744483857391931,
+      "flos": 20008815488640.0,
+      "grad_norm": 1.9369790722920148,
+      "language_loss": 0.76403511,
+      "learning_rate": 6.814096306615669e-09,
+      "loss": 0.78609723,
+      "num_input_tokens_seen": 175033540,
+      "step": 8104,
+      "time_per_iteration": 2.657581329345703
+    },
+    {
+      "auxiliary_loss_clip": 0.01188711,
+      "auxiliary_loss_mlp": 0.01026233,
+      "balance_loss_clip": 1.04224241,
+      "balance_loss_mlp": 1.01921511,
+      "epoch": 0.9745686286298323,
+      "flos": 17675268520320.0,
+      "grad_norm": 4.2445083695554064,
+      "language_loss": 0.65354824,
+      "learning_rate": 6.750000091148011e-09,
+      "loss": 0.67569768,
+      "num_input_tokens_seen": 175050835,
+      "step": 8105,
+      "time_per_iteration": 2.646092414855957
+    },
+    {
+      "auxiliary_loss_clip": 0.01170063,
+      "auxiliary_loss_mlp": 0.01028553,
+      "balance_loss_clip": 1.04941797,
+      "balance_loss_mlp": 1.02128482,
+      "epoch": 0.9746888715204713,
+      "flos": 29460252332160.0,
+      "grad_norm": 1.8587174609209332,
+      "language_loss": 0.72544128,
+      "learning_rate": 6.686206250120729e-09,
+      "loss": 0.74742746,
+      "num_input_tokens_seen": 175072330,
+      "step": 8106,
+      "time_per_iteration": 2.658350944519043
+    },
+    {
+      "auxiliary_loss_clip": 0.01196326,
+      "auxiliary_loss_mlp": 0.01022844,
+      "balance_loss_clip": 1.04097962,
+      "balance_loss_mlp": 1.01541162,
+      "epoch": 0.9748091144111104,
+      "flos": 18479308510080.0,
+      "grad_norm": 2.128221917947624,
+      "language_loss": 0.7457056,
+      "learning_rate": 6.622714793210749e-09,
+      "loss": 0.76789731,
+      "num_input_tokens_seen": 175091250,
+      "step": 8107,
+      "time_per_iteration": 2.662277936935425
+    },
+    {
+      "auxiliary_loss_clip": 0.01167502,
+      "auxiliary_loss_mlp": 0.01027145,
+      "balance_loss_clip": 1.04708755,
+      "balance_loss_mlp": 1.01992643,
+      "epoch": 0.9749293573017496,
+      "flos": 20665154753280.0,
+      "grad_norm": 1.6419769842435306,
+      "language_loss": 0.78479105,
+      "learning_rate": 6.559525730050364e-09,
+      "loss": 0.80673754,
+      "num_input_tokens_seen": 175111350,
+      "step": 8108,
+      "time_per_iteration": 2.575286626815796
+    },
+    {
+      "auxiliary_loss_clip": 0.01194232,
+      "auxiliary_loss_mlp": 0.01026824,
+      "balance_loss_clip": 1.04225612,
+      "balance_loss_mlp": 1.01937103,
+      "epoch": 0.9750496001923886,
+      "flos": 18478590238080.0,
+      "grad_norm": 1.953938351365,
+      "language_loss": 0.76199985,
+      "learning_rate": 6.496639070224574e-09,
+      "loss": 0.78421044,
+      "num_input_tokens_seen": 175129835,
+      "step": 8109,
+      "time_per_iteration": 2.6900932788848877
+    },
+    {
+      "auxiliary_loss_clip": 0.01180535,
+      "auxiliary_loss_mlp": 0.01024826,
+      "balance_loss_clip": 1.0483253,
+      "balance_loss_mlp": 1.01766109,
+      "epoch": 0.9751698430830277,
+      "flos": 19572967860480.0,
+      "grad_norm": 2.2258327687845085,
+      "language_loss": 0.83792055,
+      "learning_rate": 6.4340548232739714e-09,
+      "loss": 0.85997415,
+      "num_input_tokens_seen": 175146035,
+      "step": 8110,
+      "time_per_iteration": 2.5958287715911865
+    },
+    {
+      "auxiliary_loss_clip": 0.01197508,
+      "auxiliary_loss_mlp": 0.01022154,
+      "balance_loss_clip": 1.04209697,
+      "balance_loss_mlp": 1.01512957,
+      "epoch": 0.9752900859736668,
+      "flos": 23550325862400.0,
+      "grad_norm": 2.0753375721414615,
+      "language_loss": 0.79110169,
+      "learning_rate": 6.371772998692071e-09,
+      "loss": 0.81329829,
+      "num_input_tokens_seen": 175165290,
+      "step": 8111,
+      "time_per_iteration": 3.7181570529937744
+    },
+    {
+      "auxiliary_loss_clip": 0.01197034,
+      "auxiliary_loss_mlp": 0.01028694,
+      "balance_loss_clip": 1.04081881,
+      "balance_loss_mlp": 1.02106452,
+      "epoch": 0.9754103288643059,
+      "flos": 20303211358080.0,
+      "grad_norm": 3.6806571691238736,
+      "language_loss": 0.64943832,
+      "learning_rate": 6.309793605927094e-09,
+      "loss": 0.67169559,
+      "num_input_tokens_seen": 175183610,
+      "step": 8112,
+      "time_per_iteration": 2.79683256149292
+    },
+    {
+      "auxiliary_loss_clip": 0.01188934,
+      "auxiliary_loss_mlp": 0.01022599,
+      "balance_loss_clip": 1.04352748,
+      "balance_loss_mlp": 1.01627243,
+      "epoch": 0.975530571754945,
+      "flos": 19350680544000.0,
+      "grad_norm": 1.701191521709829,
+      "language_loss": 0.80079758,
+      "learning_rate": 6.248116654381297e-09,
+      "loss": 0.82291293,
+      "num_input_tokens_seen": 175202080,
+      "step": 8113,
+      "time_per_iteration": 2.8039212226867676
+    },
+    {
+      "auxiliary_loss_clip": 0.01187618,
+      "auxiliary_loss_mlp": 0.01022535,
+      "balance_loss_clip": 1.0430913,
+      "balance_loss_mlp": 1.01616883,
+      "epoch": 0.9756508146455841,
+      "flos": 23583399310080.0,
+      "grad_norm": 1.845626278966021,
+      "language_loss": 0.72502863,
+      "learning_rate": 6.186742153410751e-09,
+      "loss": 0.74713016,
+      "num_input_tokens_seen": 175221575,
+      "step": 8114,
+      "time_per_iteration": 3.689767837524414
+    },
+    {
+      "auxiliary_loss_clip": 0.01185294,
+      "auxiliary_loss_mlp": 0.01026314,
+      "balance_loss_clip": 1.04653811,
+      "balance_loss_mlp": 1.01842856,
+      "epoch": 0.9757710575362232,
+      "flos": 22966921163520.0,
+      "grad_norm": 1.8849583254752222,
+      "language_loss": 0.87534952,
+      "learning_rate": 6.125670112326453e-09,
+      "loss": 0.89746559,
+      "num_input_tokens_seen": 175240835,
+      "step": 8115,
+      "time_per_iteration": 2.6147403717041016
+    },
+    {
+      "auxiliary_loss_clip": 0.01174569,
+      "auxiliary_loss_mlp": 0.01023125,
+      "balance_loss_clip": 1.04289842,
+      "balance_loss_mlp": 1.01576376,
+      "epoch": 0.9758913004268622,
+      "flos": 27966009530880.0,
+      "grad_norm": 2.740625375858279,
+      "language_loss": 0.70521444,
+      "learning_rate": 6.064900540392548e-09,
+      "loss": 0.72719133,
+      "num_input_tokens_seen": 175262930,
+      "step": 8116,
+      "time_per_iteration": 2.7633488178253174
+    },
+    {
+      "auxiliary_loss_clip": 0.01178515,
+      "auxiliary_loss_mlp": 0.01023497,
+      "balance_loss_clip": 1.04439485,
+      "balance_loss_mlp": 1.01696777,
+      "epoch": 0.9760115433175014,
+      "flos": 22200156512640.0,
+      "grad_norm": 2.077355376669016,
+      "language_loss": 0.78765112,
+      "learning_rate": 6.0044334468278835e-09,
+      "loss": 0.80967128,
+      "num_input_tokens_seen": 175282275,
+      "step": 8117,
+      "time_per_iteration": 2.6413660049438477
+    },
+    {
+      "auxiliary_loss_clip": 0.01203965,
+      "auxiliary_loss_mlp": 0.0102732,
+      "balance_loss_clip": 1.04080629,
+      "balance_loss_mlp": 1.02031946,
+      "epoch": 0.9761317862081405,
+      "flos": 26250736389120.0,
+      "grad_norm": 1.8171811942136176,
+      "language_loss": 0.71674776,
+      "learning_rate": 5.944268840805345e-09,
+      "loss": 0.73906064,
+      "num_input_tokens_seen": 175303020,
+      "step": 8118,
+      "time_per_iteration": 3.690756320953369
+    },
+    {
+      "auxiliary_loss_clip": 0.01187875,
+      "auxiliary_loss_mlp": 0.0102283,
+      "balance_loss_clip": 1.04333127,
+      "balance_loss_mlp": 1.01577842,
+      "epoch": 0.9762520290987795,
+      "flos": 26575440359040.0,
+      "grad_norm": 2.230647851334847,
+      "language_loss": 0.64219326,
+      "learning_rate": 5.88440673145163e-09,
+      "loss": 0.66430032,
+      "num_input_tokens_seen": 175324070,
+      "step": 8119,
+      "time_per_iteration": 2.7646536827087402
+    },
+    {
+      "auxiliary_loss_clip": 0.01176887,
+      "auxiliary_loss_mlp": 0.01020736,
+      "balance_loss_clip": 1.04948378,
+      "balance_loss_mlp": 1.01400983,
+      "epoch": 0.9763722719894187,
+      "flos": 18005036307840.0,
+      "grad_norm": 2.4297356848167624,
+      "language_loss": 0.82626212,
+      "learning_rate": 5.824847127848142e-09,
+      "loss": 0.84823835,
+      "num_input_tokens_seen": 175342595,
+      "step": 8120,
+      "time_per_iteration": 3.501160144805908
+    },
+    {
+      "auxiliary_loss_clip": 0.01208285,
+      "auxiliary_loss_mlp": 0.01026045,
+      "balance_loss_clip": 1.0435586,
+      "balance_loss_mlp": 1.01873183,
+      "epoch": 0.9764925148800577,
+      "flos": 22455660931200.0,
+      "grad_norm": 1.7851631756628468,
+      "language_loss": 0.78384984,
+      "learning_rate": 5.765590039029433e-09,
+      "loss": 0.80619317,
+      "num_input_tokens_seen": 175361915,
+      "step": 8121,
+      "time_per_iteration": 2.7989747524261475
+    },
+    {
+      "auxiliary_loss_clip": 0.01167915,
+      "auxiliary_loss_mlp": 0.01027946,
+      "balance_loss_clip": 1.04982901,
+      "balance_loss_mlp": 1.02092493,
+      "epoch": 0.9766127577706968,
+      "flos": 36757084786560.0,
+      "grad_norm": 2.9313375203544316,
+      "language_loss": 0.71150565,
+      "learning_rate": 5.706635473985422e-09,
+      "loss": 0.7334643,
+      "num_input_tokens_seen": 175385785,
+      "step": 8122,
+      "time_per_iteration": 2.745201349258423
+    },
+    {
+      "auxiliary_loss_clip": 0.01174897,
+      "auxiliary_loss_mlp": 0.01020926,
+      "balance_loss_clip": 1.04616332,
+      "balance_loss_mlp": 1.01406884,
+      "epoch": 0.976733000661336,
+      "flos": 22309971367680.0,
+      "grad_norm": 1.8427857247595416,
+      "language_loss": 0.84708589,
+      "learning_rate": 5.6479834416591764e-09,
+      "loss": 0.86904413,
+      "num_input_tokens_seen": 175405145,
+      "step": 8123,
+      "time_per_iteration": 2.654662609100342
+    },
+    {
+      "auxiliary_loss_clip": 0.01175462,
+      "auxiliary_loss_mlp": 0.01378879,
+      "balance_loss_clip": 1.04697382,
+      "balance_loss_mlp": 1.00014305,
+      "epoch": 0.976853243551975,
+      "flos": 25810938264960.0,
+      "grad_norm": 1.8484181866885814,
+      "language_loss": 0.68583524,
+      "learning_rate": 5.589633950947803e-09,
+      "loss": 0.71137857,
+      "num_input_tokens_seen": 175422645,
+      "step": 8124,
+      "time_per_iteration": 2.656273126602173
+    },
+    {
+      "auxiliary_loss_clip": 0.01180202,
+      "auxiliary_loss_mlp": 0.0102607,
+      "balance_loss_clip": 1.04432094,
+      "balance_loss_mlp": 1.01842904,
+      "epoch": 0.9769734864426141,
+      "flos": 21397445326080.0,
+      "grad_norm": 2.1238313645895563,
+      "language_loss": 0.69771534,
+      "learning_rate": 5.5315870107035535e-09,
+      "loss": 0.71977806,
+      "num_input_tokens_seen": 175440695,
+      "step": 8125,
+      "time_per_iteration": 2.6375086307525635
+    },
+    {
+      "auxiliary_loss_clip": 0.01181143,
+      "auxiliary_loss_mlp": 0.01025146,
+      "balance_loss_clip": 1.04565048,
+      "balance_loss_mlp": 1.01811552,
+      "epoch": 0.9770937293332532,
+      "flos": 13990977584640.0,
+      "grad_norm": 1.7994126626332676,
+      "language_loss": 0.7889663,
+      "learning_rate": 5.473842629731607e-09,
+      "loss": 0.8110292,
+      "num_input_tokens_seen": 175459195,
+      "step": 8126,
+      "time_per_iteration": 2.664846420288086
+    },
+    {
+      "auxiliary_loss_clip": 0.01191394,
+      "auxiliary_loss_mlp": 0.01378977,
+      "balance_loss_clip": 1.04453981,
+      "balance_loss_mlp": 1.00016892,
+      "epoch": 0.9772139722238923,
+      "flos": 17931994001280.0,
+      "grad_norm": 1.8680678546124607,
+      "language_loss": 0.7802673,
+      "learning_rate": 5.416400816792066e-09,
+      "loss": 0.80597103,
+      "num_input_tokens_seen": 175476710,
+      "step": 8127,
+      "time_per_iteration": 2.658621072769165
+    },
+    {
+      "auxiliary_loss_clip": 0.01165693,
+      "auxiliary_loss_mlp": 0.01019148,
+      "balance_loss_clip": 1.04567122,
+      "balance_loss_mlp": 1.0120666,
+      "epoch": 0.9773342151145313,
+      "flos": 20446171488000.0,
+      "grad_norm": 2.3682100599360307,
+      "language_loss": 0.78522849,
+      "learning_rate": 5.359261580598407e-09,
+      "loss": 0.80707687,
+      "num_input_tokens_seen": 175492550,
+      "step": 8128,
+      "time_per_iteration": 2.7112009525299072
+    },
+    {
+      "auxiliary_loss_clip": 0.01178908,
+      "auxiliary_loss_mlp": 0.01023071,
+      "balance_loss_clip": 1.04806578,
+      "balance_loss_mlp": 1.01494098,
+      "epoch": 0.9774544580051704,
+      "flos": 11837306949120.0,
+      "grad_norm": 2.339560872442355,
+      "language_loss": 0.78164536,
+      "learning_rate": 5.302424929819027e-09,
+      "loss": 0.80366516,
+      "num_input_tokens_seen": 175506560,
+      "step": 8129,
+      "time_per_iteration": 2.5984718799591064
+    },
+    {
+      "auxiliary_loss_clip": 0.01176721,
+      "auxiliary_loss_mlp": 0.01023453,
+      "balance_loss_clip": 1.04253745,
+      "balance_loss_mlp": 1.01597238,
+      "epoch": 0.9775747008958096,
+      "flos": 13479932833920.0,
+      "grad_norm": 2.277504154590759,
+      "language_loss": 0.73384219,
+      "learning_rate": 5.24589087307592e-09,
+      "loss": 0.75584388,
+      "num_input_tokens_seen": 175524180,
+      "step": 8130,
+      "time_per_iteration": 2.672300100326538
+    },
+    {
+      "auxiliary_loss_clip": 0.01168331,
+      "auxiliary_loss_mlp": 0.01021099,
+      "balance_loss_clip": 1.04648221,
+      "balance_loss_mlp": 1.01398802,
+      "epoch": 0.9776949437864486,
+      "flos": 59532314042880.0,
+      "grad_norm": 1.6042262435036734,
+      "language_loss": 0.65067756,
+      "learning_rate": 5.189659418944891e-09,
+      "loss": 0.67257184,
+      "num_input_tokens_seen": 175554355,
+      "step": 8131,
+      "time_per_iteration": 2.9813320636749268
+    },
+    {
+      "auxiliary_loss_clip": 0.01167799,
+      "auxiliary_loss_mlp": 0.0102395,
+      "balance_loss_clip": 1.04842353,
+      "balance_loss_mlp": 1.01705337,
+      "epoch": 0.9778151866770877,
+      "flos": 21178605715200.0,
+      "grad_norm": 1.8268160648187066,
+      "language_loss": 0.78333724,
+      "learning_rate": 5.133730575956674e-09,
+      "loss": 0.80525476,
+      "num_input_tokens_seen": 175574025,
+      "step": 8132,
+      "time_per_iteration": 2.598093271255493
+    },
+    {
+      "auxiliary_loss_clip": 0.01185566,
+      "auxiliary_loss_mlp": 0.01019721,
+      "balance_loss_clip": 1.04273546,
+      "balance_loss_mlp": 1.01254416,
+      "epoch": 0.9779354295677268,
+      "flos": 20886795624960.0,
+      "grad_norm": 2.1742283011178745,
+      "language_loss": 0.72053444,
+      "learning_rate": 5.0781043525953696e-09,
+      "loss": 0.74258733,
+      "num_input_tokens_seen": 175592090,
+      "step": 8133,
+      "time_per_iteration": 2.6609926223754883
+    },
+    {
+      "auxiliary_loss_clip": 0.01181122,
+      "auxiliary_loss_mlp": 0.01026369,
+      "balance_loss_clip": 1.04667306,
+      "balance_loss_mlp": 1.01971138,
+      "epoch": 0.9780556724583659,
+      "flos": 23440618748160.0,
+      "grad_norm": 1.7908303026024428,
+      "language_loss": 0.73532665,
+      "learning_rate": 5.0227807572995605e-09,
+      "loss": 0.75740159,
+      "num_input_tokens_seen": 175614065,
+      "step": 8134,
+      "time_per_iteration": 2.7848503589630127
+    },
+    {
+      "auxiliary_loss_clip": 0.01184437,
+      "auxiliary_loss_mlp": 0.01022349,
+      "balance_loss_clip": 1.04287815,
+      "balance_loss_mlp": 1.01511931,
+      "epoch": 0.9781759153490049,
+      "flos": 20923244951040.0,
+      "grad_norm": 2.8490748201822456,
+      "language_loss": 0.67125571,
+      "learning_rate": 4.967759798461646e-09,
+      "loss": 0.69332361,
+      "num_input_tokens_seen": 175632410,
+      "step": 8135,
+      "time_per_iteration": 2.6469216346740723
+    },
+    {
+      "auxiliary_loss_clip": 0.01165461,
+      "auxiliary_loss_mlp": 0.01021949,
+      "balance_loss_clip": 1.04704261,
+      "balance_loss_mlp": 1.01504397,
+      "epoch": 0.9782961582396441,
+      "flos": 28293191539200.0,
+      "grad_norm": 1.9092881721385666,
+      "language_loss": 0.74428707,
+      "learning_rate": 4.913041484428282e-09,
+      "loss": 0.7661612,
+      "num_input_tokens_seen": 175652885,
+      "step": 8136,
+      "time_per_iteration": 2.6305549144744873
+    },
+    {
+      "auxiliary_loss_clip": 0.01180479,
+      "auxiliary_loss_mlp": 0.01019752,
+      "balance_loss_clip": 1.04758966,
+      "balance_loss_mlp": 1.01285541,
+      "epoch": 0.9784164011302832,
+      "flos": 25552955808000.0,
+      "grad_norm": 1.754940586354205,
+      "language_loss": 0.73989916,
+      "learning_rate": 4.858625823500384e-09,
+      "loss": 0.7619015,
+      "num_input_tokens_seen": 175670585,
+      "step": 8137,
+      "time_per_iteration": 3.5746476650238037
+    },
+    {
+      "auxiliary_loss_clip": 0.01181623,
+      "auxiliary_loss_mlp": 0.01028665,
+      "balance_loss_clip": 1.04656208,
+      "balance_loss_mlp": 1.02088058,
+      "epoch": 0.9785366440209222,
+      "flos": 29965945956480.0,
+      "grad_norm": 2.1968883009560587,
+      "language_loss": 0.7338593,
+      "learning_rate": 4.80451282393246e-09,
+      "loss": 0.75596225,
+      "num_input_tokens_seen": 175690570,
+      "step": 8138,
+      "time_per_iteration": 2.660250186920166
+    },
+    {
+      "auxiliary_loss_clip": 0.01185744,
+      "auxiliary_loss_mlp": 0.0102143,
+      "balance_loss_clip": 1.04449534,
+      "balance_loss_mlp": 1.0138607,
+      "epoch": 0.9786568869115614,
+      "flos": 32343591847680.0,
+      "grad_norm": 1.8330168161875455,
+      "language_loss": 0.67320037,
+      "learning_rate": 4.750702493933722e-09,
+      "loss": 0.69527209,
+      "num_input_tokens_seen": 175710455,
+      "step": 8139,
+      "time_per_iteration": 2.7706589698791504
+    },
+    {
+      "auxiliary_loss_clip": 0.0118416,
+      "auxiliary_loss_mlp": 0.01378375,
+      "balance_loss_clip": 1.04596126,
+      "balance_loss_mlp": 1.00008178,
+      "epoch": 0.9787771298022004,
+      "flos": 23331414424320.0,
+      "grad_norm": 3.0428496021986233,
+      "language_loss": 0.85180736,
+      "learning_rate": 4.697194841666974e-09,
+      "loss": 0.8774327,
+      "num_input_tokens_seen": 175729380,
+      "step": 8140,
+      "time_per_iteration": 3.505873918533325
+    },
+    {
+      "auxiliary_loss_clip": 0.01175935,
+      "auxiliary_loss_mlp": 0.01021747,
+      "balance_loss_clip": 1.04439175,
+      "balance_loss_mlp": 1.01402211,
+      "epoch": 0.9788973726928395,
+      "flos": 21468548298240.0,
+      "grad_norm": 2.7254500330045834,
+      "language_loss": 0.81861442,
+      "learning_rate": 4.6439898752492764e-09,
+      "loss": 0.84059125,
+      "num_input_tokens_seen": 175749520,
+      "step": 8141,
+      "time_per_iteration": 2.6631619930267334
+    },
+    {
+      "auxiliary_loss_clip": 0.01073961,
+      "auxiliary_loss_mlp": 0.01373785,
+      "balance_loss_clip": 1.00927329,
+      "balance_loss_mlp": 0.99982196,
+      "epoch": 0.9790176155834787,
+      "flos": 68897459439360.0,
+      "grad_norm": 0.7511298201729295,
+      "language_loss": 0.63682908,
+      "learning_rate": 4.591087602751731e-09,
+      "loss": 0.66130656,
+      "num_input_tokens_seen": 175811380,
+      "step": 8142,
+      "time_per_iteration": 3.300305128097534
+    },
+    {
+      "auxiliary_loss_clip": 0.0117473,
+      "auxiliary_loss_mlp": 0.01025369,
+      "balance_loss_clip": 1.0461427,
+      "balance_loss_mlp": 1.01854432,
+      "epoch": 0.9791378584741177,
+      "flos": 21430877909760.0,
+      "grad_norm": 1.5802615544772103,
+      "language_loss": 0.71902633,
+      "learning_rate": 4.538488032199916e-09,
+      "loss": 0.74102736,
+      "num_input_tokens_seen": 175829480,
+      "step": 8143,
+      "time_per_iteration": 2.6595356464385986
+    },
+    {
+      "auxiliary_loss_clip": 0.01179481,
+      "auxiliary_loss_mlp": 0.01022752,
+      "balance_loss_clip": 1.04410481,
+      "balance_loss_mlp": 1.01531386,
+      "epoch": 0.9792581013647568,
+      "flos": 20153032594560.0,
+      "grad_norm": 1.8928172234564316,
+      "language_loss": 0.69488561,
+      "learning_rate": 4.486191171572784e-09,
+      "loss": 0.71690792,
+      "num_input_tokens_seen": 175846750,
+      "step": 8144,
+      "time_per_iteration": 3.6152381896972656
+    },
+    {
+      "auxiliary_loss_clip": 0.01180756,
+      "auxiliary_loss_mlp": 0.01025115,
+      "balance_loss_clip": 1.04679728,
+      "balance_loss_mlp": 1.01781631,
+      "epoch": 0.9793783442553959,
+      "flos": 23728191033600.0,
+      "grad_norm": 1.5521210165626662,
+      "language_loss": 0.77495074,
+      "learning_rate": 4.434197028803766e-09,
+      "loss": 0.79700941,
+      "num_input_tokens_seen": 175865975,
+      "step": 8145,
+      "time_per_iteration": 2.711440086364746
+    },
+    {
+      "auxiliary_loss_clip": 0.01198641,
+      "auxiliary_loss_mlp": 0.01032571,
+      "balance_loss_clip": 1.04234147,
+      "balance_loss_mlp": 1.02494502,
+      "epoch": 0.979498587146035,
+      "flos": 23038742407680.0,
+      "grad_norm": 1.984915525532278,
+      "language_loss": 0.82163042,
+      "learning_rate": 4.3825056117805514e-09,
+      "loss": 0.84394252,
+      "num_input_tokens_seen": 175881860,
+      "step": 8146,
+      "time_per_iteration": 3.5443344116210938
+    },
+    {
+      "auxiliary_loss_clip": 0.01166416,
+      "auxiliary_loss_mlp": 0.01025773,
+      "balance_loss_clip": 1.04596865,
+      "balance_loss_mlp": 1.01806056,
+      "epoch": 0.979618830036674,
+      "flos": 14318841951360.0,
+      "grad_norm": 2.057221829727088,
+      "language_loss": 0.7949295,
+      "learning_rate": 4.331116928344425e-09,
+      "loss": 0.81685138,
+      "num_input_tokens_seen": 175898175,
+      "step": 8147,
+      "time_per_iteration": 2.574799060821533
+    },
+    {
+      "auxiliary_loss_clip": 0.01190824,
+      "auxiliary_loss_mlp": 0.01378878,
+      "balance_loss_clip": 1.04448748,
+      "balance_loss_mlp": 1.00013375,
+      "epoch": 0.9797390729273132,
+      "flos": 16727514215040.0,
+      "grad_norm": 1.8671031858168299,
+      "language_loss": 0.62661326,
+      "learning_rate": 4.28003098629115e-09,
+      "loss": 0.65231031,
+      "num_input_tokens_seen": 175914310,
+      "step": 8148,
+      "time_per_iteration": 2.627579689025879
+    },
+    {
+      "auxiliary_loss_clip": 0.01187526,
+      "auxiliary_loss_mlp": 0.01024255,
+      "balance_loss_clip": 1.03655636,
+      "balance_loss_mlp": 1.01700068,
+      "epoch": 0.9798593158179523,
+      "flos": 24532661986560.0,
+      "grad_norm": 1.8321311094022805,
+      "language_loss": 0.78558713,
+      "learning_rate": 4.229247793370305e-09,
+      "loss": 0.80770493,
+      "num_input_tokens_seen": 175933435,
+      "step": 8149,
+      "time_per_iteration": 2.7161800861358643
+    },
+    {
+      "auxiliary_loss_clip": 0.01170322,
+      "auxiliary_loss_mlp": 0.01024094,
+      "balance_loss_clip": 1.04928625,
+      "balance_loss_mlp": 1.01702452,
+      "epoch": 0.9799795587085913,
+      "flos": 27308808339840.0,
+      "grad_norm": 1.6649992096125426,
+      "language_loss": 0.70020872,
+      "learning_rate": 4.178767357285951e-09,
+      "loss": 0.72215289,
+      "num_input_tokens_seen": 175955065,
+      "step": 8150,
+      "time_per_iteration": 2.607344388961792
+    },
+    {
+      "auxiliary_loss_clip": 0.01178159,
+      "auxiliary_loss_mlp": 0.01378541,
+      "balance_loss_clip": 1.04669118,
+      "balance_loss_mlp": 1.00023174,
+      "epoch": 0.9800998015992305,
+      "flos": 26286575184000.0,
+      "grad_norm": 2.148142189426372,
+      "language_loss": 0.71717185,
+      "learning_rate": 4.128589685695516e-09,
+      "loss": 0.74273884,
+      "num_input_tokens_seen": 175975490,
+      "step": 8151,
+      "time_per_iteration": 2.685570001602173
+    },
+    {
+      "auxiliary_loss_clip": 0.01167896,
+      "auxiliary_loss_mlp": 0.01022303,
+      "balance_loss_clip": 1.04717112,
+      "balance_loss_mlp": 1.01551366,
+      "epoch": 0.9802200444898695,
+      "flos": 16723635546240.0,
+      "grad_norm": 1.817021794060209,
+      "language_loss": 0.8410688,
+      "learning_rate": 4.078714786211135e-09,
+      "loss": 0.86297083,
+      "num_input_tokens_seen": 175991340,
+      "step": 8152,
+      "time_per_iteration": 2.5147666931152344
+    },
+    {
+      "auxiliary_loss_clip": 0.01175408,
+      "auxiliary_loss_mlp": 0.01022305,
+      "balance_loss_clip": 1.04654825,
+      "balance_loss_mlp": 1.01512861,
+      "epoch": 0.9803402873805086,
+      "flos": 24900459298560.0,
+      "grad_norm": 1.670339576918651,
+      "language_loss": 0.76432467,
+      "learning_rate": 4.029142666398977e-09,
+      "loss": 0.78630179,
+      "num_input_tokens_seen": 176011505,
+      "step": 8153,
+      "time_per_iteration": 2.6655101776123047
+    },
+    {
+      "auxiliary_loss_clip": 0.0116412,
+      "auxiliary_loss_mlp": 0.01021276,
+      "balance_loss_clip": 1.04671407,
+      "balance_loss_mlp": 1.01467204,
+      "epoch": 0.9804605302711478,
+      "flos": 22564937082240.0,
+      "grad_norm": 1.8310761234429906,
+      "language_loss": 0.80073798,
+      "learning_rate": 3.979873333778805e-09,
+      "loss": 0.82259196,
+      "num_input_tokens_seen": 176029680,
+      "step": 8154,
+      "time_per_iteration": 2.5850141048431396
+    },
+    {
+      "auxiliary_loss_clip": 0.01194085,
+      "auxiliary_loss_mlp": 0.01025199,
+      "balance_loss_clip": 1.04784203,
+      "balance_loss_mlp": 1.01767087,
+      "epoch": 0.9805807731617868,
+      "flos": 38905368382080.0,
+      "grad_norm": 2.3985405557851256,
+      "language_loss": 0.73978412,
+      "learning_rate": 3.930906795824862e-09,
+      "loss": 0.76197696,
+      "num_input_tokens_seen": 176050355,
+      "step": 8155,
+      "time_per_iteration": 2.8229258060455322
+    },
+    {
+      "auxiliary_loss_clip": 0.01170566,
+      "auxiliary_loss_mlp": 0.01025149,
+      "balance_loss_clip": 1.04280186,
+      "balance_loss_mlp": 1.01834273,
+      "epoch": 0.9807010160524259,
+      "flos": 17821999578240.0,
+      "grad_norm": 1.854808790936603,
+      "language_loss": 0.76694882,
+      "learning_rate": 3.882243059965207e-09,
+      "loss": 0.78890598,
+      "num_input_tokens_seen": 176068070,
+      "step": 8156,
+      "time_per_iteration": 2.6135101318359375
+    },
+    {
+      "auxiliary_loss_clip": 0.01165298,
+      "auxiliary_loss_mlp": 0.01023361,
+      "balance_loss_clip": 1.04215455,
+      "balance_loss_mlp": 1.01557112,
+      "epoch": 0.980821258943065,
+      "flos": 13552975140480.0,
+      "grad_norm": 2.837776291185424,
+      "language_loss": 0.66144902,
+      "learning_rate": 3.833882133582156e-09,
+      "loss": 0.68333554,
+      "num_input_tokens_seen": 176083730,
+      "step": 8157,
+      "time_per_iteration": 2.7204701900482178
+    },
+    {
+      "auxiliary_loss_clip": 0.01178875,
+      "auxiliary_loss_mlp": 0.01023569,
+      "balance_loss_clip": 1.04602981,
+      "balance_loss_mlp": 1.0167681,
+      "epoch": 0.9809415018337041,
+      "flos": 21689794120320.0,
+      "grad_norm": 1.5606343499085202,
+      "language_loss": 0.78079349,
+      "learning_rate": 3.785824024012285e-09,
+      "loss": 0.80281794,
+      "num_input_tokens_seen": 176102730,
+      "step": 8158,
+      "time_per_iteration": 2.660689353942871
+    },
+    {
+      "auxiliary_loss_clip": 0.01178245,
+      "auxiliary_loss_mlp": 0.01022785,
+      "balance_loss_clip": 1.04589295,
+      "balance_loss_mlp": 1.01578462,
+      "epoch": 0.9810617447243432,
+      "flos": 23294857357440.0,
+      "grad_norm": 1.4636852305370756,
+      "language_loss": 0.78341234,
+      "learning_rate": 3.738068738545541e-09,
+      "loss": 0.80542266,
+      "num_input_tokens_seen": 176121815,
+      "step": 8159,
+      "time_per_iteration": 2.6831917762756348
+    },
+    {
+      "auxiliary_loss_clip": 0.0117911,
+      "auxiliary_loss_mlp": 0.01025095,
+      "balance_loss_clip": 1.04547608,
+      "balance_loss_mlp": 1.01787651,
+      "epoch": 0.9811819876149822,
+      "flos": 18332038748160.0,
+      "grad_norm": 2.7877894228756874,
+      "language_loss": 0.78595728,
+      "learning_rate": 3.6906162844265733e-09,
+      "loss": 0.80799931,
+      "num_input_tokens_seen": 176138900,
+      "step": 8160,
+      "time_per_iteration": 2.6458044052124023
+    },
+    {
+      "auxiliary_loss_clip": 0.01181008,
+      "auxiliary_loss_mlp": 0.0102811,
+      "balance_loss_clip": 1.04419851,
+      "balance_loss_mlp": 1.0203259,
+      "epoch": 0.9813022305056214,
+      "flos": 22601961025920.0,
+      "grad_norm": 1.9574457826486655,
+      "language_loss": 0.70784724,
+      "learning_rate": 3.643466668853845e-09,
+      "loss": 0.72993839,
+      "num_input_tokens_seen": 176156925,
+      "step": 8161,
+      "time_per_iteration": 2.5926992893218994
+    },
+    {
+      "auxiliary_loss_clip": 0.01185055,
+      "auxiliary_loss_mlp": 0.01024294,
+      "balance_loss_clip": 1.04322922,
+      "balance_loss_mlp": 1.01697123,
+      "epoch": 0.9814224733962604,
+      "flos": 25413335642880.0,
+      "grad_norm": 2.656604954410967,
+      "language_loss": 0.75275677,
+      "learning_rate": 3.59661989898008e-09,
+      "loss": 0.77485025,
+      "num_input_tokens_seen": 176177980,
+      "step": 8162,
+      "time_per_iteration": 3.7035608291625977
+    },
+    {
+      "auxiliary_loss_clip": 0.0118438,
+      "auxiliary_loss_mlp": 0.01024318,
+      "balance_loss_clip": 1.04260743,
+      "balance_loss_mlp": 1.01787484,
+      "epoch": 0.9815427162868995,
+      "flos": 25007185584000.0,
+      "grad_norm": 1.620600016386881,
+      "language_loss": 0.76675308,
+      "learning_rate": 3.5500759819115934e-09,
+      "loss": 0.78884006,
+      "num_input_tokens_seen": 176198345,
+      "step": 8163,
+      "time_per_iteration": 2.7131972312927246
+    },
+    {
+      "auxiliary_loss_clip": 0.01170636,
+      "auxiliary_loss_mlp": 0.01023939,
+      "balance_loss_clip": 1.05052054,
+      "balance_loss_mlp": 1.01694405,
+      "epoch": 0.9816629591775387,
+      "flos": 20662604887680.0,
+      "grad_norm": 1.8045155389645016,
+      "language_loss": 0.80896223,
+      "learning_rate": 3.5038349247094034e-09,
+      "loss": 0.83090794,
+      "num_input_tokens_seen": 176215605,
+      "step": 8164,
+      "time_per_iteration": 2.561910629272461
+    },
+    {
+      "auxiliary_loss_clip": 0.01184078,
+      "auxiliary_loss_mlp": 0.01026301,
+      "balance_loss_clip": 1.04321623,
+      "balance_loss_mlp": 1.0192523,
+      "epoch": 0.9817832020681777,
+      "flos": 17712220636800.0,
+      "grad_norm": 2.3673407339921186,
+      "language_loss": 0.77282816,
+      "learning_rate": 3.4578967343878994e-09,
+      "loss": 0.79493189,
+      "num_input_tokens_seen": 176231810,
+      "step": 8165,
+      "time_per_iteration": 2.614224910736084
+    },
+    {
+      "auxiliary_loss_clip": 0.01185071,
+      "auxiliary_loss_mlp": 0.0102529,
+      "balance_loss_clip": 1.044945,
+      "balance_loss_mlp": 1.01836395,
+      "epoch": 0.9819034449588168,
+      "flos": 22530032040960.0,
+      "grad_norm": 1.7381880222856942,
+      "language_loss": 0.80949593,
+      "learning_rate": 3.4122614179161733e-09,
+      "loss": 0.83159953,
+      "num_input_tokens_seen": 176251770,
+      "step": 8166,
+      "time_per_iteration": 3.568035364151001
+    },
+    {
+      "auxiliary_loss_clip": 0.01178902,
+      "auxiliary_loss_mlp": 0.01026278,
+      "balance_loss_clip": 1.03910923,
+      "balance_loss_mlp": 1.01945925,
+      "epoch": 0.9820236878494559,
+      "flos": 20011221699840.0,
+      "grad_norm": 1.6767710662693383,
+      "language_loss": 0.78172684,
+      "learning_rate": 3.36692898221691e-09,
+      "loss": 0.80377865,
+      "num_input_tokens_seen": 176270135,
+      "step": 8167,
+      "time_per_iteration": 2.745534896850586
+    },
+    {
+      "auxiliary_loss_clip": 0.0117722,
+      "auxiliary_loss_mlp": 0.01022522,
+      "balance_loss_clip": 1.04632115,
+      "balance_loss_mlp": 1.01609373,
+      "epoch": 0.982143930740095,
+      "flos": 18807316531200.0,
+      "grad_norm": 1.6940913907974542,
+      "language_loss": 0.73424059,
+      "learning_rate": 3.3218994341668305e-09,
+      "loss": 0.75623804,
+      "num_input_tokens_seen": 176289065,
+      "step": 8168,
+      "time_per_iteration": 2.608076810836792
+    },
+    {
+      "auxiliary_loss_clip": 0.01166449,
+      "auxiliary_loss_mlp": 0.01023655,
+      "balance_loss_clip": 1.04854989,
+      "balance_loss_mlp": 1.0172807,
+      "epoch": 0.982264173630734,
+      "flos": 26578026138240.0,
+      "grad_norm": 1.664801790447085,
+      "language_loss": 0.75342745,
+      "learning_rate": 3.2771727805971373e-09,
+      "loss": 0.77532852,
+      "num_input_tokens_seen": 176310450,
+      "step": 8169,
+      "time_per_iteration": 2.674191474914551
+    },
+    {
+      "auxiliary_loss_clip": 0.01194167,
+      "auxiliary_loss_mlp": 0.01027451,
+      "balance_loss_clip": 1.03817225,
+      "balance_loss_mlp": 1.01998234,
+      "epoch": 0.9823844165213732,
+      "flos": 22014462176640.0,
+      "grad_norm": 1.6828712653042561,
+      "language_loss": 0.76969504,
+      "learning_rate": 3.232749028292847e-09,
+      "loss": 0.79191118,
+      "num_input_tokens_seen": 176327415,
+      "step": 8170,
+      "time_per_iteration": 3.5818653106689453
+    },
+    {
+      "auxiliary_loss_clip": 0.01167409,
+      "auxiliary_loss_mlp": 0.01023217,
+      "balance_loss_clip": 1.0461731,
+      "balance_loss_mlp": 1.0159421,
+      "epoch": 0.9825046594120123,
+      "flos": 21908166854400.0,
+      "grad_norm": 1.746670418738227,
+      "language_loss": 0.88504869,
+      "learning_rate": 3.188628183992792e-09,
+      "loss": 0.90695494,
+      "num_input_tokens_seen": 176347680,
+      "step": 8171,
+      "time_per_iteration": 2.597752332687378
+    },
+    {
+      "auxiliary_loss_clip": 0.01073592,
+      "auxiliary_loss_mlp": 0.01002314,
+      "balance_loss_clip": 1.00862908,
+      "balance_loss_mlp": 1.00127721,
+      "epoch": 0.9826249023026513,
+      "flos": 59494610718720.0,
+      "grad_norm": 0.7375443290746198,
+      "language_loss": 0.62566406,
+      "learning_rate": 3.1448102543902844e-09,
+      "loss": 0.6464231,
+      "num_input_tokens_seen": 176411595,
+      "step": 8172,
+      "time_per_iteration": 4.084103345870972
+    },
+    {
+      "auxiliary_loss_clip": 0.0117872,
+      "auxiliary_loss_mlp": 0.01024395,
+      "balance_loss_clip": 1.04600787,
+      "balance_loss_mlp": 1.01781178,
+      "epoch": 0.9827451451932905,
+      "flos": 16071031296000.0,
+      "grad_norm": 1.8437741986892098,
+      "language_loss": 0.67290282,
+      "learning_rate": 3.1012952461324515e-09,
+      "loss": 0.69493401,
+      "num_input_tokens_seen": 176430570,
+      "step": 8173,
+      "time_per_iteration": 2.6712565422058105
+    },
+    {
+      "auxiliary_loss_clip": 0.01174511,
+      "auxiliary_loss_mlp": 0.01024261,
+      "balance_loss_clip": 1.04769969,
+      "balance_loss_mlp": 1.01749849,
+      "epoch": 0.9828653880839295,
+      "flos": 20262775622400.0,
+      "grad_norm": 2.317559572061147,
+      "language_loss": 0.73874009,
+      "learning_rate": 3.0580831658204575e-09,
+      "loss": 0.76072776,
+      "num_input_tokens_seen": 176448150,
+      "step": 8174,
+      "time_per_iteration": 2.639312505722046
+    },
+    {
+      "auxiliary_loss_clip": 0.01175335,
+      "auxiliary_loss_mlp": 0.01029569,
+      "balance_loss_clip": 1.04794943,
+      "balance_loss_mlp": 1.02257192,
+      "epoch": 0.9829856309745686,
+      "flos": 21616141282560.0,
+      "grad_norm": 1.6985280477393705,
+      "language_loss": 0.77801013,
+      "learning_rate": 3.015174020009281e-09,
+      "loss": 0.8000592,
+      "num_input_tokens_seen": 176467475,
+      "step": 8175,
+      "time_per_iteration": 2.5947630405426025
+    },
+    {
+      "auxiliary_loss_clip": 0.01194271,
+      "auxiliary_loss_mlp": 0.01026522,
+      "balance_loss_clip": 1.0407629,
+      "balance_loss_mlp": 1.01973271,
+      "epoch": 0.9831058738652078,
+      "flos": 23764209396480.0,
+      "grad_norm": 1.882900851653232,
+      "language_loss": 0.74979782,
+      "learning_rate": 2.9725678152086043e-09,
+      "loss": 0.77200574,
+      "num_input_tokens_seen": 176486045,
+      "step": 8176,
+      "time_per_iteration": 2.6888725757598877
+    },
+    {
+      "auxiliary_loss_clip": 0.01170504,
+      "auxiliary_loss_mlp": 0.01025898,
+      "balance_loss_clip": 1.04237342,
+      "balance_loss_mlp": 1.018659,
+      "epoch": 0.9832261167558468,
+      "flos": 11320911072000.0,
+      "grad_norm": 4.6598027579293,
+      "language_loss": 0.82817876,
+      "learning_rate": 2.930264557881257e-09,
+      "loss": 0.85014284,
+      "num_input_tokens_seen": 176501230,
+      "step": 8177,
+      "time_per_iteration": 2.5639748573303223
+    },
+    {
+      "auxiliary_loss_clip": 0.01059441,
+      "auxiliary_loss_mlp": 0.0100286,
+      "balance_loss_clip": 1.00833988,
+      "balance_loss_mlp": 1.00182867,
+      "epoch": 0.9833463596464859,
+      "flos": 60000304343040.0,
+      "grad_norm": 0.8615957806259525,
+      "language_loss": 0.58203036,
+      "learning_rate": 2.8882642544452163e-09,
+      "loss": 0.60265338,
+      "num_input_tokens_seen": 176565955,
+      "step": 8178,
+      "time_per_iteration": 3.2011444568634033
+    },
+    {
+      "auxiliary_loss_clip": 0.01171621,
+      "auxiliary_loss_mlp": 0.01024668,
+      "balance_loss_clip": 1.04173946,
+      "balance_loss_mlp": 1.01716065,
+      "epoch": 0.983466602537125,
+      "flos": 13626699805440.0,
+      "grad_norm": 2.4043262092963906,
+      "language_loss": 0.74322587,
+      "learning_rate": 2.8465669112716083e-09,
+      "loss": 0.76518881,
+      "num_input_tokens_seen": 176583480,
+      "step": 8179,
+      "time_per_iteration": 2.7438507080078125
+    },
+    {
+      "auxiliary_loss_clip": 0.01176138,
+      "auxiliary_loss_mlp": 0.01378852,
+      "balance_loss_clip": 1.0451448,
+      "balance_loss_mlp": 1.00012279,
+      "epoch": 0.9835868454277641,
+      "flos": 22926844563840.0,
+      "grad_norm": 1.848041080568616,
+      "language_loss": 0.76552165,
+      "learning_rate": 2.8051725346858177e-09,
+      "loss": 0.79107153,
+      "num_input_tokens_seen": 176603740,
+      "step": 8180,
+      "time_per_iteration": 2.6186625957489014
+    },
+    {
+      "auxiliary_loss_clip": 0.01169381,
+      "auxiliary_loss_mlp": 0.01022428,
+      "balance_loss_clip": 1.04714668,
+      "balance_loss_mlp": 1.01465559,
+      "epoch": 0.9837070883184031,
+      "flos": 27673409341440.0,
+      "grad_norm": 2.44805092168767,
+      "language_loss": 0.70601964,
+      "learning_rate": 2.7640811309674883e-09,
+      "loss": 0.7279377,
+      "num_input_tokens_seen": 176623240,
+      "step": 8181,
+      "time_per_iteration": 2.6758062839508057
+    },
+    {
+      "auxiliary_loss_clip": 0.01184134,
+      "auxiliary_loss_mlp": 0.01023756,
+      "balance_loss_clip": 1.04233921,
+      "balance_loss_mlp": 1.01703227,
+      "epoch": 0.9838273312090423,
+      "flos": 29241951425280.0,
+      "grad_norm": 1.6233628568778975,
+      "language_loss": 0.80684894,
+      "learning_rate": 2.7232927063498557e-09,
+      "loss": 0.82892787,
+      "num_input_tokens_seen": 176643615,
+      "step": 8182,
+      "time_per_iteration": 2.811366558074951
+    },
+    {
+      "auxiliary_loss_clip": 0.0117802,
+      "auxiliary_loss_mlp": 0.01031178,
+      "balance_loss_clip": 1.04580569,
+      "balance_loss_mlp": 1.02387917,
+      "epoch": 0.9839475740996814,
+      "flos": 40110207304320.0,
+      "grad_norm": 1.8081966423663087,
+      "language_loss": 0.69098842,
+      "learning_rate": 2.682807267020859e-09,
+      "loss": 0.71308041,
+      "num_input_tokens_seen": 176666375,
+      "step": 8183,
+      "time_per_iteration": 2.7592101097106934
+    },
+    {
+      "auxiliary_loss_clip": 0.01176563,
+      "auxiliary_loss_mlp": 0.01025347,
+      "balance_loss_clip": 1.0465548,
+      "balance_loss_mlp": 1.01781297,
+      "epoch": 0.9840678169903204,
+      "flos": 24169389788160.0,
+      "grad_norm": 1.6080297243417396,
+      "language_loss": 0.62519181,
+      "learning_rate": 2.642624819121808e-09,
+      "loss": 0.64721096,
+      "num_input_tokens_seen": 176686525,
+      "step": 8184,
+      "time_per_iteration": 2.5905227661132812
+    },
+    {
+      "auxiliary_loss_clip": 0.01184656,
+      "auxiliary_loss_mlp": 0.01027333,
+      "balance_loss_clip": 1.04606724,
+      "balance_loss_mlp": 1.0206964,
+      "epoch": 0.9841880598809596,
+      "flos": 14684484447360.0,
+      "grad_norm": 2.0473214610283117,
+      "language_loss": 0.61886048,
+      "learning_rate": 2.6027453687487154e-09,
+      "loss": 0.64098042,
+      "num_input_tokens_seen": 176703615,
+      "step": 8185,
+      "time_per_iteration": 2.6833956241607666
+    },
+    {
+      "auxiliary_loss_clip": 0.01187168,
+      "auxiliary_loss_mlp": 0.01027326,
+      "balance_loss_clip": 1.04521227,
+      "balance_loss_mlp": 1.01970863,
+      "epoch": 0.9843083027715986,
+      "flos": 22344768668160.0,
+      "grad_norm": 2.339712805467144,
+      "language_loss": 0.53865016,
+      "learning_rate": 2.5631689219509643e-09,
+      "loss": 0.56079507,
+      "num_input_tokens_seen": 176722295,
+      "step": 8186,
+      "time_per_iteration": 2.6535589694976807
+    },
+    {
+      "auxiliary_loss_clip": 0.01183952,
+      "auxiliary_loss_mlp": 0.01023204,
+      "balance_loss_clip": 1.04526758,
+      "balance_loss_mlp": 1.01642656,
+      "epoch": 0.9844285456622377,
+      "flos": 21800111765760.0,
+      "grad_norm": 1.6581913219823996,
+      "language_loss": 0.83339113,
+      "learning_rate": 2.523895484732197e-09,
+      "loss": 0.85546267,
+      "num_input_tokens_seen": 176741750,
+      "step": 8187,
+      "time_per_iteration": 2.6890547275543213
+    },
+    {
+      "auxiliary_loss_clip": 0.01181126,
+      "auxiliary_loss_mlp": 0.01027303,
+      "balance_loss_clip": 1.04564691,
+      "balance_loss_mlp": 1.01956046,
+      "epoch": 0.9845487885528769,
+      "flos": 18035380321920.0,
+      "grad_norm": 2.001929502445723,
+      "language_loss": 0.75220889,
+      "learning_rate": 2.4849250630505357e-09,
+      "loss": 0.77429318,
+      "num_input_tokens_seen": 176759995,
+      "step": 8188,
+      "time_per_iteration": 3.5824944972991943
+    },
+    {
+      "auxiliary_loss_clip": 0.01208908,
+      "auxiliary_loss_mlp": 0.01023361,
+      "balance_loss_clip": 1.03821921,
+      "balance_loss_mlp": 1.01584458,
+      "epoch": 0.9846690314435159,
+      "flos": 25228610974080.0,
+      "grad_norm": 2.4290171361189117,
+      "language_loss": 0.73395789,
+      "learning_rate": 2.4462576628172528e-09,
+      "loss": 0.7562806,
+      "num_input_tokens_seen": 176778625,
+      "step": 8189,
+      "time_per_iteration": 2.772386312484741
+    },
+    {
+      "auxiliary_loss_clip": 0.01174674,
+      "auxiliary_loss_mlp": 0.01024635,
+      "balance_loss_clip": 1.04687834,
+      "balance_loss_mlp": 1.01743495,
+      "epoch": 0.984789274334155,
+      "flos": 18552171248640.0,
+      "grad_norm": 2.444515862929819,
+      "language_loss": 0.74344361,
+      "learning_rate": 2.407893289898766e-09,
+      "loss": 0.76543665,
+      "num_input_tokens_seen": 176797655,
+      "step": 8190,
+      "time_per_iteration": 2.7096385955810547
+    },
+    {
+      "auxiliary_loss_clip": 0.01182078,
+      "auxiliary_loss_mlp": 0.0102434,
+      "balance_loss_clip": 1.04001808,
+      "balance_loss_mlp": 1.01694274,
+      "epoch": 0.984909517224794,
+      "flos": 27345437233920.0,
+      "grad_norm": 1.8233157231016097,
+      "language_loss": 0.83768666,
+      "learning_rate": 2.3698319501144202e-09,
+      "loss": 0.85975081,
+      "num_input_tokens_seen": 176818640,
+      "step": 8191,
+      "time_per_iteration": 2.723256826400757
+    },
+    {
+      "auxiliary_loss_clip": 0.01181982,
+      "auxiliary_loss_mlp": 0.01027724,
+      "balance_loss_clip": 1.04612458,
+      "balance_loss_mlp": 1.02013671,
+      "epoch": 0.9850297601154332,
+      "flos": 18734058743040.0,
+      "grad_norm": 1.718872803853701,
+      "language_loss": 0.73269361,
+      "learning_rate": 2.3320736492382644e-09,
+      "loss": 0.75479072,
+      "num_input_tokens_seen": 176837475,
+      "step": 8192,
+      "time_per_iteration": 3.5390846729278564
+    },
+    {
+      "auxiliary_loss_clip": 0.01164946,
+      "auxiliary_loss_mlp": 0.01023564,
+      "balance_loss_clip": 1.04740572,
+      "balance_loss_mlp": 1.01683748,
+      "epoch": 0.9851500030060723,
+      "flos": 22308247514880.0,
+      "grad_norm": 1.8868765203865892,
+      "language_loss": 0.68035388,
+      "learning_rate": 2.29461839299816e-09,
+      "loss": 0.70223898,
+      "num_input_tokens_seen": 176857190,
+      "step": 8193,
+      "time_per_iteration": 2.6356780529022217
+    },
+    {
+      "auxiliary_loss_clip": 0.01194939,
+      "auxiliary_loss_mlp": 0.01023556,
+      "balance_loss_clip": 1.04282737,
+      "balance_loss_mlp": 1.0167551,
+      "epoch": 0.9852702458967113,
+      "flos": 26353691746560.0,
+      "grad_norm": 1.5837038890620243,
+      "language_loss": 0.79823667,
+      "learning_rate": 2.257466187076229e-09,
+      "loss": 0.82042164,
+      "num_input_tokens_seen": 176876395,
+      "step": 8194,
+      "time_per_iteration": 2.7548089027404785
+    },
+    {
+      "auxiliary_loss_clip": 0.01181181,
+      "auxiliary_loss_mlp": 0.01378719,
+      "balance_loss_clip": 1.04600382,
+      "balance_loss_mlp": 1.00013804,
+      "epoch": 0.9853904887873505,
+      "flos": 20883599314560.0,
+      "grad_norm": 1.7872120429366176,
+      "language_loss": 0.71312457,
+      "learning_rate": 2.2206170371081854e-09,
+      "loss": 0.73872358,
+      "num_input_tokens_seen": 176894980,
+      "step": 8195,
+      "time_per_iteration": 2.653217315673828
+    },
+    {
+      "auxiliary_loss_clip": 0.0118397,
+      "auxiliary_loss_mlp": 0.01022661,
+      "balance_loss_clip": 1.04289985,
+      "balance_loss_mlp": 1.0153234,
+      "epoch": 0.9855107316779895,
+      "flos": 25263444188160.0,
+      "grad_norm": 1.6640298094988644,
+      "language_loss": 0.84702671,
+      "learning_rate": 2.1840709486842247e-09,
+      "loss": 0.86909306,
+      "num_input_tokens_seen": 176914600,
+      "step": 8196,
+      "time_per_iteration": 3.516422748565674
+    },
+    {
+      "auxiliary_loss_clip": 0.01176268,
+      "auxiliary_loss_mlp": 0.01028167,
+      "balance_loss_clip": 1.04270804,
+      "balance_loss_mlp": 1.02075839,
+      "epoch": 0.9856309745686286,
+      "flos": 19062102677760.0,
+      "grad_norm": 1.8349408482560423,
+      "language_loss": 0.79231858,
+      "learning_rate": 2.1478279273481335e-09,
+      "loss": 0.81436288,
+      "num_input_tokens_seen": 176933085,
+      "step": 8197,
+      "time_per_iteration": 2.733304023742676
+    },
+    {
+      "auxiliary_loss_clip": 0.01178563,
+      "auxiliary_loss_mlp": 0.01024117,
+      "balance_loss_clip": 1.04945707,
+      "balance_loss_mlp": 1.01722622,
+      "epoch": 0.9857512174592677,
+      "flos": 34130758060800.0,
+      "grad_norm": 2.59026166154589,
+      "language_loss": 0.80082798,
+      "learning_rate": 2.1118879785981815e-09,
+      "loss": 0.82285476,
+      "num_input_tokens_seen": 176953225,
+      "step": 8198,
+      "time_per_iteration": 2.7242214679718018
+    },
+    {
+      "auxiliary_loss_clip": 0.01183476,
+      "auxiliary_loss_mlp": 0.01022104,
+      "balance_loss_clip": 1.04448378,
+      "balance_loss_mlp": 1.01528263,
+      "epoch": 0.9858714603499068,
+      "flos": 25994693266560.0,
+      "grad_norm": 1.793047232473552,
+      "language_loss": 0.79347861,
+      "learning_rate": 2.0762511078862288e-09,
+      "loss": 0.81553435,
+      "num_input_tokens_seen": 176973570,
+      "step": 8199,
+      "time_per_iteration": 3.500659465789795
+    },
+    {
+      "auxiliary_loss_clip": 0.01192703,
+      "auxiliary_loss_mlp": 0.0102332,
+      "balance_loss_clip": 1.04559636,
+      "balance_loss_mlp": 1.01595569,
+      "epoch": 0.9859917032405459,
+      "flos": 23696230907520.0,
+      "grad_norm": 2.899379761670249,
+      "language_loss": 0.64809453,
+      "learning_rate": 2.0409173206186183e-09,
+      "loss": 0.67025477,
+      "num_input_tokens_seen": 176992810,
+      "step": 8200,
+      "time_per_iteration": 2.761871337890625
+    },
+    {
+      "auxiliary_loss_clip": 0.01191569,
+      "auxiliary_loss_mlp": 0.01025436,
+      "balance_loss_clip": 1.04565597,
+      "balance_loss_mlp": 1.01849556,
+      "epoch": 0.986111946131185,
+      "flos": 19938287134080.0,
+      "grad_norm": 2.4469548131838366,
+      "language_loss": 0.86944544,
+      "learning_rate": 2.0058866221550617e-09,
+      "loss": 0.89161545,
+      "num_input_tokens_seen": 177011050,
+      "step": 8201,
+      "time_per_iteration": 2.650571823120117
+    },
+    {
+      "auxiliary_loss_clip": 0.01165709,
+      "auxiliary_loss_mlp": 0.01028739,
+      "balance_loss_clip": 1.04461479,
+      "balance_loss_mlp": 1.02124703,
+      "epoch": 0.9862321890218241,
+      "flos": 19828831415040.0,
+      "grad_norm": 1.974588350204907,
+      "language_loss": 0.74983692,
+      "learning_rate": 1.971159017809976e-09,
+      "loss": 0.77178133,
+      "num_input_tokens_seen": 177029340,
+      "step": 8202,
+      "time_per_iteration": 2.574781656265259
+    },
+    {
+      "auxiliary_loss_clip": 0.01173606,
+      "auxiliary_loss_mlp": 0.01025249,
+      "balance_loss_clip": 1.04539728,
+      "balance_loss_mlp": 1.0179292,
+      "epoch": 0.9863524319124631,
+      "flos": 21652051904640.0,
+      "grad_norm": 2.23902069462709,
+      "language_loss": 0.77434671,
+      "learning_rate": 1.93673451285159e-09,
+      "loss": 0.79633528,
+      "num_input_tokens_seen": 177048390,
+      "step": 8203,
+      "time_per_iteration": 2.641221284866333
+    },
+    {
+      "auxiliary_loss_clip": 0.01087879,
+      "auxiliary_loss_mlp": 0.01000957,
+      "balance_loss_clip": 1.00971961,
+      "balance_loss_mlp": 0.99990219,
+      "epoch": 0.9864726748031023,
+      "flos": 52769977920000.0,
+      "grad_norm": 0.7445506829154726,
+      "language_loss": 0.56568539,
+      "learning_rate": 1.9026131125019495e-09,
+      "loss": 0.58657372,
+      "num_input_tokens_seen": 177105760,
+      "step": 8204,
+      "time_per_iteration": 3.147986888885498
+    },
+    {
+      "auxiliary_loss_clip": 0.01171995,
+      "auxiliary_loss_mlp": 0.01022667,
+      "balance_loss_clip": 1.04711127,
+      "balance_loss_mlp": 1.01576447,
+      "epoch": 0.9865929176937414,
+      "flos": 23364631526400.0,
+      "grad_norm": 1.7318722987241366,
+      "language_loss": 0.87003279,
+      "learning_rate": 1.8687948219371363e-09,
+      "loss": 0.8919794,
+      "num_input_tokens_seen": 177124985,
+      "step": 8205,
+      "time_per_iteration": 2.590672016143799
+    },
+    {
+      "auxiliary_loss_clip": 0.01171298,
+      "auxiliary_loss_mlp": 0.01027152,
+      "balance_loss_clip": 1.04696822,
+      "balance_loss_mlp": 1.01912355,
+      "epoch": 0.9867131605843804,
+      "flos": 21616679986560.0,
+      "grad_norm": 1.8877533142829543,
+      "language_loss": 0.8855707,
+      "learning_rate": 1.835279646287491e-09,
+      "loss": 0.90755522,
+      "num_input_tokens_seen": 177142995,
+      "step": 8206,
+      "time_per_iteration": 2.617561101913452
+    },
+    {
+      "auxiliary_loss_clip": 0.01181358,
+      "auxiliary_loss_mlp": 0.01025082,
+      "balance_loss_clip": 1.04697251,
+      "balance_loss_mlp": 1.01706505,
+      "epoch": 0.9868334034750196,
+      "flos": 22271403139200.0,
+      "grad_norm": 1.8488673377041485,
+      "language_loss": 0.76348877,
+      "learning_rate": 1.8020675906371685e-09,
+      "loss": 0.78555316,
+      "num_input_tokens_seen": 177162390,
+      "step": 8207,
+      "time_per_iteration": 2.6078755855560303
+    },
+    {
+      "auxiliary_loss_clip": 0.01201751,
+      "auxiliary_loss_mlp": 0.01024725,
+      "balance_loss_clip": 1.04363811,
+      "balance_loss_mlp": 1.01775455,
+      "epoch": 0.9869536463656586,
+      "flos": 25809573548160.0,
+      "grad_norm": 2.0653553776454525,
+      "language_loss": 0.75229466,
+      "learning_rate": 1.7691586600243612e-09,
+      "loss": 0.7745595,
+      "num_input_tokens_seen": 177181290,
+      "step": 8208,
+      "time_per_iteration": 2.7348906993865967
+    },
+    {
+      "auxiliary_loss_clip": 0.01183333,
+      "auxiliary_loss_mlp": 0.01030074,
+      "balance_loss_clip": 1.04559731,
+      "balance_loss_mlp": 1.02266455,
+      "epoch": 0.9870738892562977,
+      "flos": 16398500613120.0,
+      "grad_norm": 2.4083616339285645,
+      "language_loss": 0.86834085,
+      "learning_rate": 1.7365528594415202e-09,
+      "loss": 0.89047492,
+      "num_input_tokens_seen": 177195360,
+      "step": 8209,
+      "time_per_iteration": 2.647700786590576
+    },
+    {
+      "auxiliary_loss_clip": 0.01179574,
+      "auxiliary_loss_mlp": 0.01378942,
+      "balance_loss_clip": 1.04462111,
+      "balance_loss_mlp": 1.00015807,
+      "epoch": 0.9871941321469369,
+      "flos": 35481358373760.0,
+      "grad_norm": 1.63048934058672,
+      "language_loss": 0.6763128,
+      "learning_rate": 1.7042501938346888e-09,
+      "loss": 0.70189798,
+      "num_input_tokens_seen": 177218090,
+      "step": 8210,
+      "time_per_iteration": 2.7490975856781006
+    },
+    {
+      "auxiliary_loss_clip": 0.01165992,
+      "auxiliary_loss_mlp": 0.01022415,
+      "balance_loss_clip": 1.03795886,
+      "balance_loss_mlp": 1.01566207,
+      "epoch": 0.9873143750375759,
+      "flos": 21434217874560.0,
+      "grad_norm": 1.998398295394396,
+      "language_loss": 0.76409191,
+      "learning_rate": 1.6722506681043913e-09,
+      "loss": 0.78597593,
+      "num_input_tokens_seen": 177237050,
+      "step": 8211,
+      "time_per_iteration": 2.6522607803344727
+    },
+    {
+      "auxiliary_loss_clip": 0.01189106,
+      "auxiliary_loss_mlp": 0.01023156,
+      "balance_loss_clip": 1.04506159,
+      "balance_loss_mlp": 1.01588404,
+      "epoch": 0.987434617928215,
+      "flos": 16326499800960.0,
+      "grad_norm": 2.2580099969757796,
+      "language_loss": 0.69428527,
+      "learning_rate": 1.640554287104745e-09,
+      "loss": 0.7164079,
+      "num_input_tokens_seen": 177255325,
+      "step": 8212,
+      "time_per_iteration": 2.645089864730835
+    },
+    {
+      "auxiliary_loss_clip": 0.01194071,
+      "auxiliary_loss_mlp": 0.01025126,
+      "balance_loss_clip": 1.04014063,
+      "balance_loss_mlp": 1.01732409,
+      "epoch": 0.9875548608188541,
+      "flos": 17851984456320.0,
+      "grad_norm": 2.531761105230466,
+      "language_loss": 0.80231476,
+      "learning_rate": 1.609161055644348e-09,
+      "loss": 0.82450676,
+      "num_input_tokens_seen": 177271250,
+      "step": 8213,
+      "time_per_iteration": 2.6632680892944336
+    },
+    {
+      "auxiliary_loss_clip": 0.01179836,
+      "auxiliary_loss_mlp": 0.01019887,
+      "balance_loss_clip": 1.04405856,
+      "balance_loss_mlp": 1.01288593,
+      "epoch": 0.9876751037094932,
+      "flos": 26132876887680.0,
+      "grad_norm": 2.033104334149321,
+      "language_loss": 0.68806875,
+      "learning_rate": 1.5780709784849467e-09,
+      "loss": 0.71006602,
+      "num_input_tokens_seen": 177288270,
+      "step": 8214,
+      "time_per_iteration": 2.6183319091796875
+    },
+    {
+      "auxiliary_loss_clip": 0.01218237,
+      "auxiliary_loss_mlp": 0.01026259,
+      "balance_loss_clip": 1.0437659,
+      "balance_loss_mlp": 1.01907372,
+      "epoch": 0.9877953466001322,
+      "flos": 15991344973440.0,
+      "grad_norm": 1.8798605209925616,
+      "language_loss": 0.82394421,
+      "learning_rate": 1.5472840603436565e-09,
+      "loss": 0.84638917,
+      "num_input_tokens_seen": 177305500,
+      "step": 8215,
+      "time_per_iteration": 3.6705453395843506
+    },
+    {
+      "auxiliary_loss_clip": 0.01187489,
+      "auxiliary_loss_mlp": 0.01022692,
+      "balance_loss_clip": 1.04586518,
+      "balance_loss_mlp": 1.01553965,
+      "epoch": 0.9879155894907714,
+      "flos": 18806777827200.0,
+      "grad_norm": 2.2153215112139883,
+      "language_loss": 0.78136319,
+      "learning_rate": 1.5168003058900757e-09,
+      "loss": 0.80346501,
+      "num_input_tokens_seen": 177323500,
+      "step": 8216,
+      "time_per_iteration": 2.6707756519317627
+    },
+    {
+      "auxiliary_loss_clip": 0.01194045,
+      "auxiliary_loss_mlp": 0.01025202,
+      "balance_loss_clip": 1.04292059,
+      "balance_loss_mlp": 1.01813936,
+      "epoch": 0.9880358323814105,
+      "flos": 22382044007040.0,
+      "grad_norm": 1.7992894581949619,
+      "language_loss": 0.91997027,
+      "learning_rate": 1.4866197197491715e-09,
+      "loss": 0.94216275,
+      "num_input_tokens_seen": 177342860,
+      "step": 8217,
+      "time_per_iteration": 2.697964906692505
+    },
+    {
+      "auxiliary_loss_clip": 0.01179339,
+      "auxiliary_loss_mlp": 0.01378945,
+      "balance_loss_clip": 1.04640055,
+      "balance_loss_mlp": 1.00021553,
+      "epoch": 0.9881560752720495,
+      "flos": 15668831733120.0,
+      "grad_norm": 6.321179891947377,
+      "language_loss": 0.79101908,
+      "learning_rate": 1.4567423064988371e-09,
+      "loss": 0.81660187,
+      "num_input_tokens_seen": 177360210,
+      "step": 8218,
+      "time_per_iteration": 3.5159947872161865
+    },
+    {
+      "auxiliary_loss_clip": 0.01169745,
+      "auxiliary_loss_mlp": 0.01024882,
+      "balance_loss_clip": 1.04780817,
+      "balance_loss_mlp": 1.01737237,
+      "epoch": 0.9882763181626887,
+      "flos": 21500113374720.0,
+      "grad_norm": 2.016771692223295,
+      "language_loss": 0.78179246,
+      "learning_rate": 1.4271680706718913e-09,
+      "loss": 0.80373877,
+      "num_input_tokens_seen": 177377885,
+      "step": 8219,
+      "time_per_iteration": 2.5777673721313477
+    },
+    {
+      "auxiliary_loss_clip": 0.0117765,
+      "auxiliary_loss_mlp": 0.01026409,
+      "balance_loss_clip": 1.0468204,
+      "balance_loss_mlp": 1.01836789,
+      "epoch": 0.9883965610533277,
+      "flos": 28034598551040.0,
+      "grad_norm": 1.794766049522343,
+      "language_loss": 0.82886177,
+      "learning_rate": 1.3978970167543013e-09,
+      "loss": 0.85090238,
+      "num_input_tokens_seen": 177398065,
+      "step": 8220,
+      "time_per_iteration": 2.6921868324279785
+    },
+    {
+      "auxiliary_loss_clip": 0.011707,
+      "auxiliary_loss_mlp": 0.01026664,
+      "balance_loss_clip": 1.04187655,
+      "balance_loss_mlp": 1.01922488,
+      "epoch": 0.9885168039439668,
+      "flos": 14098601710080.0,
+      "grad_norm": 2.5656493335245805,
+      "language_loss": 0.77608299,
+      "learning_rate": 1.3689291491867372e-09,
+      "loss": 0.7980566,
+      "num_input_tokens_seen": 177416380,
+      "step": 8221,
+      "time_per_iteration": 2.637373685836792
+    },
+    {
+      "auxiliary_loss_clip": 0.01169476,
+      "auxiliary_loss_mlp": 0.01020492,
+      "balance_loss_clip": 1.04691577,
+      "balance_loss_mlp": 1.01306224,
+      "epoch": 0.988637046834606,
+      "flos": 26432013352320.0,
+      "grad_norm": 2.03140540170762,
+      "language_loss": 0.73497587,
+      "learning_rate": 1.3402644723636836e-09,
+      "loss": 0.75687551,
+      "num_input_tokens_seen": 177438410,
+      "step": 8222,
+      "time_per_iteration": 3.5633809566497803
+    },
+    {
+      "auxiliary_loss_clip": 0.01181308,
+      "auxiliary_loss_mlp": 0.0102465,
+      "balance_loss_clip": 1.04730344,
+      "balance_loss_mlp": 1.01730108,
+      "epoch": 0.988757289725245,
+      "flos": 25229113764480.0,
+      "grad_norm": 2.0646172085982033,
+      "language_loss": 0.83584213,
+      "learning_rate": 1.311902990633218e-09,
+      "loss": 0.85790169,
+      "num_input_tokens_seen": 177457375,
+      "step": 8223,
+      "time_per_iteration": 2.7756118774414062
+    },
+    {
+      "auxiliary_loss_clip": 0.01171631,
+      "auxiliary_loss_mlp": 0.01025338,
+      "balance_loss_clip": 1.03760552,
+      "balance_loss_mlp": 1.0184598,
+      "epoch": 0.9888775326158841,
+      "flos": 26359042872960.0,
+      "grad_norm": 1.583326610945227,
+      "language_loss": 0.71618235,
+      "learning_rate": 1.2838447082978987e-09,
+      "loss": 0.73815203,
+      "num_input_tokens_seen": 177478530,
+      "step": 8224,
+      "time_per_iteration": 3.6498324871063232
+    },
+    {
+      "auxiliary_loss_clip": 0.01170569,
+      "auxiliary_loss_mlp": 0.01026269,
+      "balance_loss_clip": 1.04331923,
+      "balance_loss_mlp": 1.01893783,
+      "epoch": 0.9889977755065231,
+      "flos": 24316120846080.0,
+      "grad_norm": 2.3019457256021316,
+      "language_loss": 0.83280456,
+      "learning_rate": 1.2560896296143208e-09,
+      "loss": 0.85477293,
+      "num_input_tokens_seen": 177496995,
+      "step": 8225,
+      "time_per_iteration": 2.6434216499328613
+    },
+    {
+      "auxiliary_loss_clip": 0.0116624,
+      "auxiliary_loss_mlp": 0.01022897,
+      "balance_loss_clip": 1.04650187,
+      "balance_loss_mlp": 1.01580119,
+      "epoch": 0.9891180183971623,
+      "flos": 18951066760320.0,
+      "grad_norm": 4.9984383063192155,
+      "language_loss": 0.8212049,
+      "learning_rate": 1.2286377587926722e-09,
+      "loss": 0.84309626,
+      "num_input_tokens_seen": 177513785,
+      "step": 8226,
+      "time_per_iteration": 2.5264878273010254
+    },
+    {
+      "auxiliary_loss_clip": 0.01166396,
+      "auxiliary_loss_mlp": 0.01025632,
+      "balance_loss_clip": 1.04621911,
+      "balance_loss_mlp": 1.01842833,
+      "epoch": 0.9892382612878013,
+      "flos": 26176580760960.0,
+      "grad_norm": 2.011987730927754,
+      "language_loss": 0.74927878,
+      "learning_rate": 1.2014890999973992e-09,
+      "loss": 0.77119899,
+      "num_input_tokens_seen": 177530705,
+      "step": 8227,
+      "time_per_iteration": 2.6528573036193848
+    },
+    {
+      "auxiliary_loss_clip": 0.01164247,
+      "auxiliary_loss_mlp": 0.01024236,
+      "balance_loss_clip": 1.04453456,
+      "balance_loss_mlp": 1.01712823,
+      "epoch": 0.9893585041784404,
+      "flos": 25449605400960.0,
+      "grad_norm": 1.6559231927204283,
+      "language_loss": 0.78607208,
+      "learning_rate": 1.1746436573472073e-09,
+      "loss": 0.80795687,
+      "num_input_tokens_seen": 177552440,
+      "step": 8228,
+      "time_per_iteration": 2.6393063068389893
+    },
+    {
+      "auxiliary_loss_clip": 0.01191887,
+      "auxiliary_loss_mlp": 0.01028317,
+      "balance_loss_clip": 1.04426575,
+      "balance_loss_mlp": 1.02118802,
+      "epoch": 0.9894787470690796,
+      "flos": 20189302352640.0,
+      "grad_norm": 1.8842272268884908,
+      "language_loss": 0.69110227,
+      "learning_rate": 1.1481014349141726e-09,
+      "loss": 0.71330428,
+      "num_input_tokens_seen": 177569660,
+      "step": 8229,
+      "time_per_iteration": 2.698438882827759
+    },
+    {
+      "auxiliary_loss_clip": 0.01188656,
+      "auxiliary_loss_mlp": 0.01025459,
+      "balance_loss_clip": 1.04584944,
+      "balance_loss_mlp": 1.01756132,
+      "epoch": 0.9895989899597186,
+      "flos": 24644308435200.0,
+      "grad_norm": 2.0428386534318443,
+      "language_loss": 0.84374714,
+      "learning_rate": 1.121862436724852e-09,
+      "loss": 0.8658883,
+      "num_input_tokens_seen": 177588500,
+      "step": 8230,
+      "time_per_iteration": 2.681861639022827
+    },
+    {
+      "auxiliary_loss_clip": 0.01176984,
+      "auxiliary_loss_mlp": 0.01024433,
+      "balance_loss_clip": 1.04836583,
+      "balance_loss_mlp": 1.01712584,
+      "epoch": 0.9897192328503577,
+      "flos": 21799034357760.0,
+      "grad_norm": 1.9515867007854744,
+      "language_loss": 0.70486307,
+      "learning_rate": 1.0959266667598388e-09,
+      "loss": 0.72687721,
+      "num_input_tokens_seen": 177607315,
+      "step": 8231,
+      "time_per_iteration": 2.630969285964966
+    },
+    {
+      "auxiliary_loss_clip": 0.01195536,
+      "auxiliary_loss_mlp": 0.0102544,
+      "balance_loss_clip": 1.04362035,
+      "balance_loss_mlp": 1.01744676,
+      "epoch": 0.9898394757409968,
+      "flos": 21325229032320.0,
+      "grad_norm": 2.0509242926324203,
+      "language_loss": 0.74483669,
+      "learning_rate": 1.0702941289533196e-09,
+      "loss": 0.76704645,
+      "num_input_tokens_seen": 177625990,
+      "step": 8232,
+      "time_per_iteration": 2.691694498062134
+    },
+    {
+      "auxiliary_loss_clip": 0.01195523,
+      "auxiliary_loss_mlp": 0.0102109,
+      "balance_loss_clip": 1.04459012,
+      "balance_loss_mlp": 1.01426518,
+      "epoch": 0.9899597186316359,
+      "flos": 18545024442240.0,
+      "grad_norm": 1.9269571809742387,
+      "language_loss": 0.88811183,
+      "learning_rate": 1.0449648271939615e-09,
+      "loss": 0.91027796,
+      "num_input_tokens_seen": 177642335,
+      "step": 8233,
+      "time_per_iteration": 2.6951961517333984
+    },
+    {
+      "auxiliary_loss_clip": 0.0120757,
+      "auxiliary_loss_mlp": 0.01378261,
+      "balance_loss_clip": 1.04510498,
+      "balance_loss_mlp": 1.00017786,
+      "epoch": 0.990079961522275,
+      "flos": 23766723348480.0,
+      "grad_norm": 1.487565586559314,
+      "language_loss": 0.72743779,
+      "learning_rate": 1.0199387653240243e-09,
+      "loss": 0.75329614,
+      "num_input_tokens_seen": 177662025,
+      "step": 8234,
+      "time_per_iteration": 2.7644529342651367
+    },
+    {
+      "auxiliary_loss_clip": 0.01177421,
+      "auxiliary_loss_mlp": 0.01028595,
+      "balance_loss_clip": 1.04435766,
+      "balance_loss_mlp": 1.02105772,
+      "epoch": 0.9902002044129141,
+      "flos": 16399182971520.0,
+      "grad_norm": 1.9944529497779246,
+      "language_loss": 0.70931786,
+      "learning_rate": 9.952159471400267e-10,
+      "loss": 0.73137796,
+      "num_input_tokens_seen": 177679065,
+      "step": 8235,
+      "time_per_iteration": 2.601717948913574
+    },
+    {
+      "auxiliary_loss_clip": 0.01179164,
+      "auxiliary_loss_mlp": 0.01378472,
+      "balance_loss_clip": 1.04561949,
+      "balance_loss_mlp": 1.00018287,
+      "epoch": 0.9903204473035532,
+      "flos": 22559657783040.0,
+      "grad_norm": 1.9046313137839535,
+      "language_loss": 0.84377748,
+      "learning_rate": 9.707963763923022e-10,
+      "loss": 0.86935383,
+      "num_input_tokens_seen": 177698115,
+      "step": 8236,
+      "time_per_iteration": 2.613905429840088
+    },
+    {
+      "auxiliary_loss_clip": 0.01181039,
+      "auxiliary_loss_mlp": 0.01024884,
+      "balance_loss_clip": 1.04179168,
+      "balance_loss_mlp": 1.01776171,
+      "epoch": 0.9904406901941922,
+      "flos": 16144001775360.0,
+      "grad_norm": 1.8210725842030644,
+      "language_loss": 0.79109585,
+      "learning_rate": 9.466800567854427e-10,
+      "loss": 0.81315511,
+      "num_input_tokens_seen": 177716715,
+      "step": 8237,
+      "time_per_iteration": 2.6155741214752197
+    },
+    {
+      "auxiliary_loss_clip": 0.01192322,
+      "auxiliary_loss_mlp": 0.01026521,
+      "balance_loss_clip": 1.04062939,
+      "balance_loss_mlp": 1.01865292,
+      "epoch": 0.9905609330848314,
+      "flos": 26651499408000.0,
+      "grad_norm": 1.8877837810460636,
+      "language_loss": 0.68506551,
+      "learning_rate": 9.228669919778553e-10,
+      "loss": 0.70725393,
+      "num_input_tokens_seen": 177735640,
+      "step": 8238,
+      "time_per_iteration": 2.734128952026367
+    },
+    {
+      "auxiliary_loss_clip": 0.01177852,
+      "auxiliary_loss_mlp": 0.01024769,
+      "balance_loss_clip": 1.0420773,
+      "balance_loss_mlp": 1.01771212,
+      "epoch": 0.9906811759754705,
+      "flos": 23111820627840.0,
+      "grad_norm": 2.3911396030837526,
+      "language_loss": 0.79567921,
+      "learning_rate": 8.993571855817617e-10,
+      "loss": 0.81770551,
+      "num_input_tokens_seen": 177754470,
+      "step": 8239,
+      "time_per_iteration": 2.622840642929077
+    },
+    {
+      "auxiliary_loss_clip": 0.01175116,
+      "auxiliary_loss_mlp": 0.01019847,
+      "balance_loss_clip": 1.04439664,
+      "balance_loss_mlp": 1.01246476,
+      "epoch": 0.9908014188661095,
+      "flos": 22090593052800.0,
+      "grad_norm": 2.313181616439988,
+      "language_loss": 0.74704528,
+      "learning_rate": 8.761506411638642e-10,
+      "loss": 0.76899487,
+      "num_input_tokens_seen": 177773935,
+      "step": 8240,
+      "time_per_iteration": 2.64048171043396
+    },
+    {
+      "auxiliary_loss_clip": 0.01185549,
+      "auxiliary_loss_mlp": 0.01023794,
+      "balance_loss_clip": 1.04576874,
+      "balance_loss_mlp": 1.01646876,
+      "epoch": 0.9909216617567487,
+      "flos": 19242948677760.0,
+      "grad_norm": 1.7173958804730083,
+      "language_loss": 0.73999566,
+      "learning_rate": 8.53247362244236e-10,
+      "loss": 0.76208913,
+      "num_input_tokens_seen": 177792745,
+      "step": 8241,
+      "time_per_iteration": 3.552093982696533
+    },
+    {
+      "auxiliary_loss_clip": 0.01186283,
+      "auxiliary_loss_mlp": 0.01027033,
+      "balance_loss_clip": 1.0460186,
+      "balance_loss_mlp": 1.01974022,
+      "epoch": 0.9910419046473877,
+      "flos": 23621213352960.0,
+      "grad_norm": 1.6708826870611388,
+      "language_loss": 0.68133056,
+      "learning_rate": 8.306473522976532e-10,
+      "loss": 0.70346367,
+      "num_input_tokens_seen": 177812150,
+      "step": 8242,
+      "time_per_iteration": 2.666760206222534
+    },
+    {
+      "auxiliary_loss_clip": 0.01167728,
+      "auxiliary_loss_mlp": 0.01024993,
+      "balance_loss_clip": 1.04722118,
+      "balance_loss_mlp": 1.01789737,
+      "epoch": 0.9911621475380268,
+      "flos": 22711380831360.0,
+      "grad_norm": 2.360897566600639,
+      "language_loss": 0.71645641,
+      "learning_rate": 8.083506147522623e-10,
+      "loss": 0.73838365,
+      "num_input_tokens_seen": 177831545,
+      "step": 8243,
+      "time_per_iteration": 2.5995781421661377
+    },
+    {
+      "auxiliary_loss_clip": 0.01167656,
+      "auxiliary_loss_mlp": 0.01028765,
+      "balance_loss_clip": 1.0435909,
+      "balance_loss_mlp": 1.02125168,
+      "epoch": 0.991282390428666,
+      "flos": 13516956777600.0,
+      "grad_norm": 1.9519223464120183,
+      "language_loss": 0.85357082,
+      "learning_rate": 7.863571529906909e-10,
+      "loss": 0.87553501,
+      "num_input_tokens_seen": 177847130,
+      "step": 8244,
+      "time_per_iteration": 3.48496413230896
+    },
+    {
+      "auxiliary_loss_clip": 0.01073338,
+      "auxiliary_loss_mlp": 0.01000101,
+      "balance_loss_clip": 1.00838959,
+      "balance_loss_mlp": 0.99906427,
+      "epoch": 0.991402633319305,
+      "flos": 61830492071040.0,
+      "grad_norm": 0.7249273106038059,
+      "language_loss": 0.59655541,
+      "learning_rate": 7.646669703489372e-10,
+      "loss": 0.61728978,
+      "num_input_tokens_seen": 177911440,
+      "step": 8245,
+      "time_per_iteration": 3.3448646068573
+    },
+    {
+      "auxiliary_loss_clip": 0.01240257,
+      "auxiliary_loss_mlp": 0.01026766,
+      "balance_loss_clip": 1.0344286,
+      "balance_loss_mlp": 1.01932096,
+      "epoch": 0.9915228762099441,
+      "flos": 18770148933120.0,
+      "grad_norm": 1.9613010037592664,
+      "language_loss": 0.57268304,
+      "learning_rate": 7.432800701177023e-10,
+      "loss": 0.59535325,
+      "num_input_tokens_seen": 177929440,
+      "step": 8246,
+      "time_per_iteration": 3.1422152519226074
+    },
+    {
+      "auxiliary_loss_clip": 0.01088057,
+      "auxiliary_loss_mlp": 0.01000974,
+      "balance_loss_clip": 1.00979304,
+      "balance_loss_mlp": 0.99990159,
+      "epoch": 0.9916431191005832,
+      "flos": 65936660244480.0,
+      "grad_norm": 0.8027345547690571,
+      "language_loss": 0.57775629,
+      "learning_rate": 7.221964555415017e-10,
+      "loss": 0.59864664,
+      "num_input_tokens_seen": 177989100,
+      "step": 8247,
+      "time_per_iteration": 4.518578290939331
+    },
+    {
+      "auxiliary_loss_clip": 0.01184597,
+      "auxiliary_loss_mlp": 0.01018463,
+      "balance_loss_clip": 1.044909,
+      "balance_loss_mlp": 1.0118413,
+      "epoch": 0.9917633619912223,
+      "flos": 16581573256320.0,
+      "grad_norm": 2.366677842835947,
+      "language_loss": 0.74805063,
+      "learning_rate": 7.01416129818222e-10,
+      "loss": 0.77008122,
+      "num_input_tokens_seen": 178006720,
+      "step": 8248,
+      "time_per_iteration": 2.643998146057129
+    },
+    {
+      "auxiliary_loss_clip": 0.01204543,
+      "auxiliary_loss_mlp": 0.0102364,
+      "balance_loss_clip": 1.04435301,
+      "balance_loss_mlp": 1.01646948,
+      "epoch": 0.9918836048818613,
+      "flos": 25411108999680.0,
+      "grad_norm": 1.899493857499062,
+      "language_loss": 0.58701795,
+      "learning_rate": 6.809390961006745e-10,
+      "loss": 0.60929978,
+      "num_input_tokens_seen": 178026850,
+      "step": 8249,
+      "time_per_iteration": 2.729001522064209
+    },
+    {
+      "auxiliary_loss_clip": 0.01185107,
+      "auxiliary_loss_mlp": 0.01023053,
+      "balance_loss_clip": 1.04536843,
+      "balance_loss_mlp": 1.01555514,
+      "epoch": 0.9920038477725005,
+      "flos": 25046867134080.0,
+      "grad_norm": 1.842780682927369,
+      "language_loss": 0.68385839,
+      "learning_rate": 6.607653574948191e-10,
+      "loss": 0.70594007,
+      "num_input_tokens_seen": 178047630,
+      "step": 8250,
+      "time_per_iteration": 3.742576837539673
+    },
+    {
+      "auxiliary_loss_clip": 0.01165143,
+      "auxiliary_loss_mlp": 0.01022088,
+      "balance_loss_clip": 1.04165649,
+      "balance_loss_mlp": 1.01543641,
+      "epoch": 0.9921240906631396,
+      "flos": 21829773421440.0,
+      "grad_norm": 1.7045489344949225,
+      "language_loss": 0.81882221,
+      "learning_rate": 6.408949170613187e-10,
+      "loss": 0.84069449,
+      "num_input_tokens_seen": 178066895,
+      "step": 8251,
+      "time_per_iteration": 2.669550657272339
+    },
+    {
+      "auxiliary_loss_clip": 0.01181752,
+      "auxiliary_loss_mlp": 0.01025907,
+      "balance_loss_clip": 1.04316616,
+      "balance_loss_mlp": 1.01841509,
+      "epoch": 0.9922443335537786,
+      "flos": 24864225454080.0,
+      "grad_norm": 1.6107544897130797,
+      "language_loss": 0.81648731,
+      "learning_rate": 6.213277778144288e-10,
+      "loss": 0.83856392,
+      "num_input_tokens_seen": 178088540,
+      "step": 8252,
+      "time_per_iteration": 2.725538730621338
+    },
+    {
+      "auxiliary_loss_clip": 0.01209798,
+      "auxiliary_loss_mlp": 0.01022947,
+      "balance_loss_clip": 1.03802228,
+      "balance_loss_mlp": 1.0158,
+      "epoch": 0.9923645764444178,
+      "flos": 21613088626560.0,
+      "grad_norm": 2.402758093490357,
+      "language_loss": 0.66928005,
+      "learning_rate": 6.020639427224416e-10,
+      "loss": 0.69160748,
+      "num_input_tokens_seen": 178106185,
+      "step": 8253,
+      "time_per_iteration": 2.81846284866333
+    },
+    {
+      "auxiliary_loss_clip": 0.01183537,
+      "auxiliary_loss_mlp": 0.01025087,
+      "balance_loss_clip": 1.04408693,
+      "balance_loss_mlp": 1.01827455,
+      "epoch": 0.9924848193350568,
+      "flos": 25001798544000.0,
+      "grad_norm": 2.7539625778174535,
+      "language_loss": 0.72569144,
+      "learning_rate": 5.831034147076864e-10,
+      "loss": 0.7477777,
+      "num_input_tokens_seen": 178123435,
+      "step": 8254,
+      "time_per_iteration": 2.7074005603790283
+    },
+    {
+      "auxiliary_loss_clip": 0.01069552,
+      "auxiliary_loss_mlp": 0.00998488,
+      "balance_loss_clip": 1.0082444,
+      "balance_loss_mlp": 0.99742079,
+      "epoch": 0.9926050622256959,
+      "flos": 68912543151360.0,
+      "grad_norm": 0.7179933870594163,
+      "language_loss": 0.55727822,
+      "learning_rate": 5.644461966463065e-10,
+      "loss": 0.57795858,
+      "num_input_tokens_seen": 178191045,
+      "step": 8255,
+      "time_per_iteration": 3.318939208984375
+    },
+    {
+      "auxiliary_loss_clip": 0.01187247,
+      "auxiliary_loss_mlp": 0.01031055,
+      "balance_loss_clip": 1.04663503,
+      "balance_loss_mlp": 1.0237534,
+      "epoch": 0.9927253051163349,
+      "flos": 20923675914240.0,
+      "grad_norm": 2.3066741600623475,
+      "language_loss": 0.75692749,
+      "learning_rate": 5.460922913687049e-10,
+      "loss": 0.77911049,
+      "num_input_tokens_seen": 178210135,
+      "step": 8256,
+      "time_per_iteration": 2.7790403366088867
+    },
+    {
+      "auxiliary_loss_clip": 0.01199001,
+      "auxiliary_loss_mlp": 0.01378979,
+      "balance_loss_clip": 1.03924787,
+      "balance_loss_mlp": 1.00015092,
+      "epoch": 0.9928455480069741,
+      "flos": 22308211601280.0,
+      "grad_norm": 2.4098744672084322,
+      "language_loss": 0.75722617,
+      "learning_rate": 5.280417016593208e-10,
+      "loss": 0.78300595,
+      "num_input_tokens_seen": 178229925,
+      "step": 8257,
+      "time_per_iteration": 2.751054048538208
+    },
+    {
+      "auxiliary_loss_clip": 0.01174363,
+      "auxiliary_loss_mlp": 0.01378465,
+      "balance_loss_clip": 1.04852796,
+      "balance_loss_mlp": 1.0001142,
+      "epoch": 0.9929657908976132,
+      "flos": 17383889393280.0,
+      "grad_norm": 1.8481474185972397,
+      "language_loss": 0.74924314,
+      "learning_rate": 5.102944302559642e-10,
+      "loss": 0.77477139,
+      "num_input_tokens_seen": 178247420,
+      "step": 8258,
+      "time_per_iteration": 2.6344611644744873
+    },
+    {
+      "auxiliary_loss_clip": 0.01219662,
+      "auxiliary_loss_mlp": 0.01023596,
+      "balance_loss_clip": 1.04273129,
+      "balance_loss_mlp": 1.01553106,
+      "epoch": 0.9930860337882522,
+      "flos": 22674680110080.0,
+      "grad_norm": 2.2802693655036714,
+      "language_loss": 0.79351157,
+      "learning_rate": 4.9285047985137e-10,
+      "loss": 0.81594414,
+      "num_input_tokens_seen": 178266840,
+      "step": 8259,
+      "time_per_iteration": 2.88146710395813
+    },
+    {
+      "auxiliary_loss_clip": 0.01177891,
+      "auxiliary_loss_mlp": 0.01033121,
+      "balance_loss_clip": 1.04573488,
+      "balance_loss_mlp": 1.02540851,
+      "epoch": 0.9932062766788914,
+      "flos": 28147789284480.0,
+      "grad_norm": 2.2020092148286365,
+      "language_loss": 0.74485576,
+      "learning_rate": 4.757098530916436e-10,
+      "loss": 0.76696587,
+      "num_input_tokens_seen": 178287285,
+      "step": 8260,
+      "time_per_iteration": 2.8031110763549805
+    },
+    {
+      "auxiliary_loss_clip": 0.01178156,
+      "auxiliary_loss_mlp": 0.01030451,
+      "balance_loss_clip": 1.0473454,
+      "balance_loss_mlp": 1.02226126,
+      "epoch": 0.9933265195695304,
+      "flos": 20156659868160.0,
+      "grad_norm": 2.8953399744366233,
+      "language_loss": 0.7776438,
+      "learning_rate": 4.5887255257670563e-10,
+      "loss": 0.79972988,
+      "num_input_tokens_seen": 178304325,
+      "step": 8261,
+      "time_per_iteration": 2.6098265647888184
+    },
+    {
+      "auxiliary_loss_clip": 0.01166067,
+      "auxiliary_loss_mlp": 0.01022897,
+      "balance_loss_clip": 1.04573393,
+      "balance_loss_mlp": 1.01522589,
+      "epoch": 0.9934467624601695,
+      "flos": 21362037494400.0,
+      "grad_norm": 2.76444814279582,
+      "language_loss": 0.77194226,
+      "learning_rate": 4.4233858086117906e-10,
+      "loss": 0.79383194,
+      "num_input_tokens_seen": 178322850,
+      "step": 8262,
+      "time_per_iteration": 2.5879740715026855
+    },
+    {
+      "auxiliary_loss_clip": 0.012005,
+      "auxiliary_loss_mlp": 0.01025972,
+      "balance_loss_clip": 1.04468918,
+      "balance_loss_mlp": 1.01819968,
+      "epoch": 0.9935670053508087,
+      "flos": 19756040503680.0,
+      "grad_norm": 4.265685297257089,
+      "language_loss": 0.67527956,
+      "learning_rate": 4.261079404528356e-10,
+      "loss": 0.69754434,
+      "num_input_tokens_seen": 178342330,
+      "step": 8263,
+      "time_per_iteration": 2.688669204711914
+    },
+    {
+      "auxiliary_loss_clip": 0.01171573,
+      "auxiliary_loss_mlp": 0.01026142,
+      "balance_loss_clip": 1.04408681,
+      "balance_loss_mlp": 1.0187391,
+      "epoch": 0.9936872482414477,
+      "flos": 21978838863360.0,
+      "grad_norm": 2.6732375413362877,
+      "language_loss": 0.69085908,
+      "learning_rate": 4.1018063381437205e-10,
+      "loss": 0.71283621,
+      "num_input_tokens_seen": 178362715,
+      "step": 8264,
+      "time_per_iteration": 2.625208854675293
+    },
+    {
+      "auxiliary_loss_clip": 0.01068311,
+      "auxiliary_loss_mlp": 0.01001322,
+      "balance_loss_clip": 1.01013267,
+      "balance_loss_mlp": 1.00027275,
+      "epoch": 0.9938074911320868,
+      "flos": 69810667839360.0,
+      "grad_norm": 0.8655198892929505,
+      "language_loss": 0.61124349,
+      "learning_rate": 3.9455666336141167e-10,
+      "loss": 0.63193983,
+      "num_input_tokens_seen": 178426495,
+      "step": 8265,
+      "time_per_iteration": 3.252532958984375
+    },
+    {
+      "auxiliary_loss_clip": 0.01166015,
+      "auxiliary_loss_mlp": 0.01030345,
+      "balance_loss_clip": 1.04720902,
+      "balance_loss_mlp": 1.02338314,
+      "epoch": 0.9939277340227259,
+      "flos": 15084170058240.0,
+      "grad_norm": 7.941569229748052,
+      "language_loss": 0.83106542,
+      "learning_rate": 3.7923603146450267e-10,
+      "loss": 0.85302907,
+      "num_input_tokens_seen": 178442555,
+      "step": 8266,
+      "time_per_iteration": 2.540363311767578
+    },
+    {
+      "auxiliary_loss_clip": 0.01195501,
+      "auxiliary_loss_mlp": 0.01026105,
+      "balance_loss_clip": 1.0416553,
+      "balance_loss_mlp": 1.01883876,
+      "epoch": 0.994047976913365,
+      "flos": 17712364291200.0,
+      "grad_norm": 1.9945651358214165,
+      "language_loss": 0.80757391,
+      "learning_rate": 3.642187404473418e-10,
+      "loss": 0.82979,
+      "num_input_tokens_seen": 178460715,
+      "step": 8267,
+      "time_per_iteration": 3.593189001083374
+    },
+    {
+      "auxiliary_loss_clip": 0.01178313,
+      "auxiliary_loss_mlp": 0.01020948,
+      "balance_loss_clip": 1.04513121,
+      "balance_loss_mlp": 1.01430154,
+      "epoch": 0.994168219804004,
+      "flos": 19171558396800.0,
+      "grad_norm": 2.06263718158369,
+      "language_loss": 0.8614347,
+      "learning_rate": 3.495047925885508e-10,
+      "loss": 0.88342726,
+      "num_input_tokens_seen": 178479050,
+      "step": 8268,
+      "time_per_iteration": 2.68351411819458
+    },
+    {
+      "auxiliary_loss_clip": 0.01178839,
+      "auxiliary_loss_mlp": 0.01025939,
+      "balance_loss_clip": 1.04154766,
+      "balance_loss_mlp": 1.01866448,
+      "epoch": 0.9942884626946432,
+      "flos": 17851589406720.0,
+      "grad_norm": 2.6405266612618417,
+      "language_loss": 0.82653081,
+      "learning_rate": 3.350941901199e-10,
+      "loss": 0.84857857,
+      "num_input_tokens_seen": 178495970,
+      "step": 8269,
+      "time_per_iteration": 2.645376205444336
+    },
+    {
+      "auxiliary_loss_clip": 0.01187047,
+      "auxiliary_loss_mlp": 0.0102334,
+      "balance_loss_clip": 1.04430008,
+      "balance_loss_mlp": 1.01570129,
+      "epoch": 0.9944087055852823,
+      "flos": 18796578364800.0,
+      "grad_norm": 2.4164068068579154,
+      "language_loss": 0.83152288,
+      "learning_rate": 3.2098693522764066e-10,
+      "loss": 0.85362673,
+      "num_input_tokens_seen": 178509170,
+      "step": 8270,
+      "time_per_iteration": 3.5725903511047363
+    },
+    {
+      "auxiliary_loss_clip": 0.0119067,
+      "auxiliary_loss_mlp": 0.013786,
+      "balance_loss_clip": 1.04511595,
+      "balance_loss_mlp": 1.00018895,
+      "epoch": 0.9945289484759213,
+      "flos": 20996969616000.0,
+      "grad_norm": 1.8459027878825969,
+      "language_loss": 0.80989826,
+      "learning_rate": 3.071830300516165e-10,
+      "loss": 0.83559096,
+      "num_input_tokens_seen": 178527000,
+      "step": 8271,
+      "time_per_iteration": 2.6430280208587646
+    },
+    {
+      "auxiliary_loss_clip": 0.01182364,
+      "auxiliary_loss_mlp": 0.01025345,
+      "balance_loss_clip": 1.04661405,
+      "balance_loss_mlp": 1.01780248,
+      "epoch": 0.9946491913665605,
+      "flos": 14756952136320.0,
+      "grad_norm": 2.0938817794236795,
+      "language_loss": 0.70695853,
+      "learning_rate": 2.9368247668615234e-10,
+      "loss": 0.72903562,
+      "num_input_tokens_seen": 178545590,
+      "step": 8272,
+      "time_per_iteration": 2.601221799850464
+    },
+    {
+      "auxiliary_loss_clip": 0.01173112,
+      "auxiliary_loss_mlp": 0.01024614,
+      "balance_loss_clip": 1.05066466,
+      "balance_loss_mlp": 1.01659083,
+      "epoch": 0.9947694342571995,
+      "flos": 12669931186560.0,
+      "grad_norm": 2.5712238758048005,
+      "language_loss": 0.6138978,
+      "learning_rate": 2.804852771789434e-10,
+      "loss": 0.63587511,
+      "num_input_tokens_seen": 178558890,
+      "step": 8273,
+      "time_per_iteration": 3.4558651447296143
+    },
+    {
+      "auxiliary_loss_clip": 0.01167758,
+      "auxiliary_loss_mlp": 0.01025037,
+      "balance_loss_clip": 1.04775929,
+      "balance_loss_mlp": 1.01821852,
+      "epoch": 0.9948896771478386,
+      "flos": 18843442634880.0,
+      "grad_norm": 1.7481433168478,
+      "language_loss": 0.55651945,
+      "learning_rate": 2.675914335321661e-10,
+      "loss": 0.57844746,
+      "num_input_tokens_seen": 178577645,
+      "step": 8274,
+      "time_per_iteration": 2.572911262512207
+    },
+    {
+      "auxiliary_loss_clip": 0.01181519,
+      "auxiliary_loss_mlp": 0.01025282,
+      "balance_loss_clip": 1.04599321,
+      "balance_loss_mlp": 1.01707447,
+      "epoch": 0.9950099200384778,
+      "flos": 24900207903360.0,
+      "grad_norm": 2.481774690392874,
+      "language_loss": 0.79135966,
+      "learning_rate": 2.550009477018111e-10,
+      "loss": 0.81342763,
+      "num_input_tokens_seen": 178596415,
+      "step": 8275,
+      "time_per_iteration": 2.6198384761810303
+    },
+    {
+      "auxiliary_loss_clip": 0.01182861,
+      "auxiliary_loss_mlp": 0.01378789,
+      "balance_loss_clip": 1.04424131,
+      "balance_loss_mlp": 1.00019503,
+      "epoch": 0.9951301629291168,
+      "flos": 23733613987200.0,
+      "grad_norm": 2.327373631806293,
+      "language_loss": 0.62892377,
+      "learning_rate": 2.4271382159790634e-10,
+      "loss": 0.6545403,
+      "num_input_tokens_seen": 178613845,
+      "step": 8276,
+      "time_per_iteration": 3.5437428951263428
+    },
+    {
+      "auxiliary_loss_clip": 0.01224754,
+      "auxiliary_loss_mlp": 0.01025466,
+      "balance_loss_clip": 1.04296875,
+      "balance_loss_mlp": 1.0185461,
+      "epoch": 0.9952504058197559,
+      "flos": 22236893147520.0,
+      "grad_norm": 1.7734199359909772,
+      "language_loss": 0.85748255,
+      "learning_rate": 2.3073005708429406e-10,
+      "loss": 0.87998474,
+      "num_input_tokens_seen": 178633490,
+      "step": 8277,
+      "time_per_iteration": 2.771969795227051
+    },
+    {
+      "auxiliary_loss_clip": 0.01195423,
+      "auxiliary_loss_mlp": 0.01027267,
+      "balance_loss_clip": 1.04763007,
+      "balance_loss_mlp": 1.02075243,
+      "epoch": 0.995370648710395,
+      "flos": 21211032718080.0,
+      "grad_norm": 1.782614850606718,
+      "language_loss": 0.72086972,
+      "learning_rate": 2.190496559788535e-10,
+      "loss": 0.74309659,
+      "num_input_tokens_seen": 178651775,
+      "step": 8278,
+      "time_per_iteration": 2.805229663848877
+    },
+    {
+      "auxiliary_loss_clip": 0.01183889,
+      "auxiliary_loss_mlp": 0.01022697,
+      "balance_loss_clip": 1.0459367,
+      "balance_loss_mlp": 1.01519918,
+      "epoch": 0.9954908916010341,
+      "flos": 14866731077760.0,
+      "grad_norm": 2.402507805474652,
+      "language_loss": 0.76609498,
+      "learning_rate": 2.0767262005372265e-10,
+      "loss": 0.78816092,
+      "num_input_tokens_seen": 178669290,
+      "step": 8279,
+      "time_per_iteration": 2.6738874912261963
+    },
+    {
+      "auxiliary_loss_clip": 0.01200114,
+      "auxiliary_loss_mlp": 0.01027637,
+      "balance_loss_clip": 1.04301143,
+      "balance_loss_mlp": 1.0203886,
+      "epoch": 0.9956111344916732,
+      "flos": 19208259118080.0,
+      "grad_norm": 1.8799533876331396,
+      "language_loss": 0.75433218,
+      "learning_rate": 1.965989510346322e-10,
+      "loss": 0.77660966,
+      "num_input_tokens_seen": 178688410,
+      "step": 8280,
+      "time_per_iteration": 2.643495559692383
+    },
+    {
+      "auxiliary_loss_clip": 0.0119922,
+      "auxiliary_loss_mlp": 0.01028755,
+      "balance_loss_clip": 1.04264402,
+      "balance_loss_mlp": 1.02038634,
+      "epoch": 0.9957313773823123,
+      "flos": 20047060494720.0,
+      "grad_norm": 1.9056604045339693,
+      "language_loss": 0.7105844,
+      "learning_rate": 1.8582865060134955e-10,
+      "loss": 0.7328642,
+      "num_input_tokens_seen": 178706600,
+      "step": 8281,
+      "time_per_iteration": 2.7929728031158447
+    },
+    {
+      "auxiliary_loss_clip": 0.01059213,
+      "auxiliary_loss_mlp": 0.01002382,
+      "balance_loss_clip": 1.00819016,
+      "balance_loss_mlp": 1.00135124,
+      "epoch": 0.9958516202729514,
+      "flos": 57483253768320.0,
+      "grad_norm": 0.7839458015894087,
+      "language_loss": 0.55735171,
+      "learning_rate": 1.7536172038790098e-10,
+      "loss": 0.57796764,
+      "num_input_tokens_seen": 178766910,
+      "step": 8282,
+      "time_per_iteration": 3.2462246417999268
+    },
+    {
+      "auxiliary_loss_clip": 0.01185297,
+      "auxiliary_loss_mlp": 0.01026516,
+      "balance_loss_clip": 1.04459357,
+      "balance_loss_mlp": 1.01940823,
+      "epoch": 0.9959718631635904,
+      "flos": 27782900974080.0,
+      "grad_norm": 2.2582453595948104,
+      "language_loss": 0.69268513,
+      "learning_rate": 1.651981619819054e-10,
+      "loss": 0.71480328,
+      "num_input_tokens_seen": 178784060,
+      "step": 8283,
+      "time_per_iteration": 2.6857523918151855
+    },
+    {
+      "auxiliary_loss_clip": 0.01205429,
+      "auxiliary_loss_mlp": 0.01024437,
+      "balance_loss_clip": 1.04168344,
+      "balance_loss_mlp": 1.01740324,
+      "epoch": 0.9960921060542296,
+      "flos": 24024095274240.0,
+      "grad_norm": 2.2760796713918556,
+      "language_loss": 0.70764446,
+      "learning_rate": 1.5533797692546257e-10,
+      "loss": 0.72994316,
+      "num_input_tokens_seen": 178802795,
+      "step": 8284,
+      "time_per_iteration": 2.7749722003936768
+    },
+    {
+      "auxiliary_loss_clip": 0.01171136,
+      "auxiliary_loss_mlp": 0.010239,
+      "balance_loss_clip": 1.04326963,
+      "balance_loss_mlp": 1.01579952,
+      "epoch": 0.9962123489448687,
+      "flos": 18697393935360.0,
+      "grad_norm": 2.0853837829295547,
+      "language_loss": 0.84578395,
+      "learning_rate": 1.4578116671404296e-10,
+      "loss": 0.86773431,
+      "num_input_tokens_seen": 178821075,
+      "step": 8285,
+      "time_per_iteration": 2.610365390777588
+    },
+    {
+      "auxiliary_loss_clip": 0.01172589,
+      "auxiliary_loss_mlp": 0.01027638,
+      "balance_loss_clip": 1.04746127,
+      "balance_loss_mlp": 1.02044952,
+      "epoch": 0.9963325918355077,
+      "flos": 20010754823040.0,
+      "grad_norm": 2.240818409535412,
+      "language_loss": 0.71372676,
+      "learning_rate": 1.3652773279759777e-10,
+      "loss": 0.73572904,
+      "num_input_tokens_seen": 178837725,
+      "step": 8286,
+      "time_per_iteration": 2.630824565887451
+    },
+    {
+      "auxiliary_loss_clip": 0.01174425,
+      "auxiliary_loss_mlp": 0.0102694,
+      "balance_loss_clip": 1.04611921,
+      "balance_loss_mlp": 1.01969767,
+      "epoch": 0.9964528347261468,
+      "flos": 33108488991360.0,
+      "grad_norm": 1.6322087902586748,
+      "language_loss": 0.6275413,
+      "learning_rate": 1.2757767657989305e-10,
+      "loss": 0.64955497,
+      "num_input_tokens_seen": 178861515,
+      "step": 8287,
+      "time_per_iteration": 2.7020585536956787
+    },
+    {
+      "auxiliary_loss_clip": 0.01173635,
+      "auxiliary_loss_mlp": 0.01024187,
+      "balance_loss_clip": 1.04627407,
+      "balance_loss_mlp": 1.01665854,
+      "epoch": 0.9965730776167859,
+      "flos": 23109342589440.0,
+      "grad_norm": 1.8689881570181122,
+      "language_loss": 0.86872458,
+      "learning_rate": 1.1893099941850948e-10,
+      "loss": 0.89070284,
+      "num_input_tokens_seen": 178880410,
+      "step": 8288,
+      "time_per_iteration": 2.629955291748047
+    },
+    {
+      "auxiliary_loss_clip": 0.01187194,
+      "auxiliary_loss_mlp": 0.01023564,
+      "balance_loss_clip": 1.04278111,
+      "balance_loss_mlp": 1.01638126,
+      "epoch": 0.996693320507425,
+      "flos": 22965843755520.0,
+      "grad_norm": 2.4005354269295562,
+      "language_loss": 0.7742939,
+      "learning_rate": 1.105877026252866e-10,
+      "loss": 0.7964015,
+      "num_input_tokens_seen": 178898740,
+      "step": 8289,
+      "time_per_iteration": 2.6499722003936768
+    },
+    {
+      "auxiliary_loss_clip": 0.01169494,
+      "auxiliary_loss_mlp": 0.01026643,
+      "balance_loss_clip": 1.04776502,
+      "balance_loss_mlp": 1.01900184,
+      "epoch": 0.996813563398064,
+      "flos": 13222740476160.0,
+      "grad_norm": 2.160004844741276,
+      "language_loss": 0.7215246,
+      "learning_rate": 1.0254778746565663e-10,
+      "loss": 0.74348605,
+      "num_input_tokens_seen": 178914015,
+      "step": 8290,
+      "time_per_iteration": 2.6016628742218018
+    },
+    {
+      "auxiliary_loss_clip": 0.01194396,
+      "auxiliary_loss_mlp": 0.01025206,
+      "balance_loss_clip": 1.04435778,
+      "balance_loss_mlp": 1.01844406,
+      "epoch": 0.9969338062887032,
+      "flos": 14647855553280.0,
+      "grad_norm": 2.277071057232257,
+      "language_loss": 0.73414636,
+      "learning_rate": 9.481125515953259e-11,
+      "loss": 0.75634235,
+      "num_input_tokens_seen": 178932075,
+      "step": 8291,
+      "time_per_iteration": 2.617684841156006
+    },
+    {
+      "auxiliary_loss_clip": 0.01200955,
+      "auxiliary_loss_mlp": 0.01022001,
+      "balance_loss_clip": 1.03847289,
+      "balance_loss_mlp": 1.01470232,
+      "epoch": 0.9970540491793423,
+      "flos": 25735741142400.0,
+      "grad_norm": 1.7278324595469015,
+      "language_loss": 0.79692489,
+      "learning_rate": 8.737810688064228e-11,
+      "loss": 0.81915444,
+      "num_input_tokens_seen": 178951910,
+      "step": 8292,
+      "time_per_iteration": 3.787325859069824
+    },
+    {
+      "auxiliary_loss_clip": 0.0118537,
+      "auxiliary_loss_mlp": 0.01027278,
+      "balance_loss_clip": 1.04154634,
+      "balance_loss_mlp": 1.01909423,
+      "epoch": 0.9971742920699813,
+      "flos": 21470236237440.0,
+      "grad_norm": 2.0697871878595393,
+      "language_loss": 0.79228461,
+      "learning_rate": 8.024834375608414e-11,
+      "loss": 0.81441116,
+      "num_input_tokens_seen": 178970500,
+      "step": 8293,
+      "time_per_iteration": 2.644801378250122
+    },
+    {
+      "auxiliary_loss_clip": 0.01059484,
+      "auxiliary_loss_mlp": 0.01002013,
+      "balance_loss_clip": 1.0083915,
+      "balance_loss_mlp": 1.0009644,
+      "epoch": 0.9972945349606205,
+      "flos": 72211223629440.0,
+      "grad_norm": 0.8225267315661321,
+      "language_loss": 0.62761986,
+      "learning_rate": 7.342196686788149e-11,
+      "loss": 0.64823484,
+      "num_input_tokens_seen": 179023665,
+      "step": 8294,
+      "time_per_iteration": 3.0456864833831787
+    },
+    {
+      "auxiliary_loss_clip": 0.01183365,
+      "auxiliary_loss_mlp": 0.01027699,
+      "balance_loss_clip": 1.04792666,
+      "balance_loss_mlp": 1.0195272,
+      "epoch": 0.9974147778512595,
+      "flos": 19678293515520.0,
+      "grad_norm": 1.913401542465096,
+      "language_loss": 0.68966448,
+      "learning_rate": 6.689897725142834e-11,
+      "loss": 0.71177512,
+      "num_input_tokens_seen": 179043140,
+      "step": 8295,
+      "time_per_iteration": 2.663809061050415
+    },
+    {
+      "auxiliary_loss_clip": 0.01186106,
+      "auxiliary_loss_mlp": 0.01022197,
+      "balance_loss_clip": 1.04295206,
+      "balance_loss_mlp": 1.01524115,
+      "epoch": 0.9975350207418986,
+      "flos": 15960821391360.0,
+      "grad_norm": 5.026244878166953,
+      "language_loss": 0.88488495,
+      "learning_rate": 6.067937589615545e-11,
+      "loss": 0.906968,
+      "num_input_tokens_seen": 179061215,
+      "step": 8296,
+      "time_per_iteration": 3.537792444229126
+    },
+    {
+      "auxiliary_loss_clip": 0.01086762,
+      "auxiliary_loss_mlp": 0.01003329,
+      "balance_loss_clip": 1.00868273,
+      "balance_loss_mlp": 1.00225627,
+      "epoch": 0.9976552636325378,
+      "flos": 59961879768960.0,
+      "grad_norm": 0.7383981387727844,
+      "language_loss": 0.57669604,
+      "learning_rate": 5.476316374575241e-11,
+      "loss": 0.59759694,
+      "num_input_tokens_seen": 179124700,
+      "step": 8297,
+      "time_per_iteration": 3.179234743118286
+    },
+    {
+      "auxiliary_loss_clip": 0.01171026,
+      "auxiliary_loss_mlp": 0.01030744,
+      "balance_loss_clip": 1.04916191,
+      "balance_loss_mlp": 1.02298939,
+      "epoch": 0.9977755065231768,
+      "flos": 22487872452480.0,
+      "grad_norm": 2.051897458386495,
+      "language_loss": 0.724805,
+      "learning_rate": 4.9150341697723476e-11,
+      "loss": 0.74682271,
+      "num_input_tokens_seen": 179144590,
+      "step": 8298,
+      "time_per_iteration": 2.6084563732147217
+    },
+    {
+      "auxiliary_loss_clip": 0.01180849,
+      "auxiliary_loss_mlp": 0.01034874,
+      "balance_loss_clip": 1.04523814,
+      "balance_loss_mlp": 1.02739966,
+      "epoch": 0.9978957494138159,
+      "flos": 26030280666240.0,
+      "grad_norm": 1.5311529040275174,
+      "language_loss": 0.6667701,
+      "learning_rate": 4.384091060338768e-11,
+      "loss": 0.68892729,
+      "num_input_tokens_seen": 179165060,
+      "step": 8299,
+      "time_per_iteration": 3.609290838241577
+    },
+    {
+      "auxiliary_loss_clip": 0.01173728,
+      "auxiliary_loss_mlp": 0.0102096,
+      "balance_loss_clip": 1.04523361,
+      "balance_loss_mlp": 1.01383698,
+      "epoch": 0.998015992304455,
+      "flos": 22637835734400.0,
+      "grad_norm": 6.205142866100515,
+      "language_loss": 0.74214953,
+      "learning_rate": 3.883487126810081e-11,
+      "loss": 0.76409638,
+      "num_input_tokens_seen": 179184320,
+      "step": 8300,
+      "time_per_iteration": 2.757868528366089
+    },
+    {
+      "auxiliary_loss_clip": 0.01165026,
+      "auxiliary_loss_mlp": 0.01024668,
+      "balance_loss_clip": 1.04274964,
+      "balance_loss_mlp": 1.01710415,
+      "epoch": 0.9981362351950941,
+      "flos": 18223444955520.0,
+      "grad_norm": 3.7251224672189505,
+      "language_loss": 0.79073852,
+      "learning_rate": 3.41322244516995e-11,
+      "loss": 0.81263548,
+      "num_input_tokens_seen": 179202265,
+      "step": 8301,
+      "time_per_iteration": 3.5387606620788574
+    },
+    {
+      "auxiliary_loss_clip": 0.01191555,
+      "auxiliary_loss_mlp": 0.01023895,
+      "balance_loss_clip": 1.04198432,
+      "balance_loss_mlp": 1.01669455,
+      "epoch": 0.9982564780857331,
+      "flos": 33474095573760.0,
+      "grad_norm": 1.7863487681009464,
+      "language_loss": 0.6274386,
+      "learning_rate": 2.9732970866946925e-11,
+      "loss": 0.64959311,
+      "num_input_tokens_seen": 179222145,
+      "step": 8302,
+      "time_per_iteration": 2.809474468231201
+    },
+    {
+      "auxiliary_loss_clip": 0.01177486,
+      "auxiliary_loss_mlp": 0.01029822,
+      "balance_loss_clip": 1.0392108,
+      "balance_loss_mlp": 1.0215373,
+      "epoch": 0.9983767209763723,
+      "flos": 15523465392000.0,
+      "grad_norm": 3.3774602842663626,
+      "language_loss": 0.78184891,
+      "learning_rate": 2.563711118175327e-11,
+      "loss": 0.80392194,
+      "num_input_tokens_seen": 179239030,
+      "step": 8303,
+      "time_per_iteration": 2.7245497703552246
+    },
+    {
+      "auxiliary_loss_clip": 0.01189757,
+      "auxiliary_loss_mlp": 0.01025954,
+      "balance_loss_clip": 1.0447526,
+      "balance_loss_mlp": 1.01883435,
+      "epoch": 0.9984969638670114,
+      "flos": 19974377324160.0,
+      "grad_norm": 1.7864284518678066,
+      "language_loss": 0.8376568,
+      "learning_rate": 2.184464601717728e-11,
+      "loss": 0.85981393,
+      "num_input_tokens_seen": 179257345,
+      "step": 8304,
+      "time_per_iteration": 2.646822929382324
+    },
+    {
+      "auxiliary_loss_clip": 0.01181516,
+      "auxiliary_loss_mlp": 0.01030817,
+      "balance_loss_clip": 1.04846287,
+      "balance_loss_mlp": 1.02301514,
+      "epoch": 0.9986172067576504,
+      "flos": 20375750874240.0,
+      "grad_norm": 2.2932426033589155,
+      "language_loss": 0.77969414,
+      "learning_rate": 1.8355575948758585e-11,
+      "loss": 0.80181748,
+      "num_input_tokens_seen": 179275330,
+      "step": 8305,
+      "time_per_iteration": 2.617717742919922
+    },
+    {
+      "auxiliary_loss_clip": 0.01183859,
+      "auxiliary_loss_mlp": 0.01026793,
+      "balance_loss_clip": 1.042732,
+      "balance_loss_mlp": 1.01914549,
+      "epoch": 0.9987374496482896,
+      "flos": 23727903724800.0,
+      "grad_norm": 2.5220898279438315,
+      "language_loss": 0.7314226,
+      "learning_rate": 1.5169901505407424e-11,
+      "loss": 0.75352913,
+      "num_input_tokens_seen": 179292395,
+      "step": 8306,
+      "time_per_iteration": 2.6745007038116455
+    },
+    {
+      "auxiliary_loss_clip": 0.01184265,
+      "auxiliary_loss_mlp": 0.0102559,
+      "balance_loss_clip": 1.04520893,
+      "balance_loss_mlp": 1.01840448,
+      "epoch": 0.9988576925389286,
+      "flos": 25044029959680.0,
+      "grad_norm": 1.9371351860019097,
+      "language_loss": 0.74012625,
+      "learning_rate": 1.228762317073695e-11,
+      "loss": 0.76222479,
+      "num_input_tokens_seen": 179311225,
+      "step": 8307,
+      "time_per_iteration": 2.653017520904541
+    },
+    {
+      "auxiliary_loss_clip": 0.0118463,
+      "auxiliary_loss_mlp": 0.01024208,
+      "balance_loss_clip": 1.04541373,
+      "balance_loss_mlp": 1.0171392,
+      "epoch": 0.9989779354295677,
+      "flos": 31285627637760.0,
+      "grad_norm": 2.020134704570394,
+      "language_loss": 0.7877667,
+      "learning_rate": 9.70874138195299e-12,
+      "loss": 0.80985498,
+      "num_input_tokens_seen": 179333135,
+      "step": 8308,
+      "time_per_iteration": 2.7299511432647705
+    },
+    {
+      "auxiliary_loss_clip": 0.01166687,
+      "auxiliary_loss_mlp": 0.01021256,
+      "balance_loss_clip": 1.04517245,
+      "balance_loss_mlp": 1.0141573,
+      "epoch": 0.9990981783202069,
+      "flos": 19573398823680.0,
+      "grad_norm": 1.5641074853629167,
+      "language_loss": 0.74319386,
+      "learning_rate": 7.433256530076093e-12,
+      "loss": 0.7650733,
+      "num_input_tokens_seen": 179353090,
+      "step": 8309,
+      "time_per_iteration": 2.63389253616333
+    },
+    {
+      "auxiliary_loss_clip": 0.01203914,
+      "auxiliary_loss_mlp": 0.01021131,
+      "balance_loss_clip": 1.03832328,
+      "balance_loss_mlp": 1.01457405,
+      "epoch": 0.9992184212108459,
+      "flos": 17199667514880.0,
+      "grad_norm": 2.294059374309664,
+      "language_loss": 0.75685048,
+      "learning_rate": 5.46116896038562e-12,
+      "loss": 0.77910095,
+      "num_input_tokens_seen": 179367500,
+      "step": 8310,
+      "time_per_iteration": 2.655848979949951
+    },
+    {
+      "auxiliary_loss_clip": 0.01182778,
+      "auxiliary_loss_mlp": 0.01026746,
+      "balance_loss_clip": 1.044595,
+      "balance_loss_mlp": 1.01935506,
+      "epoch": 0.999338664101485,
+      "flos": 46497853681920.0,
+      "grad_norm": 2.6447949837675093,
+      "language_loss": 0.62149072,
+      "learning_rate": 3.792478972197699e-12,
+      "loss": 0.64358592,
+      "num_input_tokens_seen": 179388085,
+      "step": 8311,
+      "time_per_iteration": 2.855036735534668
+    },
+    {
+      "auxiliary_loss_clip": 0.01165755,
+      "auxiliary_loss_mlp": 0.0102335,
+      "balance_loss_clip": 1.04555464,
+      "balance_loss_mlp": 1.01648986,
+      "epoch": 0.9994589069921241,
+      "flos": 15158253859200.0,
+      "grad_norm": 2.7992954305804365,
+      "language_loss": 0.69761103,
+      "learning_rate": 2.4271868181990895e-12,
+      "loss": 0.71950209,
+      "num_input_tokens_seen": 179405250,
+      "step": 8312,
+      "time_per_iteration": 2.597712755203247
+    },
+    {
+      "auxiliary_loss_clip": 0.01176836,
+      "auxiliary_loss_mlp": 0.01023986,
+      "balance_loss_clip": 1.04436302,
+      "balance_loss_mlp": 1.01692331,
+      "epoch": 0.9995791498827632,
+      "flos": 12531460256640.0,
+      "grad_norm": 2.002271588376986,
+      "language_loss": 0.81167215,
+      "learning_rate": 1.3652927060014973e-12,
+      "loss": 0.83368039,
+      "num_input_tokens_seen": 179420845,
+      "step": 8313,
+      "time_per_iteration": 2.61883544921875
+    },
+    {
+      "auxiliary_loss_clip": 0.01194745,
+      "auxiliary_loss_mlp": 0.01021458,
+      "balance_loss_clip": 1.04284143,
+      "balance_loss_mlp": 1.01463962,
+      "epoch": 0.9996993927734023,
+      "flos": 19245175320960.0,
+      "grad_norm": 3.745135157331051,
+      "language_loss": 0.63700694,
+      "learning_rate": 6.067967965872612e-13,
+      "loss": 0.65916896,
+      "num_input_tokens_seen": 179440455,
+      "step": 8314,
+      "time_per_iteration": 2.670163869857788
+    },
+    {
+      "auxiliary_loss_clip": 0.01194595,
+      "auxiliary_loss_mlp": 0.01025355,
+      "balance_loss_clip": 1.04551172,
+      "balance_loss_mlp": 1.01816702,
+      "epoch": 0.9998196356640414,
+      "flos": 62952804518400.0,
+      "grad_norm": 3.125619007478784,
+      "language_loss": 0.76896489,
+      "learning_rate": 1.5169920497548615e-13,
+      "loss": 0.7911644,
+      "num_input_tokens_seen": 179465075,
+      "step": 8315,
+      "time_per_iteration": 3.0748207569122314
+    },
+    {
+      "auxiliary_loss_clip": 0.01125555,
+      "auxiliary_loss_mlp": 0.01013576,
+      "balance_loss_clip": 1.02518666,
+      "balance_loss_mlp": 1.00912786,
+      "epoch": 0.9999398785546805,
+      "flos": 50922375073920.0,
+      "grad_norm": 1.2667324894521959,
+      "language_loss": 0.550879,
+      "learning_rate": 0.0,
+      "loss": 0.57227039,
+      "num_input_tokens_seen": 179513955,
+      "step": 8316,
+      "time_per_iteration": 3.160606861114502
+    },
+    {
+      "epoch": 0.9999398785546805,
+      "num_input_tokens_seen": 179513955,
+      "step": 8316,
+      "total_flos": 6.996749092776837e+17,
+      "train_loss": 0.7900429457827449,
+      "train_runtime": 25339.6831,
+      "train_samples_per_second": 13.128,
+      "train_steps_per_second": 0.328
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 8316,
+  "num_input_tokens_seen": 179513955,
+  "num_train_epochs": 1,
+  "save_steps": 1664,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.996749092776837e+17,
+  "train_batch_size": 5,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/training_args.bin b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/training_args.bin
new file mode 100644
index 0000000000000000000000000000000000000000..d7f731d29d10a6c61aab6032e62a2fbb94916cc0
--- /dev/null
+++ b/CompeteSMoE/competesmoe_versions/Softplus_diversity_3loss_downrouter_competesmoe/training_args.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:08e3b31b2e43867fda701cb65885c9d6cff09128141cbe9810e04a29a24d10b8
+size 7992