Pilot model commit

Files changed (8) hide show

config.json +33 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +2328 -0
training_args.bin +3 -0
vocab.json +40 -0

config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "architectures": [
+    "CharformerCanineForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 57344,
+  "downsampling_rate": 4,
+  "eos_token_id": 57345,
+  "gbst_dim": 768,
+  "gbst_downsample_factor": 4,
+  "gbst_max_block_size": 8,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "local_transformer_stride": 128,
+  "mask_token_id": 1,
+  "max_position_embeddings": 8192,
+  "max_span_length": 10,
+  "model_type": "canine",
+  "num_attention_heads": 12,
+  "num_hash_buckets": 16384,
+  "num_hash_functions": 8,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "type_vocab_size": 16,
+  "upsampling_kernel_size": 4,
+  "vocab_size": 38
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ee2e74d143d8ce94d8bbbacd55a94f283d59a429bf69dc45e412cd60bf567ad
+size 672028372

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e010db09300d6d756704b237db7c88f7cbbb3ef3999b99fb0d4022121bb696d8
+size 1343934394

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cd71b3ce6a90c1ff63d19291052b96ad210bdf899c6dc6590544965b9ec8ce3
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e23bbca716660e478985d3ba5d365753812994c8f83e01527d8d3d4766052f4
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2328 @@

+{
+  "best_metric": 0.9439197182655334,
+  "best_model_checkpoint": "/scratch/gpfs/BG11/char-model/char-model-linear-30/checkpoint-244800",
+  "epoch": 30.0,
+  "eval_steps": 1600,
+  "global_step": 245640,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.19540791402051783,
+      "grad_norm": 1.1211559772491455,
+      "learning_rate": 8e-05,
+      "loss": 2.5747,
+      "step": 1600
+    },
+    {
+      "epoch": 0.19540791402051783,
+      "eval_loss": 2.3864238262176514,
+      "eval_runtime": 113.6763,
+      "eval_samples_per_second": 256.096,
+      "eval_steps_per_second": 8.005,
+      "step": 1600
+    },
+    {
+      "epoch": 0.39081582804103565,
+      "grad_norm": 0.8591320514678955,
+      "learning_rate": 0.00016,
+      "loss": 2.2616,
+      "step": 3200
+    },
+    {
+      "epoch": 0.39081582804103565,
+      "eval_loss": 2.154252529144287,
+      "eval_runtime": 114.9101,
+      "eval_samples_per_second": 253.346,
+      "eval_steps_per_second": 7.919,
+      "step": 3200
+    },
+    {
+      "epoch": 0.5862237420615535,
+      "grad_norm": 0.5468400716781616,
+      "learning_rate": 0.00019999459110993603,
+      "loss": 2.0831,
+      "step": 4800
+    },
+    {
+      "epoch": 0.5862237420615535,
+      "eval_loss": 1.941041350364685,
+      "eval_runtime": 114.7226,
+      "eval_samples_per_second": 253.76,
+      "eval_steps_per_second": 7.932,
+      "step": 4800
+    },
+    {
+      "epoch": 0.7816316560820713,
+      "grad_norm": 0.5104987621307373,
+      "learning_rate": 0.00019995132350009195,
+      "loss": 1.9311,
+      "step": 6400
+    },
+    {
+      "epoch": 0.7816316560820713,
+      "eval_loss": 1.7786755561828613,
+      "eval_runtime": 114.5387,
+      "eval_samples_per_second": 254.167,
+      "eval_steps_per_second": 7.945,
+      "step": 6400
+    },
+    {
+      "epoch": 0.9770395701025891,
+      "grad_norm": 0.4772449731826782,
+      "learning_rate": 0.0001998648070022771,
+      "loss": 1.8329,
+      "step": 8000
+    },
+    {
+      "epoch": 0.9770395701025891,
+      "eval_loss": 1.6836353540420532,
+      "eval_runtime": 114.4895,
+      "eval_samples_per_second": 254.277,
+      "eval_steps_per_second": 7.948,
+      "step": 8000
+    },
+    {
+      "epoch": 1.172447484123107,
+      "grad_norm": 0.4696632921695709,
+      "learning_rate": 0.00019973507905213703,
+      "loss": 1.7719,
+      "step": 9600
+    },
+    {
+      "epoch": 1.172447484123107,
+      "eval_loss": 1.6247377395629883,
+      "eval_runtime": 114.2314,
+      "eval_samples_per_second": 254.851,
+      "eval_steps_per_second": 7.966,
+      "step": 9600
+    },
+    {
+      "epoch": 1.3678553981436248,
+      "grad_norm": 0.5044004917144775,
+      "learning_rate": 0.00019956219578289123,
+      "loss": 1.7294,
+      "step": 11200
+    },
+    {
+      "epoch": 1.3678553981436248,
+      "eval_loss": 1.5734336376190186,
+      "eval_runtime": 114.5665,
+      "eval_samples_per_second": 254.106,
+      "eval_steps_per_second": 7.943,
+      "step": 11200
+    },
+    {
+      "epoch": 1.5632633121641426,
+      "grad_norm": 0.5493327975273132,
+      "learning_rate": 0.0001993462320010443,
+      "loss": 1.6971,
+      "step": 12800
+    },
+    {
+      "epoch": 1.5632633121641426,
+      "eval_loss": 1.5416444540023804,
+      "eval_runtime": 114.1696,
+      "eval_samples_per_second": 254.989,
+      "eval_steps_per_second": 7.971,
+      "step": 12800
+    },
+    {
+      "epoch": 1.7586712261846604,
+      "grad_norm": 0.536300778388977,
+      "learning_rate": 0.00019908728115401733,
+      "loss": 1.6711,
+      "step": 14400
+    },
+    {
+      "epoch": 1.7586712261846604,
+      "eval_loss": 1.519049048423767,
+      "eval_runtime": 114.3419,
+      "eval_samples_per_second": 254.605,
+      "eval_steps_per_second": 7.959,
+      "step": 14400
+    },
+    {
+      "epoch": 1.9540791402051783,
+      "grad_norm": 0.5437602400779724,
+      "learning_rate": 0.00019878545528971298,
+      "loss": 1.6507,
+      "step": 16000
+    },
+    {
+      "epoch": 1.9540791402051783,
+      "eval_loss": 1.5041334629058838,
+      "eval_runtime": 113.8035,
+      "eval_samples_per_second": 255.809,
+      "eval_steps_per_second": 7.996,
+      "step": 16000
+    },
+    {
+      "epoch": 2.149487054225696,
+      "grad_norm": 0.4997202455997467,
+      "learning_rate": 0.00019844088500803263,
+      "loss": 1.6312,
+      "step": 17600
+    },
+    {
+      "epoch": 2.149487054225696,
+      "eval_loss": 1.4861212968826294,
+      "eval_runtime": 113.9481,
+      "eval_samples_per_second": 255.485,
+      "eval_steps_per_second": 7.986,
+      "step": 17600
+    },
+    {
+      "epoch": 2.344894968246214,
+      "grad_norm": 0.4912782311439514,
+      "learning_rate": 0.00019805371940436587,
+      "loss": 1.6186,
+      "step": 19200
+    },
+    {
+      "epoch": 2.344894968246214,
+      "eval_loss": 1.4668010473251343,
+      "eval_runtime": 113.9896,
+      "eval_samples_per_second": 255.392,
+      "eval_steps_per_second": 7.983,
+      "step": 19200
+    },
+    {
+      "epoch": 2.5403028822667317,
+      "grad_norm": 0.5008465647697449,
+      "learning_rate": 0.00019762412600507676,
+      "loss": 1.6022,
+      "step": 20800
+    },
+    {
+      "epoch": 2.5403028822667317,
+      "eval_loss": 1.4426122903823853,
+      "eval_runtime": 113.8381,
+      "eval_samples_per_second": 255.732,
+      "eval_steps_per_second": 7.994,
+      "step": 20800
+    },
+    {
+      "epoch": 2.7357107962872496,
+      "grad_norm": 0.49787667393684387,
+      "learning_rate": 0.0001971522906950156,
+      "loss": 1.5906,
+      "step": 22400
+    },
+    {
+      "epoch": 2.7357107962872496,
+      "eval_loss": 1.432023525238037,
+      "eval_runtime": 114.1591,
+      "eval_samples_per_second": 255.013,
+      "eval_steps_per_second": 7.971,
+      "step": 22400
+    },
+    {
+      "epoch": 2.9311187103077674,
+      "grad_norm": 0.5572329759597778,
+      "learning_rate": 0.0001966384176370864,
+      "loss": 1.5781,
+      "step": 24000
+    },
+    {
+      "epoch": 2.9311187103077674,
+      "eval_loss": 1.4263314008712769,
+      "eval_runtime": 114.1977,
+      "eval_samples_per_second": 254.926,
+      "eval_steps_per_second": 7.969,
+      "step": 24000
+    },
+    {
+      "epoch": 3.126526624328285,
+      "grad_norm": 0.49415144324302673,
+      "learning_rate": 0.00019608272918390576,
+      "loss": 1.5682,
+      "step": 25600
+    },
+    {
+      "epoch": 3.126526624328285,
+      "eval_loss": 1.4076579809188843,
+      "eval_runtime": 113.9991,
+      "eval_samples_per_second": 255.371,
+      "eval_steps_per_second": 7.983,
+      "step": 25600
+    },
+    {
+      "epoch": 3.321934538348803,
+      "grad_norm": 0.5025901794433594,
+      "learning_rate": 0.00019548546578159097,
+      "loss": 1.5574,
+      "step": 27200
+    },
+    {
+      "epoch": 3.321934538348803,
+      "eval_loss": 1.407425045967102,
+      "eval_runtime": 114.0529,
+      "eval_samples_per_second": 255.25,
+      "eval_steps_per_second": 7.979,
+      "step": 27200
+    },
+    {
+      "epoch": 3.517342452369321,
+      "grad_norm": 0.525579571723938,
+      "learning_rate": 0.00019484688586571922,
+      "loss": 1.548,
+      "step": 28800
+    },
+    {
+      "epoch": 3.517342452369321,
+      "eval_loss": 1.3852895498275757,
+      "eval_runtime": 114.0777,
+      "eval_samples_per_second": 255.195,
+      "eval_steps_per_second": 7.977,
+      "step": 28800
+    },
+    {
+      "epoch": 3.7127503663898387,
+      "grad_norm": 0.6027827858924866,
+      "learning_rate": 0.00019416726574950254,
+      "loss": 1.5423,
+      "step": 30400
+    },
+    {
+      "epoch": 3.7127503663898387,
+      "eval_loss": 1.3818697929382324,
+      "eval_runtime": 113.8552,
+      "eval_samples_per_second": 255.693,
+      "eval_steps_per_second": 7.993,
+      "step": 30400
+    },
+    {
+      "epoch": 3.9081582804103565,
+      "grad_norm": 0.4942677319049835,
+      "learning_rate": 0.0001934468995042272,
+      "loss": 1.5309,
+      "step": 32000
+    },
+    {
+      "epoch": 3.9081582804103565,
+      "eval_loss": 1.3760185241699219,
+      "eval_runtime": 113.6787,
+      "eval_samples_per_second": 256.09,
+      "eval_steps_per_second": 8.005,
+      "step": 32000
+    },
+    {
+      "epoch": 4.103566194430875,
+      "grad_norm": 0.5741337537765503,
+      "learning_rate": 0.00019268609883200935,
+      "loss": 1.5239,
+      "step": 33600
+    },
+    {
+      "epoch": 4.103566194430875,
+      "eval_loss": 1.3696064949035645,
+      "eval_runtime": 113.7872,
+      "eval_samples_per_second": 255.846,
+      "eval_steps_per_second": 7.997,
+      "step": 33600
+    },
+    {
+      "epoch": 4.298974108451392,
+      "grad_norm": 0.5128276944160461,
+      "learning_rate": 0.00019188519293092138,
+      "loss": 1.5155,
+      "step": 35200
+    },
+    {
+      "epoch": 4.298974108451392,
+      "eval_loss": 1.3626887798309326,
+      "eval_runtime": 113.6907,
+      "eval_samples_per_second": 256.063,
+      "eval_steps_per_second": 8.004,
+      "step": 35200
+    },
+    {
+      "epoch": 4.49438202247191,
+      "grad_norm": 0.5358602404594421,
+      "learning_rate": 0.00019104452835254848,
+      "loss": 1.509,
+      "step": 36800
+    },
+    {
+      "epoch": 4.49438202247191,
+      "eval_loss": 1.3531229496002197,
+      "eval_runtime": 113.6019,
+      "eval_samples_per_second": 256.263,
+      "eval_steps_per_second": 8.01,
+      "step": 36800
+    },
+    {
+      "epoch": 4.689789936492428,
+      "grad_norm": 0.5138037204742432,
+      "learning_rate": 0.00019016446885203558,
+      "loss": 1.5027,
+      "step": 38400
+    },
+    {
+      "epoch": 4.689789936492428,
+      "eval_loss": 1.3384617567062378,
+      "eval_runtime": 113.5647,
+      "eval_samples_per_second": 256.347,
+      "eval_steps_per_second": 8.013,
+      "step": 38400
+    },
+    {
+      "epoch": 4.885197850512946,
+      "grad_norm": 0.5272678732872009,
+      "learning_rate": 0.00018924539523069092,
+      "loss": 1.494,
+      "step": 40000
+    },
+    {
+      "epoch": 4.885197850512946,
+      "eval_loss": 1.33444082736969,
+      "eval_runtime": 113.5839,
+      "eval_samples_per_second": 256.304,
+      "eval_steps_per_second": 8.012,
+      "step": 40000
+    },
+    {
+      "epoch": 5.0806057645334635,
+      "grad_norm": 0.5547707676887512,
+      "learning_rate": 0.00018828770517121334,
+      "loss": 1.4874,
+      "step": 41600
+    },
+    {
+      "epoch": 5.0806057645334635,
+      "eval_loss": 1.325605869293213,
+      "eval_runtime": 113.9384,
+      "eval_samples_per_second": 255.506,
+      "eval_steps_per_second": 7.987,
+      "step": 41600
+    },
+    {
+      "epoch": 5.276013678553982,
+      "grad_norm": 0.568523108959198,
+      "learning_rate": 0.00018729181306561534,
+      "loss": 1.4786,
+      "step": 43200
+    },
+    {
+      "epoch": 5.276013678553982,
+      "eval_loss": 1.3214150667190552,
+      "eval_runtime": 113.9936,
+      "eval_samples_per_second": 255.383,
+      "eval_steps_per_second": 7.983,
+      "step": 43200
+    },
+    {
+      "epoch": 5.471421592574499,
+      "grad_norm": 0.5741218328475952,
+      "learning_rate": 0.00018625814983591572,
+      "loss": 1.4719,
+      "step": 44800
+    },
+    {
+      "epoch": 5.471421592574499,
+      "eval_loss": 1.3142882585525513,
+      "eval_runtime": 114.0672,
+      "eval_samples_per_second": 255.218,
+      "eval_steps_per_second": 7.978,
+      "step": 44800
+    },
+    {
+      "epoch": 5.666829506595017,
+      "grad_norm": 0.5851613283157349,
+      "learning_rate": 0.00018518716274767993,
+      "loss": 1.4664,
+      "step": 46400
+    },
+    {
+      "epoch": 5.666829506595017,
+      "eval_loss": 1.3055411577224731,
+      "eval_runtime": 113.9709,
+      "eval_samples_per_second": 255.434,
+      "eval_steps_per_second": 7.984,
+      "step": 46400
+    },
+    {
+      "epoch": 5.862237420615535,
+      "grad_norm": 0.5467984676361084,
+      "learning_rate": 0.0001840793152164884,
+      "loss": 1.4597,
+      "step": 48000
+    },
+    {
+      "epoch": 5.862237420615535,
+      "eval_loss": 1.2973804473876953,
+      "eval_runtime": 113.8127,
+      "eval_samples_per_second": 255.789,
+      "eval_steps_per_second": 7.996,
+      "step": 48000
+    },
+    {
+      "epoch": 6.057645334636053,
+      "grad_norm": 0.5465243458747864,
+      "learning_rate": 0.0001829350866074169,
+      "loss": 1.4478,
+      "step": 49600
+    },
+    {
+      "epoch": 6.057645334636053,
+      "eval_loss": 1.2836332321166992,
+      "eval_runtime": 114.5167,
+      "eval_samples_per_second": 254.216,
+      "eval_steps_per_second": 7.946,
+      "step": 49600
+    },
+    {
+      "epoch": 6.25305324865657,
+      "grad_norm": 0.5638105273246765,
+      "learning_rate": 0.0001817549720276156,
+      "loss": 1.4453,
+      "step": 51200
+    },
+    {
+      "epoch": 6.25305324865657,
+      "eval_loss": 1.284009337425232,
+      "eval_runtime": 114.4532,
+      "eval_samples_per_second": 254.357,
+      "eval_steps_per_second": 7.951,
+      "step": 51200
+    },
+    {
+      "epoch": 6.448461162677089,
+      "grad_norm": 0.5834559798240662,
+      "learning_rate": 0.00018053948211207624,
+      "loss": 1.4376,
+      "step": 52800
+    },
+    {
+      "epoch": 6.448461162677089,
+      "eval_loss": 1.2804958820343018,
+      "eval_runtime": 114.2418,
+      "eval_samples_per_second": 254.828,
+      "eval_steps_per_second": 7.966,
+      "step": 52800
+    },
+    {
+      "epoch": 6.643869076697606,
+      "grad_norm": 0.58949214220047,
+      "learning_rate": 0.0001792891428026808,
+      "loss": 1.4311,
+      "step": 54400
+    },
+    {
+      "epoch": 6.643869076697606,
+      "eval_loss": 1.2712562084197998,
+      "eval_runtime": 114.4257,
+      "eval_samples_per_second": 254.418,
+      "eval_steps_per_second": 7.953,
+      "step": 54400
+    },
+    {
+      "epoch": 6.839276990718124,
+      "grad_norm": 0.65146803855896,
+      "learning_rate": 0.0001780044951206266,
+      "loss": 1.4238,
+      "step": 56000
+    },
+    {
+      "epoch": 6.839276990718124,
+      "eval_loss": 1.2667021751403809,
+      "eval_runtime": 114.5948,
+      "eval_samples_per_second": 254.043,
+      "eval_steps_per_second": 7.941,
+      "step": 56000
+    },
+    {
+      "epoch": 7.034684904738642,
+      "grad_norm": 0.532586395740509,
+      "learning_rate": 0.00017668609493232685,
+      "loss": 1.4191,
+      "step": 57600
+    },
+    {
+      "epoch": 7.034684904738642,
+      "eval_loss": 1.2611029148101807,
+      "eval_runtime": 113.5719,
+      "eval_samples_per_second": 256.331,
+      "eval_steps_per_second": 8.013,
+      "step": 57600
+    },
+    {
+      "epoch": 7.23009281875916,
+      "grad_norm": 0.606846809387207,
+      "learning_rate": 0.00017533451270888733,
+      "loss": 1.4126,
+      "step": 59200
+    },
+    {
+      "epoch": 7.23009281875916,
+      "eval_loss": 1.2520208358764648,
+      "eval_runtime": 113.6295,
+      "eval_samples_per_second": 256.201,
+      "eval_steps_per_second": 8.008,
+      "step": 59200
+    },
+    {
+      "epoch": 7.425500732779677,
+      "grad_norm": 0.5959519147872925,
+      "learning_rate": 0.00017395033327926394,
+      "loss": 1.4088,
+      "step": 60800
+    },
+    {
+      "epoch": 7.425500732779677,
+      "eval_loss": 1.2475306987762451,
+      "eval_runtime": 113.6566,
+      "eval_samples_per_second": 256.14,
+      "eval_steps_per_second": 8.007,
+      "step": 60800
+    },
+    {
+      "epoch": 7.620908646800196,
+      "grad_norm": 0.5935414433479309,
+      "learning_rate": 0.0001725341555772075,
+      "loss": 1.4023,
+      "step": 62400
+    },
+    {
+      "epoch": 7.620908646800196,
+      "eval_loss": 1.2453813552856445,
+      "eval_runtime": 113.5561,
+      "eval_samples_per_second": 256.367,
+      "eval_steps_per_second": 8.014,
+      "step": 62400
+    },
+    {
+      "epoch": 7.816316560820713,
+      "grad_norm": 0.667023777961731,
+      "learning_rate": 0.00017108659238210543,
+      "loss": 1.3981,
+      "step": 64000
+    },
+    {
+      "epoch": 7.816316560820713,
+      "eval_loss": 1.2348949909210205,
+      "eval_runtime": 113.5041,
+      "eval_samples_per_second": 256.484,
+      "eval_steps_per_second": 8.017,
+      "step": 64000
+    },
+    {
+      "epoch": 8.01172447484123,
+      "grad_norm": 0.6116629838943481,
+      "learning_rate": 0.00016960827005383234,
+      "loss": 1.3919,
+      "step": 65600
+    },
+    {
+      "epoch": 8.01172447484123,
+      "eval_loss": 1.2304078340530396,
+      "eval_runtime": 113.6689,
+      "eval_samples_per_second": 256.112,
+      "eval_steps_per_second": 8.006,
+      "step": 65600
+    },
+    {
+      "epoch": 8.20713238886175,
+      "grad_norm": 0.6998280882835388,
+      "learning_rate": 0.00016809982826172446,
+      "loss": 1.3842,
+      "step": 67200
+    },
+    {
+      "epoch": 8.20713238886175,
+      "eval_loss": 1.232326626777649,
+      "eval_runtime": 113.3579,
+      "eval_samples_per_second": 256.815,
+      "eval_steps_per_second": 8.028,
+      "step": 67200
+    },
+    {
+      "epoch": 8.402540302882267,
+      "grad_norm": 0.609658420085907,
+      "learning_rate": 0.00016656191970779508,
+      "loss": 1.3805,
+      "step": 68800
+    },
+    {
+      "epoch": 8.402540302882267,
+      "eval_loss": 1.2193703651428223,
+      "eval_runtime": 113.4616,
+      "eval_samples_per_second": 256.58,
+      "eval_steps_per_second": 8.02,
+      "step": 68800
+    },
+    {
+      "epoch": 8.597948216902784,
+      "grad_norm": 0.6205955147743225,
+      "learning_rate": 0.0001649952098443106,
+      "loss": 1.3753,
+      "step": 70400
+    },
+    {
+      "epoch": 8.597948216902784,
+      "eval_loss": 1.2129108905792236,
+      "eval_runtime": 113.5351,
+      "eval_samples_per_second": 256.414,
+      "eval_steps_per_second": 8.015,
+      "step": 70400
+    },
+    {
+      "epoch": 8.793356130923302,
+      "grad_norm": 0.660017728805542,
+      "learning_rate": 0.00016340037658584987,
+      "loss": 1.3686,
+      "step": 72000
+    },
+    {
+      "epoch": 8.793356130923302,
+      "eval_loss": 1.212546706199646,
+      "eval_runtime": 113.3123,
+      "eval_samples_per_second": 256.918,
+      "eval_steps_per_second": 8.031,
+      "step": 72000
+    },
+    {
+      "epoch": 8.98876404494382,
+      "grad_norm": 0.6431707739830017,
+      "learning_rate": 0.00016177811001597065,
+      "loss": 1.3647,
+      "step": 73600
+    },
+    {
+      "epoch": 8.98876404494382,
+      "eval_loss": 1.2093451023101807,
+      "eval_runtime": 113.6904,
+      "eval_samples_per_second": 256.064,
+      "eval_steps_per_second": 8.004,
+      "step": 73600
+    },
+    {
+      "epoch": 9.184171958964338,
+      "grad_norm": 0.6240015029907227,
+      "learning_rate": 0.00016012911208861095,
+      "loss": 1.3578,
+      "step": 75200
+    },
+    {
+      "epoch": 9.184171958964338,
+      "eval_loss": 1.1938095092773438,
+      "eval_runtime": 113.4839,
+      "eval_samples_per_second": 256.53,
+      "eval_steps_per_second": 8.019,
+      "step": 75200
+    },
+    {
+      "epoch": 9.379579872984856,
+      "grad_norm": 0.6457648277282715,
+      "learning_rate": 0.00015845409632435383,
+      "loss": 1.3517,
+      "step": 76800
+    },
+    {
+      "epoch": 9.379579872984856,
+      "eval_loss": 1.195897102355957,
+      "eval_runtime": 113.3384,
+      "eval_samples_per_second": 256.859,
+      "eval_steps_per_second": 8.029,
+      "step": 76800
+    },
+    {
+      "epoch": 9.574987787005373,
+      "grad_norm": 0.6358394622802734,
+      "learning_rate": 0.0001567537875016875,
+      "loss": 1.3487,
+      "step": 78400
+    },
+    {
+      "epoch": 9.574987787005373,
+      "eval_loss": 1.1895701885223389,
+      "eval_runtime": 113.7424,
+      "eval_samples_per_second": 255.947,
+      "eval_steps_per_second": 8.001,
+      "step": 78400
+    },
+    {
+      "epoch": 9.770395701025892,
+      "grad_norm": 0.6638132333755493,
+      "learning_rate": 0.00015502892134339392,
+      "loss": 1.3416,
+      "step": 80000
+    },
+    {
+      "epoch": 9.770395701025892,
+      "eval_loss": 1.187201976776123,
+      "eval_runtime": 113.9079,
+      "eval_samples_per_second": 255.575,
+      "eval_steps_per_second": 7.989,
+      "step": 80000
+    },
+    {
+      "epoch": 9.96580361504641,
+      "grad_norm": 0.6676363945007324,
+      "learning_rate": 0.00015328024419820202,
+      "loss": 1.3386,
+      "step": 81600
+    },
+    {
+      "epoch": 9.96580361504641,
+      "eval_loss": 1.1805278062820435,
+      "eval_runtime": 113.8732,
+      "eval_samples_per_second": 255.653,
+      "eval_steps_per_second": 7.991,
+      "step": 81600
+    },
+    {
+      "epoch": 10.161211529066927,
+      "grad_norm": 0.660179853439331,
+      "learning_rate": 0.00015150851271784278,
+      "loss": 1.3343,
+      "step": 83200
+    },
+    {
+      "epoch": 10.161211529066927,
+      "eval_loss": 1.1744478940963745,
+      "eval_runtime": 114.023,
+      "eval_samples_per_second": 255.317,
+      "eval_steps_per_second": 7.981,
+      "step": 83200
+    },
+    {
+      "epoch": 10.356619443087444,
+      "grad_norm": 0.9876406192779541,
+      "learning_rate": 0.00014971449352964674,
+      "loss": 1.3267,
+      "step": 84800
+    },
+    {
+      "epoch": 10.356619443087444,
+      "eval_loss": 1.1723557710647583,
+      "eval_runtime": 113.844,
+      "eval_samples_per_second": 255.718,
+      "eval_steps_per_second": 7.993,
+      "step": 84800
+    },
+    {
+      "epoch": 10.552027357107963,
+      "grad_norm": 0.6699544191360474,
+      "learning_rate": 0.00014789896290482433,
+      "loss": 1.323,
+      "step": 86400
+    },
+    {
+      "epoch": 10.552027357107963,
+      "eval_loss": 1.1727294921875,
+      "eval_runtime": 113.7804,
+      "eval_samples_per_second": 255.861,
+      "eval_steps_per_second": 7.998,
+      "step": 86400
+    },
+    {
+      "epoch": 10.74743527112848,
+      "grad_norm": 0.7076494097709656,
+      "learning_rate": 0.00014606270642257408,
+      "loss": 1.3197,
+      "step": 88000
+    },
+    {
+      "epoch": 10.74743527112848,
+      "eval_loss": 1.161535620689392,
+      "eval_runtime": 113.9245,
+      "eval_samples_per_second": 255.538,
+      "eval_steps_per_second": 7.988,
+      "step": 88000
+    },
+    {
+      "epoch": 10.942843185148998,
+      "grad_norm": 0.6479067802429199,
+      "learning_rate": 0.00014420651863016263,
+      "loss": 1.3147,
+      "step": 89600
+    },
+    {
+      "epoch": 10.942843185148998,
+      "eval_loss": 1.157774567604065,
+      "eval_runtime": 113.8055,
+      "eval_samples_per_second": 255.805,
+      "eval_steps_per_second": 7.996,
+      "step": 89600
+    },
+    {
+      "epoch": 11.138251099169516,
+      "grad_norm": 1.0591120719909668,
+      "learning_rate": 0.0001423312026991247,
+      "loss": 1.309,
+      "step": 91200
+    },
+    {
+      "epoch": 11.138251099169516,
+      "eval_loss": 1.1560285091400146,
+      "eval_runtime": 113.772,
+      "eval_samples_per_second": 255.88,
+      "eval_steps_per_second": 7.998,
+      "step": 91200
+    },
+    {
+      "epoch": 11.333659013190035,
+      "grad_norm": 0.7391919493675232,
+      "learning_rate": 0.00014043757007773094,
+      "loss": 1.304,
+      "step": 92800
+    },
+    {
+      "epoch": 11.333659013190035,
+      "eval_loss": 1.148970365524292,
+      "eval_runtime": 113.6388,
+      "eval_samples_per_second": 256.18,
+      "eval_steps_per_second": 8.008,
+      "step": 92800
+    },
+    {
+      "epoch": 11.529066927210552,
+      "grad_norm": 0.6884203553199768,
+      "learning_rate": 0.00013852644013987489,
+      "loss": 1.3001,
+      "step": 94400
+    },
+    {
+      "epoch": 11.529066927210552,
+      "eval_loss": 1.144970178604126,
+      "eval_runtime": 113.5724,
+      "eval_samples_per_second": 256.33,
+      "eval_steps_per_second": 8.013,
+      "step": 94400
+    },
+    {
+      "epoch": 11.72447484123107,
+      "grad_norm": 0.8327965140342712,
+      "learning_rate": 0.00013659863983053026,
+      "loss": 1.2952,
+      "step": 96000
+    },
+    {
+      "epoch": 11.72447484123107,
+      "eval_loss": 1.1416401863098145,
+      "eval_runtime": 113.5927,
+      "eval_samples_per_second": 256.284,
+      "eval_steps_per_second": 8.011,
+      "step": 96000
+    },
+    {
+      "epoch": 11.919882755251587,
+      "grad_norm": 0.6861343383789062,
+      "learning_rate": 0.00013465500330793215,
+      "loss": 1.2928,
+      "step": 97600
+    },
+    {
+      "epoch": 11.919882755251587,
+      "eval_loss": 1.14198899269104,
+      "eval_runtime": 113.7062,
+      "eval_samples_per_second": 256.028,
+      "eval_steps_per_second": 8.003,
+      "step": 97600
+    },
+    {
+      "epoch": 12.115290669272106,
+      "grad_norm": 0.6954674124717712,
+      "learning_rate": 0.0001326963715826373,
+      "loss": 1.2863,
+      "step": 99200
+    },
+    {
+      "epoch": 12.115290669272106,
+      "eval_loss": 1.135217308998108,
+      "eval_runtime": 114.9988,
+      "eval_samples_per_second": 253.151,
+      "eval_steps_per_second": 7.913,
+      "step": 99200
+    },
+    {
+      "epoch": 12.310698583292623,
+      "grad_norm": 0.6916314959526062,
+      "learning_rate": 0.00013072359215361915,
+      "loss": 1.2822,
+      "step": 100800
+    },
+    {
+      "epoch": 12.310698583292623,
+      "eval_loss": 1.134860873222351,
+      "eval_runtime": 114.7247,
+      "eval_samples_per_second": 253.755,
+      "eval_steps_per_second": 7.932,
+      "step": 100800
+    },
+    {
+      "epoch": 12.50610649731314,
+      "grad_norm": 0.7100492715835571,
+      "learning_rate": 0.00012873751864155556,
+      "loss": 1.2782,
+      "step": 102400
+    },
+    {
+      "epoch": 12.50610649731314,
+      "eval_loss": 1.1285021305084229,
+      "eval_runtime": 114.7756,
+      "eval_samples_per_second": 253.643,
+      "eval_steps_per_second": 7.929,
+      "step": 102400
+    },
+    {
+      "epoch": 12.701514411333658,
+      "grad_norm": 0.7324435114860535,
+      "learning_rate": 0.0001267390104194675,
+      "loss": 1.2726,
+      "step": 104000
+    },
+    {
+      "epoch": 12.701514411333658,
+      "eval_loss": 1.1195478439331055,
+      "eval_runtime": 114.7533,
+      "eval_samples_per_second": 253.692,
+      "eval_steps_per_second": 7.93,
+      "step": 104000
+    },
+    {
+      "epoch": 12.896922325354177,
+      "grad_norm": 0.7098590135574341,
+      "learning_rate": 0.00012472893224086873,
+      "loss": 1.2689,
+      "step": 105600
+    },
+    {
+      "epoch": 12.896922325354177,
+      "eval_loss": 1.1154309511184692,
+      "eval_runtime": 114.9203,
+      "eval_samples_per_second": 253.323,
+      "eval_steps_per_second": 7.919,
+      "step": 105600
+    },
+    {
+      "epoch": 13.092330239374695,
+      "grad_norm": 0.7113024592399597,
+      "learning_rate": 0.00012270815386558753,
+      "loss": 1.2641,
+      "step": 107200
+    },
+    {
+      "epoch": 13.092330239374695,
+      "eval_loss": 1.1109468936920166,
+      "eval_runtime": 114.8007,
+      "eval_samples_per_second": 253.587,
+      "eval_steps_per_second": 7.927,
+      "step": 107200
+    },
+    {
+      "epoch": 13.287738153395212,
+      "grad_norm": 0.7072641849517822,
+      "learning_rate": 0.00012067754968342186,
+      "loss": 1.258,
+      "step": 108800
+    },
+    {
+      "epoch": 13.287738153395212,
+      "eval_loss": 1.1076184511184692,
+      "eval_runtime": 114.8814,
+      "eval_samples_per_second": 253.409,
+      "eval_steps_per_second": 7.921,
+      "step": 108800
+    },
+    {
+      "epoch": 13.48314606741573,
+      "grad_norm": 0.7073858380317688,
+      "learning_rate": 0.00011863799833579153,
+      "loss": 1.2556,
+      "step": 110400
+    },
+    {
+      "epoch": 13.48314606741573,
+      "eval_loss": 1.1047865152359009,
+      "eval_runtime": 114.8061,
+      "eval_samples_per_second": 253.575,
+      "eval_steps_per_second": 7.926,
+      "step": 110400
+    },
+    {
+      "epoch": 13.678553981436249,
+      "grad_norm": 0.7156842947006226,
+      "learning_rate": 0.00011659038233555033,
+      "loss": 1.2525,
+      "step": 112000
+    },
+    {
+      "epoch": 13.678553981436249,
+      "eval_loss": 1.1026668548583984,
+      "eval_runtime": 115.0573,
+      "eval_samples_per_second": 253.022,
+      "eval_steps_per_second": 7.909,
+      "step": 112000
+    },
+    {
+      "epoch": 13.873961895456766,
+      "grad_norm": 0.7280173301696777,
+      "learning_rate": 0.00011453558768512322,
+      "loss": 1.2474,
+      "step": 113600
+    },
+    {
+      "epoch": 13.873961895456766,
+      "eval_loss": 1.1001399755477905,
+      "eval_runtime": 115.2209,
+      "eval_samples_per_second": 252.663,
+      "eval_steps_per_second": 7.898,
+      "step": 113600
+    },
+    {
+      "epoch": 14.069369809477283,
+      "grad_norm": 0.7136765122413635,
+      "learning_rate": 0.00011247450349313363,
+      "loss": 1.2442,
+      "step": 115200
+    },
+    {
+      "epoch": 14.069369809477283,
+      "eval_loss": 1.1011698246002197,
+      "eval_runtime": 114.9454,
+      "eval_samples_per_second": 253.268,
+      "eval_steps_per_second": 7.917,
+      "step": 115200
+    },
+    {
+      "epoch": 14.2647777234978,
+      "grad_norm": 0.7625411748886108,
+      "learning_rate": 0.00011040802158968633,
+      "loss": 1.2381,
+      "step": 116800
+    },
+    {
+      "epoch": 14.2647777234978,
+      "eval_loss": 1.0904619693756104,
+      "eval_runtime": 114.6883,
+      "eval_samples_per_second": 253.836,
+      "eval_steps_per_second": 7.935,
+      "step": 116800
+    },
+    {
+      "epoch": 14.46018563751832,
+      "grad_norm": 0.7648947834968567,
+      "learning_rate": 0.00010833703614047328,
+      "loss": 1.2354,
+      "step": 118400
+    },
+    {
+      "epoch": 14.46018563751832,
+      "eval_loss": 1.0927143096923828,
+      "eval_runtime": 114.6999,
+      "eval_samples_per_second": 253.81,
+      "eval_steps_per_second": 7.934,
+      "step": 118400
+    },
+    {
+      "epoch": 14.655593551538837,
+      "grad_norm": 0.7222533226013184,
+      "learning_rate": 0.00010626244325986843,
+      "loss": 1.2307,
+      "step": 120000
+    },
+    {
+      "epoch": 14.655593551538837,
+      "eval_loss": 1.0850768089294434,
+      "eval_runtime": 114.7495,
+      "eval_samples_per_second": 253.701,
+      "eval_steps_per_second": 7.93,
+      "step": 120000
+    },
+    {
+      "epoch": 14.851001465559355,
+      "grad_norm": 0.7333817481994629,
+      "learning_rate": 0.00010418514062317943,
+      "loss": 1.2264,
+      "step": 121600
+    },
+    {
+      "epoch": 14.851001465559355,
+      "eval_loss": 1.0831152200698853,
+      "eval_runtime": 114.3828,
+      "eval_samples_per_second": 254.514,
+      "eval_steps_per_second": 7.956,
+      "step": 121600
+    },
+    {
+      "epoch": 15.046409379579872,
+      "grad_norm": 0.7387763261795044,
+      "learning_rate": 0.00010210602707822416,
+      "loss": 1.2216,
+      "step": 123200
+    },
+    {
+      "epoch": 15.046409379579872,
+      "eval_loss": 1.0754677057266235,
+      "eval_runtime": 114.7505,
+      "eval_samples_per_second": 253.698,
+      "eval_steps_per_second": 7.93,
+      "step": 123200
+    },
+    {
+      "epoch": 15.241817293600391,
+      "grad_norm": 0.7571990489959717,
+      "learning_rate": 0.00010002600225639952,
+      "loss": 1.2174,
+      "step": 124800
+    },
+    {
+      "epoch": 15.241817293600391,
+      "eval_loss": 1.0745357275009155,
+      "eval_runtime": 115.0069,
+      "eval_samples_per_second": 253.133,
+      "eval_steps_per_second": 7.913,
+      "step": 124800
+    },
+    {
+      "epoch": 15.437225207620909,
+      "grad_norm": 0.7420470714569092,
+      "learning_rate": 9.794596618341145e-05,
+      "loss": 1.2138,
+      "step": 126400
+    },
+    {
+      "epoch": 15.437225207620909,
+      "eval_loss": 1.0716029405593872,
+      "eval_runtime": 114.9716,
+      "eval_samples_per_second": 253.21,
+      "eval_steps_per_second": 7.915,
+      "step": 126400
+    },
+    {
+      "epoch": 15.632633121641426,
+      "grad_norm": 0.7744555473327637,
+      "learning_rate": 9.586681888983431e-05,
+      "loss": 1.2101,
+      "step": 128000
+    },
+    {
+      "epoch": 15.632633121641426,
+      "eval_loss": 1.06724214553833,
+      "eval_runtime": 114.7701,
+      "eval_samples_per_second": 253.655,
+      "eval_steps_per_second": 7.929,
+      "step": 128000
+    },
+    {
+      "epoch": 15.828041035661943,
+      "grad_norm": 0.7532786726951599,
+      "learning_rate": 9.378946002166804e-05,
+      "loss": 1.2073,
+      "step": 129600
+    },
+    {
+      "epoch": 15.828041035661943,
+      "eval_loss": 1.0657265186309814,
+      "eval_runtime": 114.8312,
+      "eval_samples_per_second": 253.52,
+      "eval_steps_per_second": 7.925,
+      "step": 129600
+    },
+    {
+      "epoch": 16.02344894968246,
+      "grad_norm": 0.7471698522567749,
+      "learning_rate": 9.171478845106179e-05,
+      "loss": 1.2007,
+      "step": 131200
+    },
+    {
+      "epoch": 16.02344894968246,
+      "eval_loss": 1.060520887374878,
+      "eval_runtime": 115.6708,
+      "eval_samples_per_second": 251.68,
+      "eval_steps_per_second": 7.867,
+      "step": 131200
+    },
+    {
+      "epoch": 16.21885686370298,
+      "grad_norm": 0.7851788997650146,
+      "learning_rate": 8.964370188737233e-05,
+      "loss": 1.1982,
+      "step": 132800
+    },
+    {
+      "epoch": 16.21885686370298,
+      "eval_loss": 1.0585095882415771,
+      "eval_runtime": 115.3687,
+      "eval_samples_per_second": 252.339,
+      "eval_steps_per_second": 7.888,
+      "step": 132800
+    },
+    {
+      "epoch": 16.4142647777235,
+      "grad_norm": 0.7923790812492371,
+      "learning_rate": 8.757709648872583e-05,
+      "loss": 1.193,
+      "step": 134400
+    },
+    {
+      "epoch": 16.4142647777235,
+      "eval_loss": 1.0538368225097656,
+      "eval_runtime": 115.4747,
+      "eval_samples_per_second": 252.107,
+      "eval_steps_per_second": 7.881,
+      "step": 134400
+    },
+    {
+      "epoch": 16.609672691744017,
+      "grad_norm": 0.7890061736106873,
+      "learning_rate": 8.551586647425051e-05,
+      "loss": 1.1883,
+      "step": 136000
+    },
+    {
+      "epoch": 16.609672691744017,
+      "eval_loss": 1.049277663230896,
+      "eval_runtime": 115.1918,
+      "eval_samples_per_second": 252.726,
+      "eval_steps_per_second": 7.9,
+      "step": 136000
+    },
+    {
+      "epoch": 16.805080605764534,
+      "grad_norm": 0.7814080119132996,
+      "learning_rate": 8.346090373714858e-05,
+      "loss": 1.187,
+      "step": 137600
+    },
+    {
+      "epoch": 16.805080605764534,
+      "eval_loss": 1.0530978441238403,
+      "eval_runtime": 115.0942,
+      "eval_samples_per_second": 252.941,
+      "eval_steps_per_second": 7.907,
+      "step": 137600
+    },
+    {
+      "epoch": 17.00048851978505,
+      "grad_norm": 0.7448973059654236,
+      "learning_rate": 8.141309745877437e-05,
+      "loss": 1.1821,
+      "step": 139200
+    },
+    {
+      "epoch": 17.00048851978505,
+      "eval_loss": 1.0466850996017456,
+      "eval_runtime": 114.902,
+      "eval_samples_per_second": 253.364,
+      "eval_steps_per_second": 7.92,
+      "step": 139200
+    },
+    {
+      "epoch": 17.19589643380557,
+      "grad_norm": 0.8670977354049683,
+      "learning_rate": 7.93733337238861e-05,
+      "loss": 1.1779,
+      "step": 140800
+    },
+    {
+      "epoch": 17.19589643380557,
+      "eval_loss": 1.0422841310501099,
+      "eval_runtime": 115.0547,
+      "eval_samples_per_second": 253.028,
+      "eval_steps_per_second": 7.909,
+      "step": 140800
+    },
+    {
+      "epoch": 17.391304347826086,
+      "grad_norm": 0.840560257434845,
+      "learning_rate": 7.734249513723749e-05,
+      "loss": 1.1742,
+      "step": 142400
+    },
+    {
+      "epoch": 17.391304347826086,
+      "eval_loss": 1.0406625270843506,
+      "eval_runtime": 114.8851,
+      "eval_samples_per_second": 253.401,
+      "eval_steps_per_second": 7.921,
+      "step": 142400
+    },
+    {
+      "epoch": 17.586712261846603,
+      "grad_norm": 0.7812421321868896,
+      "learning_rate": 7.532146044167501e-05,
+      "loss": 1.1704,
+      "step": 144000
+    },
+    {
+      "epoch": 17.586712261846603,
+      "eval_loss": 1.037782907485962,
+      "eval_runtime": 114.6269,
+      "eval_samples_per_second": 253.972,
+      "eval_steps_per_second": 7.939,
+      "step": 144000
+    },
+    {
+      "epoch": 17.78212017586712,
+      "grad_norm": 0.7963674664497375,
+      "learning_rate": 7.33111041379063e-05,
+      "loss": 1.166,
+      "step": 145600
+    },
+    {
+      "epoch": 17.78212017586712,
+      "eval_loss": 1.0303895473480225,
+      "eval_runtime": 114.8536,
+      "eval_samples_per_second": 253.47,
+      "eval_steps_per_second": 7.923,
+      "step": 145600
+    },
+    {
+      "epoch": 17.97752808988764,
+      "grad_norm": 0.7899876236915588,
+      "learning_rate": 7.131229610610423e-05,
+      "loss": 1.1624,
+      "step": 147200
+    },
+    {
+      "epoch": 17.97752808988764,
+      "eval_loss": 1.0292210578918457,
+      "eval_runtime": 114.9662,
+      "eval_samples_per_second": 253.222,
+      "eval_steps_per_second": 7.915,
+      "step": 147200
+    },
+    {
+      "epoch": 18.17293600390816,
+      "grad_norm": 0.7737675905227661,
+      "learning_rate": 6.932590122951006e-05,
+      "loss": 1.158,
+      "step": 148800
+    },
+    {
+      "epoch": 18.17293600390816,
+      "eval_loss": 1.0299910306930542,
+      "eval_runtime": 115.5908,
+      "eval_samples_per_second": 251.854,
+      "eval_steps_per_second": 7.873,
+      "step": 148800
+    },
+    {
+      "epoch": 18.368343917928676,
+      "grad_norm": 0.8089715838432312,
+      "learning_rate": 6.735277902019914e-05,
+      "loss": 1.1554,
+      "step": 150400
+    },
+    {
+      "epoch": 18.368343917928676,
+      "eval_loss": 1.0288282632827759,
+      "eval_runtime": 115.3243,
+      "eval_samples_per_second": 252.436,
+      "eval_steps_per_second": 7.891,
+      "step": 150400
+    },
+    {
+      "epoch": 18.563751831949194,
+      "grad_norm": 1.2859221696853638,
+      "learning_rate": 6.539378324717007e-05,
+      "loss": 1.1497,
+      "step": 152000
+    },
+    {
+      "epoch": 18.563751831949194,
+      "eval_loss": 1.0212500095367432,
+      "eval_runtime": 115.5698,
+      "eval_samples_per_second": 251.9,
+      "eval_steps_per_second": 7.874,
+      "step": 152000
+    },
+    {
+      "epoch": 18.75915974596971,
+      "grad_norm": 0.8533680438995361,
+      "learning_rate": 6.344976156691964e-05,
+      "loss": 1.1467,
+      "step": 153600
+    },
+    {
+      "epoch": 18.75915974596971,
+      "eval_loss": 1.0225590467453003,
+      "eval_runtime": 115.5558,
+      "eval_samples_per_second": 251.93,
+      "eval_steps_per_second": 7.875,
+      "step": 153600
+    },
+    {
+      "epoch": 18.95456765999023,
+      "grad_norm": 0.8569408059120178,
+      "learning_rate": 6.152155515666206e-05,
+      "loss": 1.1444,
+      "step": 155200
+    },
+    {
+      "epoch": 18.95456765999023,
+      "eval_loss": 1.018567442893982,
+      "eval_runtime": 115.3717,
+      "eval_samples_per_second": 252.332,
+      "eval_steps_per_second": 7.888,
+      "step": 155200
+    },
+    {
+      "epoch": 19.149975574010746,
+      "grad_norm": 0.8161713480949402,
+      "learning_rate": 5.96099983503521e-05,
+      "loss": 1.1383,
+      "step": 156800
+    },
+    {
+      "epoch": 19.149975574010746,
+      "eval_loss": 1.0170692205429077,
+      "eval_runtime": 114.7154,
+      "eval_samples_per_second": 253.776,
+      "eval_steps_per_second": 7.933,
+      "step": 156800
+    },
+    {
+      "epoch": 19.345383488031267,
+      "grad_norm": 0.8285250067710876,
+      "learning_rate": 5.771591827766929e-05,
+      "loss": 1.1369,
+      "step": 158400
+    },
+    {
+      "epoch": 19.345383488031267,
+      "eval_loss": 1.013586163520813,
+      "eval_runtime": 114.7883,
+      "eval_samples_per_second": 253.615,
+      "eval_steps_per_second": 7.928,
+      "step": 158400
+    },
+    {
+      "epoch": 19.540791402051784,
+      "grad_norm": 0.8243290781974792,
+      "learning_rate": 5.5840134506119026e-05,
+      "loss": 1.1324,
+      "step": 160000
+    },
+    {
+      "epoch": 19.540791402051784,
+      "eval_loss": 1.0133509635925293,
+      "eval_runtime": 114.968,
+      "eval_samples_per_second": 253.218,
+      "eval_steps_per_second": 7.915,
+      "step": 160000
+    },
+    {
+      "epoch": 19.7361993160723,
+      "grad_norm": 0.8422598838806152,
+      "learning_rate": 5.398345868640643e-05,
+      "loss": 1.1295,
+      "step": 161600
+    },
+    {
+      "epoch": 19.7361993160723,
+      "eval_loss": 1.0076338052749634,
+      "eval_runtime": 115.0212,
+      "eval_samples_per_second": 253.101,
+      "eval_steps_per_second": 7.912,
+      "step": 161600
+    },
+    {
+      "epoch": 19.93160723009282,
+      "grad_norm": 0.8394371867179871,
+      "learning_rate": 5.2146694201235327e-05,
+      "loss": 1.1261,
+      "step": 163200
+    },
+    {
+      "epoch": 19.93160723009282,
+      "eval_loss": 1.0029668807983398,
+      "eval_runtime": 114.9795,
+      "eval_samples_per_second": 253.193,
+      "eval_steps_per_second": 7.914,
+      "step": 163200
+    },
+    {
+      "epoch": 20.127015144113336,
+      "grad_norm": 0.8226906061172485,
+      "learning_rate": 5.033063581768499e-05,
+      "loss": 1.1256,
+      "step": 164800
+    },
+    {
+      "epoch": 20.127015144113336,
+      "eval_loss": 1.0083191394805908,
+      "eval_runtime": 114.7408,
+      "eval_samples_per_second": 253.72,
+      "eval_steps_per_second": 7.931,
+      "step": 164800
+    },
+    {
+      "epoch": 20.322423058133854,
+      "grad_norm": 0.8865888714790344,
+      "learning_rate": 4.8536069343314827e-05,
+      "loss": 1.1189,
+      "step": 166400
+    },
+    {
+      "epoch": 20.322423058133854,
+      "eval_loss": 1.0004106760025024,
+      "eval_runtime": 114.8581,
+      "eval_samples_per_second": 253.461,
+      "eval_steps_per_second": 7.923,
+      "step": 166400
+    },
+    {
+      "epoch": 20.51783097215437,
+      "grad_norm": 0.8663754463195801,
+      "learning_rate": 4.676377128614583e-05,
+      "loss": 1.1148,
+      "step": 168000
+    },
+    {
+      "epoch": 20.51783097215437,
+      "eval_loss": 0.9975536465644836,
+      "eval_runtime": 114.7833,
+      "eval_samples_per_second": 253.626,
+      "eval_steps_per_second": 7.928,
+      "step": 168000
+    },
+    {
+      "epoch": 20.71323888617489,
+      "grad_norm": 0.845713198184967,
+      "learning_rate": 4.501450851866593e-05,
+      "loss": 1.1138,
+      "step": 169600
+    },
+    {
+      "epoch": 20.71323888617489,
+      "eval_loss": 0.9994989633560181,
+      "eval_runtime": 114.7935,
+      "eval_samples_per_second": 253.603,
+      "eval_steps_per_second": 7.927,
+      "step": 169600
+    },
+    {
+      "epoch": 20.90864680019541,
+      "grad_norm": 0.8745766282081604,
+      "learning_rate": 4.3289037946004674e-05,
+      "loss": 1.1102,
+      "step": 171200
+    },
+    {
+      "epoch": 20.90864680019541,
+      "eval_loss": 0.991565465927124,
+      "eval_runtime": 114.9297,
+      "eval_samples_per_second": 253.303,
+      "eval_steps_per_second": 7.918,
+      "step": 171200
+    },
+    {
+      "epoch": 21.104054714215927,
+      "grad_norm": 0.9098924994468689,
+      "learning_rate": 4.158810617842075e-05,
+      "loss": 1.1063,
+      "step": 172800
+    },
+    {
+      "epoch": 21.104054714215927,
+      "eval_loss": 0.9949960112571716,
+      "eval_runtime": 114.4888,
+      "eval_samples_per_second": 254.278,
+      "eval_steps_per_second": 7.948,
+      "step": 172800
+    },
+    {
+      "epoch": 21.299462628236444,
+      "grad_norm": 0.8534849882125854,
+      "learning_rate": 3.9912449208244075e-05,
+      "loss": 1.1029,
+      "step": 174400
+    },
+    {
+      "epoch": 21.299462628236444,
+      "eval_loss": 0.9888520240783691,
+      "eval_runtime": 114.549,
+      "eval_samples_per_second": 254.144,
+      "eval_steps_per_second": 7.944,
+      "step": 174400
+    },
+    {
+      "epoch": 21.49487054225696,
+      "grad_norm": 0.8766836524009705,
+      "learning_rate": 3.826279209141231e-05,
+      "loss": 1.1011,
+      "step": 176000
+    },
+    {
+      "epoch": 21.49487054225696,
+      "eval_loss": 0.9886327981948853,
+      "eval_runtime": 114.6717,
+      "eval_samples_per_second": 253.873,
+      "eval_steps_per_second": 7.936,
+      "step": 176000
+    },
+    {
+      "epoch": 21.69027845627748,
+      "grad_norm": 0.8900472521781921,
+      "learning_rate": 3.663984863373953e-05,
+      "loss": 1.098,
+      "step": 177600
+    },
+    {
+      "epoch": 21.69027845627748,
+      "eval_loss": 0.9863277077674866,
+      "eval_runtime": 114.7826,
+      "eval_samples_per_second": 253.627,
+      "eval_steps_per_second": 7.928,
+      "step": 177600
+    },
+    {
+      "epoch": 21.885686370297996,
+      "grad_norm": 0.8910781741142273,
+      "learning_rate": 3.504432108205271e-05,
+      "loss": 1.093,
+      "step": 179200
+    },
+    {
+      "epoch": 21.885686370297996,
+      "eval_loss": 0.9864732623100281,
+      "eval_runtime": 114.9598,
+      "eval_samples_per_second": 253.236,
+      "eval_steps_per_second": 7.916,
+      "step": 179200
+    },
+    {
+      "epoch": 22.081094284318514,
+      "grad_norm": 0.960498034954071,
+      "learning_rate": 3.347689982033e-05,
+      "loss": 1.0908,
+      "step": 180800
+    },
+    {
+      "epoch": 22.081094284318514,
+      "eval_loss": 0.9836633801460266,
+      "eval_runtime": 116.058,
+      "eval_samples_per_second": 250.84,
+      "eval_steps_per_second": 7.841,
+      "step": 180800
+    },
+    {
+      "epoch": 22.27650219833903,
+      "grad_norm": 0.9642614126205444,
+      "learning_rate": 3.193826307097183e-05,
+      "loss": 1.0862,
+      "step": 182400
+    },
+    {
+      "epoch": 22.27650219833903,
+      "eval_loss": 0.9829400777816772,
+      "eval_runtime": 116.0247,
+      "eval_samples_per_second": 250.912,
+      "eval_steps_per_second": 7.843,
+      "step": 182400
+    },
+    {
+      "epoch": 22.471910112359552,
+      "grad_norm": 0.9408681988716125,
+      "learning_rate": 3.042907660133447e-05,
+      "loss": 1.0848,
+      "step": 184000
+    },
+    {
+      "epoch": 22.471910112359552,
+      "eval_loss": 0.9808396100997925,
+      "eval_runtime": 115.8196,
+      "eval_samples_per_second": 251.356,
+      "eval_steps_per_second": 7.857,
+      "step": 184000
+    },
+    {
+      "epoch": 22.66731802638007,
+      "grad_norm": 0.9056561589241028,
+      "learning_rate": 2.89499934356528e-05,
+      "loss": 1.0834,
+      "step": 185600
+    },
+    {
+      "epoch": 22.66731802638007,
+      "eval_loss": 0.9777108430862427,
+      "eval_runtime": 115.8982,
+      "eval_samples_per_second": 251.186,
+      "eval_steps_per_second": 7.852,
+      "step": 185600
+    },
+    {
+      "epoch": 22.862725940400587,
+      "grad_norm": 0.9036485552787781,
+      "learning_rate": 2.7501653572476948e-05,
+      "loss": 1.0781,
+      "step": 187200
+    },
+    {
+      "epoch": 22.862725940400587,
+      "eval_loss": 0.9735616445541382,
+      "eval_runtime": 115.739,
+      "eval_samples_per_second": 251.531,
+      "eval_steps_per_second": 7.863,
+      "step": 187200
+    },
+    {
+      "epoch": 23.058133854421104,
+      "grad_norm": 0.9098331928253174,
+      "learning_rate": 2.6084683707745506e-05,
+      "loss": 1.076,
+      "step": 188800
+    },
+    {
+      "epoch": 23.058133854421104,
+      "eval_loss": 0.97157222032547,
+      "eval_runtime": 115.438,
+      "eval_samples_per_second": 252.187,
+      "eval_steps_per_second": 7.883,
+      "step": 188800
+    },
+    {
+      "epoch": 23.25354176844162,
+      "grad_norm": 0.9487655162811279,
+      "learning_rate": 2.4699696963614248e-05,
+      "loss": 1.0729,
+      "step": 190400
+    },
+    {
+      "epoch": 23.25354176844162,
+      "eval_loss": 0.9695687890052795,
+      "eval_runtime": 115.3054,
+      "eval_samples_per_second": 252.477,
+      "eval_steps_per_second": 7.892,
+      "step": 190400
+    },
+    {
+      "epoch": 23.44894968246214,
+      "grad_norm": 0.9763538241386414,
+      "learning_rate": 2.334729262315859e-05,
+      "loss": 1.0713,
+      "step": 192000
+    },
+    {
+      "epoch": 23.44894968246214,
+      "eval_loss": 0.9713948965072632,
+      "eval_runtime": 115.3921,
+      "eval_samples_per_second": 252.288,
+      "eval_steps_per_second": 7.886,
+      "step": 192000
+    },
+    {
+      "epoch": 23.644357596482656,
+      "grad_norm": 0.9164339303970337,
+      "learning_rate": 2.2028055871064014e-05,
+      "loss": 1.067,
+      "step": 193600
+    },
+    {
+      "epoch": 23.644357596482656,
+      "eval_loss": 0.9682226777076721,
+      "eval_runtime": 115.3414,
+      "eval_samples_per_second": 252.399,
+      "eval_steps_per_second": 7.89,
+      "step": 193600
+    },
+    {
+      "epoch": 23.839765510503174,
+      "grad_norm": 0.9368218183517456,
+      "learning_rate": 2.0742557540417086e-05,
+      "loss": 1.0657,
+      "step": 195200
+    },
+    {
+      "epoch": 23.839765510503174,
+      "eval_loss": 0.9675361514091492,
+      "eval_runtime": 115.2177,
+      "eval_samples_per_second": 252.669,
+      "eval_steps_per_second": 7.898,
+      "step": 195200
+    },
+    {
+      "epoch": 24.035173424523695,
+      "grad_norm": 0.9578301906585693,
+      "learning_rate": 1.9491353865706208e-05,
+      "loss": 1.064,
+      "step": 196800
+    },
+    {
+      "epoch": 24.035173424523695,
+      "eval_loss": 0.9658530950546265,
+      "eval_runtime": 115.8818,
+      "eval_samples_per_second": 251.221,
+      "eval_steps_per_second": 7.853,
+      "step": 196800
+    },
+    {
+      "epoch": 24.230581338544212,
+      "grad_norm": 0.9136309623718262,
+      "learning_rate": 1.8274986242139203e-05,
+      "loss": 1.0606,
+      "step": 198400
+    },
+    {
+      "epoch": 24.230581338544212,
+      "eval_loss": 0.9649612307548523,
+      "eval_runtime": 115.9599,
+      "eval_samples_per_second": 251.052,
+      "eval_steps_per_second": 7.848,
+      "step": 198400
+    },
+    {
+      "epoch": 24.42598925256473,
+      "grad_norm": 0.9447437524795532,
+      "learning_rate": 1.7093980991381786e-05,
+      "loss": 1.0594,
+      "step": 200000
+    },
+    {
+      "epoch": 24.42598925256473,
+      "eval_loss": 0.964313805103302,
+      "eval_runtime": 115.6654,
+      "eval_samples_per_second": 251.692,
+      "eval_steps_per_second": 7.868,
+      "step": 200000
+    },
+    {
+      "epoch": 24.621397166585247,
+      "grad_norm": 0.9168404936790466,
+      "learning_rate": 1.5948849133818656e-05,
+      "loss": 1.0551,
+      "step": 201600
+    },
+    {
+      "epoch": 24.621397166585247,
+      "eval_loss": 0.959920346736908,
+      "eval_runtime": 115.6267,
+      "eval_samples_per_second": 251.776,
+      "eval_steps_per_second": 7.87,
+      "step": 201600
+    },
+    {
+      "epoch": 24.816805080605764,
+      "grad_norm": 0.959356963634491,
+      "learning_rate": 1.4840086167435107e-05,
+      "loss": 1.0523,
+      "step": 203200
+    },
+    {
+      "epoch": 24.816805080605764,
+      "eval_loss": 0.9573366045951843,
+      "eval_runtime": 116.0958,
+      "eval_samples_per_second": 250.758,
+      "eval_steps_per_second": 7.838,
+      "step": 203200
+    },
+    {
+      "epoch": 25.01221299462628,
+      "grad_norm": 0.9525801539421082,
+      "learning_rate": 1.376817185341529e-05,
+      "loss": 1.0506,
+      "step": 204800
+    },
+    {
+      "epoch": 25.01221299462628,
+      "eval_loss": 0.9594299793243408,
+      "eval_runtime": 115.6699,
+      "eval_samples_per_second": 251.682,
+      "eval_steps_per_second": 7.867,
+      "step": 204800
+    },
+    {
+      "epoch": 25.2076209086468,
+      "grad_norm": 0.9626793265342712,
+      "learning_rate": 1.2733570008549767e-05,
+      "loss": 1.0494,
+      "step": 206400
+    },
+    {
+      "epoch": 25.2076209086468,
+      "eval_loss": 0.961174488067627,
+      "eval_runtime": 115.5294,
+      "eval_samples_per_second": 251.988,
+      "eval_steps_per_second": 7.877,
+      "step": 206400
+    },
+    {
+      "epoch": 25.403028822667316,
+      "grad_norm": 0.9470829367637634,
+      "learning_rate": 1.1736728304542287e-05,
+      "loss": 1.0448,
+      "step": 208000
+    },
+    {
+      "epoch": 25.403028822667316,
+      "eval_loss": 0.9573968052864075,
+      "eval_runtime": 115.2828,
+      "eval_samples_per_second": 252.527,
+      "eval_steps_per_second": 7.894,
+      "step": 208000
+    },
+    {
+      "epoch": 25.598436736687837,
+      "grad_norm": 1.021452784538269,
+      "learning_rate": 1.0778078074302412e-05,
+      "loss": 1.0442,
+      "step": 209600
+    },
+    {
+      "epoch": 25.598436736687837,
+      "eval_loss": 0.9558864235877991,
+      "eval_runtime": 115.4718,
+      "eval_samples_per_second": 252.113,
+      "eval_steps_per_second": 7.881,
+      "step": 209600
+    },
+    {
+      "epoch": 25.793844650708355,
+      "grad_norm": 1.0185869932174683,
+      "learning_rate": 9.85803412530808e-06,
+      "loss": 1.0406,
+      "step": 211200
+    },
+    {
+      "epoch": 25.793844650708355,
+      "eval_loss": 0.9554181694984436,
+      "eval_runtime": 115.4932,
+      "eval_samples_per_second": 252.067,
+      "eval_steps_per_second": 7.879,
+      "step": 211200
+    },
+    {
+      "epoch": 25.989252564728872,
+      "grad_norm": 1.0851198434829712,
+      "learning_rate": 8.976994560118401e-06,
+      "loss": 1.0415,
+      "step": 212800
+    },
+    {
+      "epoch": 25.989252564728872,
+      "eval_loss": 0.9549527764320374,
+      "eval_runtime": 115.3462,
+      "eval_samples_per_second": 252.388,
+      "eval_steps_per_second": 7.889,
+      "step": 212800
+    },
+    {
+      "epoch": 26.18466047874939,
+      "grad_norm": 0.9994131922721863,
+      "learning_rate": 8.135340604115083e-06,
+      "loss": 1.0386,
+      "step": 214400
+    },
+    {
+      "epoch": 26.18466047874939,
+      "eval_loss": 0.955303430557251,
+      "eval_runtime": 114.8631,
+      "eval_samples_per_second": 253.449,
+      "eval_steps_per_second": 7.922,
+      "step": 214400
+    },
+    {
+      "epoch": 26.380068392769907,
+      "grad_norm": 1.0339714288711548,
+      "learning_rate": 7.333436440546337e-06,
+      "loss": 1.036,
+      "step": 216000
+    },
+    {
+      "epoch": 26.380068392769907,
+      "eval_loss": 0.9524005055427551,
+      "eval_runtime": 114.8545,
+      "eval_samples_per_second": 253.469,
+      "eval_steps_per_second": 7.923,
+      "step": 216000
+    },
+    {
+      "epoch": 26.575476306790424,
+      "grad_norm": 1.0113097429275513,
+      "learning_rate": 6.571629052944928e-06,
+      "loss": 1.0339,
+      "step": 217600
+    },
+    {
+      "epoch": 26.575476306790424,
+      "eval_loss": 0.9527350664138794,
+      "eval_runtime": 115.092,
+      "eval_samples_per_second": 252.946,
+      "eval_steps_per_second": 7.907,
+      "step": 217600
+    },
+    {
+      "epoch": 26.77088422081094,
+      "grad_norm": 1.041275143623352,
+      "learning_rate": 5.850248074988618e-06,
+      "loss": 1.0324,
+      "step": 219200
+    },
+    {
+      "epoch": 26.77088422081094,
+      "eval_loss": 0.9510777592658997,
+      "eval_runtime": 114.9365,
+      "eval_samples_per_second": 253.288,
+      "eval_steps_per_second": 7.917,
+      "step": 219200
+    },
+    {
+      "epoch": 26.96629213483146,
+      "grad_norm": 1.0127288103103638,
+      "learning_rate": 5.169605647867792e-06,
+      "loss": 1.0308,
+      "step": 220800
+    },
+    {
+      "epoch": 26.96629213483146,
+      "eval_loss": 0.9494324326515198,
+      "eval_runtime": 115.2852,
+      "eval_samples_per_second": 252.521,
+      "eval_steps_per_second": 7.893,
+      "step": 220800
+    },
+    {
+      "epoch": 27.16170004885198,
+      "grad_norm": 0.9832186102867126,
+      "learning_rate": 4.5299962852221935e-06,
+      "loss": 1.0288,
+      "step": 222400
+    },
+    {
+      "epoch": 27.16170004885198,
+      "eval_loss": 0.9487127661705017,
+      "eval_runtime": 114.7853,
+      "eval_samples_per_second": 253.621,
+      "eval_steps_per_second": 7.928,
+      "step": 222400
+    },
+    {
+      "epoch": 27.357107962872497,
+      "grad_norm": 0.9942122101783752,
+      "learning_rate": 3.931696745704927e-06,
+      "loss": 1.0272,
+      "step": 224000
+    },
+    {
+      "epoch": 27.357107962872497,
+      "eval_loss": 0.9485536217689514,
+      "eval_runtime": 114.9745,
+      "eval_samples_per_second": 253.204,
+      "eval_steps_per_second": 7.915,
+      "step": 224000
+    },
+    {
+      "epoch": 27.552515876893015,
+      "grad_norm": 0.9841001033782959,
+      "learning_rate": 3.374965913229211e-06,
+      "loss": 1.0264,
+      "step": 225600
+    },
+    {
+      "epoch": 27.552515876893015,
+      "eval_loss": 0.9484065175056458,
+      "eval_runtime": 115.0105,
+      "eval_samples_per_second": 253.125,
+      "eval_steps_per_second": 7.912,
+      "step": 225600
+    },
+    {
+      "epoch": 27.747923790913532,
+      "grad_norm": 1.0424267053604126,
+      "learning_rate": 2.8600446849493812e-06,
+      "loss": 1.0231,
+      "step": 227200
+    },
+    {
+      "epoch": 27.747923790913532,
+      "eval_loss": 0.9473522901535034,
+      "eval_runtime": 114.9031,
+      "eval_samples_per_second": 253.361,
+      "eval_steps_per_second": 7.92,
+      "step": 227200
+    },
+    {
+      "epoch": 27.94333170493405,
+      "grad_norm": 1.051414132118225,
+      "learning_rate": 2.3871558670248374e-06,
+      "loss": 1.0213,
+      "step": 228800
+    },
+    {
+      "epoch": 27.94333170493405,
+      "eval_loss": 0.9472260475158691,
+      "eval_runtime": 115.1913,
+      "eval_samples_per_second": 252.728,
+      "eval_steps_per_second": 7.9,
+      "step": 228800
+    },
+    {
+      "epoch": 28.138739618954567,
+      "grad_norm": 1.0657280683517456,
+      "learning_rate": 1.9565040782119183e-06,
+      "loss": 1.0228,
+      "step": 230400
+    },
+    {
+      "epoch": 28.138739618954567,
+      "eval_loss": 0.9466701745986938,
+      "eval_runtime": 115.4815,
+      "eval_samples_per_second": 252.092,
+      "eval_steps_per_second": 7.88,
+      "step": 230400
+    },
+    {
+      "epoch": 28.334147532975084,
+      "grad_norm": 1.0056368112564087,
+      "learning_rate": 1.5682756613254578e-06,
+      "loss": 1.019,
+      "step": 232000
+    },
+    {
+      "epoch": 28.334147532975084,
+      "eval_loss": 0.9479278922080994,
+      "eval_runtime": 115.3634,
+      "eval_samples_per_second": 252.35,
+      "eval_steps_per_second": 7.888,
+      "step": 232000
+    },
+    {
+      "epoch": 28.5295554469956,
+      "grad_norm": 1.0009722709655762,
+      "learning_rate": 1.2226386026083835e-06,
+      "loss": 1.0172,
+      "step": 233600
+    },
+    {
+      "epoch": 28.5295554469956,
+      "eval_loss": 0.9463828206062317,
+      "eval_runtime": 115.3111,
+      "eval_samples_per_second": 252.465,
+      "eval_steps_per_second": 7.892,
+      "step": 233600
+    },
+    {
+      "epoch": 28.724963361016123,
+      "grad_norm": 1.0131070613861084,
+      "learning_rate": 9.19742459044104e-07,
+      "loss": 1.0178,
+      "step": 235200
+    },
+    {
+      "epoch": 28.724963361016123,
+      "eval_loss": 0.9452440738677979,
+      "eval_runtime": 115.5625,
+      "eval_samples_per_second": 251.916,
+      "eval_steps_per_second": 7.875,
+      "step": 235200
+    },
+    {
+      "epoch": 28.92037127503664,
+      "grad_norm": 1.0448576211929321,
+      "learning_rate": 6.597182936433189e-07,
+      "loss": 1.0146,
+      "step": 236800
+    },
+    {
+      "epoch": 28.92037127503664,
+      "eval_loss": 0.9440923929214478,
+      "eval_runtime": 115.4862,
+      "eval_samples_per_second": 252.082,
+      "eval_steps_per_second": 7.88,
+      "step": 236800
+    },
+    {
+      "epoch": 29.115779189057157,
+      "grad_norm": 1.0811083316802979,
+      "learning_rate": 4.426786187330612e-07,
+      "loss": 1.0131,
+      "step": 238400
+    },
+    {
+      "epoch": 29.115779189057157,
+      "eval_loss": 0.9451555013656616,
+      "eval_runtime": 114.7713,
+      "eval_samples_per_second": 253.652,
+      "eval_steps_per_second": 7.929,
+      "step": 238400
+    },
+    {
+      "epoch": 29.311187103077675,
+      "grad_norm": 1.1182361841201782,
+      "learning_rate": 2.6871734727274e-07,
+      "loss": 1.0122,
+      "step": 240000
+    },
+    {
+      "epoch": 29.311187103077675,
+      "eval_loss": 0.9468272924423218,
+      "eval_runtime": 115.1022,
+      "eval_samples_per_second": 252.923,
+      "eval_steps_per_second": 7.906,
+      "step": 240000
+    },
+    {
+      "epoch": 29.506595017098192,
+      "grad_norm": 1.080756425857544,
+      "learning_rate": 1.3790975221799062e-07,
+      "loss": 1.0098,
+      "step": 241600
+    },
+    {
+      "epoch": 29.506595017098192,
+      "eval_loss": 0.9463731050491333,
+      "eval_runtime": 114.8868,
+      "eval_samples_per_second": 253.397,
+      "eval_steps_per_second": 7.921,
+      "step": 241600
+    },
+    {
+      "epoch": 29.70200293111871,
+      "grad_norm": 1.1268196105957031,
+      "learning_rate": 5.03124339501504e-08,
+      "loss": 1.0107,
+      "step": 243200
+    },
+    {
+      "epoch": 29.70200293111871,
+      "eval_loss": 0.9453385472297668,
+      "eval_runtime": 114.5631,
+      "eval_samples_per_second": 254.113,
+      "eval_steps_per_second": 7.943,
+      "step": 243200
+    },
+    {
+      "epoch": 29.897410845139227,
+      "grad_norm": 1.0300451517105103,
+      "learning_rate": 5.963295785271772e-09,
+      "loss": 1.0083,
+      "step": 244800
+    },
+    {
+      "epoch": 29.897410845139227,
+      "eval_loss": 0.9439197182655334,
+      "eval_runtime": 115.1016,
+      "eval_samples_per_second": 252.924,
+      "eval_steps_per_second": 7.906,
+      "step": 244800
+    }
+  ],
+  "logging_steps": 1600,
+  "max_steps": 245640,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 1600,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.783639331402416e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1b491ac4d1571184c8b95df405728fe80059eccb0a112bbcac2a5b5e2672fb6
+size 5368

vocab.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "[PAD]": 0,
+  "[MASK]": 1,
+  "[CLS]": 2,
+  "[SEP]": 3,
+  "[UNK]": 4,
+  "\n": 5,
+  " ": 6,
+  "'": 7,
+  "-": 8,
+  ".": 9,
+  "α": 10,
+  "β": 11,
+  "γ": 12,
+  "δ": 13,
+  "ε": 14,
+  "ζ": 15,
+  "η": 16,
+  "θ": 17,
+  "ι": 18,
+  "κ": 19,
+  "λ": 20,
+  "μ": 21,
+  "ν": 22,
+  "ξ": 23,
+  "ο": 24,
+  "π": 25,
+  "ρ": 26,
+  "ς": 27,
+  "σ": 28,
+  "τ": 29,
+  "υ": 30,
+  "φ": 31,
+  "χ": 32,
+  "ψ": 33,
+  "ω": 34,
+  "ϛ": 35,
+  "ϼ": 36,
+  "☧": 37
+}