Reyad-Ahmmed commited on Feb 25, 2025

Commit

e708fa1

verified ·

1 Parent(s): 22fb5b1

Push getvar generic t5 model

Browse files

Files changed (22) hide show

json_extraction_point_activity/checkpoint-1000/config.json +61 -0
json_extraction_point_activity/checkpoint-1000/generation_config.json +7 -0
json_extraction_point_activity/checkpoint-1000/model.safetensors +3 -0
json_extraction_point_activity/checkpoint-1000/optimizer.pt +3 -0
json_extraction_point_activity/checkpoint-1000/rng_state.pth +3 -0
json_extraction_point_activity/checkpoint-1000/scheduler.pt +3 -0
json_extraction_point_activity/checkpoint-1000/trainer_state.json +1005 -0
json_extraction_point_activity/checkpoint-1000/training_args.bin +3 -0
json_extraction_point_activity/checkpoint-1015/config.json +61 -0
json_extraction_point_activity/checkpoint-1015/generation_config.json +7 -0
json_extraction_point_activity/checkpoint-1015/model.safetensors +3 -0
json_extraction_point_activity/checkpoint-1015/optimizer.pt +3 -0
json_extraction_point_activity/checkpoint-1015/rng_state.pth +3 -0
json_extraction_point_activity/checkpoint-1015/scheduler.pt +3 -0
json_extraction_point_activity/checkpoint-1015/trainer_state.json +1012 -0
json_extraction_point_activity/checkpoint-1015/training_args.bin +3 -0
json_extraction_point_activity/checkpoint-500/model.safetensors +1 -1
json_extraction_point_activity/checkpoint-500/optimizer.pt +1 -1
json_extraction_point_activity/checkpoint-500/rng_state.pth +1 -1
json_extraction_point_activity/checkpoint-500/scheduler.pt +1 -1
json_extraction_point_activity/checkpoint-500/trainer_state.json +312 -336
json_extraction_point_activity/model.safetensors +1 -1

json_extraction_point_activity/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "_name_or_path": "t5-large",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 4096,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.2",
+  "use_cache": true,
+  "vocab_size": 32128
+}

json_extraction_point_activity/checkpoint-1000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.48.2"
+}

json_extraction_point_activity/checkpoint-1000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2033e1d91207701dcf2a50652e20805abce211fa98d7df187b671b1ef7e7783
+size 2950734544

json_extraction_point_activity/checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:304f67deadb2dd9d193f2e60ec9ab4c75474742551d5a0b0cdf99c290e5c949d
+size 5901778825

json_extraction_point_activity/checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a17102bba356f793b2331a99300071e6d313d5a727155ed5f9df148159ac27b
+size 14244

json_extraction_point_activity/checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f68200a6cbb8b4b695a170a8030cf83701b3b906f43a823586949eff641b80a
+size 1064

json_extraction_point_activity/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1005 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 34.48275862068966,
+  "eval_steps": 500,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.3448275862068966,
+      "grad_norm": 174.2040557861328,
+      "learning_rate": 1.9802955665024632e-05,
+      "loss": 11.9232,
+      "step": 10
+    },
+    {
+      "epoch": 0.6896551724137931,
+      "grad_norm": 54.92245101928711,
+      "learning_rate": 1.9605911330049263e-05,
+      "loss": 6.0635,
+      "step": 20
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.8173177242279053,
+      "eval_runtime": 0.1894,
+      "eval_samples_per_second": 31.679,
+      "eval_steps_per_second": 10.56,
+      "step": 29
+    },
+    {
+      "epoch": 1.0344827586206897,
+      "grad_norm": 16.176136016845703,
+      "learning_rate": 1.9408866995073893e-05,
+      "loss": 2.7637,
+      "step": 30
+    },
+    {
+      "epoch": 1.3793103448275863,
+      "grad_norm": 5.2406907081604,
+      "learning_rate": 1.9211822660098524e-05,
+      "loss": 1.0566,
+      "step": 40
+    },
+    {
+      "epoch": 1.7241379310344827,
+      "grad_norm": 3.6556057929992676,
+      "learning_rate": 1.9014778325123154e-05,
+      "loss": 0.6543,
+      "step": 50
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.26999202370643616,
+      "eval_runtime": 0.1963,
+      "eval_samples_per_second": 30.571,
+      "eval_steps_per_second": 10.19,
+      "step": 58
+    },
+    {
+      "epoch": 2.0689655172413794,
+      "grad_norm": 1.8488504886627197,
+      "learning_rate": 1.8817733990147784e-05,
+      "loss": 0.4713,
+      "step": 60
+    },
+    {
+      "epoch": 2.413793103448276,
+      "grad_norm": 2.723362922668457,
+      "learning_rate": 1.8620689655172415e-05,
+      "loss": 0.3144,
+      "step": 70
+    },
+    {
+      "epoch": 2.7586206896551726,
+      "grad_norm": 1.8972634077072144,
+      "learning_rate": 1.8423645320197045e-05,
+      "loss": 0.2604,
+      "step": 80
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.09994816780090332,
+      "eval_runtime": 0.1912,
+      "eval_samples_per_second": 31.381,
+      "eval_steps_per_second": 10.46,
+      "step": 87
+    },
+    {
+      "epoch": 3.103448275862069,
+      "grad_norm": 3.115511417388916,
+      "learning_rate": 1.8226600985221676e-05,
+      "loss": 0.2067,
+      "step": 90
+    },
+    {
+      "epoch": 3.4482758620689653,
+      "grad_norm": 1.7388259172439575,
+      "learning_rate": 1.8029556650246306e-05,
+      "loss": 0.1494,
+      "step": 100
+    },
+    {
+      "epoch": 3.793103448275862,
+      "grad_norm": 1.2075275182724,
+      "learning_rate": 1.7832512315270937e-05,
+      "loss": 0.1411,
+      "step": 110
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.05977391079068184,
+      "eval_runtime": 0.1933,
+      "eval_samples_per_second": 31.034,
+      "eval_steps_per_second": 10.345,
+      "step": 116
+    },
+    {
+      "epoch": 4.137931034482759,
+      "grad_norm": 1.7329133749008179,
+      "learning_rate": 1.7635467980295567e-05,
+      "loss": 0.1196,
+      "step": 120
+    },
+    {
+      "epoch": 4.482758620689655,
+      "grad_norm": 2.210278272628784,
+      "learning_rate": 1.7438423645320198e-05,
+      "loss": 0.1132,
+      "step": 130
+    },
+    {
+      "epoch": 4.827586206896552,
+      "grad_norm": 1.0056334733963013,
+      "learning_rate": 1.7241379310344828e-05,
+      "loss": 0.0789,
+      "step": 140
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.04751617833971977,
+      "eval_runtime": 0.1898,
+      "eval_samples_per_second": 31.605,
+      "eval_steps_per_second": 10.535,
+      "step": 145
+    },
+    {
+      "epoch": 5.172413793103448,
+      "grad_norm": 0.9742516279220581,
+      "learning_rate": 1.704433497536946e-05,
+      "loss": 0.0927,
+      "step": 150
+    },
+    {
+      "epoch": 5.517241379310345,
+      "grad_norm": 1.4696099758148193,
+      "learning_rate": 1.684729064039409e-05,
+      "loss": 0.0837,
+      "step": 160
+    },
+    {
+      "epoch": 5.862068965517241,
+      "grad_norm": 1.0493124723434448,
+      "learning_rate": 1.665024630541872e-05,
+      "loss": 0.0689,
+      "step": 170
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.03317258134484291,
+      "eval_runtime": 0.2045,
+      "eval_samples_per_second": 29.343,
+      "eval_steps_per_second": 9.781,
+      "step": 174
+    },
+    {
+      "epoch": 6.206896551724138,
+      "grad_norm": 0.9956067204475403,
+      "learning_rate": 1.645320197044335e-05,
+      "loss": 0.0702,
+      "step": 180
+    },
+    {
+      "epoch": 6.551724137931035,
+      "grad_norm": 0.4664933979511261,
+      "learning_rate": 1.625615763546798e-05,
+      "loss": 0.0675,
+      "step": 190
+    },
+    {
+      "epoch": 6.896551724137931,
+      "grad_norm": 1.2444266080856323,
+      "learning_rate": 1.605911330049261e-05,
+      "loss": 0.0596,
+      "step": 200
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.030222313478589058,
+      "eval_runtime": 0.1913,
+      "eval_samples_per_second": 31.365,
+      "eval_steps_per_second": 10.455,
+      "step": 203
+    },
+    {
+      "epoch": 7.241379310344827,
+      "grad_norm": 0.5432140827178955,
+      "learning_rate": 1.586206896551724e-05,
+      "loss": 0.045,
+      "step": 210
+    },
+    {
+      "epoch": 7.586206896551724,
+      "grad_norm": 0.7679450511932373,
+      "learning_rate": 1.5665024630541875e-05,
+      "loss": 0.0538,
+      "step": 220
+    },
+    {
+      "epoch": 7.931034482758621,
+      "grad_norm": 0.7759860754013062,
+      "learning_rate": 1.5467980295566506e-05,
+      "loss": 0.0624,
+      "step": 230
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.02808324061334133,
+      "eval_runtime": 0.2003,
+      "eval_samples_per_second": 29.953,
+      "eval_steps_per_second": 9.984,
+      "step": 232
+    },
+    {
+      "epoch": 8.275862068965518,
+      "grad_norm": 1.7437331676483154,
+      "learning_rate": 1.5270935960591133e-05,
+      "loss": 0.0369,
+      "step": 240
+    },
+    {
+      "epoch": 8.620689655172415,
+      "grad_norm": 0.5273000597953796,
+      "learning_rate": 1.5073891625615764e-05,
+      "loss": 0.0499,
+      "step": 250
+    },
+    {
+      "epoch": 8.96551724137931,
+      "grad_norm": 0.6120426058769226,
+      "learning_rate": 1.4876847290640396e-05,
+      "loss": 0.0425,
+      "step": 260
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.03035571426153183,
+      "eval_runtime": 0.1888,
+      "eval_samples_per_second": 31.778,
+      "eval_steps_per_second": 10.593,
+      "step": 261
+    },
+    {
+      "epoch": 9.310344827586206,
+      "grad_norm": 1.587663173675537,
+      "learning_rate": 1.4679802955665026e-05,
+      "loss": 0.0395,
+      "step": 270
+    },
+    {
+      "epoch": 9.655172413793103,
+      "grad_norm": 0.7260332703590393,
+      "learning_rate": 1.4482758620689657e-05,
+      "loss": 0.0493,
+      "step": 280
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.9717508554458618,
+      "learning_rate": 1.4285714285714287e-05,
+      "loss": 0.0424,
+      "step": 290
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.026125147938728333,
+      "eval_runtime": 0.0989,
+      "eval_samples_per_second": 60.684,
+      "eval_steps_per_second": 20.228,
+      "step": 290
+    },
+    {
+      "epoch": 10.344827586206897,
+      "grad_norm": 0.7487574815750122,
+      "learning_rate": 1.4088669950738918e-05,
+      "loss": 0.0412,
+      "step": 300
+    },
+    {
+      "epoch": 10.689655172413794,
+      "grad_norm": 1.3717066049575806,
+      "learning_rate": 1.3891625615763548e-05,
+      "loss": 0.0296,
+      "step": 310
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 0.031011082231998444,
+      "eval_runtime": 0.1922,
+      "eval_samples_per_second": 31.22,
+      "eval_steps_per_second": 10.407,
+      "step": 319
+    },
+    {
+      "epoch": 11.03448275862069,
+      "grad_norm": 0.6860368847846985,
+      "learning_rate": 1.369458128078818e-05,
+      "loss": 0.0411,
+      "step": 320
+    },
+    {
+      "epoch": 11.379310344827585,
+      "grad_norm": 0.9999271035194397,
+      "learning_rate": 1.3497536945812807e-05,
+      "loss": 0.0358,
+      "step": 330
+    },
+    {
+      "epoch": 11.724137931034482,
+      "grad_norm": 1.2313721179962158,
+      "learning_rate": 1.330049261083744e-05,
+      "loss": 0.0324,
+      "step": 340
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.029439905658364296,
+      "eval_runtime": 0.2015,
+      "eval_samples_per_second": 29.784,
+      "eval_steps_per_second": 9.928,
+      "step": 348
+    },
+    {
+      "epoch": 12.068965517241379,
+      "grad_norm": 0.9032502174377441,
+      "learning_rate": 1.310344827586207e-05,
+      "loss": 0.041,
+      "step": 350
+    },
+    {
+      "epoch": 12.413793103448276,
+      "grad_norm": 0.612800657749176,
+      "learning_rate": 1.29064039408867e-05,
+      "loss": 0.0384,
+      "step": 360
+    },
+    {
+      "epoch": 12.758620689655173,
+      "grad_norm": 0.19512540102005005,
+      "learning_rate": 1.2709359605911331e-05,
+      "loss": 0.0349,
+      "step": 370
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.02956104278564453,
+      "eval_runtime": 0.1909,
+      "eval_samples_per_second": 31.424,
+      "eval_steps_per_second": 10.475,
+      "step": 377
+    },
+    {
+      "epoch": 13.10344827586207,
+      "grad_norm": 0.8481155633926392,
+      "learning_rate": 1.2512315270935961e-05,
+      "loss": 0.0271,
+      "step": 380
+    },
+    {
+      "epoch": 13.448275862068966,
+      "grad_norm": 1.3683249950408936,
+      "learning_rate": 1.2315270935960592e-05,
+      "loss": 0.0265,
+      "step": 390
+    },
+    {
+      "epoch": 13.793103448275861,
+      "grad_norm": 0.6365839838981628,
+      "learning_rate": 1.2118226600985224e-05,
+      "loss": 0.0298,
+      "step": 400
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.03038203716278076,
+      "eval_runtime": 0.1902,
+      "eval_samples_per_second": 31.538,
+      "eval_steps_per_second": 10.513,
+      "step": 406
+    },
+    {
+      "epoch": 14.137931034482758,
+      "grad_norm": 0.7672634124755859,
+      "learning_rate": 1.1921182266009855e-05,
+      "loss": 0.0335,
+      "step": 410
+    },
+    {
+      "epoch": 14.482758620689655,
+      "grad_norm": 0.2541676163673401,
+      "learning_rate": 1.1724137931034483e-05,
+      "loss": 0.0286,
+      "step": 420
+    },
+    {
+      "epoch": 14.827586206896552,
+      "grad_norm": 0.8434980511665344,
+      "learning_rate": 1.1527093596059114e-05,
+      "loss": 0.0205,
+      "step": 430
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.030394822359085083,
+      "eval_runtime": 0.19,
+      "eval_samples_per_second": 31.587,
+      "eval_steps_per_second": 10.529,
+      "step": 435
+    },
+    {
+      "epoch": 15.172413793103448,
+      "grad_norm": 0.4303562641143799,
+      "learning_rate": 1.1330049261083744e-05,
+      "loss": 0.0323,
+      "step": 440
+    },
+    {
+      "epoch": 15.517241379310345,
+      "grad_norm": 0.42710408568382263,
+      "learning_rate": 1.1133004926108375e-05,
+      "loss": 0.0227,
+      "step": 450
+    },
+    {
+      "epoch": 15.862068965517242,
+      "grad_norm": 0.6126664876937866,
+      "learning_rate": 1.0935960591133005e-05,
+      "loss": 0.0215,
+      "step": 460
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.030341001227498055,
+      "eval_runtime": 0.1895,
+      "eval_samples_per_second": 31.669,
+      "eval_steps_per_second": 10.556,
+      "step": 464
+    },
+    {
+      "epoch": 16.20689655172414,
+      "grad_norm": 0.7011211514472961,
+      "learning_rate": 1.0738916256157637e-05,
+      "loss": 0.0337,
+      "step": 470
+    },
+    {
+      "epoch": 16.551724137931036,
+      "grad_norm": 0.5126092433929443,
+      "learning_rate": 1.0541871921182268e-05,
+      "loss": 0.0233,
+      "step": 480
+    },
+    {
+      "epoch": 16.896551724137932,
+      "grad_norm": 0.9033933281898499,
+      "learning_rate": 1.0344827586206898e-05,
+      "loss": 0.0182,
+      "step": 490
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 0.027958964928984642,
+      "eval_runtime": 0.1902,
+      "eval_samples_per_second": 31.553,
+      "eval_steps_per_second": 10.518,
+      "step": 493
+    },
+    {
+      "epoch": 17.24137931034483,
+      "grad_norm": 0.4326847493648529,
+      "learning_rate": 1.0147783251231529e-05,
+      "loss": 0.0249,
+      "step": 500
+    },
+    {
+      "epoch": 17.586206896551722,
+      "grad_norm": 0.4034535586833954,
+      "learning_rate": 9.95073891625616e-06,
+      "loss": 0.0215,
+      "step": 510
+    },
+    {
+      "epoch": 17.93103448275862,
+      "grad_norm": 0.4999659061431885,
+      "learning_rate": 9.75369458128079e-06,
+      "loss": 0.0247,
+      "step": 520
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 0.030091799795627594,
+      "eval_runtime": 0.1897,
+      "eval_samples_per_second": 31.624,
+      "eval_steps_per_second": 10.541,
+      "step": 522
+    },
+    {
+      "epoch": 18.275862068965516,
+      "grad_norm": 0.3004280924797058,
+      "learning_rate": 9.55665024630542e-06,
+      "loss": 0.0161,
+      "step": 530
+    },
+    {
+      "epoch": 18.620689655172413,
+      "grad_norm": 0.5018593072891235,
+      "learning_rate": 9.359605911330049e-06,
+      "loss": 0.0227,
+      "step": 540
+    },
+    {
+      "epoch": 18.96551724137931,
+      "grad_norm": 0.5728505849838257,
+      "learning_rate": 9.162561576354681e-06,
+      "loss": 0.0221,
+      "step": 550
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.030765995383262634,
+      "eval_runtime": 0.1882,
+      "eval_samples_per_second": 31.886,
+      "eval_steps_per_second": 10.629,
+      "step": 551
+    },
+    {
+      "epoch": 19.310344827586206,
+      "grad_norm": 1.1493581533432007,
+      "learning_rate": 8.965517241379312e-06,
+      "loss": 0.0204,
+      "step": 560
+    },
+    {
+      "epoch": 19.655172413793103,
+      "grad_norm": 0.3401670753955841,
+      "learning_rate": 8.768472906403942e-06,
+      "loss": 0.0164,
+      "step": 570
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.9875850081443787,
+      "learning_rate": 8.571428571428571e-06,
+      "loss": 0.0213,
+      "step": 580
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.028663409873843193,
+      "eval_runtime": 0.1008,
+      "eval_samples_per_second": 59.511,
+      "eval_steps_per_second": 19.837,
+      "step": 580
+    },
+    {
+      "epoch": 20.344827586206897,
+      "grad_norm": 0.6725947260856628,
+      "learning_rate": 8.374384236453203e-06,
+      "loss": 0.0192,
+      "step": 590
+    },
+    {
+      "epoch": 20.689655172413794,
+      "grad_norm": 0.6594141721725464,
+      "learning_rate": 8.177339901477834e-06,
+      "loss": 0.0194,
+      "step": 600
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.027452999725937843,
+      "eval_runtime": 0.1899,
+      "eval_samples_per_second": 31.602,
+      "eval_steps_per_second": 10.534,
+      "step": 609
+    },
+    {
+      "epoch": 21.03448275862069,
+      "grad_norm": 0.32469141483306885,
+      "learning_rate": 7.980295566502464e-06,
+      "loss": 0.0167,
+      "step": 610
+    },
+    {
+      "epoch": 21.379310344827587,
+      "grad_norm": 0.7029064893722534,
+      "learning_rate": 7.783251231527095e-06,
+      "loss": 0.0237,
+      "step": 620
+    },
+    {
+      "epoch": 21.724137931034484,
+      "grad_norm": 0.5634991526603699,
+      "learning_rate": 7.586206896551724e-06,
+      "loss": 0.0212,
+      "step": 630
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.027833983302116394,
+      "eval_runtime": 0.1913,
+      "eval_samples_per_second": 31.357,
+      "eval_steps_per_second": 10.452,
+      "step": 638
+    },
+    {
+      "epoch": 22.06896551724138,
+      "grad_norm": 0.7171387672424316,
+      "learning_rate": 7.3891625615763555e-06,
+      "loss": 0.0204,
+      "step": 640
+    },
+    {
+      "epoch": 22.413793103448278,
+      "grad_norm": 0.3534681797027588,
+      "learning_rate": 7.192118226600986e-06,
+      "loss": 0.0162,
+      "step": 650
+    },
+    {
+      "epoch": 22.75862068965517,
+      "grad_norm": 0.2446085512638092,
+      "learning_rate": 6.995073891625616e-06,
+      "loss": 0.0178,
+      "step": 660
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.0313410721719265,
+      "eval_runtime": 0.1923,
+      "eval_samples_per_second": 31.2,
+      "eval_steps_per_second": 10.4,
+      "step": 667
+    },
+    {
+      "epoch": 23.103448275862068,
+      "grad_norm": 0.3782992959022522,
+      "learning_rate": 6.798029556650246e-06,
+      "loss": 0.0214,
+      "step": 670
+    },
+    {
+      "epoch": 23.448275862068964,
+      "grad_norm": 0.2016129344701767,
+      "learning_rate": 6.600985221674877e-06,
+      "loss": 0.0167,
+      "step": 680
+    },
+    {
+      "epoch": 23.79310344827586,
+      "grad_norm": 0.3993048667907715,
+      "learning_rate": 6.403940886699508e-06,
+      "loss": 0.0217,
+      "step": 690
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.030709436163306236,
+      "eval_runtime": 0.1914,
+      "eval_samples_per_second": 31.345,
+      "eval_steps_per_second": 10.448,
+      "step": 696
+    },
+    {
+      "epoch": 24.137931034482758,
+      "grad_norm": 0.7120524048805237,
+      "learning_rate": 6.206896551724138e-06,
+      "loss": 0.0227,
+      "step": 700
+    },
+    {
+      "epoch": 24.482758620689655,
+      "grad_norm": 0.3477053940296173,
+      "learning_rate": 6.00985221674877e-06,
+      "loss": 0.0203,
+      "step": 710
+    },
+    {
+      "epoch": 24.82758620689655,
+      "grad_norm": 0.30051225423812866,
+      "learning_rate": 5.812807881773399e-06,
+      "loss": 0.0118,
+      "step": 720
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.02974347025156021,
+      "eval_runtime": 0.1936,
+      "eval_samples_per_second": 30.992,
+      "eval_steps_per_second": 10.331,
+      "step": 725
+    },
+    {
+      "epoch": 25.17241379310345,
+      "grad_norm": 0.38762152194976807,
+      "learning_rate": 5.61576354679803e-06,
+      "loss": 0.0161,
+      "step": 730
+    },
+    {
+      "epoch": 25.517241379310345,
+      "grad_norm": 0.48786938190460205,
+      "learning_rate": 5.41871921182266e-06,
+      "loss": 0.0153,
+      "step": 740
+    },
+    {
+      "epoch": 25.862068965517242,
+      "grad_norm": 0.273346483707428,
+      "learning_rate": 5.2216748768472915e-06,
+      "loss": 0.0189,
+      "step": 750
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.031065121293067932,
+      "eval_runtime": 0.1912,
+      "eval_samples_per_second": 31.387,
+      "eval_steps_per_second": 10.462,
+      "step": 754
+    },
+    {
+      "epoch": 26.20689655172414,
+      "grad_norm": 0.8301162123680115,
+      "learning_rate": 5.024630541871922e-06,
+      "loss": 0.0194,
+      "step": 760
+    },
+    {
+      "epoch": 26.551724137931036,
+      "grad_norm": 0.46895724534988403,
+      "learning_rate": 4.8275862068965525e-06,
+      "loss": 0.0149,
+      "step": 770
+    },
+    {
+      "epoch": 26.896551724137932,
+      "grad_norm": 0.4784580171108246,
+      "learning_rate": 4.630541871921182e-06,
+      "loss": 0.0185,
+      "step": 780
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.029767701402306557,
+      "eval_runtime": 0.1921,
+      "eval_samples_per_second": 31.24,
+      "eval_steps_per_second": 10.413,
+      "step": 783
+    },
+    {
+      "epoch": 27.24137931034483,
+      "grad_norm": 0.7427147626876831,
+      "learning_rate": 4.4334975369458135e-06,
+      "loss": 0.0155,
+      "step": 790
+    },
+    {
+      "epoch": 27.586206896551722,
+      "grad_norm": 0.4144653081893921,
+      "learning_rate": 4.236453201970444e-06,
+      "loss": 0.0159,
+      "step": 800
+    },
+    {
+      "epoch": 27.93103448275862,
+      "grad_norm": 0.29942747950553894,
+      "learning_rate": 4.039408866995074e-06,
+      "loss": 0.021,
+      "step": 810
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.029253564774990082,
+      "eval_runtime": 0.1914,
+      "eval_samples_per_second": 31.352,
+      "eval_steps_per_second": 10.451,
+      "step": 812
+    },
+    {
+      "epoch": 28.275862068965516,
+      "grad_norm": 0.21119730174541473,
+      "learning_rate": 3.842364532019705e-06,
+      "loss": 0.0153,
+      "step": 820
+    },
+    {
+      "epoch": 28.620689655172413,
+      "grad_norm": 0.2980373501777649,
+      "learning_rate": 3.6453201970443354e-06,
+      "loss": 0.0189,
+      "step": 830
+    },
+    {
+      "epoch": 28.96551724137931,
+      "grad_norm": 0.09113238751888275,
+      "learning_rate": 3.448275862068966e-06,
+      "loss": 0.0102,
+      "step": 840
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 0.028439467772841454,
+      "eval_runtime": 0.1908,
+      "eval_samples_per_second": 31.449,
+      "eval_steps_per_second": 10.483,
+      "step": 841
+    },
+    {
+      "epoch": 29.310344827586206,
+      "grad_norm": 0.3905262351036072,
+      "learning_rate": 3.2512315270935963e-06,
+      "loss": 0.0153,
+      "step": 850
+    },
+    {
+      "epoch": 29.655172413793103,
+      "grad_norm": 0.36752381920814514,
+      "learning_rate": 3.054187192118227e-06,
+      "loss": 0.014,
+      "step": 860
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 0.6769506931304932,
+      "learning_rate": 2.8571428571428573e-06,
+      "loss": 0.018,
+      "step": 870
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.02924039028584957,
+      "eval_runtime": 0.102,
+      "eval_samples_per_second": 58.797,
+      "eval_steps_per_second": 19.599,
+      "step": 870
+    },
+    {
+      "epoch": 30.344827586206897,
+      "grad_norm": 0.676186740398407,
+      "learning_rate": 2.660098522167488e-06,
+      "loss": 0.0202,
+      "step": 880
+    },
+    {
+      "epoch": 30.689655172413794,
+      "grad_norm": 0.2909271717071533,
+      "learning_rate": 2.4630541871921186e-06,
+      "loss": 0.0105,
+      "step": 890
+    },
+    {
+      "epoch": 31.0,
+      "eval_loss": 0.030303308740258217,
+      "eval_runtime": 0.191,
+      "eval_samples_per_second": 31.415,
+      "eval_steps_per_second": 10.472,
+      "step": 899
+    },
+    {
+      "epoch": 31.03448275862069,
+      "grad_norm": 0.8155515193939209,
+      "learning_rate": 2.266009852216749e-06,
+      "loss": 0.0174,
+      "step": 900
+    },
+    {
+      "epoch": 31.379310344827587,
+      "grad_norm": 0.5190662741661072,
+      "learning_rate": 2.0689655172413796e-06,
+      "loss": 0.0157,
+      "step": 910
+    },
+    {
+      "epoch": 31.724137931034484,
+      "grad_norm": 0.8997210264205933,
+      "learning_rate": 1.8719211822660098e-06,
+      "loss": 0.0155,
+      "step": 920
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 0.030399195849895477,
+      "eval_runtime": 0.1899,
+      "eval_samples_per_second": 31.593,
+      "eval_steps_per_second": 10.531,
+      "step": 928
+    },
+    {
+      "epoch": 32.06896551724138,
+      "grad_norm": 0.5701755881309509,
+      "learning_rate": 1.6748768472906405e-06,
+      "loss": 0.0139,
+      "step": 930
+    },
+    {
+      "epoch": 32.41379310344828,
+      "grad_norm": 0.16824859380722046,
+      "learning_rate": 1.4778325123152712e-06,
+      "loss": 0.0113,
+      "step": 940
+    },
+    {
+      "epoch": 32.758620689655174,
+      "grad_norm": 0.5066978931427002,
+      "learning_rate": 1.2807881773399017e-06,
+      "loss": 0.0127,
+      "step": 950
+    },
+    {
+      "epoch": 33.0,
+      "eval_loss": 0.030721982941031456,
+      "eval_runtime": 0.191,
+      "eval_samples_per_second": 31.41,
+      "eval_steps_per_second": 10.47,
+      "step": 957
+    },
+    {
+      "epoch": 33.10344827586207,
+      "grad_norm": 0.5038828253746033,
+      "learning_rate": 1.0837438423645322e-06,
+      "loss": 0.0138,
+      "step": 960
+    },
+    {
+      "epoch": 33.44827586206897,
+      "grad_norm": 0.4406326115131378,
+      "learning_rate": 8.866995073891626e-07,
+      "loss": 0.0116,
+      "step": 970
+    },
+    {
+      "epoch": 33.793103448275865,
+      "grad_norm": 0.3732337951660156,
+      "learning_rate": 6.896551724137931e-07,
+      "loss": 0.0171,
+      "step": 980
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.03042110800743103,
+      "eval_runtime": 0.191,
+      "eval_samples_per_second": 31.415,
+      "eval_steps_per_second": 10.472,
+      "step": 986
+    },
+    {
+      "epoch": 34.13793103448276,
+      "grad_norm": 0.32739463448524475,
+      "learning_rate": 4.926108374384237e-07,
+      "loss": 0.0186,
+      "step": 990
+    },
+    {
+      "epoch": 34.48275862068966,
+      "grad_norm": 0.45314541459083557,
+      "learning_rate": 2.955665024630542e-07,
+      "loss": 0.0108,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1015,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 35,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2128241491968000.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

json_extraction_point_activity/checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:333cc851b675d7a01620eeba59cdfbc1a624d74927d086ab660bd04fef9b6029
+size 5240

json_extraction_point_activity/checkpoint-1015/config.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "_name_or_path": "t5-large",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 4096,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.2",
+  "use_cache": true,
+  "vocab_size": 32128
+}

json_extraction_point_activity/checkpoint-1015/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.48.2"
+}

json_extraction_point_activity/checkpoint-1015/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a3f3216f61837c04638fd20747110cf419cd0cf7777e19c57b1a79ccbd5cce8
+size 2950734544

json_extraction_point_activity/checkpoint-1015/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f50e5090f6f75af54d40ad57109be3f0f7daaffacb86271dba6ac32dfc076bb
+size 5901778825

json_extraction_point_activity/checkpoint-1015/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2a4fa7b4c0bb14dd8ab49891754dfc89b075c92267608720041d0fd455797e7
+size 14244

json_extraction_point_activity/checkpoint-1015/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2ccfc7b23418fc7ce59db86126d54164c357ffeea106e4ff6ff9ed8cf664181
+size 1064

json_extraction_point_activity/checkpoint-1015/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1012 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 35.0,
+  "eval_steps": 500,
+  "global_step": 1015,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.3448275862068966,
+      "grad_norm": 174.2040557861328,
+      "learning_rate": 1.9802955665024632e-05,
+      "loss": 11.9232,
+      "step": 10
+    },
+    {
+      "epoch": 0.6896551724137931,
+      "grad_norm": 54.92245101928711,
+      "learning_rate": 1.9605911330049263e-05,
+      "loss": 6.0635,
+      "step": 20
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.8173177242279053,
+      "eval_runtime": 0.1894,
+      "eval_samples_per_second": 31.679,
+      "eval_steps_per_second": 10.56,
+      "step": 29
+    },
+    {
+      "epoch": 1.0344827586206897,
+      "grad_norm": 16.176136016845703,
+      "learning_rate": 1.9408866995073893e-05,
+      "loss": 2.7637,
+      "step": 30
+    },
+    {
+      "epoch": 1.3793103448275863,
+      "grad_norm": 5.2406907081604,
+      "learning_rate": 1.9211822660098524e-05,
+      "loss": 1.0566,
+      "step": 40
+    },
+    {
+      "epoch": 1.7241379310344827,
+      "grad_norm": 3.6556057929992676,
+      "learning_rate": 1.9014778325123154e-05,
+      "loss": 0.6543,
+      "step": 50
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.26999202370643616,
+      "eval_runtime": 0.1963,
+      "eval_samples_per_second": 30.571,
+      "eval_steps_per_second": 10.19,
+      "step": 58
+    },
+    {
+      "epoch": 2.0689655172413794,
+      "grad_norm": 1.8488504886627197,
+      "learning_rate": 1.8817733990147784e-05,
+      "loss": 0.4713,
+      "step": 60
+    },
+    {
+      "epoch": 2.413793103448276,
+      "grad_norm": 2.723362922668457,
+      "learning_rate": 1.8620689655172415e-05,
+      "loss": 0.3144,
+      "step": 70
+    },
+    {
+      "epoch": 2.7586206896551726,
+      "grad_norm": 1.8972634077072144,
+      "learning_rate": 1.8423645320197045e-05,
+      "loss": 0.2604,
+      "step": 80
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.09994816780090332,
+      "eval_runtime": 0.1912,
+      "eval_samples_per_second": 31.381,
+      "eval_steps_per_second": 10.46,
+      "step": 87
+    },
+    {
+      "epoch": 3.103448275862069,
+      "grad_norm": 3.115511417388916,
+      "learning_rate": 1.8226600985221676e-05,
+      "loss": 0.2067,
+      "step": 90
+    },
+    {
+      "epoch": 3.4482758620689653,
+      "grad_norm": 1.7388259172439575,
+      "learning_rate": 1.8029556650246306e-05,
+      "loss": 0.1494,
+      "step": 100
+    },
+    {
+      "epoch": 3.793103448275862,
+      "grad_norm": 1.2075275182724,
+      "learning_rate": 1.7832512315270937e-05,
+      "loss": 0.1411,
+      "step": 110
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.05977391079068184,
+      "eval_runtime": 0.1933,
+      "eval_samples_per_second": 31.034,
+      "eval_steps_per_second": 10.345,
+      "step": 116
+    },
+    {
+      "epoch": 4.137931034482759,
+      "grad_norm": 1.7329133749008179,
+      "learning_rate": 1.7635467980295567e-05,
+      "loss": 0.1196,
+      "step": 120
+    },
+    {
+      "epoch": 4.482758620689655,
+      "grad_norm": 2.210278272628784,
+      "learning_rate": 1.7438423645320198e-05,
+      "loss": 0.1132,
+      "step": 130
+    },
+    {
+      "epoch": 4.827586206896552,
+      "grad_norm": 1.0056334733963013,
+      "learning_rate": 1.7241379310344828e-05,
+      "loss": 0.0789,
+      "step": 140
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.04751617833971977,
+      "eval_runtime": 0.1898,
+      "eval_samples_per_second": 31.605,
+      "eval_steps_per_second": 10.535,
+      "step": 145
+    },
+    {
+      "epoch": 5.172413793103448,
+      "grad_norm": 0.9742516279220581,
+      "learning_rate": 1.704433497536946e-05,
+      "loss": 0.0927,
+      "step": 150
+    },
+    {
+      "epoch": 5.517241379310345,
+      "grad_norm": 1.4696099758148193,
+      "learning_rate": 1.684729064039409e-05,
+      "loss": 0.0837,
+      "step": 160
+    },
+    {
+      "epoch": 5.862068965517241,
+      "grad_norm": 1.0493124723434448,
+      "learning_rate": 1.665024630541872e-05,
+      "loss": 0.0689,
+      "step": 170
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.03317258134484291,
+      "eval_runtime": 0.2045,
+      "eval_samples_per_second": 29.343,
+      "eval_steps_per_second": 9.781,
+      "step": 174
+    },
+    {
+      "epoch": 6.206896551724138,
+      "grad_norm": 0.9956067204475403,
+      "learning_rate": 1.645320197044335e-05,
+      "loss": 0.0702,
+      "step": 180
+    },
+    {
+      "epoch": 6.551724137931035,
+      "grad_norm": 0.4664933979511261,
+      "learning_rate": 1.625615763546798e-05,
+      "loss": 0.0675,
+      "step": 190
+    },
+    {
+      "epoch": 6.896551724137931,
+      "grad_norm": 1.2444266080856323,
+      "learning_rate": 1.605911330049261e-05,
+      "loss": 0.0596,
+      "step": 200
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.030222313478589058,
+      "eval_runtime": 0.1913,
+      "eval_samples_per_second": 31.365,
+      "eval_steps_per_second": 10.455,
+      "step": 203
+    },
+    {
+      "epoch": 7.241379310344827,
+      "grad_norm": 0.5432140827178955,
+      "learning_rate": 1.586206896551724e-05,
+      "loss": 0.045,
+      "step": 210
+    },
+    {
+      "epoch": 7.586206896551724,
+      "grad_norm": 0.7679450511932373,
+      "learning_rate": 1.5665024630541875e-05,
+      "loss": 0.0538,
+      "step": 220
+    },
+    {
+      "epoch": 7.931034482758621,
+      "grad_norm": 0.7759860754013062,
+      "learning_rate": 1.5467980295566506e-05,
+      "loss": 0.0624,
+      "step": 230
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.02808324061334133,
+      "eval_runtime": 0.2003,
+      "eval_samples_per_second": 29.953,
+      "eval_steps_per_second": 9.984,
+      "step": 232
+    },
+    {
+      "epoch": 8.275862068965518,
+      "grad_norm": 1.7437331676483154,
+      "learning_rate": 1.5270935960591133e-05,
+      "loss": 0.0369,
+      "step": 240
+    },
+    {
+      "epoch": 8.620689655172415,
+      "grad_norm": 0.5273000597953796,
+      "learning_rate": 1.5073891625615764e-05,
+      "loss": 0.0499,
+      "step": 250
+    },
+    {
+      "epoch": 8.96551724137931,
+      "grad_norm": 0.6120426058769226,
+      "learning_rate": 1.4876847290640396e-05,
+      "loss": 0.0425,
+      "step": 260
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.03035571426153183,
+      "eval_runtime": 0.1888,
+      "eval_samples_per_second": 31.778,
+      "eval_steps_per_second": 10.593,
+      "step": 261
+    },
+    {
+      "epoch": 9.310344827586206,
+      "grad_norm": 1.587663173675537,
+      "learning_rate": 1.4679802955665026e-05,
+      "loss": 0.0395,
+      "step": 270
+    },
+    {
+      "epoch": 9.655172413793103,
+      "grad_norm": 0.7260332703590393,
+      "learning_rate": 1.4482758620689657e-05,
+      "loss": 0.0493,
+      "step": 280
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.9717508554458618,
+      "learning_rate": 1.4285714285714287e-05,
+      "loss": 0.0424,
+      "step": 290
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.026125147938728333,
+      "eval_runtime": 0.0989,
+      "eval_samples_per_second": 60.684,
+      "eval_steps_per_second": 20.228,
+      "step": 290
+    },
+    {
+      "epoch": 10.344827586206897,
+      "grad_norm": 0.7487574815750122,
+      "learning_rate": 1.4088669950738918e-05,
+      "loss": 0.0412,
+      "step": 300
+    },
+    {
+      "epoch": 10.689655172413794,
+      "grad_norm": 1.3717066049575806,
+      "learning_rate": 1.3891625615763548e-05,
+      "loss": 0.0296,
+      "step": 310
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 0.031011082231998444,
+      "eval_runtime": 0.1922,
+      "eval_samples_per_second": 31.22,
+      "eval_steps_per_second": 10.407,
+      "step": 319
+    },
+    {
+      "epoch": 11.03448275862069,
+      "grad_norm": 0.6860368847846985,
+      "learning_rate": 1.369458128078818e-05,
+      "loss": 0.0411,
+      "step": 320
+    },
+    {
+      "epoch": 11.379310344827585,
+      "grad_norm": 0.9999271035194397,
+      "learning_rate": 1.3497536945812807e-05,
+      "loss": 0.0358,
+      "step": 330
+    },
+    {
+      "epoch": 11.724137931034482,
+      "grad_norm": 1.2313721179962158,
+      "learning_rate": 1.330049261083744e-05,
+      "loss": 0.0324,
+      "step": 340
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.029439905658364296,
+      "eval_runtime": 0.2015,
+      "eval_samples_per_second": 29.784,
+      "eval_steps_per_second": 9.928,
+      "step": 348
+    },
+    {
+      "epoch": 12.068965517241379,
+      "grad_norm": 0.9032502174377441,
+      "learning_rate": 1.310344827586207e-05,
+      "loss": 0.041,
+      "step": 350
+    },
+    {
+      "epoch": 12.413793103448276,
+      "grad_norm": 0.612800657749176,
+      "learning_rate": 1.29064039408867e-05,
+      "loss": 0.0384,
+      "step": 360
+    },
+    {
+      "epoch": 12.758620689655173,
+      "grad_norm": 0.19512540102005005,
+      "learning_rate": 1.2709359605911331e-05,
+      "loss": 0.0349,
+      "step": 370
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.02956104278564453,
+      "eval_runtime": 0.1909,
+      "eval_samples_per_second": 31.424,
+      "eval_steps_per_second": 10.475,
+      "step": 377
+    },
+    {
+      "epoch": 13.10344827586207,
+      "grad_norm": 0.8481155633926392,
+      "learning_rate": 1.2512315270935961e-05,
+      "loss": 0.0271,
+      "step": 380
+    },
+    {
+      "epoch": 13.448275862068966,
+      "grad_norm": 1.3683249950408936,
+      "learning_rate": 1.2315270935960592e-05,
+      "loss": 0.0265,
+      "step": 390
+    },
+    {
+      "epoch": 13.793103448275861,
+      "grad_norm": 0.6365839838981628,
+      "learning_rate": 1.2118226600985224e-05,
+      "loss": 0.0298,
+      "step": 400
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.03038203716278076,
+      "eval_runtime": 0.1902,
+      "eval_samples_per_second": 31.538,
+      "eval_steps_per_second": 10.513,
+      "step": 406
+    },
+    {
+      "epoch": 14.137931034482758,
+      "grad_norm": 0.7672634124755859,
+      "learning_rate": 1.1921182266009855e-05,
+      "loss": 0.0335,
+      "step": 410
+    },
+    {
+      "epoch": 14.482758620689655,
+      "grad_norm": 0.2541676163673401,
+      "learning_rate": 1.1724137931034483e-05,
+      "loss": 0.0286,
+      "step": 420
+    },
+    {
+      "epoch": 14.827586206896552,
+      "grad_norm": 0.8434980511665344,
+      "learning_rate": 1.1527093596059114e-05,
+      "loss": 0.0205,
+      "step": 430
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.030394822359085083,
+      "eval_runtime": 0.19,
+      "eval_samples_per_second": 31.587,
+      "eval_steps_per_second": 10.529,
+      "step": 435
+    },
+    {
+      "epoch": 15.172413793103448,
+      "grad_norm": 0.4303562641143799,
+      "learning_rate": 1.1330049261083744e-05,
+      "loss": 0.0323,
+      "step": 440
+    },
+    {
+      "epoch": 15.517241379310345,
+      "grad_norm": 0.42710408568382263,
+      "learning_rate": 1.1133004926108375e-05,
+      "loss": 0.0227,
+      "step": 450
+    },
+    {
+      "epoch": 15.862068965517242,
+      "grad_norm": 0.6126664876937866,
+      "learning_rate": 1.0935960591133005e-05,
+      "loss": 0.0215,
+      "step": 460
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.030341001227498055,
+      "eval_runtime": 0.1895,
+      "eval_samples_per_second": 31.669,
+      "eval_steps_per_second": 10.556,
+      "step": 464
+    },
+    {
+      "epoch": 16.20689655172414,
+      "grad_norm": 0.7011211514472961,
+      "learning_rate": 1.0738916256157637e-05,
+      "loss": 0.0337,
+      "step": 470
+    },
+    {
+      "epoch": 16.551724137931036,
+      "grad_norm": 0.5126092433929443,
+      "learning_rate": 1.0541871921182268e-05,
+      "loss": 0.0233,
+      "step": 480
+    },
+    {
+      "epoch": 16.896551724137932,
+      "grad_norm": 0.9033933281898499,
+      "learning_rate": 1.0344827586206898e-05,
+      "loss": 0.0182,
+      "step": 490
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 0.027958964928984642,
+      "eval_runtime": 0.1902,
+      "eval_samples_per_second": 31.553,
+      "eval_steps_per_second": 10.518,
+      "step": 493
+    },
+    {
+      "epoch": 17.24137931034483,
+      "grad_norm": 0.4326847493648529,
+      "learning_rate": 1.0147783251231529e-05,
+      "loss": 0.0249,
+      "step": 500
+    },
+    {
+      "epoch": 17.586206896551722,
+      "grad_norm": 0.4034535586833954,
+      "learning_rate": 9.95073891625616e-06,
+      "loss": 0.0215,
+      "step": 510
+    },
+    {
+      "epoch": 17.93103448275862,
+      "grad_norm": 0.4999659061431885,
+      "learning_rate": 9.75369458128079e-06,
+      "loss": 0.0247,
+      "step": 520
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 0.030091799795627594,
+      "eval_runtime": 0.1897,
+      "eval_samples_per_second": 31.624,
+      "eval_steps_per_second": 10.541,
+      "step": 522
+    },
+    {
+      "epoch": 18.275862068965516,
+      "grad_norm": 0.3004280924797058,
+      "learning_rate": 9.55665024630542e-06,
+      "loss": 0.0161,
+      "step": 530
+    },
+    {
+      "epoch": 18.620689655172413,
+      "grad_norm": 0.5018593072891235,
+      "learning_rate": 9.359605911330049e-06,
+      "loss": 0.0227,
+      "step": 540
+    },
+    {
+      "epoch": 18.96551724137931,
+      "grad_norm": 0.5728505849838257,
+      "learning_rate": 9.162561576354681e-06,
+      "loss": 0.0221,
+      "step": 550
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.030765995383262634,
+      "eval_runtime": 0.1882,
+      "eval_samples_per_second": 31.886,
+      "eval_steps_per_second": 10.629,
+      "step": 551
+    },
+    {
+      "epoch": 19.310344827586206,
+      "grad_norm": 1.1493581533432007,
+      "learning_rate": 8.965517241379312e-06,
+      "loss": 0.0204,
+      "step": 560
+    },
+    {
+      "epoch": 19.655172413793103,
+      "grad_norm": 0.3401670753955841,
+      "learning_rate": 8.768472906403942e-06,
+      "loss": 0.0164,
+      "step": 570
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.9875850081443787,
+      "learning_rate": 8.571428571428571e-06,
+      "loss": 0.0213,
+      "step": 580
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.028663409873843193,
+      "eval_runtime": 0.1008,
+      "eval_samples_per_second": 59.511,
+      "eval_steps_per_second": 19.837,
+      "step": 580
+    },
+    {
+      "epoch": 20.344827586206897,
+      "grad_norm": 0.6725947260856628,
+      "learning_rate": 8.374384236453203e-06,
+      "loss": 0.0192,
+      "step": 590
+    },
+    {
+      "epoch": 20.689655172413794,
+      "grad_norm": 0.6594141721725464,
+      "learning_rate": 8.177339901477834e-06,
+      "loss": 0.0194,
+      "step": 600
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.027452999725937843,
+      "eval_runtime": 0.1899,
+      "eval_samples_per_second": 31.602,
+      "eval_steps_per_second": 10.534,
+      "step": 609
+    },
+    {
+      "epoch": 21.03448275862069,
+      "grad_norm": 0.32469141483306885,
+      "learning_rate": 7.980295566502464e-06,
+      "loss": 0.0167,
+      "step": 610
+    },
+    {
+      "epoch": 21.379310344827587,
+      "grad_norm": 0.7029064893722534,
+      "learning_rate": 7.783251231527095e-06,
+      "loss": 0.0237,
+      "step": 620
+    },
+    {
+      "epoch": 21.724137931034484,
+      "grad_norm": 0.5634991526603699,
+      "learning_rate": 7.586206896551724e-06,
+      "loss": 0.0212,
+      "step": 630
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.027833983302116394,
+      "eval_runtime": 0.1913,
+      "eval_samples_per_second": 31.357,
+      "eval_steps_per_second": 10.452,
+      "step": 638
+    },
+    {
+      "epoch": 22.06896551724138,
+      "grad_norm": 0.7171387672424316,
+      "learning_rate": 7.3891625615763555e-06,
+      "loss": 0.0204,
+      "step": 640
+    },
+    {
+      "epoch": 22.413793103448278,
+      "grad_norm": 0.3534681797027588,
+      "learning_rate": 7.192118226600986e-06,
+      "loss": 0.0162,
+      "step": 650
+    },
+    {
+      "epoch": 22.75862068965517,
+      "grad_norm": 0.2446085512638092,
+      "learning_rate": 6.995073891625616e-06,
+      "loss": 0.0178,
+      "step": 660
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.0313410721719265,
+      "eval_runtime": 0.1923,
+      "eval_samples_per_second": 31.2,
+      "eval_steps_per_second": 10.4,
+      "step": 667
+    },
+    {
+      "epoch": 23.103448275862068,
+      "grad_norm": 0.3782992959022522,
+      "learning_rate": 6.798029556650246e-06,
+      "loss": 0.0214,
+      "step": 670
+    },
+    {
+      "epoch": 23.448275862068964,
+      "grad_norm": 0.2016129344701767,
+      "learning_rate": 6.600985221674877e-06,
+      "loss": 0.0167,
+      "step": 680
+    },
+    {
+      "epoch": 23.79310344827586,
+      "grad_norm": 0.3993048667907715,
+      "learning_rate": 6.403940886699508e-06,
+      "loss": 0.0217,
+      "step": 690
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.030709436163306236,
+      "eval_runtime": 0.1914,
+      "eval_samples_per_second": 31.345,
+      "eval_steps_per_second": 10.448,
+      "step": 696
+    },
+    {
+      "epoch": 24.137931034482758,
+      "grad_norm": 0.7120524048805237,
+      "learning_rate": 6.206896551724138e-06,
+      "loss": 0.0227,
+      "step": 700
+    },
+    {
+      "epoch": 24.482758620689655,
+      "grad_norm": 0.3477053940296173,
+      "learning_rate": 6.00985221674877e-06,
+      "loss": 0.0203,
+      "step": 710
+    },
+    {
+      "epoch": 24.82758620689655,
+      "grad_norm": 0.30051225423812866,
+      "learning_rate": 5.812807881773399e-06,
+      "loss": 0.0118,
+      "step": 720
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.02974347025156021,
+      "eval_runtime": 0.1936,
+      "eval_samples_per_second": 30.992,
+      "eval_steps_per_second": 10.331,
+      "step": 725
+    },
+    {
+      "epoch": 25.17241379310345,
+      "grad_norm": 0.38762152194976807,
+      "learning_rate": 5.61576354679803e-06,
+      "loss": 0.0161,
+      "step": 730
+    },
+    {
+      "epoch": 25.517241379310345,
+      "grad_norm": 0.48786938190460205,
+      "learning_rate": 5.41871921182266e-06,
+      "loss": 0.0153,
+      "step": 740
+    },
+    {
+      "epoch": 25.862068965517242,
+      "grad_norm": 0.273346483707428,
+      "learning_rate": 5.2216748768472915e-06,
+      "loss": 0.0189,
+      "step": 750
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.031065121293067932,
+      "eval_runtime": 0.1912,
+      "eval_samples_per_second": 31.387,
+      "eval_steps_per_second": 10.462,
+      "step": 754
+    },
+    {
+      "epoch": 26.20689655172414,
+      "grad_norm": 0.8301162123680115,
+      "learning_rate": 5.024630541871922e-06,
+      "loss": 0.0194,
+      "step": 760
+    },
+    {
+      "epoch": 26.551724137931036,
+      "grad_norm": 0.46895724534988403,
+      "learning_rate": 4.8275862068965525e-06,
+      "loss": 0.0149,
+      "step": 770
+    },
+    {
+      "epoch": 26.896551724137932,
+      "grad_norm": 0.4784580171108246,
+      "learning_rate": 4.630541871921182e-06,
+      "loss": 0.0185,
+      "step": 780
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.029767701402306557,
+      "eval_runtime": 0.1921,
+      "eval_samples_per_second": 31.24,
+      "eval_steps_per_second": 10.413,
+      "step": 783
+    },
+    {
+      "epoch": 27.24137931034483,
+      "grad_norm": 0.7427147626876831,
+      "learning_rate": 4.4334975369458135e-06,
+      "loss": 0.0155,
+      "step": 790
+    },
+    {
+      "epoch": 27.586206896551722,
+      "grad_norm": 0.4144653081893921,
+      "learning_rate": 4.236453201970444e-06,
+      "loss": 0.0159,
+      "step": 800
+    },
+    {
+      "epoch": 27.93103448275862,
+      "grad_norm": 0.29942747950553894,
+      "learning_rate": 4.039408866995074e-06,
+      "loss": 0.021,
+      "step": 810
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.029253564774990082,
+      "eval_runtime": 0.1914,
+      "eval_samples_per_second": 31.352,
+      "eval_steps_per_second": 10.451,
+      "step": 812
+    },
+    {
+      "epoch": 28.275862068965516,
+      "grad_norm": 0.21119730174541473,
+      "learning_rate": 3.842364532019705e-06,
+      "loss": 0.0153,
+      "step": 820
+    },
+    {
+      "epoch": 28.620689655172413,
+      "grad_norm": 0.2980373501777649,
+      "learning_rate": 3.6453201970443354e-06,
+      "loss": 0.0189,
+      "step": 830
+    },
+    {
+      "epoch": 28.96551724137931,
+      "grad_norm": 0.09113238751888275,
+      "learning_rate": 3.448275862068966e-06,
+      "loss": 0.0102,
+      "step": 840
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 0.028439467772841454,
+      "eval_runtime": 0.1908,
+      "eval_samples_per_second": 31.449,
+      "eval_steps_per_second": 10.483,
+      "step": 841
+    },
+    {
+      "epoch": 29.310344827586206,
+      "grad_norm": 0.3905262351036072,
+      "learning_rate": 3.2512315270935963e-06,
+      "loss": 0.0153,
+      "step": 850
+    },
+    {
+      "epoch": 29.655172413793103,
+      "grad_norm": 0.36752381920814514,
+      "learning_rate": 3.054187192118227e-06,
+      "loss": 0.014,
+      "step": 860
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 0.6769506931304932,
+      "learning_rate": 2.8571428571428573e-06,
+      "loss": 0.018,
+      "step": 870
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.02924039028584957,
+      "eval_runtime": 0.102,
+      "eval_samples_per_second": 58.797,
+      "eval_steps_per_second": 19.599,
+      "step": 870
+    },
+    {
+      "epoch": 30.344827586206897,
+      "grad_norm": 0.676186740398407,
+      "learning_rate": 2.660098522167488e-06,
+      "loss": 0.0202,
+      "step": 880
+    },
+    {
+      "epoch": 30.689655172413794,
+      "grad_norm": 0.2909271717071533,
+      "learning_rate": 2.4630541871921186e-06,
+      "loss": 0.0105,
+      "step": 890
+    },
+    {
+      "epoch": 31.0,
+      "eval_loss": 0.030303308740258217,
+      "eval_runtime": 0.191,
+      "eval_samples_per_second": 31.415,
+      "eval_steps_per_second": 10.472,
+      "step": 899
+    },
+    {
+      "epoch": 31.03448275862069,
+      "grad_norm": 0.8155515193939209,
+      "learning_rate": 2.266009852216749e-06,
+      "loss": 0.0174,
+      "step": 900
+    },
+    {
+      "epoch": 31.379310344827587,
+      "grad_norm": 0.5190662741661072,
+      "learning_rate": 2.0689655172413796e-06,
+      "loss": 0.0157,
+      "step": 910
+    },
+    {
+      "epoch": 31.724137931034484,
+      "grad_norm": 0.8997210264205933,
+      "learning_rate": 1.8719211822660098e-06,
+      "loss": 0.0155,
+      "step": 920
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 0.030399195849895477,
+      "eval_runtime": 0.1899,
+      "eval_samples_per_second": 31.593,
+      "eval_steps_per_second": 10.531,
+      "step": 928
+    },
+    {
+      "epoch": 32.06896551724138,
+      "grad_norm": 0.5701755881309509,
+      "learning_rate": 1.6748768472906405e-06,
+      "loss": 0.0139,
+      "step": 930
+    },
+    {
+      "epoch": 32.41379310344828,
+      "grad_norm": 0.16824859380722046,
+      "learning_rate": 1.4778325123152712e-06,
+      "loss": 0.0113,
+      "step": 940
+    },
+    {
+      "epoch": 32.758620689655174,
+      "grad_norm": 0.5066978931427002,
+      "learning_rate": 1.2807881773399017e-06,
+      "loss": 0.0127,
+      "step": 950
+    },
+    {
+      "epoch": 33.0,
+      "eval_loss": 0.030721982941031456,
+      "eval_runtime": 0.191,
+      "eval_samples_per_second": 31.41,
+      "eval_steps_per_second": 10.47,
+      "step": 957
+    },
+    {
+      "epoch": 33.10344827586207,
+      "grad_norm": 0.5038828253746033,
+      "learning_rate": 1.0837438423645322e-06,
+      "loss": 0.0138,
+      "step": 960
+    },
+    {
+      "epoch": 33.44827586206897,
+      "grad_norm": 0.4406326115131378,
+      "learning_rate": 8.866995073891626e-07,
+      "loss": 0.0116,
+      "step": 970
+    },
+    {
+      "epoch": 33.793103448275865,
+      "grad_norm": 0.3732337951660156,
+      "learning_rate": 6.896551724137931e-07,
+      "loss": 0.0171,
+      "step": 980
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.03042110800743103,
+      "eval_runtime": 0.191,
+      "eval_samples_per_second": 31.415,
+      "eval_steps_per_second": 10.472,
+      "step": 986
+    },
+    {
+      "epoch": 34.13793103448276,
+      "grad_norm": 0.32739463448524475,
+      "learning_rate": 4.926108374384237e-07,
+      "loss": 0.0186,
+      "step": 990
+    },
+    {
+      "epoch": 34.48275862068966,
+      "grad_norm": 0.45314541459083557,
+      "learning_rate": 2.955665024630542e-07,
+      "loss": 0.0108,
+      "step": 1000
+    },
+    {
+      "epoch": 34.827586206896555,
+      "grad_norm": 0.8981533050537109,
+      "learning_rate": 9.852216748768474e-08,
+      "loss": 0.0157,
+      "step": 1010
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1015,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 35,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2159634677760000.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

json_extraction_point_activity/checkpoint-1015/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:333cc851b675d7a01620eeba59cdfbc1a624d74927d086ab660bd04fef9b6029
+size 5240

json_extraction_point_activity/checkpoint-500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dac1c68bd5ddfee1bd36e872a6fb47a5f809fc491c8d61b7ee22e498a0b7c3d7
 size 2950734544

 version https://git-lfs.github.com/spec/v1
+oid sha256:87363b3a1b2a51942b6c278f69df9a806706e5d83c60c65870a507e043356124
 size 2950734544

json_extraction_point_activity/checkpoint-500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33915ed8c8c005cb2285418a69ed4291c58470f07ae0d5f91aed2346d287361e
 size 5901778825

 version https://git-lfs.github.com/spec/v1
+oid sha256:26c2d8aae51544bc1ae1adf721bf158fe114281c194c7e88ada3907e4afe56eb
 size 5901778825

json_extraction_point_activity/checkpoint-500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d8b889645e4f402ba04e157cdd08a05cb68dd7d9f11bb493b1bf76fa6eb8a7e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2533398c3a2262d5247b0295eea340c12039f2768e0c6be8c67c59019ab0553c
 size 14244

json_extraction_point_activity/checkpoint-500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03e6c1dc4044f0c3031e90c1485e3784294b3b11dfa0721002bf880df9139935
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fac53bd556f9070ef9763eb8ffdc7241c2002524738db57098477c02123b9841
 size 1064

json_extraction_point_activity/checkpoint-500/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 20.833333333333332,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": false,
@@ -9,518 +9,494 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.4166666666666667,
-      "grad_norm": 57.950931549072266,
-      "learning_rate": 1.9761904761904763e-05,
-      "loss": 12.3716,
       "step": 10
     },
     {
-      "epoch": 0.8333333333333334,
-      "grad_norm": 52.104652404785156,
-      "learning_rate": 1.9523809523809524e-05,
-      "loss": 7.0679,
       "step": 20
     },
     {
       "epoch": 1.0,
-      "eval_loss": 2.7666285037994385,
-      "eval_runtime": 0.1913,
-      "eval_samples_per_second": 26.135,
-      "eval_steps_per_second": 10.454,
-      "step": 24
     },
     {
-      "epoch": 1.25,
-      "grad_norm": 31.3590087890625,
-      "learning_rate": 1.928571428571429e-05,
-      "loss": 3.499,
       "step": 30
     },
     {
-      "epoch": 1.6666666666666665,
-      "grad_norm": 5.804717063903809,
-      "learning_rate": 1.904761904761905e-05,
-      "loss": 1.3892,
       "step": 40
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.43550997972488403,
-      "eval_runtime": 0.1886,
-      "eval_samples_per_second": 26.504,
-      "eval_steps_per_second": 10.602,
-      "step": 48
     },
     {
-      "epoch": 2.0833333333333335,
-      "grad_norm": 3.528578042984009,
-      "learning_rate": 1.880952380952381e-05,
-      "loss": 0.7215,
-      "step": 50
     },
     {
-      "epoch": 2.5,
-      "grad_norm": 2.6735429763793945,
-      "learning_rate": 1.8571428571428575e-05,
-      "loss": 0.5029,
       "step": 60
     },
     {
-      "epoch": 2.9166666666666665,
-      "grad_norm": 2.6698122024536133,
-      "learning_rate": 1.8333333333333333e-05,
-      "loss": 0.3523,
       "step": 70
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 0.15193703770637512,
-      "eval_runtime": 0.1931,
-      "eval_samples_per_second": 25.899,
-      "eval_steps_per_second": 10.36,
-      "step": 72
-    },
-    {
-      "epoch": 3.3333333333333335,
-      "grad_norm": 1.314430832862854,
-      "learning_rate": 1.8095238095238097e-05,
-      "loss": 0.2508,
       "step": 80
     },
     {
-      "epoch": 3.75,
-      "grad_norm": 1.6598138809204102,
-      "learning_rate": 1.785714285714286e-05,
-      "loss": 0.2041,
-      "step": 90
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 0.09314510226249695,
-      "eval_runtime": 0.1918,
-      "eval_samples_per_second": 26.075,
-      "eval_steps_per_second": 10.43,
-      "step": 96
     },
     {
-      "epoch": 4.166666666666667,
-      "grad_norm": 1.4283037185668945,
-      "learning_rate": 1.761904761904762e-05,
-      "loss": 0.1733,
       "step": 100
     },
     {
-      "epoch": 4.583333333333333,
-      "grad_norm": 1.2669694423675537,
-      "learning_rate": 1.7380952380952384e-05,
-      "loss": 0.1301,
       "step": 110
     },
     {
-      "epoch": 5.0,
-      "grad_norm": 1.077564001083374,
-      "learning_rate": 1.7142857142857142e-05,
-      "loss": 0.131,
-      "step": 120
     },
     {
-      "epoch": 5.0,
-      "eval_loss": 0.07609681040048599,
-      "eval_runtime": 0.0991,
-      "eval_samples_per_second": 50.479,
-      "eval_steps_per_second": 20.192,
       "step": 120
     },
     {
-      "epoch": 5.416666666666667,
-      "grad_norm": 1.0863076448440552,
-      "learning_rate": 1.6904761904761906e-05,
-      "loss": 0.0968,
       "step": 130
     },
     {
-      "epoch": 5.833333333333333,
-      "grad_norm": 0.9947916865348816,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.1015,
       "step": 140
     },
     {
-      "epoch": 6.0,
-      "eval_loss": 0.06843644380569458,
-      "eval_runtime": 0.191,
-      "eval_samples_per_second": 26.175,
-      "eval_steps_per_second": 10.47,
-      "step": 144
     },
     {
-      "epoch": 6.25,
-      "grad_norm": 0.8523992896080017,
-      "learning_rate": 1.642857142857143e-05,
-      "loss": 0.0789,
       "step": 150
     },
     {
-      "epoch": 6.666666666666667,
-      "grad_norm": 2.2475197315216064,
-      "learning_rate": 1.6190476190476193e-05,
-      "loss": 0.0831,
       "step": 160
     },
     {
-      "epoch": 7.0,
-      "eval_loss": 0.06810685992240906,
-      "eval_runtime": 0.1922,
-      "eval_samples_per_second": 26.014,
-      "eval_steps_per_second": 10.405,
-      "step": 168
     },
     {
-      "epoch": 7.083333333333333,
-      "grad_norm": 1.283435344696045,
-      "learning_rate": 1.5952380952380954e-05,
-      "loss": 0.0726,
-      "step": 170
     },
     {
-      "epoch": 7.5,
-      "grad_norm": 0.7859775424003601,
-      "learning_rate": 1.5714285714285715e-05,
-      "loss": 0.0751,
       "step": 180
     },
     {
-      "epoch": 7.916666666666667,
-      "grad_norm": 1.2889643907546997,
-      "learning_rate": 1.5476190476190476e-05,
-      "loss": 0.0541,
       "step": 190
     },
     {
-      "epoch": 8.0,
-      "eval_loss": 0.06697859615087509,
-      "eval_runtime": 0.1877,
-      "eval_samples_per_second": 26.637,
-      "eval_steps_per_second": 10.655,
-      "step": 192
-    },
-    {
-      "epoch": 8.333333333333334,
-      "grad_norm": 1.0495927333831787,
-      "learning_rate": 1.523809523809524e-05,
-      "loss": 0.0474,
       "step": 200
     },
     {
-      "epoch": 8.75,
-      "grad_norm": 0.7832169532775879,
-      "learning_rate": 1.5000000000000002e-05,
-      "loss": 0.0565,
-      "step": 210
     },
     {
-      "epoch": 9.0,
-      "eval_loss": 0.06908619403839111,
-      "eval_runtime": 0.19,
-      "eval_samples_per_second": 26.312,
-      "eval_steps_per_second": 10.525,
-      "step": 216
     },
     {
-      "epoch": 9.166666666666666,
-      "grad_norm": 1.551951289176941,
-      "learning_rate": 1.4761904761904763e-05,
-      "loss": 0.0509,
       "step": 220
     },
     {
-      "epoch": 9.583333333333334,
-      "grad_norm": 0.6954114437103271,
-      "learning_rate": 1.4523809523809524e-05,
-      "loss": 0.0487,
       "step": 230
     },
     {
-      "epoch": 10.0,
-      "grad_norm": 1.1518425941467285,
-      "learning_rate": 1.4285714285714287e-05,
-      "loss": 0.0421,
-      "step": 240
     },
     {
-      "epoch": 10.0,
-      "eval_loss": 0.06548431515693665,
-      "eval_runtime": 0.0985,
-      "eval_samples_per_second": 50.777,
-      "eval_steps_per_second": 20.311,
       "step": 240
     },
     {
-      "epoch": 10.416666666666666,
-      "grad_norm": 0.5938514471054077,
-      "learning_rate": 1.4047619047619048e-05,
-      "loss": 0.037,
       "step": 250
     },
     {
-      "epoch": 10.833333333333334,
-      "grad_norm": 0.6409568190574646,
-      "learning_rate": 1.3809523809523811e-05,
-      "loss": 0.0538,
       "step": 260
     },
     {
-      "epoch": 11.0,
-      "eval_loss": 0.06579773128032684,
-      "eval_runtime": 0.19,
-      "eval_samples_per_second": 26.317,
-      "eval_steps_per_second": 10.527,
-      "step": 264
     },
     {
-      "epoch": 11.25,
-      "grad_norm": 0.4954162836074829,
-      "learning_rate": 1.3571428571428574e-05,
-      "loss": 0.0418,
       "step": 270
     },
     {
-      "epoch": 11.666666666666666,
-      "grad_norm": 1.2319365739822388,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 0.0406,
       "step": 280
     },
     {
-      "epoch": 12.0,
-      "eval_loss": 0.065009705722332,
-      "eval_runtime": 0.1877,
-      "eval_samples_per_second": 26.643,
-      "eval_steps_per_second": 10.657,
-      "step": 288
     },
     {
-      "epoch": 12.083333333333334,
-      "grad_norm": 0.4227233827114105,
-      "learning_rate": 1.3095238095238096e-05,
-      "loss": 0.0365,
       "step": 290
     },
     {
-      "epoch": 12.5,
-      "grad_norm": 0.860186755657196,
-      "learning_rate": 1.2857142857142859e-05,
-      "loss": 0.0376,
       "step": 300
     },
     {
-      "epoch": 12.916666666666666,
-      "grad_norm": 0.6124868392944336,
-      "learning_rate": 1.261904761904762e-05,
-      "loss": 0.0389,
       "step": 310
     },
     {
-      "epoch": 13.0,
-      "eval_loss": 0.06893934309482574,
-      "eval_runtime": 0.1868,
-      "eval_samples_per_second": 26.769,
-      "eval_steps_per_second": 10.708,
-      "step": 312
     },
     {
-      "epoch": 13.333333333333334,
-      "grad_norm": 0.3505653738975525,
-      "learning_rate": 1.2380952380952383e-05,
-      "loss": 0.0274,
       "step": 320
     },
     {
-      "epoch": 13.75,
-      "grad_norm": 0.8498353362083435,
-      "learning_rate": 1.2142857142857142e-05,
-      "loss": 0.0322,
       "step": 330
     },
     {
-      "epoch": 14.0,
-      "eval_loss": 0.07290869951248169,
-      "eval_runtime": 0.1947,
-      "eval_samples_per_second": 25.679,
-      "eval_steps_per_second": 10.271,
-      "step": 336
-    },
-    {
-      "epoch": 14.166666666666666,
-      "grad_norm": 0.6511815786361694,
-      "learning_rate": 1.1904761904761905e-05,
-      "loss": 0.0318,
       "step": 340
     },
     {
-      "epoch": 14.583333333333334,
-      "grad_norm": 1.0918514728546143,
-      "learning_rate": 1.1666666666666668e-05,
-      "loss": 0.0277,
-      "step": 350
     },
     {
-      "epoch": 15.0,
-      "grad_norm": 0.7109629511833191,
-      "learning_rate": 1.1428571428571429e-05,
-      "loss": 0.0387,
-      "step": 360
     },
     {
-      "epoch": 15.0,
-      "eval_loss": 0.07193797826766968,
-      "eval_runtime": 0.1001,
-      "eval_samples_per_second": 49.943,
-      "eval_steps_per_second": 19.977,
       "step": 360
     },
     {
-      "epoch": 15.416666666666666,
-      "grad_norm": 1.073655128479004,
-      "learning_rate": 1.1190476190476192e-05,
-      "loss": 0.0283,
       "step": 370
     },
     {
-      "epoch": 15.833333333333334,
-      "grad_norm": 0.4060705006122589,
-      "learning_rate": 1.0952380952380955e-05,
-      "loss": 0.0283,
-      "step": 380
     },
     {
-      "epoch": 16.0,
-      "eval_loss": 0.0718567967414856,
-      "eval_runtime": 0.1894,
-      "eval_samples_per_second": 26.402,
-      "eval_steps_per_second": 10.561,
-      "step": 384
     },
     {
-      "epoch": 16.25,
-      "grad_norm": 0.6933162212371826,
-      "learning_rate": 1.0714285714285714e-05,
-      "loss": 0.0355,
       "step": 390
     },
     {
-      "epoch": 16.666666666666668,
-      "grad_norm": 0.9838053584098816,
-      "learning_rate": 1.0476190476190477e-05,
-      "loss": 0.0272,
       "step": 400
     },
     {
-      "epoch": 17.0,
-      "eval_loss": 0.07115109264850616,
-      "eval_runtime": 0.1928,
-      "eval_samples_per_second": 25.937,
-      "eval_steps_per_second": 10.375,
-      "step": 408
     },
     {
-      "epoch": 17.083333333333332,
-      "grad_norm": 0.3024757206439972,
-      "learning_rate": 1.0238095238095238e-05,
-      "loss": 0.0211,
       "step": 410
     },
     {
-      "epoch": 17.5,
-      "grad_norm": 0.606316328048706,
-      "learning_rate": 1e-05,
-      "loss": 0.0295,
       "step": 420
     },
     {
-      "epoch": 17.916666666666668,
-      "grad_norm": 0.5690513253211975,
-      "learning_rate": 9.761904761904762e-06,
-      "loss": 0.0307,
       "step": 430
     },
     {
-      "epoch": 18.0,
-      "eval_loss": 0.07331715524196625,
-      "eval_runtime": 0.1902,
-      "eval_samples_per_second": 26.283,
-      "eval_steps_per_second": 10.513,
-      "step": 432
     },
     {
-      "epoch": 18.333333333333332,
-      "grad_norm": 0.4299153983592987,
-      "learning_rate": 9.523809523809525e-06,
-      "loss": 0.0201,
       "step": 440
     },
     {
-      "epoch": 18.75,
-      "grad_norm": 0.6338627338409424,
-      "learning_rate": 9.285714285714288e-06,
-      "loss": 0.0258,
       "step": 450
     },
     {
-      "epoch": 19.0,
-      "eval_loss": 0.0750732421875,
-      "eval_runtime": 0.188,
-      "eval_samples_per_second": 26.599,
-      "eval_steps_per_second": 10.64,
-      "step": 456
     },
     {
-      "epoch": 19.166666666666668,
-      "grad_norm": 0.5476926565170288,
-      "learning_rate": 9.047619047619049e-06,
-      "loss": 0.0291,
-      "step": 460
     },
     {
-      "epoch": 19.583333333333332,
-      "grad_norm": 0.3064030706882477,
-      "learning_rate": 8.80952380952381e-06,
-      "loss": 0.0259,
       "step": 470
     },
     {
-      "epoch": 20.0,
-      "grad_norm": 0.7045935392379761,
-      "learning_rate": 8.571428571428571e-06,
-      "loss": 0.0192,
       "step": 480
     },
     {
-      "epoch": 20.0,
-      "eval_loss": 0.07358075678348541,
-      "eval_runtime": 0.1059,
-      "eval_samples_per_second": 47.21,
-      "eval_steps_per_second": 18.884,
-      "step": 480
     },
     {
-      "epoch": 20.416666666666668,
-      "grad_norm": 0.4414753019809723,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 0.0267,
-      "step": 490
     },
     {
-      "epoch": 20.833333333333332,
-      "grad_norm": 0.2409076988697052,
-      "learning_rate": 8.095238095238097e-06,
-      "loss": 0.0188,
       "step": 500
     }
   ],
   "logging_steps": 10,
-  "max_steps": 840,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 35,
   "save_steps": 500,
@@ -536,7 +512,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1071698411520000.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 17.24137931034483,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.3448275862068966,
+      "grad_norm": 174.2040557861328,
+      "learning_rate": 1.9802955665024632e-05,
+      "loss": 11.9232,
       "step": 10
     },
     {
+      "epoch": 0.6896551724137931,
+      "grad_norm": 54.92245101928711,
+      "learning_rate": 1.9605911330049263e-05,
+      "loss": 6.0635,
       "step": 20
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.8173177242279053,
+      "eval_runtime": 0.1894,
+      "eval_samples_per_second": 31.679,
+      "eval_steps_per_second": 10.56,
+      "step": 29
     },
     {
+      "epoch": 1.0344827586206897,
+      "grad_norm": 16.176136016845703,
+      "learning_rate": 1.9408866995073893e-05,
+      "loss": 2.7637,
       "step": 30
     },
     {
+      "epoch": 1.3793103448275863,
+      "grad_norm": 5.2406907081604,
+      "learning_rate": 1.9211822660098524e-05,
+      "loss": 1.0566,
       "step": 40
     },
     {
+      "epoch": 1.7241379310344827,
+      "grad_norm": 3.6556057929992676,
+      "learning_rate": 1.9014778325123154e-05,
+      "loss": 0.6543,
+      "step": 50
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 0.26999202370643616,
+      "eval_runtime": 0.1963,
+      "eval_samples_per_second": 30.571,
+      "eval_steps_per_second": 10.19,
+      "step": 58
     },
     {
+      "epoch": 2.0689655172413794,
+      "grad_norm": 1.8488504886627197,
+      "learning_rate": 1.8817733990147784e-05,
+      "loss": 0.4713,
       "step": 60
     },
     {
+      "epoch": 2.413793103448276,
+      "grad_norm": 2.723362922668457,
+      "learning_rate": 1.8620689655172415e-05,
+      "loss": 0.3144,
       "step": 70
     },
     {
+      "epoch": 2.7586206896551726,
+      "grad_norm": 1.8972634077072144,
+      "learning_rate": 1.8423645320197045e-05,
+      "loss": 0.2604,
       "step": 80
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 0.09994816780090332,
+      "eval_runtime": 0.1912,
+      "eval_samples_per_second": 31.381,
+      "eval_steps_per_second": 10.46,
+      "step": 87
     },
     {
+      "epoch": 3.103448275862069,
+      "grad_norm": 3.115511417388916,
+      "learning_rate": 1.8226600985221676e-05,
+      "loss": 0.2067,
+      "step": 90
     },
     {
+      "epoch": 3.4482758620689653,
+      "grad_norm": 1.7388259172439575,
+      "learning_rate": 1.8029556650246306e-05,
+      "loss": 0.1494,
       "step": 100
     },
     {
+      "epoch": 3.793103448275862,
+      "grad_norm": 1.2075275182724,
+      "learning_rate": 1.7832512315270937e-05,
+      "loss": 0.1411,
       "step": 110
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 0.05977391079068184,
+      "eval_runtime": 0.1933,
+      "eval_samples_per_second": 31.034,
+      "eval_steps_per_second": 10.345,
+      "step": 116
     },
     {
+      "epoch": 4.137931034482759,
+      "grad_norm": 1.7329133749008179,
+      "learning_rate": 1.7635467980295567e-05,
+      "loss": 0.1196,
       "step": 120
     },
     {
+      "epoch": 4.482758620689655,
+      "grad_norm": 2.210278272628784,
+      "learning_rate": 1.7438423645320198e-05,
+      "loss": 0.1132,
       "step": 130
     },
     {
+      "epoch": 4.827586206896552,
+      "grad_norm": 1.0056334733963013,
+      "learning_rate": 1.7241379310344828e-05,
+      "loss": 0.0789,
       "step": 140
     },
     {
+      "epoch": 5.0,
+      "eval_loss": 0.04751617833971977,
+      "eval_runtime": 0.1898,
+      "eval_samples_per_second": 31.605,
+      "eval_steps_per_second": 10.535,
+      "step": 145
     },
     {
+      "epoch": 5.172413793103448,
+      "grad_norm": 0.9742516279220581,
+      "learning_rate": 1.704433497536946e-05,
+      "loss": 0.0927,
       "step": 150
     },
     {
+      "epoch": 5.517241379310345,
+      "grad_norm": 1.4696099758148193,
+      "learning_rate": 1.684729064039409e-05,
+      "loss": 0.0837,
       "step": 160
     },
     {
+      "epoch": 5.862068965517241,
+      "grad_norm": 1.0493124723434448,
+      "learning_rate": 1.665024630541872e-05,
+      "loss": 0.0689,
+      "step": 170
     },
     {
+      "epoch": 6.0,
+      "eval_loss": 0.03317258134484291,
+      "eval_runtime": 0.2045,
+      "eval_samples_per_second": 29.343,
+      "eval_steps_per_second": 9.781,
+      "step": 174
     },
     {
+      "epoch": 6.206896551724138,
+      "grad_norm": 0.9956067204475403,
+      "learning_rate": 1.645320197044335e-05,
+      "loss": 0.0702,
       "step": 180
     },
     {
+      "epoch": 6.551724137931035,
+      "grad_norm": 0.4664933979511261,
+      "learning_rate": 1.625615763546798e-05,
+      "loss": 0.0675,
       "step": 190
     },
     {
+      "epoch": 6.896551724137931,
+      "grad_norm": 1.2444266080856323,
+      "learning_rate": 1.605911330049261e-05,
+      "loss": 0.0596,
       "step": 200
     },
     {
+      "epoch": 7.0,
+      "eval_loss": 0.030222313478589058,
+      "eval_runtime": 0.1913,
+      "eval_samples_per_second": 31.365,
+      "eval_steps_per_second": 10.455,
+      "step": 203
     },
     {
+      "epoch": 7.241379310344827,
+      "grad_norm": 0.5432140827178955,
+      "learning_rate": 1.586206896551724e-05,
+      "loss": 0.045,
+      "step": 210
     },
     {
+      "epoch": 7.586206896551724,
+      "grad_norm": 0.7679450511932373,
+      "learning_rate": 1.5665024630541875e-05,
+      "loss": 0.0538,
       "step": 220
     },
     {
+      "epoch": 7.931034482758621,
+      "grad_norm": 0.7759860754013062,
+      "learning_rate": 1.5467980295566506e-05,
+      "loss": 0.0624,
       "step": 230
     },
     {
+      "epoch": 8.0,
+      "eval_loss": 0.02808324061334133,
+      "eval_runtime": 0.2003,
+      "eval_samples_per_second": 29.953,
+      "eval_steps_per_second": 9.984,
+      "step": 232
     },
     {
+      "epoch": 8.275862068965518,
+      "grad_norm": 1.7437331676483154,
+      "learning_rate": 1.5270935960591133e-05,
+      "loss": 0.0369,
       "step": 240
     },
     {
+      "epoch": 8.620689655172415,
+      "grad_norm": 0.5273000597953796,
+      "learning_rate": 1.5073891625615764e-05,
+      "loss": 0.0499,
       "step": 250
     },
     {
+      "epoch": 8.96551724137931,
+      "grad_norm": 0.6120426058769226,
+      "learning_rate": 1.4876847290640396e-05,
+      "loss": 0.0425,
       "step": 260
     },
     {
+      "epoch": 9.0,
+      "eval_loss": 0.03035571426153183,
+      "eval_runtime": 0.1888,
+      "eval_samples_per_second": 31.778,
+      "eval_steps_per_second": 10.593,
+      "step": 261
     },
     {
+      "epoch": 9.310344827586206,
+      "grad_norm": 1.587663173675537,
+      "learning_rate": 1.4679802955665026e-05,
+      "loss": 0.0395,
       "step": 270
     },
     {
+      "epoch": 9.655172413793103,
+      "grad_norm": 0.7260332703590393,
+      "learning_rate": 1.4482758620689657e-05,
+      "loss": 0.0493,
       "step": 280
     },
     {
+      "epoch": 10.0,
+      "grad_norm": 0.9717508554458618,
+      "learning_rate": 1.4285714285714287e-05,
+      "loss": 0.0424,
+      "step": 290
     },
     {
+      "epoch": 10.0,
+      "eval_loss": 0.026125147938728333,
+      "eval_runtime": 0.0989,
+      "eval_samples_per_second": 60.684,
+      "eval_steps_per_second": 20.228,
       "step": 290
     },
     {
+      "epoch": 10.344827586206897,
+      "grad_norm": 0.7487574815750122,
+      "learning_rate": 1.4088669950738918e-05,
+      "loss": 0.0412,
       "step": 300
     },
     {
+      "epoch": 10.689655172413794,
+      "grad_norm": 1.3717066049575806,
+      "learning_rate": 1.3891625615763548e-05,
+      "loss": 0.0296,
       "step": 310
     },
     {
+      "epoch": 11.0,
+      "eval_loss": 0.031011082231998444,
+      "eval_runtime": 0.1922,
+      "eval_samples_per_second": 31.22,
+      "eval_steps_per_second": 10.407,
+      "step": 319
     },
     {
+      "epoch": 11.03448275862069,
+      "grad_norm": 0.6860368847846985,
+      "learning_rate": 1.369458128078818e-05,
+      "loss": 0.0411,
       "step": 320
     },
     {
+      "epoch": 11.379310344827585,
+      "grad_norm": 0.9999271035194397,
+      "learning_rate": 1.3497536945812807e-05,
+      "loss": 0.0358,
       "step": 330
     },
     {
+      "epoch": 11.724137931034482,
+      "grad_norm": 1.2313721179962158,
+      "learning_rate": 1.330049261083744e-05,
+      "loss": 0.0324,
       "step": 340
     },
     {
+      "epoch": 12.0,
+      "eval_loss": 0.029439905658364296,
+      "eval_runtime": 0.2015,
+      "eval_samples_per_second": 29.784,
+      "eval_steps_per_second": 9.928,
+      "step": 348
     },
     {
+      "epoch": 12.068965517241379,
+      "grad_norm": 0.9032502174377441,
+      "learning_rate": 1.310344827586207e-05,
+      "loss": 0.041,
+      "step": 350
     },
     {
+      "epoch": 12.413793103448276,
+      "grad_norm": 0.612800657749176,
+      "learning_rate": 1.29064039408867e-05,
+      "loss": 0.0384,
       "step": 360
     },
     {
+      "epoch": 12.758620689655173,
+      "grad_norm": 0.19512540102005005,
+      "learning_rate": 1.2709359605911331e-05,
+      "loss": 0.0349,
       "step": 370
     },
     {
+      "epoch": 13.0,
+      "eval_loss": 0.02956104278564453,
+      "eval_runtime": 0.1909,
+      "eval_samples_per_second": 31.424,
+      "eval_steps_per_second": 10.475,
+      "step": 377
     },
     {
+      "epoch": 13.10344827586207,
+      "grad_norm": 0.8481155633926392,
+      "learning_rate": 1.2512315270935961e-05,
+      "loss": 0.0271,
+      "step": 380
     },
     {
+      "epoch": 13.448275862068966,
+      "grad_norm": 1.3683249950408936,
+      "learning_rate": 1.2315270935960592e-05,
+      "loss": 0.0265,
       "step": 390
     },
     {
+      "epoch": 13.793103448275861,
+      "grad_norm": 0.6365839838981628,
+      "learning_rate": 1.2118226600985224e-05,
+      "loss": 0.0298,
       "step": 400
     },
     {
+      "epoch": 14.0,
+      "eval_loss": 0.03038203716278076,
+      "eval_runtime": 0.1902,
+      "eval_samples_per_second": 31.538,
+      "eval_steps_per_second": 10.513,
+      "step": 406
     },
     {
+      "epoch": 14.137931034482758,
+      "grad_norm": 0.7672634124755859,
+      "learning_rate": 1.1921182266009855e-05,
+      "loss": 0.0335,
       "step": 410
     },
     {
+      "epoch": 14.482758620689655,
+      "grad_norm": 0.2541676163673401,
+      "learning_rate": 1.1724137931034483e-05,
+      "loss": 0.0286,
       "step": 420
     },
     {
+      "epoch": 14.827586206896552,
+      "grad_norm": 0.8434980511665344,
+      "learning_rate": 1.1527093596059114e-05,
+      "loss": 0.0205,
       "step": 430
     },
     {
+      "epoch": 15.0,
+      "eval_loss": 0.030394822359085083,
+      "eval_runtime": 0.19,
+      "eval_samples_per_second": 31.587,
+      "eval_steps_per_second": 10.529,
+      "step": 435
     },
     {
+      "epoch": 15.172413793103448,
+      "grad_norm": 0.4303562641143799,
+      "learning_rate": 1.1330049261083744e-05,
+      "loss": 0.0323,
       "step": 440
     },
     {
+      "epoch": 15.517241379310345,
+      "grad_norm": 0.42710408568382263,
+      "learning_rate": 1.1133004926108375e-05,
+      "loss": 0.0227,
       "step": 450
     },
     {
+      "epoch": 15.862068965517242,
+      "grad_norm": 0.6126664876937866,
+      "learning_rate": 1.0935960591133005e-05,
+      "loss": 0.0215,
+      "step": 460
     },
     {
+      "epoch": 16.0,
+      "eval_loss": 0.030341001227498055,
+      "eval_runtime": 0.1895,
+      "eval_samples_per_second": 31.669,
+      "eval_steps_per_second": 10.556,
+      "step": 464
     },
     {
+      "epoch": 16.20689655172414,
+      "grad_norm": 0.7011211514472961,
+      "learning_rate": 1.0738916256157637e-05,
+      "loss": 0.0337,
       "step": 470
     },
     {
+      "epoch": 16.551724137931036,
+      "grad_norm": 0.5126092433929443,
+      "learning_rate": 1.0541871921182268e-05,
+      "loss": 0.0233,
       "step": 480
     },
     {
+      "epoch": 16.896551724137932,
+      "grad_norm": 0.9033933281898499,
+      "learning_rate": 1.0344827586206898e-05,
+      "loss": 0.0182,
+      "step": 490
     },
     {
+      "epoch": 17.0,
+      "eval_loss": 0.027958964928984642,
+      "eval_runtime": 0.1902,
+      "eval_samples_per_second": 31.553,
+      "eval_steps_per_second": 10.518,
+      "step": 493
     },
     {
+      "epoch": 17.24137931034483,
+      "grad_norm": 0.4326847493648529,
+      "learning_rate": 1.0147783251231529e-05,
+      "loss": 0.0249,
       "step": 500
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1015,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 35,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1064120745984000.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

json_extraction_point_activity/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8c5865d167b402f00592918cff22eefe5ba34af5683474e67ad686da38ca7c5
 size 2950734544

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a3f3216f61837c04638fd20747110cf419cd0cf7777e19c57b1a79ccbd5cce8
 size 2950734544