Training in progress, step 15, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +6 -6
last-checkpoint/adapter_model.safetensors +2 -2
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +108 -1641
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -10,23 +10,23 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 64,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 24,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
-    "o_proj",
     "gate_proj",
-    "down_proj",
     "v_proj",
     "k_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 32,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 16,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_proj",
     "v_proj",
+    "o_proj",
+    "up_proj",
     "k_proj",
+    "q_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d259edcf51a6e65a5e5aa8f076d5bc4bf480fc4b4c59350991263774074d7ea
-size 67662840

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f5168c85d041eb40b539ed1ea4fa405f9e14109cf8ce608d3eac8f26f627745
+size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0503c8ba76bfe0abdcb3e8a6104759013bd2d60c838b4625f0a1ddcf7615226
-size 34607610

 version https://git-lfs.github.com/spec/v1
+oid sha256:87fd6f0b4471cdc416e96626857e0c5e197d9b25e78f6d528666378e766fc69f
+size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bfc5fa47af4dae874a1be827d0f45774971f451a821e11602842d4ee93aaa71
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c683a96b3a33504bcf104bd66d70d07f59ed807698ad96230e879f4b6bf5d00a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29055dd59dc6fec528a1dd0a8f1388fe1bcd85af7ce5330f9713cff07d4913e7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b4906f488285c3d93b3de9477b5cdb50810bb8e8a714368724d443d38a5757a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,1704 +1,171 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.6141732283464565,
-  "eval_steps": 8,
-  "global_step": 210,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.031496062992125984,
-      "grad_norm": 1.069150686264038,
-      "learning_rate": 5.000000000000001e-07,
-      "loss": 1.2798,
       "step": 1
     },
     {
-      "epoch": 0.031496062992125984,
-      "eval_loss": 1.2495309114456177,
-      "eval_runtime": 2.0343,
-      "eval_samples_per_second": 49.157,
-      "eval_steps_per_second": 3.441,
       "step": 1
     },
     {
-      "epoch": 0.06299212598425197,
-      "grad_norm": 1.0647882223129272,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 1.4205,
       "step": 2
     },
     {
-      "epoch": 0.09448818897637795,
-      "grad_norm": 1.0129144191741943,
-      "learning_rate": 1.5e-06,
-      "loss": 1.3129,
       "step": 3
     },
     {
-      "epoch": 0.12598425196850394,
-      "grad_norm": 1.1409480571746826,
-      "learning_rate": 2.0000000000000003e-06,
-      "loss": 1.4165,
       "step": 4
     },
     {
-      "epoch": 0.15748031496062992,
-      "grad_norm": 1.0780513286590576,
-      "learning_rate": 2.5e-06,
-      "loss": 1.365,
       "step": 5
     },
     {
-      "epoch": 0.1889763779527559,
-      "grad_norm": 1.0233283042907715,
-      "learning_rate": 3e-06,
-      "loss": 1.2365,
       "step": 6
     },
     {
-      "epoch": 0.2204724409448819,
-      "grad_norm": 0.9057336449623108,
-      "learning_rate": 3.5000000000000004e-06,
-      "loss": 1.3164,
       "step": 7
     },
     {
-      "epoch": 0.25196850393700787,
-      "grad_norm": 0.9594066739082336,
-      "learning_rate": 4.000000000000001e-06,
-      "loss": 1.3154,
       "step": 8
     },
     {
-      "epoch": 0.25196850393700787,
-      "eval_loss": 1.2488781213760376,
-      "eval_runtime": 1.9745,
-      "eval_samples_per_second": 50.647,
-      "eval_steps_per_second": 3.545,
-      "step": 8
     },
     {
-      "epoch": 0.28346456692913385,
-      "grad_norm": 0.8745964765548706,
-      "learning_rate": 4.5e-06,
-      "loss": 1.1391,
       "step": 9
     },
     {
-      "epoch": 0.31496062992125984,
-      "grad_norm": 0.9511871933937073,
-      "learning_rate": 5e-06,
-      "loss": 1.0862,
       "step": 10
     },
     {
-      "epoch": 0.3464566929133858,
-      "grad_norm": 0.8791377544403076,
-      "learning_rate": 5.500000000000001e-06,
-      "loss": 1.2867,
       "step": 11
     },
     {
-      "epoch": 0.3779527559055118,
-      "grad_norm": 0.9202072024345398,
-      "learning_rate": 6e-06,
-      "loss": 1.3237,
       "step": 12
     },
     {
-      "epoch": 0.4094488188976378,
-      "grad_norm": 0.9273457527160645,
-      "learning_rate": 6.5000000000000004e-06,
-      "loss": 1.3609,
       "step": 13
     },
     {
-      "epoch": 0.4409448818897638,
-      "grad_norm": 0.8715579509735107,
-      "learning_rate": 7.000000000000001e-06,
-      "loss": 1.2499,
       "step": 14
     },
     {
-      "epoch": 0.47244094488188976,
-      "grad_norm": 0.8558375239372253,
-      "learning_rate": 7.5e-06,
-      "loss": 1.2201,
       "step": 15
     },
     {
-      "epoch": 0.5039370078740157,
-      "grad_norm": 0.9306897521018982,
-      "learning_rate": 8.000000000000001e-06,
-      "loss": 1.3249,
-      "step": 16
-    },
-    {
-      "epoch": 0.5039370078740157,
-      "eval_loss": 1.2311681509017944,
-      "eval_runtime": 1.979,
-      "eval_samples_per_second": 50.531,
-      "eval_steps_per_second": 3.537,
-      "step": 16
-    },
-    {
-      "epoch": 0.5354330708661418,
-      "grad_norm": 0.9032379984855652,
-      "learning_rate": 8.500000000000002e-06,
-      "loss": 1.3434,
-      "step": 17
-    },
-    {
-      "epoch": 0.5669291338582677,
-      "grad_norm": 0.859302282333374,
-      "learning_rate": 9e-06,
-      "loss": 1.3049,
-      "step": 18
-    },
-    {
-      "epoch": 0.5984251968503937,
-      "grad_norm": 0.7455488443374634,
-      "learning_rate": 9.5e-06,
-      "loss": 1.3192,
-      "step": 19
-    },
-    {
-      "epoch": 0.6299212598425197,
-      "grad_norm": 0.713253915309906,
-      "learning_rate": 1e-05,
-      "loss": 1.2799,
-      "step": 20
-    },
-    {
-      "epoch": 0.6614173228346457,
-      "grad_norm": 0.5953424572944641,
-      "learning_rate": 1.05e-05,
-      "loss": 1.1514,
-      "step": 21
-    },
-    {
-      "epoch": 0.6929133858267716,
-      "grad_norm": 0.6268596053123474,
-      "learning_rate": 1.1000000000000001e-05,
-      "loss": 1.2747,
-      "step": 22
-    },
-    {
-      "epoch": 0.7244094488188977,
-      "grad_norm": 0.722594141960144,
-      "learning_rate": 1.1500000000000002e-05,
-      "loss": 1.2532,
-      "step": 23
-    },
-    {
-      "epoch": 0.7559055118110236,
-      "grad_norm": 0.5606786012649536,
-      "learning_rate": 1.2e-05,
-      "loss": 1.2336,
-      "step": 24
-    },
-    {
-      "epoch": 0.7559055118110236,
-      "eval_loss": 1.2047480344772339,
-      "eval_runtime": 1.9744,
-      "eval_samples_per_second": 50.649,
-      "eval_steps_per_second": 3.545,
-      "step": 24
-    },
-    {
-      "epoch": 0.7874015748031497,
-      "grad_norm": 0.5434914827346802,
-      "learning_rate": 1.25e-05,
-      "loss": 1.3273,
-      "step": 25
-    },
-    {
-      "epoch": 0.8188976377952756,
-      "grad_norm": 0.589859664440155,
-      "learning_rate": 1.3000000000000001e-05,
-      "loss": 1.2225,
-      "step": 26
-    },
-    {
-      "epoch": 0.8503937007874016,
-      "grad_norm": 0.6487225294113159,
-      "learning_rate": 1.3500000000000001e-05,
-      "loss": 1.2899,
-      "step": 27
-    },
-    {
-      "epoch": 0.8818897637795275,
-      "grad_norm": 0.5731435418128967,
-      "learning_rate": 1.4000000000000001e-05,
-      "loss": 1.237,
-      "step": 28
-    },
-    {
-      "epoch": 0.9133858267716536,
-      "grad_norm": 0.6190696358680725,
-      "learning_rate": 1.45e-05,
-      "loss": 1.2299,
-      "step": 29
-    },
-    {
-      "epoch": 0.9448818897637795,
-      "grad_norm": 0.548401951789856,
-      "learning_rate": 1.5e-05,
-      "loss": 1.2117,
-      "step": 30
-    },
-    {
-      "epoch": 0.9763779527559056,
-      "grad_norm": 0.6051440834999084,
-      "learning_rate": 1.55e-05,
-      "loss": 1.2396,
-      "step": 31
-    },
-    {
-      "epoch": 1.0078740157480315,
-      "grad_norm": 0.5788630247116089,
-      "learning_rate": 1.6000000000000003e-05,
-      "loss": 1.235,
-      "step": 32
-    },
-    {
-      "epoch": 1.0078740157480315,
-      "eval_loss": 1.1931809186935425,
-      "eval_runtime": 1.9767,
-      "eval_samples_per_second": 50.589,
-      "eval_steps_per_second": 3.541,
-      "step": 32
-    },
-    {
-      "epoch": 1.0393700787401574,
-      "grad_norm": 0.6048874258995056,
-      "learning_rate": 1.65e-05,
-      "loss": 1.2221,
-      "step": 33
-    },
-    {
-      "epoch": 1.0708661417322836,
-      "grad_norm": 0.6334845423698425,
-      "learning_rate": 1.7000000000000003e-05,
-      "loss": 1.2613,
-      "step": 34
-    },
-    {
-      "epoch": 1.1023622047244095,
-      "grad_norm": 0.5881842970848083,
-      "learning_rate": 1.75e-05,
-      "loss": 1.264,
-      "step": 35
-    },
-    {
-      "epoch": 1.1338582677165354,
-      "grad_norm": 0.5609626173973083,
-      "learning_rate": 1.8e-05,
-      "loss": 1.2696,
-      "step": 36
-    },
-    {
-      "epoch": 1.1653543307086613,
-      "grad_norm": 0.47871723771095276,
-      "learning_rate": 1.85e-05,
-      "loss": 1.1659,
-      "step": 37
-    },
-    {
-      "epoch": 1.1968503937007875,
-      "grad_norm": 0.5133270025253296,
-      "learning_rate": 1.9e-05,
-      "loss": 1.1731,
-      "step": 38
-    },
-    {
-      "epoch": 1.2283464566929134,
-      "grad_norm": 0.49426957964897156,
-      "learning_rate": 1.9500000000000003e-05,
-      "loss": 1.0909,
-      "step": 39
-    },
-    {
-      "epoch": 1.2598425196850394,
-      "grad_norm": 0.4927002191543579,
-      "learning_rate": 2e-05,
-      "loss": 1.2591,
-      "step": 40
-    },
-    {
-      "epoch": 1.2598425196850394,
-      "eval_loss": 1.1798231601715088,
-      "eval_runtime": 2.2274,
-      "eval_samples_per_second": 44.895,
-      "eval_steps_per_second": 3.143,
-      "step": 40
-    },
-    {
-      "epoch": 1.2913385826771653,
-      "grad_norm": 0.5016794800758362,
-      "learning_rate": 2.05e-05,
-      "loss": 1.1344,
-      "step": 41
-    },
-    {
-      "epoch": 1.3228346456692912,
-      "grad_norm": 0.5014638304710388,
-      "learning_rate": 2.1e-05,
-      "loss": 1.1438,
-      "step": 42
-    },
-    {
-      "epoch": 1.3543307086614174,
-      "grad_norm": 0.4870070517063141,
-      "learning_rate": 2.15e-05,
-      "loss": 1.2946,
-      "step": 43
-    },
-    {
-      "epoch": 1.3858267716535433,
-      "grad_norm": 0.5146998763084412,
-      "learning_rate": 2.2000000000000003e-05,
-      "loss": 1.122,
-      "step": 44
-    },
-    {
-      "epoch": 1.4173228346456692,
-      "grad_norm": 0.5737994313240051,
-      "learning_rate": 2.25e-05,
-      "loss": 1.2749,
-      "step": 45
-    },
-    {
-      "epoch": 1.4488188976377954,
-      "grad_norm": 0.5805953145027161,
-      "learning_rate": 2.3000000000000003e-05,
-      "loss": 1.2347,
-      "step": 46
-    },
-    {
-      "epoch": 1.4803149606299213,
-      "grad_norm": 0.5060011744499207,
-      "learning_rate": 2.35e-05,
-      "loss": 1.1806,
-      "step": 47
-    },
-    {
-      "epoch": 1.5118110236220472,
-      "grad_norm": 0.5228325128555298,
-      "learning_rate": 2.4e-05,
-      "loss": 1.1836,
-      "step": 48
-    },
-    {
-      "epoch": 1.5118110236220472,
-      "eval_loss": 1.1722474098205566,
-      "eval_runtime": 1.9903,
-      "eval_samples_per_second": 50.243,
-      "eval_steps_per_second": 3.517,
-      "step": 48
-    },
-    {
-      "epoch": 1.5433070866141732,
-      "grad_norm": 0.49606096744537354,
-      "learning_rate": 2.45e-05,
-      "loss": 1.2222,
-      "step": 49
-    },
-    {
-      "epoch": 1.574803149606299,
-      "grad_norm": 0.37724393606185913,
-      "learning_rate": 2.5e-05,
-      "loss": 1.0979,
-      "step": 50
-    },
-    {
-      "epoch": 1.6062992125984252,
-      "grad_norm": 0.42948251962661743,
-      "learning_rate": 2.5500000000000003e-05,
-      "loss": 1.0678,
-      "step": 51
-    },
-    {
-      "epoch": 1.6377952755905512,
-      "grad_norm": 0.4671652317047119,
-      "learning_rate": 2.6000000000000002e-05,
-      "loss": 1.18,
-      "step": 52
-    },
-    {
-      "epoch": 1.6692913385826773,
-      "grad_norm": 0.44847941398620605,
-      "learning_rate": 2.6500000000000004e-05,
-      "loss": 1.2253,
-      "step": 53
-    },
-    {
-      "epoch": 1.7007874015748032,
-      "grad_norm": 0.4691849946975708,
-      "learning_rate": 2.7000000000000002e-05,
-      "loss": 1.1719,
-      "step": 54
-    },
-    {
-      "epoch": 1.7322834645669292,
-      "grad_norm": 0.505724310874939,
-      "learning_rate": 2.7500000000000004e-05,
-      "loss": 1.235,
-      "step": 55
-    },
-    {
-      "epoch": 1.763779527559055,
-      "grad_norm": 0.48790884017944336,
-      "learning_rate": 2.8000000000000003e-05,
-      "loss": 1.2719,
-      "step": 56
-    },
-    {
-      "epoch": 1.763779527559055,
-      "eval_loss": 1.1640315055847168,
-      "eval_runtime": 1.9729,
-      "eval_samples_per_second": 50.688,
-      "eval_steps_per_second": 3.548,
-      "step": 56
-    },
-    {
-      "epoch": 1.795275590551181,
-      "grad_norm": 0.4780273735523224,
-      "learning_rate": 2.8499999999999998e-05,
-      "loss": 1.3099,
-      "step": 57
-    },
-    {
-      "epoch": 1.826771653543307,
-      "grad_norm": 0.4578011929988861,
-      "learning_rate": 2.9e-05,
-      "loss": 1.3569,
-      "step": 58
-    },
-    {
-      "epoch": 1.858267716535433,
-      "grad_norm": 0.5303736925125122,
-      "learning_rate": 2.95e-05,
-      "loss": 1.145,
-      "step": 59
-    },
-    {
-      "epoch": 1.889763779527559,
-      "grad_norm": 0.5604854226112366,
-      "learning_rate": 3e-05,
-      "loss": 1.231,
-      "step": 60
-    },
-    {
-      "epoch": 1.9212598425196852,
-      "grad_norm": 0.4924694895744324,
-      "learning_rate": 3.05e-05,
-      "loss": 1.1343,
-      "step": 61
-    },
-    {
-      "epoch": 1.952755905511811,
-      "grad_norm": 0.4921957850456238,
-      "learning_rate": 3.1e-05,
-      "loss": 1.3127,
-      "step": 62
-    },
-    {
-      "epoch": 1.984251968503937,
-      "grad_norm": 0.5097357034683228,
-      "learning_rate": 3.15e-05,
-      "loss": 1.2336,
-      "step": 63
-    },
-    {
-      "epoch": 2.015748031496063,
-      "grad_norm": 0.46658650040626526,
-      "learning_rate": 3.2000000000000005e-05,
-      "loss": 1.2083,
-      "step": 64
-    },
-    {
-      "epoch": 2.015748031496063,
-      "eval_loss": 1.1596944332122803,
-      "eval_runtime": 1.9712,
-      "eval_samples_per_second": 50.731,
-      "eval_steps_per_second": 3.551,
-      "step": 64
-    },
-    {
-      "epoch": 2.047244094488189,
-      "grad_norm": 0.46166104078292847,
-      "learning_rate": 3.2500000000000004e-05,
-      "loss": 1.1131,
-      "step": 65
-    },
-    {
-      "epoch": 2.078740157480315,
-      "grad_norm": 0.5125811696052551,
-      "learning_rate": 3.3e-05,
-      "loss": 1.0556,
-      "step": 66
-    },
-    {
-      "epoch": 2.1102362204724407,
-      "grad_norm": 0.5640822649002075,
-      "learning_rate": 3.35e-05,
-      "loss": 1.2563,
-      "step": 67
-    },
-    {
-      "epoch": 2.141732283464567,
-      "grad_norm": 0.5031111836433411,
-      "learning_rate": 3.4000000000000007e-05,
-      "loss": 1.0555,
-      "step": 68
-    },
-    {
-      "epoch": 2.173228346456693,
-      "grad_norm": 0.5319817066192627,
-      "learning_rate": 3.45e-05,
-      "loss": 1.149,
-      "step": 69
-    },
-    {
-      "epoch": 2.204724409448819,
-      "grad_norm": 0.49313291907310486,
-      "learning_rate": 3.5e-05,
-      "loss": 1.1457,
-      "step": 70
-    },
-    {
-      "epoch": 2.236220472440945,
-      "grad_norm": 0.48414379358291626,
-      "learning_rate": 3.55e-05,
-      "loss": 1.2644,
-      "step": 71
-    },
-    {
-      "epoch": 2.267716535433071,
-      "grad_norm": 0.5062035918235779,
-      "learning_rate": 3.6e-05,
-      "loss": 1.2119,
-      "step": 72
-    },
-    {
-      "epoch": 2.267716535433071,
-      "eval_loss": 1.1549252271652222,
-      "eval_runtime": 1.9635,
-      "eval_samples_per_second": 50.93,
-      "eval_steps_per_second": 3.565,
-      "step": 72
-    },
-    {
-      "epoch": 2.2992125984251968,
-      "grad_norm": 0.47118309140205383,
-      "learning_rate": 3.65e-05,
-      "loss": 1.1578,
-      "step": 73
-    },
-    {
-      "epoch": 2.3307086614173227,
-      "grad_norm": 0.5640192627906799,
-      "learning_rate": 3.7e-05,
-      "loss": 1.1214,
-      "step": 74
-    },
-    {
-      "epoch": 2.362204724409449,
-      "grad_norm": 0.4832814633846283,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 1.2154,
-      "step": 75
-    },
-    {
-      "epoch": 2.393700787401575,
-      "grad_norm": 0.48993921279907227,
-      "learning_rate": 3.8e-05,
-      "loss": 1.1292,
-      "step": 76
-    },
-    {
-      "epoch": 2.425196850393701,
-      "grad_norm": 0.4585767388343811,
-      "learning_rate": 3.85e-05,
-      "loss": 1.2205,
-      "step": 77
-    },
-    {
-      "epoch": 2.456692913385827,
-      "grad_norm": 0.47851210832595825,
-      "learning_rate": 3.9000000000000006e-05,
-      "loss": 1.1434,
-      "step": 78
-    },
-    {
-      "epoch": 2.4881889763779528,
-      "grad_norm": 0.48592087626457214,
-      "learning_rate": 3.9500000000000005e-05,
-      "loss": 1.1855,
-      "step": 79
-    },
-    {
-      "epoch": 2.5196850393700787,
-      "grad_norm": 0.5699076652526855,
-      "learning_rate": 4e-05,
-      "loss": 1.2574,
-      "step": 80
-    },
-    {
-      "epoch": 2.5196850393700787,
-      "eval_loss": 1.15181565284729,
-      "eval_runtime": 2.2403,
-      "eval_samples_per_second": 44.638,
-      "eval_steps_per_second": 3.125,
-      "step": 80
-    },
-    {
-      "epoch": 2.5511811023622046,
-      "grad_norm": 0.5299522876739502,
-      "learning_rate": 4.05e-05,
-      "loss": 1.0995,
-      "step": 81
-    },
-    {
-      "epoch": 2.5826771653543306,
-      "grad_norm": 0.5705897808074951,
-      "learning_rate": 4.1e-05,
-      "loss": 1.2274,
-      "step": 82
-    },
-    {
-      "epoch": 2.6141732283464565,
-      "grad_norm": 0.48036718368530273,
-      "learning_rate": 4.15e-05,
-      "loss": 1.0861,
-      "step": 83
-    },
-    {
-      "epoch": 2.6456692913385824,
-      "grad_norm": 0.49471601843833923,
-      "learning_rate": 4.2e-05,
-      "loss": 1.1628,
-      "step": 84
-    },
-    {
-      "epoch": 2.677165354330709,
-      "grad_norm": 0.49998700618743896,
-      "learning_rate": 4.25e-05,
-      "loss": 1.0709,
-      "step": 85
-    },
-    {
-      "epoch": 2.7086614173228347,
-      "grad_norm": 0.5527383685112,
-      "learning_rate": 4.3e-05,
-      "loss": 1.201,
-      "step": 86
-    },
-    {
-      "epoch": 2.7401574803149606,
-      "grad_norm": 0.6283419728279114,
-      "learning_rate": 4.35e-05,
-      "loss": 1.237,
-      "step": 87
-    },
-    {
-      "epoch": 2.7716535433070866,
-      "grad_norm": 0.6050185561180115,
-      "learning_rate": 4.4000000000000006e-05,
-      "loss": 1.025,
-      "step": 88
-    },
-    {
-      "epoch": 2.7716535433070866,
-      "eval_loss": 1.1485306024551392,
-      "eval_runtime": 2.0753,
-      "eval_samples_per_second": 48.185,
-      "eval_steps_per_second": 3.373,
-      "step": 88
-    },
-    {
-      "epoch": 2.8031496062992125,
-      "grad_norm": 0.5350843667984009,
-      "learning_rate": 4.4500000000000004e-05,
-      "loss": 1.1582,
-      "step": 89
-    },
-    {
-      "epoch": 2.8346456692913384,
-      "grad_norm": 0.5085338950157166,
-      "learning_rate": 4.5e-05,
-      "loss": 1.254,
-      "step": 90
-    },
-    {
-      "epoch": 2.866141732283465,
-      "grad_norm": 0.5343408584594727,
-      "learning_rate": 4.55e-05,
-      "loss": 1.0941,
-      "step": 91
-    },
-    {
-      "epoch": 2.8976377952755907,
-      "grad_norm": 0.5207767486572266,
-      "learning_rate": 4.600000000000001e-05,
-      "loss": 1.176,
-      "step": 92
-    },
-    {
-      "epoch": 2.9291338582677167,
-      "grad_norm": 0.6931973695755005,
-      "learning_rate": 4.6500000000000005e-05,
-      "loss": 1.2044,
-      "step": 93
-    },
-    {
-      "epoch": 2.9606299212598426,
-      "grad_norm": 0.5525833964347839,
-      "learning_rate": 4.7e-05,
-      "loss": 1.1156,
-      "step": 94
-    },
-    {
-      "epoch": 2.9921259842519685,
-      "grad_norm": 0.5206693410873413,
-      "learning_rate": 4.75e-05,
-      "loss": 1.1831,
-      "step": 95
-    },
-    {
-      "epoch": 3.0236220472440944,
-      "grad_norm": 0.6194021105766296,
-      "learning_rate": 4.8e-05,
-      "loss": 1.2232,
-      "step": 96
-    },
-    {
-      "epoch": 3.0236220472440944,
-      "eval_loss": 1.1487455368041992,
-      "eval_runtime": 1.9591,
-      "eval_samples_per_second": 51.044,
-      "eval_steps_per_second": 3.573,
-      "step": 96
-    },
-    {
-      "epoch": 3.0551181102362204,
-      "grad_norm": 0.47633522748947144,
-      "learning_rate": 4.85e-05,
-      "loss": 1.0667,
-      "step": 97
-    },
-    {
-      "epoch": 3.0866141732283463,
-      "grad_norm": 0.49245792627334595,
-      "learning_rate": 4.9e-05,
-      "loss": 1.0812,
-      "step": 98
-    },
-    {
-      "epoch": 3.1181102362204722,
-      "grad_norm": 0.49651336669921875,
-      "learning_rate": 4.9500000000000004e-05,
-      "loss": 1.1153,
-      "step": 99
-    },
-    {
-      "epoch": 3.1496062992125986,
-      "grad_norm": 0.5725173354148865,
-      "learning_rate": 5e-05,
-      "loss": 1.1583,
-      "step": 100
-    },
-    {
-      "epoch": 3.1811023622047245,
-      "grad_norm": 0.5892531871795654,
-      "learning_rate": 4.9999567360675626e-05,
-      "loss": 1.1323,
-      "step": 101
-    },
-    {
-      "epoch": 3.2125984251968505,
-      "grad_norm": 0.5684159994125366,
-      "learning_rate": 4.999826945767665e-05,
-      "loss": 1.2006,
-      "step": 102
-    },
-    {
-      "epoch": 3.2440944881889764,
-      "grad_norm": 0.5696210265159607,
-      "learning_rate": 4.999610633592496e-05,
-      "loss": 1.1272,
-      "step": 103
-    },
-    {
-      "epoch": 3.2755905511811023,
-      "grad_norm": 0.6086538434028625,
-      "learning_rate": 4.999307807028871e-05,
-      "loss": 1.1621,
-      "step": 104
-    },
-    {
-      "epoch": 3.2755905511811023,
-      "eval_loss": 1.1464533805847168,
-      "eval_runtime": 1.9521,
-      "eval_samples_per_second": 51.226,
-      "eval_steps_per_second": 3.586,
-      "step": 104
-    },
-    {
-      "epoch": 3.3070866141732282,
-      "grad_norm": 0.543544590473175,
-      "learning_rate": 4.998918476557963e-05,
-      "loss": 1.1049,
-      "step": 105
-    },
-    {
-      "epoch": 3.338582677165354,
-      "grad_norm": 0.6197894811630249,
-      "learning_rate": 4.9984426556549456e-05,
-      "loss": 1.0589,
-      "step": 106
-    },
-    {
-      "epoch": 3.3700787401574805,
-      "grad_norm": 0.553490400314331,
-      "learning_rate": 4.997880360788526e-05,
-      "loss": 1.0755,
-      "step": 107
-    },
-    {
-      "epoch": 3.4015748031496065,
-      "grad_norm": 0.5474947094917297,
-      "learning_rate": 4.997231611420373e-05,
-      "loss": 0.9718,
-      "step": 108
-    },
-    {
-      "epoch": 3.4330708661417324,
-      "grad_norm": 0.6409115791320801,
-      "learning_rate": 4.996496430004446e-05,
-      "loss": 1.0829,
-      "step": 109
-    },
-    {
-      "epoch": 3.4645669291338583,
-      "grad_norm": 0.5846779346466064,
-      "learning_rate": 4.995674841986217e-05,
-      "loss": 1.0633,
-      "step": 110
-    },
-    {
-      "epoch": 3.4960629921259843,
-      "grad_norm": 0.6325021982192993,
-      "learning_rate": 4.9947668758017884e-05,
-      "loss": 1.0721,
-      "step": 111
-    },
-    {
-      "epoch": 3.52755905511811,
-      "grad_norm": 0.6479124426841736,
-      "learning_rate": 4.9937725628769094e-05,
-      "loss": 1.031,
-      "step": 112
-    },
-    {
-      "epoch": 3.52755905511811,
-      "eval_loss": 1.1493302583694458,
-      "eval_runtime": 2.0087,
-      "eval_samples_per_second": 49.783,
-      "eval_steps_per_second": 3.485,
-      "step": 112
-    },
-    {
-      "epoch": 3.559055118110236,
-      "grad_norm": 0.663337767124176,
-      "learning_rate": 4.9926919376258916e-05,
-      "loss": 1.0875,
-      "step": 113
-    },
-    {
-      "epoch": 3.590551181102362,
-      "grad_norm": 0.609626293182373,
-      "learning_rate": 4.991525037450412e-05,
-      "loss": 1.0576,
-      "step": 114
-    },
-    {
-      "epoch": 3.622047244094488,
-      "grad_norm": 0.7602643966674805,
-      "learning_rate": 4.990271902738223e-05,
-      "loss": 1.1482,
-      "step": 115
-    },
-    {
-      "epoch": 3.653543307086614,
-      "grad_norm": 0.7129984498023987,
-      "learning_rate": 4.9889325768617536e-05,
-      "loss": 1.0728,
-      "step": 116
-    },
-    {
-      "epoch": 3.6850393700787403,
-      "grad_norm": 0.6811193823814392,
-      "learning_rate": 4.987507106176606e-05,
-      "loss": 1.126,
-      "step": 117
-    },
-    {
-      "epoch": 3.716535433070866,
-      "grad_norm": 0.6760783195495605,
-      "learning_rate": 4.985995540019955e-05,
-      "loss": 1.3472,
-      "step": 118
-    },
-    {
-      "epoch": 3.748031496062992,
-      "grad_norm": 0.7298296689987183,
-      "learning_rate": 4.984397930708838e-05,
-      "loss": 1.1568,
-      "step": 119
-    },
-    {
-      "epoch": 3.779527559055118,
-      "grad_norm": 0.6873138546943665,
-      "learning_rate": 4.982714333538343e-05,
-      "loss": 1.0529,
-      "step": 120
-    },
-    {
-      "epoch": 3.779527559055118,
-      "eval_loss": 1.1472485065460205,
-      "eval_runtime": 2.0184,
-      "eval_samples_per_second": 49.543,
-      "eval_steps_per_second": 3.468,
-      "step": 120
-    },
-    {
-      "epoch": 3.811023622047244,
-      "grad_norm": 0.5837106108665466,
-      "learning_rate": 4.9809448067796974e-05,
-      "loss": 1.1478,
-      "step": 121
-    },
-    {
-      "epoch": 3.84251968503937,
-      "grad_norm": 0.721906304359436,
-      "learning_rate": 4.9790894116782514e-05,
-      "loss": 1.2416,
-      "step": 122
-    },
-    {
-      "epoch": 3.8740157480314963,
-      "grad_norm": 0.5964561700820923,
-      "learning_rate": 4.977148212451354e-05,
-      "loss": 1.1178,
-      "step": 123
-    },
-    {
-      "epoch": 3.905511811023622,
-      "grad_norm": 0.6578372120857239,
-      "learning_rate": 4.975121276286136e-05,
-      "loss": 1.1086,
-      "step": 124
-    },
-    {
-      "epoch": 3.937007874015748,
-      "grad_norm": 0.7385239601135254,
-      "learning_rate": 4.973008673337181e-05,
-      "loss": 1.1771,
-      "step": 125
-    },
-    {
-      "epoch": 3.968503937007874,
-      "grad_norm": 0.648508608341217,
-      "learning_rate": 4.970810476724097e-05,
-      "loss": 1.1603,
-      "step": 126
-    },
-    {
-      "epoch": 4.0,
-      "grad_norm": 0.7525383830070496,
-      "learning_rate": 4.9685267625289886e-05,
-      "loss": 1.1405,
-      "step": 127
-    },
-    {
-      "epoch": 4.031496062992126,
-      "grad_norm": 0.6271669864654541,
-      "learning_rate": 4.96615760979382e-05,
-      "loss": 1.1122,
-      "step": 128
-    },
-    {
-      "epoch": 4.031496062992126,
-      "eval_loss": 1.1474381685256958,
-      "eval_runtime": 1.9734,
-      "eval_samples_per_second": 50.675,
-      "eval_steps_per_second": 3.547,
-      "step": 128
-    },
-    {
-      "epoch": 4.062992125984252,
-      "grad_norm": 0.6840550899505615,
-      "learning_rate": 4.963703100517684e-05,
-      "loss": 0.9849,
-      "step": 129
-    },
-    {
-      "epoch": 4.094488188976378,
-      "grad_norm": 0.6858397722244263,
-      "learning_rate": 4.9611633196539584e-05,
-      "loss": 1.095,
-      "step": 130
-    },
-    {
-      "epoch": 4.125984251968504,
-      "grad_norm": 0.8086863160133362,
-      "learning_rate": 4.9585383551073694e-05,
-      "loss": 1.0421,
-      "step": 131
-    },
-    {
-      "epoch": 4.15748031496063,
-      "grad_norm": 0.6306203007698059,
-      "learning_rate": 4.955828297730949e-05,
-      "loss": 1.0594,
-      "step": 132
-    },
-    {
-      "epoch": 4.188976377952756,
-      "grad_norm": 0.6755027174949646,
-      "learning_rate": 4.953033241322886e-05,
-      "loss": 1.1747,
-      "step": 133
-    },
-    {
-      "epoch": 4.2204724409448815,
-      "grad_norm": 0.7362006902694702,
-      "learning_rate": 4.950153282623289e-05,
-      "loss": 1.1125,
-      "step": 134
-    },
-    {
-      "epoch": 4.251968503937007,
-      "grad_norm": 0.6847573518753052,
-      "learning_rate": 4.9471885213108274e-05,
-      "loss": 1.0188,
-      "step": 135
-    },
-    {
-      "epoch": 4.283464566929134,
-      "grad_norm": 0.6339418292045593,
-      "learning_rate": 4.9441390599992864e-05,
-      "loss": 1.0234,
-      "step": 136
-    },
-    {
-      "epoch": 4.283464566929134,
-      "eval_loss": 1.1559439897537231,
-      "eval_runtime": 1.9613,
-      "eval_samples_per_second": 50.987,
-      "eval_steps_per_second": 3.569,
-      "step": 136
-    },
-    {
-      "epoch": 4.31496062992126,
-      "grad_norm": 0.7027537822723389,
-      "learning_rate": 4.941005004234018e-05,
-      "loss": 1.1565,
-      "step": 137
-    },
-    {
-      "epoch": 4.346456692913386,
-      "grad_norm": 0.7245253324508667,
-      "learning_rate": 4.937786462488284e-05,
-      "loss": 1.2024,
-      "step": 138
-    },
-    {
-      "epoch": 4.377952755905512,
-      "grad_norm": 0.7252236008644104,
-      "learning_rate": 4.9344835461595014e-05,
-      "loss": 1.0075,
-      "step": 139
-    },
-    {
-      "epoch": 4.409448818897638,
-      "grad_norm": 0.6999779939651489,
-      "learning_rate": 4.93109636956539e-05,
-      "loss": 0.9823,
-      "step": 140
-    },
-    {
-      "epoch": 4.440944881889764,
-      "grad_norm": 0.7879251837730408,
-      "learning_rate": 4.927625049940013e-05,
-      "loss": 1.0108,
-      "step": 141
-    },
-    {
-      "epoch": 4.47244094488189,
-      "grad_norm": 0.7063820958137512,
-      "learning_rate": 4.9240697074297206e-05,
-      "loss": 1.043,
-      "step": 142
-    },
-    {
-      "epoch": 4.503937007874016,
-      "grad_norm": 0.710659921169281,
-      "learning_rate": 4.9204304650889915e-05,
-      "loss": 1.0339,
-      "step": 143
-    },
-    {
-      "epoch": 4.535433070866142,
-      "grad_norm": 0.772346019744873,
-      "learning_rate": 4.9167074488761735e-05,
-      "loss": 0.9867,
-      "step": 144
-    },
-    {
-      "epoch": 4.535433070866142,
-      "eval_loss": 1.1680593490600586,
-      "eval_runtime": 1.9681,
-      "eval_samples_per_second": 50.81,
-      "eval_steps_per_second": 3.557,
-      "step": 144
-    },
-    {
-      "epoch": 4.566929133858268,
-      "grad_norm": 0.8781888484954834,
-      "learning_rate": 4.912900787649124e-05,
-      "loss": 1.0622,
-      "step": 145
-    },
-    {
-      "epoch": 4.5984251968503935,
-      "grad_norm": 0.9489847421646118,
-      "learning_rate": 4.90901061316075e-05,
-      "loss": 1.0378,
-      "step": 146
-    },
-    {
-      "epoch": 4.6299212598425195,
-      "grad_norm": 0.8057307600975037,
-      "learning_rate": 4.90503706005445e-05,
-      "loss": 1.0674,
-      "step": 147
-    },
-    {
-      "epoch": 4.661417322834645,
-      "grad_norm": 0.9859374761581421,
-      "learning_rate": 4.900980265859448e-05,
-      "loss": 1.0841,
-      "step": 148
-    },
-    {
-      "epoch": 4.692913385826771,
-      "grad_norm": 0.8140759468078613,
-      "learning_rate": 4.896840370986042e-05,
-      "loss": 1.0617,
-      "step": 149
-    },
-    {
-      "epoch": 4.724409448818898,
-      "grad_norm": 0.8298155665397644,
-      "learning_rate": 4.892617518720737e-05,
-      "loss": 1.0421,
-      "step": 150
-    },
-    {
-      "epoch": 4.755905511811024,
-      "grad_norm": 0.8481395840644836,
-      "learning_rate": 4.888311855221289e-05,
-      "loss": 1.0279,
-      "step": 151
-    },
-    {
-      "epoch": 4.78740157480315,
-      "grad_norm": 0.7747954726219177,
-      "learning_rate": 4.883923529511646e-05,
-      "loss": 0.9092,
-      "step": 152
-    },
-    {
-      "epoch": 4.78740157480315,
-      "eval_loss": 1.1637229919433594,
-      "eval_runtime": 1.9694,
-      "eval_samples_per_second": 50.777,
-      "eval_steps_per_second": 3.554,
-      "step": 152
-    },
-    {
-      "epoch": 4.818897637795276,
-      "grad_norm": 0.8691744208335876,
-      "learning_rate": 4.8794526934767894e-05,
-      "loss": 1.0147,
-      "step": 153
-    },
-    {
-      "epoch": 4.850393700787402,
-      "grad_norm": 0.8221555352210999,
-      "learning_rate": 4.874899501857477e-05,
-      "loss": 1.0088,
-      "step": 154
-    },
-    {
-      "epoch": 4.881889763779528,
-      "grad_norm": 0.8129372000694275,
-      "learning_rate": 4.87026411224489e-05,
-      "loss": 1.0464,
-      "step": 155
-    },
-    {
-      "epoch": 4.913385826771654,
-      "grad_norm": 0.8731322884559631,
-      "learning_rate": 4.865546685075174e-05,
-      "loss": 1.0963,
-      "step": 156
-    },
-    {
-      "epoch": 4.94488188976378,
-      "grad_norm": 0.9633178114891052,
-      "learning_rate": 4.860747383623889e-05,
-      "loss": 1.0273,
-      "step": 157
-    },
-    {
-      "epoch": 4.9763779527559056,
-      "grad_norm": 0.8986226320266724,
-      "learning_rate": 4.85586637400036e-05,
-      "loss": 1.0807,
-      "step": 158
-    },
-    {
-      "epoch": 5.0078740157480315,
-      "grad_norm": 0.9396881461143494,
-      "learning_rate": 4.8509038251419196e-05,
-      "loss": 0.9067,
-      "step": 159
-    },
-    {
-      "epoch": 5.039370078740157,
-      "grad_norm": 0.8420762419700623,
-      "learning_rate": 4.8458599088080735e-05,
-      "loss": 0.947,
-      "step": 160
-    },
-    {
-      "epoch": 5.039370078740157,
-      "eval_loss": 1.1647462844848633,
-      "eval_runtime": 1.983,
-      "eval_samples_per_second": 50.43,
-      "eval_steps_per_second": 3.53,
-      "step": 160
-    },
-    {
-      "epoch": 5.070866141732283,
-      "grad_norm": 0.8484461307525635,
-      "learning_rate": 4.840734799574546e-05,
-      "loss": 0.9632,
-      "step": 161
-    },
-    {
-      "epoch": 5.102362204724409,
-      "grad_norm": 0.8203635215759277,
-      "learning_rate": 4.83552867482724e-05,
-      "loss": 0.8487,
-      "step": 162
-    },
-    {
-      "epoch": 5.133858267716535,
-      "grad_norm": 0.9048157930374146,
-      "learning_rate": 4.830241714756099e-05,
-      "loss": 1.011,
-      "step": 163
-    },
-    {
-      "epoch": 5.165354330708661,
-      "grad_norm": 0.832145094871521,
-      "learning_rate": 4.82487410234887e-05,
-      "loss": 0.9208,
-      "step": 164
-    },
-    {
-      "epoch": 5.196850393700787,
-      "grad_norm": 0.8314303755760193,
-      "learning_rate": 4.8194260233847695e-05,
-      "loss": 1.048,
-      "step": 165
-    },
-    {
-      "epoch": 5.228346456692913,
-      "grad_norm": 0.8757374882698059,
-      "learning_rate": 4.8138976664280536e-05,
-      "loss": 0.9722,
-      "step": 166
-    },
-    {
-      "epoch": 5.259842519685039,
-      "grad_norm": 0.818915605545044,
-      "learning_rate": 4.8082892228214906e-05,
-      "loss": 0.9581,
-      "step": 167
-    },
-    {
-      "epoch": 5.291338582677166,
-      "grad_norm": 0.8921651244163513,
-      "learning_rate": 4.8026008866797423e-05,
-      "loss": 0.9651,
-      "step": 168
-    },
-    {
-      "epoch": 5.291338582677166,
-      "eval_loss": 1.1861763000488281,
-      "eval_runtime": 3.1874,
-      "eval_samples_per_second": 31.374,
-      "eval_steps_per_second": 2.196,
-      "step": 168
-    },
-    {
-      "epoch": 5.322834645669292,
-      "grad_norm": 0.8719169497489929,
-      "learning_rate": 4.79683285488264e-05,
-      "loss": 0.9496,
-      "step": 169
-    },
-    {
-      "epoch": 5.354330708661418,
-      "grad_norm": 0.8905276656150818,
-      "learning_rate": 4.7909853270683756e-05,
-      "loss": 1.0808,
-      "step": 170
-    },
-    {
-      "epoch": 5.3858267716535435,
-      "grad_norm": 0.9556466341018677,
-      "learning_rate": 4.785058505626587e-05,
-      "loss": 0.8845,
-      "step": 171
-    },
-    {
-      "epoch": 5.417322834645669,
-      "grad_norm": 0.9415910840034485,
-      "learning_rate": 4.779052595691355e-05,
-      "loss": 0.9678,
-      "step": 172
-    },
-    {
-      "epoch": 5.448818897637795,
-      "grad_norm": 0.8661073446273804,
-      "learning_rate": 4.772967805134106e-05,
-      "loss": 1.0017,
-      "step": 173
-    },
-    {
-      "epoch": 5.480314960629921,
-      "grad_norm": 0.9943151473999023,
-      "learning_rate": 4.7668043445564134e-05,
-      "loss": 0.946,
-      "step": 174
-    },
-    {
-      "epoch": 5.511811023622047,
-      "grad_norm": 0.9678016304969788,
-      "learning_rate": 4.7605624272827126e-05,
-      "loss": 0.9621,
-      "step": 175
-    },
-    {
-      "epoch": 5.543307086614173,
-      "grad_norm": 0.9622290134429932,
-      "learning_rate": 4.754242269352912e-05,
-      "loss": 0.8979,
-      "step": 176
-    },
-    {
-      "epoch": 5.543307086614173,
-      "eval_loss": 1.1995248794555664,
-      "eval_runtime": 3.0442,
-      "eval_samples_per_second": 32.849,
-      "eval_steps_per_second": 2.299,
-      "step": 176
-    },
-    {
-      "epoch": 5.574803149606299,
-      "grad_norm": 0.9539031386375427,
-      "learning_rate": 4.747844089514919e-05,
-      "loss": 1.0158,
-      "step": 177
-    },
-    {
-      "epoch": 5.606299212598425,
-      "grad_norm": 1.084650993347168,
-      "learning_rate": 4.7413681092170715e-05,
-      "loss": 0.9219,
-      "step": 178
-    },
-    {
-      "epoch": 5.637795275590551,
-      "grad_norm": 0.9811678528785706,
-      "learning_rate": 4.734814552600469e-05,
-      "loss": 1.0474,
-      "step": 179
-    },
-    {
-      "epoch": 5.669291338582677,
-      "grad_norm": 0.8820479512214661,
-      "learning_rate": 4.728183646491214e-05,
-      "loss": 0.9529,
-      "step": 180
-    },
-    {
-      "epoch": 5.700787401574803,
-      "grad_norm": 1.0495096445083618,
-      "learning_rate": 4.7214756203925676e-05,
-      "loss": 0.9337,
-      "step": 181
-    },
-    {
-      "epoch": 5.73228346456693,
-      "grad_norm": 1.0566222667694092,
-      "learning_rate": 4.7146907064769994e-05,
-      "loss": 0.9897,
-      "step": 182
-    },
-    {
-      "epoch": 5.7637795275590555,
-      "grad_norm": 1.2577701807022095,
-      "learning_rate": 4.7078291395781554e-05,
-      "loss": 1.1532,
-      "step": 183
-    },
-    {
-      "epoch": 5.7952755905511815,
-      "grad_norm": 0.9294533729553223,
-      "learning_rate": 4.700891157182729e-05,
-      "loss": 1.0119,
-      "step": 184
-    },
-    {
-      "epoch": 5.7952755905511815,
-      "eval_loss": 1.192854881286621,
-      "eval_runtime": 3.055,
-      "eval_samples_per_second": 32.733,
-      "eval_steps_per_second": 2.291,
-      "step": 184
-    },
-    {
-      "epoch": 5.826771653543307,
-      "grad_norm": 0.9633037447929382,
-      "learning_rate": 4.693876999422241e-05,
-      "loss": 0.9447,
-      "step": 185
-    },
-    {
-      "epoch": 5.858267716535433,
-      "grad_norm": 0.9411280751228333,
-      "learning_rate": 4.686786909064729e-05,
-      "loss": 0.9115,
-      "step": 186
-    },
-    {
-      "epoch": 5.889763779527559,
-      "grad_norm": 0.9875217080116272,
-      "learning_rate": 4.679621131506347e-05,
-      "loss": 1.0157,
-      "step": 187
-    },
-    {
-      "epoch": 5.921259842519685,
-      "grad_norm": 0.9757392406463623,
-      "learning_rate": 4.6723799147628666e-05,
-      "loss": 0.9835,
-      "step": 188
-    },
-    {
-      "epoch": 5.952755905511811,
-      "grad_norm": 0.987448513507843,
-      "learning_rate": 4.665063509461097e-05,
-      "loss": 1.0326,
-      "step": 189
-    },
-    {
-      "epoch": 5.984251968503937,
-      "grad_norm": 0.985375702381134,
-      "learning_rate": 4.6576721688302105e-05,
-      "loss": 0.8626,
-      "step": 190
-    },
-    {
-      "epoch": 6.015748031496063,
-      "grad_norm": 1.0300512313842773,
-      "learning_rate": 4.650206148692977e-05,
-      "loss": 0.9618,
-      "step": 191
-    },
-    {
-      "epoch": 6.047244094488189,
-      "grad_norm": 0.9991244077682495,
-      "learning_rate": 4.642665707456908e-05,
-      "loss": 0.9045,
-      "step": 192
-    },
-    {
-      "epoch": 6.047244094488189,
-      "eval_loss": 1.2067475318908691,
-      "eval_runtime": 3.6768,
-      "eval_samples_per_second": 27.197,
-      "eval_steps_per_second": 1.904,
-      "step": 192
-    },
-    {
-      "epoch": 6.078740157480315,
-      "grad_norm": 0.8374089598655701,
-      "learning_rate": 4.635051106105316e-05,
-      "loss": 0.867,
-      "step": 193
-    },
-    {
-      "epoch": 6.110236220472441,
-      "grad_norm": 1.0568664073944092,
-      "learning_rate": 4.6273626081882805e-05,
-      "loss": 0.8759,
-      "step": 194
-    },
-    {
-      "epoch": 6.141732283464567,
-      "grad_norm": 1.0698866844177246,
-      "learning_rate": 4.619600479813524e-05,
-      "loss": 0.8402,
-      "step": 195
-    },
-    {
-      "epoch": 6.173228346456693,
-      "grad_norm": 1.1773091554641724,
-      "learning_rate": 4.611764989637205e-05,
-      "loss": 0.9268,
-      "step": 196
-    },
-    {
-      "epoch": 6.2047244094488185,
-      "grad_norm": 1.2211183309555054,
-      "learning_rate": 4.603856408854618e-05,
-      "loss": 0.8635,
-      "step": 197
-    },
-    {
-      "epoch": 6.2362204724409445,
-      "grad_norm": 1.0713794231414795,
-      "learning_rate": 4.595875011190807e-05,
-      "loss": 0.8548,
-      "step": 198
-    },
-    {
-      "epoch": 6.267716535433071,
-      "grad_norm": 1.2533146142959595,
-      "learning_rate": 4.5878210728910894e-05,
-      "loss": 0.8742,
-      "step": 199
-    },
-    {
-      "epoch": 6.299212598425197,
-      "grad_norm": 1.1741169691085815,
-      "learning_rate": 4.579694872711501e-05,
-      "loss": 0.9117,
-      "step": 200
-    },
-    {
-      "epoch": 6.299212598425197,
-      "eval_loss": 1.2343026399612427,
-      "eval_runtime": 3.7714,
-      "eval_samples_per_second": 26.515,
-      "eval_steps_per_second": 1.856,
-      "step": 200
-    },
-    {
-      "epoch": 6.330708661417323,
-      "grad_norm": 1.1068271398544312,
-      "learning_rate": 4.5714966919091415e-05,
-      "loss": 0.8904,
-      "step": 201
-    },
-    {
-      "epoch": 6.362204724409449,
-      "grad_norm": 1.2471762895584106,
-      "learning_rate": 4.563226814232444e-05,
-      "loss": 0.7685,
-      "step": 202
-    },
-    {
-      "epoch": 6.393700787401575,
-      "grad_norm": 1.0919934511184692,
-      "learning_rate": 4.554885525911351e-05,
-      "loss": 0.7867,
-      "step": 203
-    },
-    {
-      "epoch": 6.425196850393701,
-      "grad_norm": 1.1424957513809204,
-      "learning_rate": 4.5464731156474094e-05,
-      "loss": 0.9329,
-      "step": 204
-    },
-    {
-      "epoch": 6.456692913385827,
-      "grad_norm": 1.190438985824585,
-      "learning_rate": 4.5379898746037804e-05,
-      "loss": 0.8624,
-      "step": 205
-    },
-    {
-      "epoch": 6.488188976377953,
-      "grad_norm": 1.210954189300537,
-      "learning_rate": 4.529436096395156e-05,
-      "loss": 0.9547,
-      "step": 206
-    },
-    {
-      "epoch": 6.519685039370079,
-      "grad_norm": 1.2978620529174805,
-      "learning_rate": 4.520812077077604e-05,
-      "loss": 0.8868,
-      "step": 207
-    },
-    {
-      "epoch": 6.551181102362205,
-      "grad_norm": 1.081527590751648,
-      "learning_rate": 4.5121181151383143e-05,
-      "loss": 0.7841,
-      "step": 208
-    },
-    {
-      "epoch": 6.551181102362205,
-      "eval_loss": 1.2477138042449951,
-      "eval_runtime": 3.8991,
-      "eval_samples_per_second": 25.647,
-      "eval_steps_per_second": 1.795,
-      "step": 208
-    },
-    {
-      "epoch": 6.582677165354331,
-      "grad_norm": 1.1496070623397827,
-      "learning_rate": 4.503354511485273e-05,
-      "loss": 0.9487,
-      "step": 209
-    },
-    {
-      "epoch": 6.6141732283464565,
-      "grad_norm": 1.188530683517456,
-      "learning_rate": 4.494521569436845e-05,
-      "loss": 0.9439,
-      "step": 210
     }
   ],
   "logging_steps": 1,
-  "max_steps": 634,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 21,
   "save_steps": 5,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1712,8 +179,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.4155451121664e+16,
-  "train_batch_size": 15,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.4047619047619047,
+  "eval_steps": 3,
+  "global_step": 15,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.09523809523809523,
+      "grad_norm": 0.5343478322029114,
+      "learning_rate": 2e-05,
+      "loss": 1.3356,
       "step": 1
     },
     {
+      "epoch": 0.09523809523809523,
+      "eval_loss": 1.2671657800674438,
+      "eval_runtime": 20.0994,
+      "eval_samples_per_second": 4.975,
+      "eval_steps_per_second": 2.488,
       "step": 1
     },
     {
+      "epoch": 0.19047619047619047,
+      "grad_norm": 0.5495722889900208,
+      "learning_rate": 4e-05,
+      "loss": 1.3576,
       "step": 2
     },
     {
+      "epoch": 0.2857142857142857,
+      "grad_norm": 0.48776495456695557,
+      "learning_rate": 6e-05,
+      "loss": 1.2159,
+      "step": 3
+    },
+    {
+      "epoch": 0.2857142857142857,
+      "eval_loss": 1.2533905506134033,
+      "eval_runtime": 24.7126,
+      "eval_samples_per_second": 4.047,
+      "eval_steps_per_second": 2.023,
       "step": 3
     },
     {
+      "epoch": 0.38095238095238093,
+      "grad_norm": 0.4593156576156616,
+      "learning_rate": 8e-05,
+      "loss": 1.2203,
       "step": 4
     },
     {
+      "epoch": 0.47619047619047616,
+      "grad_norm": 0.3861481249332428,
+      "learning_rate": 0.0001,
+      "loss": 1.278,
       "step": 5
     },
     {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.26556482911109924,
+      "learning_rate": 0.00012,
+      "loss": 1.2716,
       "step": 6
     },
     {
+      "epoch": 0.5714285714285714,
+      "eval_loss": 1.209787130355835,
+      "eval_runtime": 20.5346,
+      "eval_samples_per_second": 4.87,
+      "eval_steps_per_second": 2.435,
+      "step": 6
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.3640616536140442,
+      "learning_rate": 0.00014,
+      "loss": 1.2188,
       "step": 7
     },
     {
+      "epoch": 0.7619047619047619,
+      "grad_norm": 0.49822962284088135,
+      "learning_rate": 0.00016,
+      "loss": 1.2624,
       "step": 8
     },
     {
+      "epoch": 0.8571428571428571,
+      "grad_norm": 0.42707493901252747,
+      "learning_rate": 0.00018,
+      "loss": 1.2697,
+      "step": 9
     },
     {
+      "epoch": 0.8571428571428571,
+      "eval_loss": 1.1909722089767456,
+      "eval_runtime": 20.1688,
+      "eval_samples_per_second": 4.958,
+      "eval_steps_per_second": 2.479,
       "step": 9
     },
     {
+      "epoch": 0.9523809523809523,
+      "grad_norm": 0.27150899171829224,
+      "learning_rate": 0.0002,
+      "loss": 1.215,
       "step": 10
     },
     {
+      "epoch": 1.0238095238095237,
+      "grad_norm": 0.23839783668518066,
+      "learning_rate": 0.00019876883405951377,
+      "loss": 1.2365,
       "step": 11
     },
     {
+      "epoch": 1.119047619047619,
+      "grad_norm": 0.20644636452198029,
+      "learning_rate": 0.00019510565162951537,
+      "loss": 1.2243,
+      "step": 12
+    },
+    {
+      "epoch": 1.119047619047619,
+      "eval_loss": 1.1754947900772095,
+      "eval_runtime": 21.1588,
+      "eval_samples_per_second": 4.726,
+      "eval_steps_per_second": 2.363,
       "step": 12
     },
     {
+      "epoch": 1.2142857142857142,
+      "grad_norm": 0.23169651627540588,
+      "learning_rate": 0.0001891006524188368,
+      "loss": 1.1474,
       "step": 13
     },
     {
+      "epoch": 1.3095238095238095,
+      "grad_norm": 0.21209821105003357,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 1.1395,
       "step": 14
     },
     {
+      "epoch": 1.4047619047619047,
+      "grad_norm": 0.1954081654548645,
+      "learning_rate": 0.00017071067811865476,
+      "loss": 1.1981,
       "step": 15
     },
     {
+      "epoch": 1.4047619047619047,
+      "eval_loss": 1.1603792905807495,
+      "eval_runtime": 16.71,
+      "eval_samples_per_second": 5.984,
+      "eval_steps_per_second": 2.992,
+      "step": 15
     }
   ],
   "logging_steps": 1,
+  "max_steps": 30,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 5,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2835124715520000.0,
+  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:441f7463c0db2e1253eb6ddf59c934fab68dc0782a39afd6c59cfb134e8542f9
 size 6648

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c62cd4a5f5b5d98624b05b91ea66842c68cee52403c2495c0459cf13d17cfcc
 size 6648