Training in progress, step 148, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +271 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:606cb6a3e8b746460a69bb87373968e375011b6fba7af8449abadca398677e82
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:953c61c5559e17ff832dfbc6299726ad0df7053f63d3d1ec66215d178a229c3f
 size 83945296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5571b04e0cc7a76dfc672f8ee7c665d3e99067e38251f5df26c00e2785e4250
 size 43122580

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfb97dbf425537b10e254846bc6db31ea9e3ee94db47607dc39e59078e93813e
 size 43122580

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1034f448c880480cb5aaeba0a571a7a73c9f8f8ea3cf6b46b1ab4365aad57a45
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:345f067230779a595369265188a8b1c66df6a273b8a48973dbe2371aa3dbbf81
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1e1adc68ac37464732ee6ab450d14f2508c0acc3e7d305d49cbcb2391439808
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:41be6dedc995393bbb9b134c6e1cbcb5376e1ee02b2c574fb6a6cc9949532ab1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.751269035532995,
   "eval_steps": 500,
-  "global_step": 111,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -784,6 +784,273 @@
       "learning_rate": 1.5628779114358034e-05,
       "loss": 3.1958,
       "step": 111
     }
   ],
   "logging_steps": 1,
@@ -798,12 +1065,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.554618100136018e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0050761421319796,
   "eval_steps": 500,
+  "global_step": 148,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.5628779114358034e-05,
       "loss": 3.1958,
       "step": 111
+    },
+    {
+      "epoch": 0.7580372250423012,
+      "grad_norm": 2.940979480743408,
+      "learning_rate": 1.4839375161924446e-05,
+      "loss": 3.3009,
+      "step": 112
+    },
+    {
+      "epoch": 0.7648054145516074,
+      "grad_norm": 3.06207013130188,
+      "learning_rate": 1.406694062122389e-05,
+      "loss": 3.2287,
+      "step": 113
+    },
+    {
+      "epoch": 0.7715736040609137,
+      "grad_norm": 3.0322513580322266,
+      "learning_rate": 1.3311848288809813e-05,
+      "loss": 3.1302,
+      "step": 114
+    },
+    {
+      "epoch": 0.7783417935702199,
+      "grad_norm": 2.8478641510009766,
+      "learning_rate": 1.257446259144494e-05,
+      "loss": 3.4677,
+      "step": 115
+    },
+    {
+      "epoch": 0.7851099830795262,
+      "grad_norm": 2.822754383087158,
+      "learning_rate": 1.1855139410219657e-05,
+      "loss": 3.4789,
+      "step": 116
+    },
+    {
+      "epoch": 0.7918781725888325,
+      "grad_norm": 2.8323540687561035,
+      "learning_rate": 1.1154225908794642e-05,
+      "loss": 3.3064,
+      "step": 117
+    },
+    {
+      "epoch": 0.7986463620981388,
+      "grad_norm": 2.916195869445801,
+      "learning_rate": 1.047206036585095e-05,
+      "loss": 3.29,
+      "step": 118
+    },
+    {
+      "epoch": 0.805414551607445,
+      "grad_norm": 2.9813146591186523,
+      "learning_rate": 9.808972011828055e-06,
+      "loss": 2.9577,
+      "step": 119
+    },
+    {
+      "epoch": 0.8121827411167513,
+      "grad_norm": 2.8787038326263428,
+      "learning_rate": 9.16528087002892e-06,
+      "loss": 3.0186,
+      "step": 120
+    },
+    {
+      "epoch": 0.8189509306260575,
+      "grad_norm": 3.055864095687866,
+      "learning_rate": 8.541297602168591e-06,
+      "loss": 3.3334,
+      "step": 121
+    },
+    {
+      "epoch": 0.8257191201353637,
+      "grad_norm": 3.0566341876983643,
+      "learning_rate": 7.937323358440935e-06,
+      "loss": 3.3495,
+      "step": 122
+    },
+    {
+      "epoch": 0.8324873096446701,
+      "grad_norm": 2.9866137504577637,
+      "learning_rate": 7.353649632175957e-06,
+      "loss": 3.5154,
+      "step": 123
+    },
+    {
+      "epoch": 0.8392554991539763,
+      "grad_norm": 2.9870195388793945,
+      "learning_rate": 6.790558119157597e-06,
+      "loss": 3.3266,
+      "step": 124
+    },
+    {
+      "epoch": 0.8460236886632826,
+      "grad_norm": 3.1664063930511475,
+      "learning_rate": 6.248320581670281e-06,
+      "loss": 3.3117,
+      "step": 125
+    },
+    {
+      "epoch": 0.8527918781725888,
+      "grad_norm": 3.2000887393951416,
+      "learning_rate": 5.727198717339511e-06,
+      "loss": 3.4478,
+      "step": 126
+    },
+    {
+      "epoch": 0.8595600676818951,
+      "grad_norm": 3.1794345378875732,
+      "learning_rate": 5.227444032829887e-06,
+      "loss": 3.2662,
+      "step": 127
+    },
+    {
+      "epoch": 0.8663282571912013,
+      "grad_norm": 3.3094160556793213,
+      "learning_rate": 4.74929772246166e-06,
+      "loss": 3.516,
+      "step": 128
+    },
+    {
+      "epoch": 0.8730964467005076,
+      "grad_norm": 3.2829089164733887,
+      "learning_rate": 4.292990551804171e-06,
+      "loss": 3.41,
+      "step": 129
+    },
+    {
+      "epoch": 0.8798646362098139,
+      "grad_norm": 3.497692346572876,
+      "learning_rate": 3.858742746302535e-06,
+      "loss": 3.5923,
+      "step": 130
+    },
+    {
+      "epoch": 0.8866328257191202,
+      "grad_norm": 3.415341377258301,
+      "learning_rate": 3.4467638849912497e-06,
+      "loss": 3.8121,
+      "step": 131
+    },
+    {
+      "epoch": 0.8934010152284264,
+      "grad_norm": 3.6507880687713623,
+      "learning_rate": 3.0572527993460053e-06,
+      "loss": 3.5136,
+      "step": 132
+    },
+    {
+      "epoch": 0.9001692047377327,
+      "grad_norm": 3.711308717727661,
+      "learning_rate": 2.6903974773225702e-06,
+      "loss": 3.7174,
+      "step": 133
+    },
+    {
+      "epoch": 0.9069373942470389,
+      "grad_norm": 3.8556933403015137,
+      "learning_rate": 2.3463749726290286e-06,
+      "loss": 3.6928,
+      "step": 134
+    },
+    {
+      "epoch": 0.9137055837563451,
+      "grad_norm": 4.0776686668396,
+      "learning_rate": 2.0253513192751373e-06,
+      "loss": 4.0913,
+      "step": 135
+    },
+    {
+      "epoch": 0.9204737732656514,
+      "grad_norm": 4.565491676330566,
+      "learning_rate": 1.7274814514400994e-06,
+      "loss": 4.0228,
+      "step": 136
+    },
+    {
+      "epoch": 0.9272419627749577,
+      "grad_norm": 4.521999359130859,
+      "learning_rate": 1.4529091286973995e-06,
+      "loss": 3.9589,
+      "step": 137
+    },
+    {
+      "epoch": 0.934010152284264,
+      "grad_norm": 4.838030815124512,
+      "learning_rate": 1.2017668666327753e-06,
+      "loss": 3.9551,
+      "step": 138
+    },
+    {
+      "epoch": 0.9407783417935702,
+      "grad_norm": 5.700983047485352,
+      "learning_rate": 9.741758728888218e-07,
+      "loss": 4.2368,
+      "step": 139
+    },
+    {
+      "epoch": 0.9475465313028765,
+      "grad_norm": 5.643460273742676,
+      "learning_rate": 7.702459886670788e-07,
+      "loss": 4.3557,
+      "step": 140
+    },
+    {
+      "epoch": 0.9543147208121827,
+      "grad_norm": 5.738959312438965,
+      "learning_rate": 5.900756357159143e-07,
+      "loss": 4.2717,
+      "step": 141
+    },
+    {
+      "epoch": 0.961082910321489,
+      "grad_norm": 6.009876251220703,
+      "learning_rate": 4.337517688296544e-07,
+      "loss": 4.1127,
+      "step": 142
+    },
+    {
+      "epoch": 0.9678510998307953,
+      "grad_norm": 6.47075080871582,
+      "learning_rate": 3.013498338820031e-07,
+      "loss": 4.012,
+      "step": 143
+    },
+    {
+      "epoch": 0.9746192893401016,
+      "grad_norm": 7.140995979309082,
+      "learning_rate": 1.9293373141394122e-07,
+      "loss": 4.1349,
+      "step": 144
+    },
+    {
+      "epoch": 0.9813874788494078,
+      "grad_norm": 2.5970511436462402,
+      "learning_rate": 1.0855578579370695e-07,
+      "loss": 3.1786,
+      "step": 145
+    },
+    {
+      "epoch": 0.988155668358714,
+      "grad_norm": 2.9720969200134277,
+      "learning_rate": 4.825671996370185e-08,
+      "loss": 3.2409,
+      "step": 146
+    },
+    {
+      "epoch": 0.9949238578680203,
+      "grad_norm": 3.734907388687134,
+      "learning_rate": 1.2065635786595586e-08,
+      "loss": 3.6735,
+      "step": 147
+    },
+    {
+      "epoch": 0.9949238578680203,
+      "eval_loss": 0.8590127229690552,
+      "eval_runtime": 12.5982,
+      "eval_samples_per_second": 9.922,
+      "eval_steps_per_second": 2.54,
+      "step": 147
+    },
+    {
+      "epoch": 1.0050761421319796,
+      "grad_norm": 3.801922559738159,
+      "learning_rate": 0.0,
+      "loss": 3.3448,
+      "step": 148
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.0734083567766733e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null