Training in progress, step 2500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +179 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c62db0277afdc3f2ad6dbafa0dd57f53ea9debb5ee9712f0b1547cf8523f1070
 size 3809184360

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fa628227eb6da8969ca4152626ddd662a6bc995ae11c142530103e8d809877f
 size 3809184360

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:994a3b059f463b00db236586003b2652100023cbd4f39b1b1ac679076c611649
 size 2458291491

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff0fa64aedf2efc21c7477814281486dfbb3531005e141ae798b948f4eb3eae1
 size 2458291491

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:376b730bb310b4f7540caf50ba2d9485c55172240b565241043b8847f1833fe8
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:45416cdce28d4e00ea87be782021fe7b8957b5e480b7287f76264062ed6fb579
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:444dae11008b250d18996da8350dc235efbc33e7070670e4ec0778a449b281a5
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:255c20227b8fb2aeae459402d3b34aa327a9576ffbb05f5a57e40623d3a94bf9
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9,
   "eval_steps": 500,
-  "global_step": 2250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1583,6 +1583,181 @@
       "learning_rate": 5.141129032258065e-06,
       "loss": 0.2152,
       "step": 2250
     }
   ],
   "logging_steps": 10,
@@ -1597,12 +1772,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.06788487884288e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.141129032258065e-06,
       "loss": 0.2152,
       "step": 2250
+    },
+    {
+      "epoch": 0.904,
+      "grad_norm": 11.215507507324219,
+      "learning_rate": 4.939516129032258e-06,
+      "loss": 0.3383,
+      "step": 2260
+    },
+    {
+      "epoch": 0.908,
+      "grad_norm": 8.459249496459961,
+      "learning_rate": 4.737903225806452e-06,
+      "loss": 0.301,
+      "step": 2270
+    },
+    {
+      "epoch": 0.912,
+      "grad_norm": 3.8547234535217285,
+      "learning_rate": 4.536290322580646e-06,
+      "loss": 0.2018,
+      "step": 2280
+    },
+    {
+      "epoch": 0.916,
+      "grad_norm": 4.500983238220215,
+      "learning_rate": 4.33467741935484e-06,
+      "loss": 0.2804,
+      "step": 2290
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 6.937648773193359,
+      "learning_rate": 4.133064516129033e-06,
+      "loss": 0.2368,
+      "step": 2300
+    },
+    {
+      "epoch": 0.924,
+      "grad_norm": 9.027796745300293,
+      "learning_rate": 3.931451612903226e-06,
+      "loss": 0.3048,
+      "step": 2310
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": 13.112957954406738,
+      "learning_rate": 3.7298387096774197e-06,
+      "loss": 0.2602,
+      "step": 2320
+    },
+    {
+      "epoch": 0.932,
+      "grad_norm": 8.331156730651855,
+      "learning_rate": 3.5282258064516136e-06,
+      "loss": 0.4963,
+      "step": 2330
+    },
+    {
+      "epoch": 0.936,
+      "grad_norm": 14.943937301635742,
+      "learning_rate": 3.3266129032258062e-06,
+      "loss": 0.2576,
+      "step": 2340
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 9.540063858032227,
+      "learning_rate": 3.125e-06,
+      "loss": 0.2683,
+      "step": 2350
+    },
+    {
+      "epoch": 0.944,
+      "grad_norm": 6.233945369720459,
+      "learning_rate": 2.9233870967741936e-06,
+      "loss": 0.6162,
+      "step": 2360
+    },
+    {
+      "epoch": 0.948,
+      "grad_norm": 5.329911708831787,
+      "learning_rate": 2.721774193548387e-06,
+      "loss": 0.283,
+      "step": 2370
+    },
+    {
+      "epoch": 0.952,
+      "grad_norm": 5.373264789581299,
+      "learning_rate": 2.5201612903225806e-06,
+      "loss": 0.4888,
+      "step": 2380
+    },
+    {
+      "epoch": 0.956,
+      "grad_norm": 5.866879463195801,
+      "learning_rate": 2.318548387096774e-06,
+      "loss": 0.2366,
+      "step": 2390
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 6.051980972290039,
+      "learning_rate": 2.1169354838709676e-06,
+      "loss": 0.2216,
+      "step": 2400
+    },
+    {
+      "epoch": 0.964,
+      "grad_norm": 8.556709289550781,
+      "learning_rate": 1.9153225806451616e-06,
+      "loss": 0.3197,
+      "step": 2410
+    },
+    {
+      "epoch": 0.968,
+      "grad_norm": 5.628035068511963,
+      "learning_rate": 1.7137096774193548e-06,
+      "loss": 0.2376,
+      "step": 2420
+    },
+    {
+      "epoch": 0.972,
+      "grad_norm": 15.512683868408203,
+      "learning_rate": 1.5120967741935486e-06,
+      "loss": 0.2198,
+      "step": 2430
+    },
+    {
+      "epoch": 0.976,
+      "grad_norm": 5.347922325134277,
+      "learning_rate": 1.310483870967742e-06,
+      "loss": 0.2435,
+      "step": 2440
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 7.0029473304748535,
+      "learning_rate": 1.1088709677419356e-06,
+      "loss": 0.202,
+      "step": 2450
+    },
+    {
+      "epoch": 0.984,
+      "grad_norm": 10.346604347229004,
+      "learning_rate": 9.072580645161292e-07,
+      "loss": 0.2372,
+      "step": 2460
+    },
+    {
+      "epoch": 0.988,
+      "grad_norm": 7.6713457107543945,
+      "learning_rate": 7.056451612903225e-07,
+      "loss": 0.6436,
+      "step": 2470
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": 5.280267715454102,
+      "learning_rate": 5.040322580645161e-07,
+      "loss": 0.2172,
+      "step": 2480
+    },
+    {
+      "epoch": 0.996,
+      "grad_norm": 9.70234203338623,
+      "learning_rate": 3.024193548387097e-07,
+      "loss": 0.2253,
+      "step": 2490
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 18.04475975036621,
+      "learning_rate": 1.0080645161290322e-07,
+      "loss": 0.2832,
+      "step": 2500
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.52093647947264e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null