Training in progress, epoch 30, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +117 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c66c8955128e5e62b623b11b9ae6effa8174d3e5b88cc5a8d94a8e6d659abc1b
 size 990185320

 version https://git-lfs.github.com/spec/v1
+oid sha256:efa0d3a9c1506002f928fecb048a5cd100d53c2f5b5dbd9403c23027a7acb60c
 size 990185320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c77cbc69914cf82936274255b687c22dd295cf06c93e14ff29417415459cea06
 size 1980541387

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fef191fd03c6714ffbb4b03d87e8dd4d98235051bcb5b2f7eb2e8394c2e9665
 size 1980541387

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ed1a06b153dad4a8a660e42029973a714386f051e63eb7e369425dfe3df9276
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:9044f2a8508562d34a024d3e8ad4386288255ee124dc5623e57819532eef2e88
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f1547202e5461888783dd093e6ac1ad6ae74788ba3d5b6af2761bd28f88426a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:ecea6d0fd3948e5b4ccfc315e9a77fbe98506ece50162f5206e2243ebb2a7de9
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 29.0,
   "eval_steps": 500,
-  "global_step": 44631,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3362,6 +3362,119 @@
       "eval_samples_per_second": 22.138,
       "eval_steps_per_second": 2.767,
       "step": 44631
     }
   ],
   "logging_steps": 100,
@@ -3376,12 +3489,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.774142686776525e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 30.0,
   "eval_steps": 500,
+  "global_step": 46170,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.138,
       "eval_steps_per_second": 2.767,
       "step": 44631
+    },
+    {
+      "epoch": 29.044834307992204,
+      "grad_norm": 5.871100425720215,
+      "learning_rate": 1.593025774312324e-06,
+      "loss": 1.4208,
+      "step": 44700
+    },
+    {
+      "epoch": 29.109811565951915,
+      "grad_norm": 4.591679096221924,
+      "learning_rate": 1.4847303443794673e-06,
+      "loss": 1.3698,
+      "step": 44800
+    },
+    {
+      "epoch": 29.17478882391163,
+      "grad_norm": 4.2391157150268555,
+      "learning_rate": 1.3764349144466105e-06,
+      "loss": 1.411,
+      "step": 44900
+    },
+    {
+      "epoch": 29.239766081871345,
+      "grad_norm": 5.3565239906311035,
+      "learning_rate": 1.2681394845137535e-06,
+      "loss": 1.4736,
+      "step": 45000
+    },
+    {
+      "epoch": 29.30474333983106,
+      "grad_norm": 3.925321578979492,
+      "learning_rate": 1.1598440545808967e-06,
+      "loss": 1.4591,
+      "step": 45100
+    },
+    {
+      "epoch": 29.369720597790774,
+      "grad_norm": 4.0369462966918945,
+      "learning_rate": 1.05154862464804e-06,
+      "loss": 1.4353,
+      "step": 45200
+    },
+    {
+      "epoch": 29.43469785575049,
+      "grad_norm": 6.875803470611572,
+      "learning_rate": 9.43253194715183e-07,
+      "loss": 1.4348,
+      "step": 45300
+    },
+    {
+      "epoch": 29.4996751137102,
+      "grad_norm": 5.557791233062744,
+      "learning_rate": 8.349577647823262e-07,
+      "loss": 1.3936,
+      "step": 45400
+    },
+    {
+      "epoch": 29.564652371669915,
+      "grad_norm": 2.878941059112549,
+      "learning_rate": 7.266623348494695e-07,
+      "loss": 1.4049,
+      "step": 45500
+    },
+    {
+      "epoch": 29.62962962962963,
+      "grad_norm": 4.448305130004883,
+      "learning_rate": 6.183669049166126e-07,
+      "loss": 1.4117,
+      "step": 45600
+    },
+    {
+      "epoch": 29.694606887589345,
+      "grad_norm": 4.321474075317383,
+      "learning_rate": 5.100714749837557e-07,
+      "loss": 1.4495,
+      "step": 45700
+    },
+    {
+      "epoch": 29.75958414554906,
+      "grad_norm": 5.657812118530273,
+      "learning_rate": 4.0177604505089883e-07,
+      "loss": 1.3955,
+      "step": 45800
+    },
+    {
+      "epoch": 29.82456140350877,
+      "grad_norm": 4.73406457901001,
+      "learning_rate": 2.93480615118042e-07,
+      "loss": 1.4954,
+      "step": 45900
+    },
+    {
+      "epoch": 29.889538661468485,
+      "grad_norm": 3.9184389114379883,
+      "learning_rate": 1.851851851851852e-07,
+      "loss": 1.463,
+      "step": 46000
+    },
+    {
+      "epoch": 29.9545159194282,
+      "grad_norm": 3.517953872680664,
+      "learning_rate": 7.688975525232836e-08,
+      "loss": 1.4204,
+      "step": 46100
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 1.3695261478424072,
+      "eval_runtime": 62.0405,
+      "eval_samples_per_second": 22.05,
+      "eval_steps_per_second": 2.756,
+      "step": 46170
     }
   ],
   "logging_steps": 100,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 7.195641550995456e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null