Training in progress, epoch 29, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +123 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1bdcc22122be16bcad201b13438cbcd5bb3a61bbd2cb3d243f13927651c8ef3
 size 990185320

 version https://git-lfs.github.com/spec/v1
+oid sha256:c66c8955128e5e62b623b11b9ae6effa8174d3e5b88cc5a8d94a8e6d659abc1b
 size 990185320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66bba534d6f1ca378d37f9424710e1fbb0cf4f775c1e889d437a4390c2e6da59
 size 1980541387

 version https://git-lfs.github.com/spec/v1
+oid sha256:c77cbc69914cf82936274255b687c22dd295cf06c93e14ff29417415459cea06
 size 1980541387

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c33bcc6689ffa514c871162fcc88c5e26610e3e356b556757408394db2158e3
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ed1a06b153dad4a8a660e42029973a714386f051e63eb7e369425dfe3df9276
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37380fd84c1c4a4c2909f470440f6cf70cc0f0dbedd46d88c29bfc45ff95dfcc
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f1547202e5461888783dd093e6ac1ad6ae74788ba3d5b6af2761bd28f88426a
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 28.0,
   "eval_steps": 500,
-  "global_step": 43092,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3242,6 +3242,126 @@
       "eval_samples_per_second": 22.068,
       "eval_steps_per_second": 2.759,
       "step": 43092
     }
   ],
   "logging_steps": 100,
@@ -3261,7 +3381,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.352643822557594e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 29.0,
   "eval_steps": 500,
+  "global_step": 44631,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.068,
       "eval_steps_per_second": 2.759,
       "step": 43092
+    },
+    {
+      "epoch": 28.00519818063678,
+      "grad_norm": 4.655136585235596,
+      "learning_rate": 3.3257526532380337e-06,
+      "loss": 1.4119,
+      "step": 43100
+    },
+    {
+      "epoch": 28.07017543859649,
+      "grad_norm": 5.602964878082275,
+      "learning_rate": 3.2174572233051767e-06,
+      "loss": 1.3656,
+      "step": 43200
+    },
+    {
+      "epoch": 28.135152696556204,
+      "grad_norm": 3.6727871894836426,
+      "learning_rate": 3.10916179337232e-06,
+      "loss": 1.4041,
+      "step": 43300
+    },
+    {
+      "epoch": 28.20012995451592,
+      "grad_norm": 5.562687397003174,
+      "learning_rate": 3.000866363439463e-06,
+      "loss": 1.4439,
+      "step": 43400
+    },
+    {
+      "epoch": 28.265107212475634,
+      "grad_norm": 3.7093451023101807,
+      "learning_rate": 2.892570933506606e-06,
+      "loss": 1.3836,
+      "step": 43500
+    },
+    {
+      "epoch": 28.33008447043535,
+      "grad_norm": 6.225944519042969,
+      "learning_rate": 2.7842755035737496e-06,
+      "loss": 1.4018,
+      "step": 43600
+    },
+    {
+      "epoch": 28.395061728395063,
+      "grad_norm": 3.9284849166870117,
+      "learning_rate": 2.6759800736408926e-06,
+      "loss": 1.4189,
+      "step": 43700
+    },
+    {
+      "epoch": 28.460038986354775,
+      "grad_norm": 4.287786483764648,
+      "learning_rate": 2.5676846437080356e-06,
+      "loss": 1.4119,
+      "step": 43800
+    },
+    {
+      "epoch": 28.52501624431449,
+      "grad_norm": 5.376986980438232,
+      "learning_rate": 2.459389213775179e-06,
+      "loss": 1.4671,
+      "step": 43900
+    },
+    {
+      "epoch": 28.589993502274204,
+      "grad_norm": 4.01196813583374,
+      "learning_rate": 2.351093783842322e-06,
+      "loss": 1.413,
+      "step": 44000
+    },
+    {
+      "epoch": 28.65497076023392,
+      "grad_norm": 9.470341682434082,
+      "learning_rate": 2.242798353909465e-06,
+      "loss": 1.4883,
+      "step": 44100
+    },
+    {
+      "epoch": 28.719948018193634,
+      "grad_norm": 3.921780586242676,
+      "learning_rate": 2.1345029239766084e-06,
+      "loss": 1.4371,
+      "step": 44200
+    },
+    {
+      "epoch": 28.784925276153345,
+      "grad_norm": 6.419370651245117,
+      "learning_rate": 2.0262074940437514e-06,
+      "loss": 1.468,
+      "step": 44300
+    },
+    {
+      "epoch": 28.84990253411306,
+      "grad_norm": 3.46016263961792,
+      "learning_rate": 1.9179120641108944e-06,
+      "loss": 1.4476,
+      "step": 44400
+    },
+    {
+      "epoch": 28.914879792072774,
+      "grad_norm": 5.6550822257995605,
+      "learning_rate": 1.8096166341780376e-06,
+      "loss": 1.4096,
+      "step": 44500
+    },
+    {
+      "epoch": 28.97985705003249,
+      "grad_norm": 4.346546173095703,
+      "learning_rate": 1.701321204245181e-06,
+      "loss": 1.4135,
+      "step": 44600
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 1.3682384490966797,
+      "eval_runtime": 61.7947,
+      "eval_samples_per_second": 22.138,
+      "eval_steps_per_second": 2.767,
+      "step": 44631
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 6.774142686776525e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null