Training in progress, step 1350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:246e9041923ae16d3d22bd9faefa3a81fe679256e2ed44291e0fcea75e5265f1
 size 2188456160

 version https://git-lfs.github.com/spec/v1
+oid sha256:dff843e8014d50d10bec270ddda8dc2e6baebdf793fcd67eebced3c57e02ad40
 size 2188456160

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce0ac0837ca1e42216338266b2c5241e9a95dc9449a1ab47eae7bd131905307d
-size 4296624666

 version https://git-lfs.github.com/spec/v1
+oid sha256:de140360c04781c2fcf93ce4113505bf5ea2998baa46973cb9bf4f062ac6fc59
+size 4296624602

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34ec58efab92925c00db5b872c2e5259dda40fae6665408b7a0f28ca940720e1
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:29772944da4342f7d17c5a95ac8b46ce227fc421640ea452e90feaa067616349
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36ab02583668716ccf13b863e3e39d3ef8a92d21998439cfdb5fbc8f0b8524ae
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:4427ef89ca6aa55d60bb3bbc2571987bf404749fd996b7c1462919265670accf
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.5532429218292236,
-  "best_model_checkpoint": "./output/checkpoint-1200",
-  "epoch": 0.043120485824140284,
   "eval_steps": 150,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -911,6 +911,119 @@
       "eval_samples_per_second": 4.395,
       "eval_steps_per_second": 4.395,
       "step": 1200
     }
   ],
   "logging_steps": 10,
@@ -930,7 +1043,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.2333058127464448e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.5468966960906982,
+  "best_model_checkpoint": "./output/checkpoint-1350",
+  "epoch": 0.04851054655215782,
   "eval_steps": 150,
+  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.395,
       "eval_steps_per_second": 4.395,
       "step": 1200
+    },
+    {
+      "epoch": 0.04347982320600812,
+      "grad_norm": 20.928686141967773,
+      "learning_rate": 1.964692368656166e-05,
+      "loss": 1.603,
+      "step": 1210
+    },
+    {
+      "epoch": 0.04383916058787596,
+      "grad_norm": 16.554222106933594,
+      "learning_rate": 1.9599934836996435e-05,
+      "loss": 1.3694,
+      "step": 1220
+    },
+    {
+      "epoch": 0.044198497969743795,
+      "grad_norm": 17.05143165588379,
+      "learning_rate": 1.9552599890860126e-05,
+      "loss": 1.7721,
+      "step": 1230
+    },
+    {
+      "epoch": 0.044557835351611626,
+      "grad_norm": 16.701725006103516,
+      "learning_rate": 1.9504920793906985e-05,
+      "loss": 1.6165,
+      "step": 1240
+    },
+    {
+      "epoch": 0.04491717273347946,
+      "grad_norm": 16.80068588256836,
+      "learning_rate": 1.945689950603793e-05,
+      "loss": 1.6613,
+      "step": 1250
+    },
+    {
+      "epoch": 0.0452765101153473,
+      "grad_norm": 16.713293075561523,
+      "learning_rate": 1.9408538001220032e-05,
+      "loss": 1.4332,
+      "step": 1260
+    },
+    {
+      "epoch": 0.04563584749721514,
+      "grad_norm": 15.256826400756836,
+      "learning_rate": 1.9359838267405318e-05,
+      "loss": 1.6143,
+      "step": 1270
+    },
+    {
+      "epoch": 0.04599518487908297,
+      "grad_norm": 16.193984985351562,
+      "learning_rate": 1.931080230644911e-05,
+      "loss": 1.4749,
+      "step": 1280
+    },
+    {
+      "epoch": 0.046354522260950805,
+      "grad_norm": 15.51556396484375,
+      "learning_rate": 1.926143213402771e-05,
+      "loss": 1.8499,
+      "step": 1290
+    },
+    {
+      "epoch": 0.04671385964281864,
+      "grad_norm": 14.606731414794922,
+      "learning_rate": 1.921172977955552e-05,
+      "loss": 1.6146,
+      "step": 1300
+    },
+    {
+      "epoch": 0.04707319702468648,
+      "grad_norm": 18.136018753051758,
+      "learning_rate": 1.9161697286101677e-05,
+      "loss": 1.6007,
+      "step": 1310
+    },
+    {
+      "epoch": 0.047432534406554316,
+      "grad_norm": 17.7342472076416,
+      "learning_rate": 1.9111336710306013e-05,
+      "loss": 1.5332,
+      "step": 1320
+    },
+    {
+      "epoch": 0.04779187178842215,
+      "grad_norm": 12.427562713623047,
+      "learning_rate": 1.9060650122294554e-05,
+      "loss": 1.7003,
+      "step": 1330
+    },
+    {
+      "epoch": 0.048151209170289984,
+      "grad_norm": 13.867376327514648,
+      "learning_rate": 1.9009639605594407e-05,
+      "loss": 1.4822,
+      "step": 1340
+    },
+    {
+      "epoch": 0.04851054655215782,
+      "grad_norm": 18.720388412475586,
+      "learning_rate": 1.8958307257048116e-05,
+      "loss": 1.4579,
+      "step": 1350
+    },
+    {
+      "epoch": 0.04851054655215782,
+      "eval_loss": 1.5468966960906982,
+      "eval_runtime": 113.6859,
+      "eval_samples_per_second": 4.398,
+      "eval_steps_per_second": 4.398,
+      "step": 1350
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.5148543849914368e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null