Training in progress, step 600, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85363bc3f8b3be52c66fdbb216c5e681b65a1619d094204c96d8f21f92b55366
 size 3237818848

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8914facca3ec7ebd4ca0af63a4103bd73934c6203de2086fcb50395772ac962
 size 3237818848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d688d8141ac8f14abfd6d9138d0d80e88cec420d7c794332c18006fdab3debd
-size 2061550039

 version https://git-lfs.github.com/spec/v1
+oid sha256:0950e188b2932851adfd96a6948dca2e97b8e9815befb943767ad300ac5bddf4
+size 2062251569

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1beae2217e3edc7a0dbdeb472e91f228cbe255351a62c3bb1d01db55e8b2bd92
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:7087649df6c0734a2a4d59d344e34355cbcef9bd4b101d7b7a1da6a37d115851
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc1a0da602f8abf4bf342932694d528cc1f0baa4d5027de58ad34f4d9855d085
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e35963fbe17703d43e57c264c8bf401c049828d6ea5abe6c269f936eebec007
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e457036843badbfd4728f955bda9fcb0eece56c68befb6d6871ad9773fdafcb3
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:acea6b741bab97301e556cecda1616269a490b6124f19e7710f2f8643bc308f4
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.13333333333333333,
   "eval_steps": 300,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -230,6 +230,216 @@
       "eval_steps_per_second": 1.815,
       "eval_super_acc": 0.0,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -249,7 +459,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.183765532672e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.26666666666666666,
   "eval_steps": 300,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 1.815,
       "eval_super_acc": 0.0,
       "step": 300
+    },
+    {
+      "epoch": 0.13777777777777778,
+      "grad_norm": 12.327225685119629,
+      "learning_rate": 0.00019311954691656264,
+      "loss": 1.6749,
+      "step": 310
+    },
+    {
+      "epoch": 0.14222222222222222,
+      "grad_norm": 11.838521003723145,
+      "learning_rate": 0.00019259100395379434,
+      "loss": 1.6202,
+      "step": 320
+    },
+    {
+      "epoch": 0.14666666666666667,
+      "grad_norm": 14.03673267364502,
+      "learning_rate": 0.0001920436829543756,
+      "loss": 1.6491,
+      "step": 330
+    },
+    {
+      "epoch": 0.1511111111111111,
+      "grad_norm": 15.616336822509766,
+      "learning_rate": 0.00019147769491843978,
+      "loss": 1.683,
+      "step": 340
+    },
+    {
+      "epoch": 0.15555555555555556,
+      "grad_norm": 12.534092903137207,
+      "learning_rate": 0.00019089315463191234,
+      "loss": 1.5952,
+      "step": 350
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 11.09432315826416,
+      "learning_rate": 0.00019029018064323165,
+      "loss": 1.622,
+      "step": 360
+    },
+    {
+      "epoch": 0.16444444444444445,
+      "grad_norm": 12.834360122680664,
+      "learning_rate": 0.00018966889523930656,
+      "loss": 1.5646,
+      "step": 370
+    },
+    {
+      "epoch": 0.1688888888888889,
+      "grad_norm": 25.459949493408203,
+      "learning_rate": 0.0001890294244207158,
+      "loss": 1.5177,
+      "step": 380
+    },
+    {
+      "epoch": 0.17333333333333334,
+      "grad_norm": 19.265300750732422,
+      "learning_rate": 0.0001883718978761544,
+      "loss": 1.5986,
+      "step": 390
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 11.887044906616211,
+      "learning_rate": 0.00018769644895613174,
+      "loss": 1.613,
+      "step": 400
+    },
+    {
+      "epoch": 0.18222222222222223,
+      "grad_norm": 21.538328170776367,
+      "learning_rate": 0.00018700321464592764,
+      "loss": 1.5335,
+      "step": 410
+    },
+    {
+      "epoch": 0.18666666666666668,
+      "grad_norm": 18.00100326538086,
+      "learning_rate": 0.00018629233553781052,
+      "loss": 1.4608,
+      "step": 420
+    },
+    {
+      "epoch": 0.19111111111111112,
+      "grad_norm": 14.892653465270996,
+      "learning_rate": 0.00018556395580252458,
+      "loss": 1.5059,
+      "step": 430
+    },
+    {
+      "epoch": 0.19555555555555557,
+      "grad_norm": 10.61614990234375,
+      "learning_rate": 0.000184818223160051,
+      "loss": 1.2732,
+      "step": 440
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 11.014739990234375,
+      "learning_rate": 0.00018405528884964952,
+      "loss": 1.3921,
+      "step": 450
+    },
+    {
+      "epoch": 0.20444444444444446,
+      "grad_norm": 9.74208927154541,
+      "learning_rate": 0.00018327530759918597,
+      "loss": 1.3523,
+      "step": 460
+    },
+    {
+      "epoch": 0.2088888888888889,
+      "grad_norm": 15.92335319519043,
+      "learning_rate": 0.0001824784375937528,
+      "loss": 1.4222,
+      "step": 470
+    },
+    {
+      "epoch": 0.21333333333333335,
+      "grad_norm": 15.541021347045898,
+      "learning_rate": 0.00018166484044358764,
+      "loss": 1.3772,
+      "step": 480
+    },
+    {
+      "epoch": 0.21777777777777776,
+      "grad_norm": 13.139538764953613,
+      "learning_rate": 0.00018083468115129834,
+      "loss": 1.4395,
+      "step": 490
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 21.101469039916992,
+      "learning_rate": 0.00017998812807839892,
+      "loss": 1.3891,
+      "step": 500
+    },
+    {
+      "epoch": 0.22666666666666666,
+      "grad_norm": 14.130121231079102,
+      "learning_rate": 0.00017912535291116508,
+      "loss": 1.3276,
+      "step": 510
+    },
+    {
+      "epoch": 0.2311111111111111,
+      "grad_norm": 25.728923797607422,
+      "learning_rate": 0.00017824653062581503,
+      "loss": 1.4297,
+      "step": 520
+    },
+    {
+      "epoch": 0.23555555555555555,
+      "grad_norm": 14.234143257141113,
+      "learning_rate": 0.00017735183945302322,
+      "loss": 1.4121,
+      "step": 530
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 14.950554847717285,
+      "learning_rate": 0.00017644146084177406,
+      "loss": 1.2576,
+      "step": 540
+    },
+    {
+      "epoch": 0.24444444444444444,
+      "grad_norm": 9.834321022033691,
+      "learning_rate": 0.00017551557942256294,
+      "loss": 1.3496,
+      "step": 550
+    },
+    {
+      "epoch": 0.24888888888888888,
+      "grad_norm": 20.81060218811035,
+      "learning_rate": 0.00017457438296995196,
+      "loss": 1.2409,
+      "step": 560
+    },
+    {
+      "epoch": 0.25333333333333335,
+      "grad_norm": 16.057870864868164,
+      "learning_rate": 0.00017361806236448817,
+      "loss": 1.369,
+      "step": 570
+    },
+    {
+      "epoch": 0.2577777777777778,
+      "grad_norm": 9.714545249938965,
+      "learning_rate": 0.00017264681155399164,
+      "loss": 1.2626,
+      "step": 580
+    },
+    {
+      "epoch": 0.26222222222222225,
+      "grad_norm": 16.824140548706055,
+      "learning_rate": 0.00017166082751422177,
+      "loss": 1.2978,
+      "step": 590
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 13.657912254333496,
+      "learning_rate": 0.00017066031020892934,
+      "loss": 1.1963,
+      "step": 600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.6367531065344e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1391ef8e316083e07c8d8583f470718cb59500095cf3cf7ff701fcd881f0dd7b
 size 5969

 version https://git-lfs.github.com/spec/v1
+oid sha256:90a266fde3aed1b9627604c89937e8d2ff74c90016b7e05cb2a1d6ffdc03917d
 size 5969