Training in progress, step 50000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ecf293809682bf3798688c407d42afa788d77c5557da4033ee0baeac06cf1302
 size 893438545

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a806770a6d25518cb1674ae526f6d236de399a295d5a453821ffdc0e6a41627
 size 893438545

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d5f11aab6f911cbec235d15a3494a5c1ad6a9959fd4ddb8c6370040ccb52d96
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:175c9af2cd55b51e9df8d727ba8d18aab140807b11f81fcd4adde2c5741e4d30
 size 449471589

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e37040ab33982f6d1312ce35ee66415b5fb51e1c104e02428f2187d6ddef02e5
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e37040ab33982f6d1312ce35ee66415b5fb51e1c104e02428f2187d6ddef02e5
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e37040ab33982f6d1312ce35ee66415b5fb51e1c104e02428f2187d6ddef02e5
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e37040ab33982f6d1312ce35ee66415b5fb51e1c104e02428f2187d6ddef02e5
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e37040ab33982f6d1312ce35ee66415b5fb51e1c104e02428f2187d6ddef02e5
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e37040ab33982f6d1312ce35ee66415b5fb51e1c104e02428f2187d6ddef02e5
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e37040ab33982f6d1312ce35ee66415b5fb51e1c104e02428f2187d6ddef02e5
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdbd6f069207b6a5e0cacc85e6677e399c9463922f16c7a1b9e54b0ce635a16e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e37040ab33982f6d1312ce35ee66415b5fb51e1c104e02428f2187d6ddef02e5
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06b5c694b40cd5a966b5116288c30b2f19979f1058d82965ee57335ae5f1e596
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b8d45ebb28c7b9f23a6abeafd90122c1ed22446a846f1cf2ac94e95c51e1adb
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4461148968916945,
-  "global_step": 40000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -806,11 +806,211 @@
       "eval_samples_per_second": 943.135,
       "eval_steps_per_second": 14.781,
       "step": 40000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
-  "total_flos": 2.804010441213886e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5576436211146181,
+  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 943.135,
       "eval_steps_per_second": 14.781,
       "step": 40000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0001215,
+      "loss": 0.3943,
+      "step": 40500
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00012299999999999998,
+      "loss": 0.3929,
+      "step": 41000
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.37926527857780457,
+      "eval_runtime": 2.3557,
+      "eval_samples_per_second": 975.086,
+      "eval_steps_per_second": 15.282,
+      "step": 41000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0001245,
+      "loss": 0.39,
+      "step": 41500
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00012599999999999997,
+      "loss": 0.3873,
+      "step": 42000
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.37127774953842163,
+      "eval_runtime": 2.3664,
+      "eval_samples_per_second": 970.675,
+      "eval_steps_per_second": 15.213,
+      "step": 42000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00012749999999999998,
+      "loss": 0.3861,
+      "step": 42500
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.000129,
+      "loss": 0.3837,
+      "step": 43000
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.36950594186782837,
+      "eval_runtime": 2.4197,
+      "eval_samples_per_second": 949.3,
+      "eval_steps_per_second": 14.878,
+      "step": 43000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0001305,
+      "loss": 0.3812,
+      "step": 43500
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00013199999999999998,
+      "loss": 0.3793,
+      "step": 44000
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 0.3651977479457855,
+      "eval_runtime": 2.3939,
+      "eval_samples_per_second": 959.528,
+      "eval_steps_per_second": 15.038,
+      "step": 44000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0001335,
+      "loss": 0.3775,
+      "step": 44500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.000135,
+      "loss": 0.3756,
+      "step": 45000
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.3592735230922699,
+      "eval_runtime": 2.3855,
+      "eval_samples_per_second": 962.901,
+      "eval_steps_per_second": 15.091,
+      "step": 45000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00013649999999999998,
+      "loss": 0.3737,
+      "step": 45500
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.000138,
+      "loss": 0.3718,
+      "step": 46000
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.3585481643676758,
+      "eval_runtime": 2.3854,
+      "eval_samples_per_second": 962.952,
+      "eval_steps_per_second": 15.092,
+      "step": 46000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0001395,
+      "loss": 0.3704,
+      "step": 46500
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00014099999999999998,
+      "loss": 0.3687,
+      "step": 47000
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 0.3562163710594177,
+      "eval_runtime": 2.4137,
+      "eval_samples_per_second": 951.637,
+      "eval_steps_per_second": 14.915,
+      "step": 47000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001425,
+      "loss": 0.367,
+      "step": 47500
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00014399999999999998,
+      "loss": 0.3654,
+      "step": 48000
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 0.35154005885124207,
+      "eval_runtime": 2.4671,
+      "eval_samples_per_second": 931.04,
+      "eval_steps_per_second": 14.592,
+      "step": 48000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00014549999999999999,
+      "loss": 0.3638,
+      "step": 48500
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.000147,
+      "loss": 0.3625,
+      "step": 49000
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 0.3474389910697937,
+      "eval_runtime": 2.4177,
+      "eval_samples_per_second": 950.09,
+      "eval_steps_per_second": 14.89,
+      "step": 49000
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00014849999999999998,
+      "loss": 0.3612,
+      "step": 49500
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00015,
+      "loss": 0.3592,
+      "step": 50000
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.3449079096317291,
+      "eval_runtime": 2.4174,
+      "eval_samples_per_second": 950.212,
+      "eval_steps_per_second": 14.892,
+      "step": 50000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
+  "total_flos": 3.505013051517357e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d5f11aab6f911cbec235d15a3494a5c1ad6a9959fd4ddb8c6370040ccb52d96
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:175c9af2cd55b51e9df8d727ba8d18aab140807b11f81fcd4adde2c5741e4d30
 size 449471589