Training in progress, step 3300, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bce8f23fe3ca54ce3a2edb635dddee9a9c329ff98d2c1c1edfce5ae419285005
 size 3237829088

 version https://git-lfs.github.com/spec/v1
+oid sha256:365157e0cc91c6ea82754070aed20459af7616cdd87d96a38b0933e4ebe719a6
 size 3237829088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d48dac810dbf197987947f41644e305ca6c790e2f1c59ed452325bdbb5ba36f8
 size 2062272049

 version https://git-lfs.github.com/spec/v1
+oid sha256:bca2f83c7c62bb2baeb05f97ac5a95135b02a1d4757160680bb94bbe4a6a7b0a
 size 2062272049

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f53ea6cca8172a2d83848e49f423fb2d70a5aed099439177ccfef05efb329dc
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2f931a6aed50b06e410ca372eb5f503052ee3f5905b5b560a45a62d502dc2ff
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc83c3e7cbaa37ce1778897d2e62cb7b8c41ece6f6ed0596eecff4f3f73fcd86
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:92459d776349d1cc2d4327d5ed9e474de76e06b8e6491efc16a39d8110d2a844
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:969f9b4cf700cdbd38bb540453f172b054b7fbd95efaee88d0519f169dc71ac6
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d134eca5097bea9b8988d832ccb2da62b2a551181674ab666a19da6cf129c3d
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8609556607834696,
   "eval_steps": 300,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2108,6 +2108,216 @@
       "learning_rate": 9.943054290774756e-06,
       "loss": 0.7574,
       "step": 3000
     }
   ],
   "logging_steps": 10,
@@ -2127,7 +2337,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2275648299008e+20,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9470512268618166,
   "eval_steps": 300,
+  "global_step": 3300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.943054290774756e-06,
       "loss": 0.7574,
       "step": 3000
+    },
+    {
+      "epoch": 0.8638255129860812,
+      "grad_norm": 5.900289535522461,
+      "learning_rate": 9.547076661622922e-06,
+      "loss": 0.7758,
+      "step": 3010
+    },
+    {
+      "epoch": 0.8666953651886928,
+      "grad_norm": 5.241759777069092,
+      "learning_rate": 9.15874942234024e-06,
+      "loss": 0.7805,
+      "step": 3020
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 4.609664440155029,
+      "learning_rate": 8.778105417136395e-06,
+      "loss": 0.7642,
+      "step": 3030
+    },
+    {
+      "epoch": 0.8724350695939159,
+      "grad_norm": 6.470444202423096,
+      "learning_rate": 8.405176840383122e-06,
+      "loss": 0.7928,
+      "step": 3040
+    },
+    {
+      "epoch": 0.8753049217965275,
+      "grad_norm": 3.531794786453247,
+      "learning_rate": 8.039995233891362e-06,
+      "loss": 0.7503,
+      "step": 3050
+    },
+    {
+      "epoch": 0.878174773999139,
+      "grad_norm": 5.537559986114502,
+      "learning_rate": 7.682591484243417e-06,
+      "loss": 0.7343,
+      "step": 3060
+    },
+    {
+      "epoch": 0.8810446262017506,
+      "grad_norm": 3.7967238426208496,
+      "learning_rate": 7.332995820180677e-06,
+      "loss": 0.7345,
+      "step": 3070
+    },
+    {
+      "epoch": 0.8839144784043622,
+      "grad_norm": 4.1268839836120605,
+      "learning_rate": 6.991237810046847e-06,
+      "loss": 0.7557,
+      "step": 3080
+    },
+    {
+      "epoch": 0.8867843306069737,
+      "grad_norm": 7.182312965393066,
+      "learning_rate": 6.6573463592871085e-06,
+      "loss": 0.7635,
+      "step": 3090
+    },
+    {
+      "epoch": 0.8896541828095853,
+      "grad_norm": 3.4768388271331787,
+      "learning_rate": 6.331349708003365e-06,
+      "loss": 0.7325,
+      "step": 3100
+    },
+    {
+      "epoch": 0.8925240350121969,
+      "grad_norm": 5.252262115478516,
+      "learning_rate": 6.013275428565712e-06,
+      "loss": 0.7513,
+      "step": 3110
+    },
+    {
+      "epoch": 0.8953938872148084,
+      "grad_norm": 4.213047027587891,
+      "learning_rate": 5.703150423280401e-06,
+      "loss": 0.7685,
+      "step": 3120
+    },
+    {
+      "epoch": 0.89826373941742,
+      "grad_norm": 4.207084655761719,
+      "learning_rate": 5.401000922114485e-06,
+      "loss": 0.7313,
+      "step": 3130
+    },
+    {
+      "epoch": 0.9011335916200316,
+      "grad_norm": 6.862100124359131,
+      "learning_rate": 5.10685248047732e-06,
+      "loss": 0.7626,
+      "step": 3140
+    },
+    {
+      "epoch": 0.9040034438226431,
+      "grad_norm": 3.541048049926758,
+      "learning_rate": 4.82072997705908e-06,
+      "loss": 0.7748,
+      "step": 3150
+    },
+    {
+      "epoch": 0.9068732960252547,
+      "grad_norm": 4.149963855743408,
+      "learning_rate": 4.542657611726664e-06,
+      "loss": 0.7651,
+      "step": 3160
+    },
+    {
+      "epoch": 0.9097431482278663,
+      "grad_norm": 6.455443859100342,
+      "learning_rate": 4.272658903476745e-06,
+      "loss": 0.7769,
+      "step": 3170
+    },
+    {
+      "epoch": 0.9126130004304779,
+      "grad_norm": 5.111416339874268,
+      "learning_rate": 4.010756688446726e-06,
+      "loss": 0.779,
+      "step": 3180
+    },
+    {
+      "epoch": 0.9154828526330894,
+      "grad_norm": 5.0384440422058105,
+      "learning_rate": 3.7569731179831537e-06,
+      "loss": 0.7353,
+      "step": 3190
+    },
+    {
+      "epoch": 0.918352704835701,
+      "grad_norm": 4.619420528411865,
+      "learning_rate": 3.5113296567682476e-06,
+      "loss": 0.7686,
+      "step": 3200
+    },
+    {
+      "epoch": 0.9212225570383126,
+      "grad_norm": 5.13969612121582,
+      "learning_rate": 3.2738470810044553e-06,
+      "loss": 0.7475,
+      "step": 3210
+    },
+    {
+      "epoch": 0.9240924092409241,
+      "grad_norm": 4.138948917388916,
+      "learning_rate": 3.0445454766572235e-06,
+      "loss": 0.743,
+      "step": 3220
+    },
+    {
+      "epoch": 0.9269622614435357,
+      "grad_norm": 3.4994235038757324,
+      "learning_rate": 2.8234442377561232e-06,
+      "loss": 0.7491,
+      "step": 3230
+    },
+    {
+      "epoch": 0.9298321136461473,
+      "grad_norm": 3.714160442352295,
+      "learning_rate": 2.6105620647545734e-06,
+      "loss": 0.7516,
+      "step": 3240
+    },
+    {
+      "epoch": 0.9327019658487588,
+      "grad_norm": 3.1646008491516113,
+      "learning_rate": 2.4059169629481403e-06,
+      "loss": 0.751,
+      "step": 3250
+    },
+    {
+      "epoch": 0.9355718180513704,
+      "grad_norm": 4.828333377838135,
+      "learning_rate": 2.209526240951665e-06,
+      "loss": 0.741,
+      "step": 3260
+    },
+    {
+      "epoch": 0.938441670253982,
+      "grad_norm": 3.3315179347991943,
+      "learning_rate": 2.021406509235402e-06,
+      "loss": 0.7554,
+      "step": 3270
+    },
+    {
+      "epoch": 0.9413115224565934,
+      "grad_norm": 6.141576766967773,
+      "learning_rate": 1.8415736787200433e-06,
+      "loss": 0.7465,
+      "step": 3280
+    },
+    {
+      "epoch": 0.944181374659205,
+      "grad_norm": 4.839749336242676,
+      "learning_rate": 1.6700429594310063e-06,
+      "loss": 0.761,
+      "step": 3290
+    },
+    {
+      "epoch": 0.9470512268618166,
+      "grad_norm": 4.683228969573975,
+      "learning_rate": 1.5068288592120283e-06,
+      "loss": 0.751,
+      "step": 3300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.35032131289088e+20,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null