Training in progress, step 1800, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e35f58cfc186debe53f8ca77f3187fcc171f64260bf63f1275d8d0b0ab69bede
 size 3237829088

 version https://git-lfs.github.com/spec/v1
+oid sha256:b08b1672e2ea4211707e7ae1fc3be628d1c4cfcbac08051e5ed075820a85d750
 size 3237829088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef2fb6b56d26498118cb8b387fcedcb4debb46e3fe9c3c47660644efe86198ea
 size 2062272049

 version https://git-lfs.github.com/spec/v1
+oid sha256:74263b5f8e059e873949491dec9e7a943acdde886eacc4fbfc309d2296ab82b6
 size 2062272049

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6eae40f4428968ab5083d1a5e4e97daade1451ea492899254cef072ae8e7b9d7
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:c31bfa9c06956c0b54891b4da88a92b0061c8af3e34c97336d1d69755faea146
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4c90e73b569a38f99c2197447433676c2eaa22ce221aeecf0a7d6e7d0501c17
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:1547aae10ac7691e1716f567b08e3b4d274fa923879a48af8c2bb55c815a28a2
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0d3e74929cb15c68f9b787eaa5631a6b89640ebdbca5e2e73c4cb4aa37e0203
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:64f93a5d98422b9aaabc9ecb62e3fb6f0d27288e6198f54c3576af914532e165
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4304778303917348,
   "eval_steps": 300,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1058,6 +1058,216 @@
       "learning_rate": 0.0001255560358785219,
       "loss": 0.7828,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1077,7 +1287,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.137824149504e+19,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5165733964700818,
   "eval_steps": 300,
+  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0001255560358785219,
       "loss": 0.7828,
       "step": 1500
+    },
+    {
+      "epoch": 0.4333476825943464,
+      "grad_norm": 5.9140400886535645,
+      "learning_rate": 0.00012466583707033832,
+      "loss": 0.8044,
+      "step": 1510
+    },
+    {
+      "epoch": 0.43621753479695796,
+      "grad_norm": 5.575759410858154,
+      "learning_rate": 0.00012377355205793854,
+      "loss": 0.7996,
+      "step": 1520
+    },
+    {
+      "epoch": 0.4390873869995695,
+      "grad_norm": 6.771875381469727,
+      "learning_rate": 0.00012287925630962107,
+      "loss": 0.8261,
+      "step": 1530
+    },
+    {
+      "epoch": 0.4419572392021811,
+      "grad_norm": 18.849271774291992,
+      "learning_rate": 0.00012198302546374978,
+      "loss": 0.8224,
+      "step": 1540
+    },
+    {
+      "epoch": 0.44482709140479265,
+      "grad_norm": 5.645337104797363,
+      "learning_rate": 0.00012108493532235666,
+      "loss": 0.8185,
+      "step": 1550
+    },
+    {
+      "epoch": 0.4476969436074042,
+      "grad_norm": 4.3476481437683105,
+      "learning_rate": 0.00012018506184473038,
+      "loss": 0.7985,
+      "step": 1560
+    },
+    {
+      "epoch": 0.4505667958100158,
+      "grad_norm": 8.391561508178711,
+      "learning_rate": 0.00011928348114099195,
+      "loss": 0.7965,
+      "step": 1570
+    },
+    {
+      "epoch": 0.45343664801262734,
+      "grad_norm": 11.707796096801758,
+      "learning_rate": 0.00011838026946565723,
+      "loss": 0.8174,
+      "step": 1580
+    },
+    {
+      "epoch": 0.45630650021523894,
+      "grad_norm": 9.046381950378418,
+      "learning_rate": 0.00011747550321118763,
+      "loss": 0.8,
+      "step": 1590
+    },
+    {
+      "epoch": 0.4591763524178505,
+      "grad_norm": 8.26490306854248,
+      "learning_rate": 0.00011656925890152877,
+      "loss": 0.8229,
+      "step": 1600
+    },
+    {
+      "epoch": 0.46204620462046203,
+      "grad_norm": 6.398012638092041,
+      "learning_rate": 0.00011566161318563821,
+      "loss": 0.8027,
+      "step": 1610
+    },
+    {
+      "epoch": 0.46491605682307363,
+      "grad_norm": 5.92479133605957,
+      "learning_rate": 0.0001147526428310027,
+      "loss": 0.8094,
+      "step": 1620
+    },
+    {
+      "epoch": 0.4677859090256852,
+      "grad_norm": 7.79962158203125,
+      "learning_rate": 0.00011384242471714512,
+      "loss": 0.8049,
+      "step": 1630
+    },
+    {
+      "epoch": 0.4706557612282967,
+      "grad_norm": 4.564454078674316,
+      "learning_rate": 0.00011293103582912221,
+      "loss": 0.8382,
+      "step": 1640
+    },
+    {
+      "epoch": 0.4735256134309083,
+      "grad_norm": 20.43712043762207,
+      "learning_rate": 0.00011201855325101332,
+      "loss": 0.829,
+      "step": 1650
+    },
+    {
+      "epoch": 0.47639546563351987,
+      "grad_norm": 5.778446674346924,
+      "learning_rate": 0.0001111050541594006,
+      "loss": 0.8333,
+      "step": 1660
+    },
+    {
+      "epoch": 0.47926531783613147,
+      "grad_norm": 5.030070781707764,
+      "learning_rate": 0.00011019061581684165,
+      "loss": 0.769,
+      "step": 1670
+    },
+    {
+      "epoch": 0.482135170038743,
+      "grad_norm": 5.967840671539307,
+      "learning_rate": 0.00010927531556533456,
+      "loss": 0.8041,
+      "step": 1680
+    },
+    {
+      "epoch": 0.48500502224135456,
+      "grad_norm": 4.707633972167969,
+      "learning_rate": 0.00010835923081977673,
+      "loss": 0.8105,
+      "step": 1690
+    },
+    {
+      "epoch": 0.48787487444396616,
+      "grad_norm": 6.354760646820068,
+      "learning_rate": 0.0001074424390614169,
+      "loss": 0.8031,
+      "step": 1700
+    },
+    {
+      "epoch": 0.4907447266465777,
+      "grad_norm": 6.2033915519714355,
+      "learning_rate": 0.00010652501783130208,
+      "loss": 0.7559,
+      "step": 1710
+    },
+    {
+      "epoch": 0.49361457884918924,
+      "grad_norm": 3.7331125736236572,
+      "learning_rate": 0.00010560704472371919,
+      "loss": 0.8233,
+      "step": 1720
+    },
+    {
+      "epoch": 0.49648443105180085,
+      "grad_norm": 9.511772155761719,
+      "learning_rate": 0.00010468859737963217,
+      "loss": 0.7945,
+      "step": 1730
+    },
+    {
+      "epoch": 0.4993542832544124,
+      "grad_norm": 12.07361125946045,
+      "learning_rate": 0.00010376975348011533,
+      "loss": 0.8368,
+      "step": 1740
+    },
+    {
+      "epoch": 0.5022241354570239,
+      "grad_norm": 4.957511901855469,
+      "learning_rate": 0.00010285059073978312,
+      "loss": 0.8241,
+      "step": 1750
+    },
+    {
+      "epoch": 0.5050939876596355,
+      "grad_norm": 4.124336242675781,
+      "learning_rate": 0.00010193118690021699,
+      "loss": 0.807,
+      "step": 1760
+    },
+    {
+      "epoch": 0.5079638398622471,
+      "grad_norm": 4.789161205291748,
+      "learning_rate": 0.00010101161972339046,
+      "loss": 0.8143,
+      "step": 1770
+    },
+    {
+      "epoch": 0.5108336920648586,
+      "grad_norm": 5.026962757110596,
+      "learning_rate": 0.00010009196698509173,
+      "loss": 0.7765,
+      "step": 1780
+    },
+    {
+      "epoch": 0.5137035442674702,
+      "grad_norm": 8.285078048706055,
+      "learning_rate": 9.91723064683458e-05,
+      "loss": 0.8053,
+      "step": 1790
+    },
+    {
+      "epoch": 0.5165733964700818,
+      "grad_norm": 4.77803897857666,
+      "learning_rate": 9.825271595683548e-05,
+      "loss": 0.8072,
+      "step": 1800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7.3653889794048e+19,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c826a3ab5235a63f61a75099a41de538ae2f6fe824df40b96ea1279de029afd1
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb8fac145ce6d3b844b04932d52e4aba260f48f6c9dc5ba626561ea49a834bfb
 size 6033