Training in progress, step 320, checkpoint

Browse files

Files changed (3) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/trainer_state.json +243 -3

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ad5883a3cee7c47736b45f9790afc68bdd5c731da8985e21a6cb6b18802bee1
 size 4969539560

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbb5a892c7bcd146f6eee0ac485a21efd55a8ffbc4d42c3ed0640fc44f041c63
 size 4969539560

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:652f38f7fb6d6d424d146395fc676655eef11c276b4cc3a9e7a2d7d530069500
 size 1912795688

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f51a049f43d70a0eb667a892f9ae752e6fde71c884bf47a93a4de8f13fcb645
 size 1912795688

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 72.0,
   "eval_steps": 16,
-  "global_step": 288,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2168,6 +2168,246 @@
       "eval_samples_per_second": 16.986,
       "eval_steps_per_second": 16.986,
       "step": 288
     }
   ],
   "logging_steps": 1,
@@ -2187,7 +2427,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.659036592635904e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 80.0,
   "eval_steps": 16,
+  "global_step": 320,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.986,
       "eval_steps_per_second": 16.986,
       "step": 288
+    },
+    {
+      "epoch": 72.2909090909091,
+      "grad_norm": 3.4279274940490723,
+      "learning_rate": 2.983631934381639e-08,
+      "loss": 0.6219,
+      "step": 289
+    },
+    {
+      "epoch": 72.58181818181818,
+      "grad_norm": 3.627363681793213,
+      "learning_rate": 2.9511719338382535e-08,
+      "loss": 0.6635,
+      "step": 290
+    },
+    {
+      "epoch": 72.87272727272727,
+      "grad_norm": 3.1634864807128906,
+      "learning_rate": 2.918906036420294e-08,
+      "loss": 0.6377,
+      "step": 291
+    },
+    {
+      "epoch": 73.0,
+      "grad_norm": 3.896449327468872,
+      "learning_rate": 2.886836699300771e-08,
+      "loss": 0.7822,
+      "step": 292
+    },
+    {
+      "epoch": 73.2909090909091,
+      "grad_norm": 3.168968677520752,
+      "learning_rate": 2.8549663646838718e-08,
+      "loss": 0.609,
+      "step": 293
+    },
+    {
+      "epoch": 73.58181818181818,
+      "grad_norm": 3.3781349658966064,
+      "learning_rate": 2.8232974596189653e-08,
+      "loss": 0.6728,
+      "step": 294
+    },
+    {
+      "epoch": 73.87272727272727,
+      "grad_norm": 3.41473650932312,
+      "learning_rate": 2.791832395815782e-08,
+      "loss": 0.7013,
+      "step": 295
+    },
+    {
+      "epoch": 74.0,
+      "grad_norm": 3.771911859512329,
+      "learning_rate": 2.760573569460757e-08,
+      "loss": 0.6343,
+      "step": 296
+    },
+    {
+      "epoch": 74.2909090909091,
+      "grad_norm": 3.527878761291504,
+      "learning_rate": 2.729523361034538e-08,
+      "loss": 0.6528,
+      "step": 297
+    },
+    {
+      "epoch": 74.58181818181818,
+      "grad_norm": 3.105755090713501,
+      "learning_rate": 2.6986841351307128e-08,
+      "loss": 0.6243,
+      "step": 298
+    },
+    {
+      "epoch": 74.87272727272727,
+      "grad_norm": 3.3217263221740723,
+      "learning_rate": 2.6680582402757322e-08,
+      "loss": 0.6658,
+      "step": 299
+    },
+    {
+      "epoch": 75.0,
+      "grad_norm": 4.193359375,
+      "learning_rate": 2.637648008750062e-08,
+      "loss": 0.7016,
+      "step": 300
+    },
+    {
+      "epoch": 75.2909090909091,
+      "grad_norm": 3.2874765396118164,
+      "learning_rate": 2.6074557564105726e-08,
+      "loss": 0.6661,
+      "step": 301
+    },
+    {
+      "epoch": 75.58181818181818,
+      "grad_norm": 3.4806275367736816,
+      "learning_rate": 2.5774837825141737e-08,
+      "loss": 0.6277,
+      "step": 302
+    },
+    {
+      "epoch": 75.87272727272727,
+      "grad_norm": 3.398120880126953,
+      "learning_rate": 2.547734369542718e-08,
+      "loss": 0.6863,
+      "step": 303
+    },
+    {
+      "epoch": 76.0,
+      "grad_norm": 3.1762161254882812,
+      "learning_rate": 2.5182097830291825e-08,
+      "loss": 0.648,
+      "step": 304
+    },
+    {
+      "epoch": 76.0,
+      "eval_loss": 0.6407743096351624,
+      "eval_runtime": 0.7838,
+      "eval_samples_per_second": 16.585,
+      "eval_steps_per_second": 16.585,
+      "step": 304
+    },
+    {
+      "epoch": 76.2909090909091,
+      "grad_norm": 3.250011444091797,
+      "learning_rate": 2.4889122713851394e-08,
+      "loss": 0.6552,
+      "step": 305
+    },
+    {
+      "epoch": 76.58181818181818,
+      "grad_norm": 3.1045658588409424,
+      "learning_rate": 2.4598440657295288e-08,
+      "loss": 0.6147,
+      "step": 306
+    },
+    {
+      "epoch": 76.87272727272727,
+      "grad_norm": 4.007096290588379,
+      "learning_rate": 2.4310073797187574e-08,
+      "loss": 0.7181,
+      "step": 307
+    },
+    {
+      "epoch": 77.0,
+      "grad_norm": 3.300295829772949,
+      "learning_rate": 2.4024044093781064e-08,
+      "loss": 0.6115,
+      "step": 308
+    },
+    {
+      "epoch": 77.2909090909091,
+      "grad_norm": 3.376610517501831,
+      "learning_rate": 2.3740373329345117e-08,
+      "loss": 0.7065,
+      "step": 309
+    },
+    {
+      "epoch": 77.58181818181818,
+      "grad_norm": 3.1987497806549072,
+      "learning_rate": 2.3459083106506712e-08,
+      "loss": 0.6265,
+      "step": 310
+    },
+    {
+      "epoch": 77.87272727272727,
+      "grad_norm": 3.428140878677368,
+      "learning_rate": 2.3180194846605363e-08,
+      "loss": 0.629,
+      "step": 311
+    },
+    {
+      "epoch": 78.0,
+      "grad_norm": 3.489027261734009,
+      "learning_rate": 2.2903729788061836e-08,
+      "loss": 0.6626,
+      "step": 312
+    },
+    {
+      "epoch": 78.2909090909091,
+      "grad_norm": 3.7477946281433105,
+      "learning_rate": 2.2629708984760707e-08,
+      "loss": 0.7006,
+      "step": 313
+    },
+    {
+      "epoch": 78.58181818181818,
+      "grad_norm": 3.2413809299468994,
+      "learning_rate": 2.2358153304447067e-08,
+      "loss": 0.6363,
+      "step": 314
+    },
+    {
+      "epoch": 78.87272727272727,
+      "grad_norm": 3.0365958213806152,
+      "learning_rate": 2.2089083427137328e-08,
+      "loss": 0.6307,
+      "step": 315
+    },
+    {
+      "epoch": 79.0,
+      "grad_norm": 3.5392417907714844,
+      "learning_rate": 2.182251984354442e-08,
+      "loss": 0.6594,
+      "step": 316
+    },
+    {
+      "epoch": 79.2909090909091,
+      "grad_norm": 3.2169861793518066,
+      "learning_rate": 2.1558482853517254e-08,
+      "loss": 0.6261,
+      "step": 317
+    },
+    {
+      "epoch": 79.58181818181818,
+      "grad_norm": 3.1975908279418945,
+      "learning_rate": 2.1296992564494903e-08,
+      "loss": 0.6303,
+      "step": 318
+    },
+    {
+      "epoch": 79.87272727272727,
+      "grad_norm": 3.5037009716033936,
+      "learning_rate": 2.103806888997526e-08,
+      "loss": 0.6847,
+      "step": 319
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 3.49397611618042,
+      "learning_rate": 2.078173154799861e-08,
+      "loss": 0.704,
+      "step": 320
+    },
+    {
+      "epoch": 80.0,
+      "eval_loss": 0.6397803425788879,
+      "eval_runtime": 0.7407,
+      "eval_samples_per_second": 17.552,
+      "eval_steps_per_second": 17.552,
+      "step": 320
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.073226288070656e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null