Training in progress, step 18000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +283 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e3c2ca1453671908d126e303eba98dd0d57768bc3b1dcb8cf48dcbd5df11353
 size 1520630616

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cc7670971a4e72c8112661889eb09f4dd0aef80b62662f3de10aa7539b0126d
 size 1520630616

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3d6326aeb70f12a4b9828676ff7fb0f81b4f603e04b14d7e8b6337709d69892
 size 3041448587

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fa9da6182eb634e04ef5b1e88adde1464e5173eb3d0eb66d882cdcb5bad981e
 size 3041448587

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:839155d8d479a4428e25ab272c147641fcc513d85570b8d0b1dcd722136156e9
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:59533f6351ee8031370e4d884b963a0d20ec1f96789095c1a70c9891c4bf2301
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:027f96c69ce599f1f33b2261db2960f4a6aaefef410e2d604c54d3aa094ca9a9
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fcb8a6684d40f0d667cf5f41391378b3c7ac8a01224006fa696bc503a2d8b3b
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.024349726775957,
   "eval_steps": 500,
-  "global_step": 16000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2248,6 +2248,286 @@
       "learning_rate": 0.0002830845786762962,
       "loss": 1.7125,
       "step": 16000
     }
   ],
   "logging_steps": 50,
@@ -2267,7 +2547,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.556472791069622e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.008579234972678,
   "eval_steps": 500,
+  "global_step": 18000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002830845786762962,
       "loss": 1.7125,
       "step": 16000
+    },
+    {
+      "epoch": 4.024896174863388,
+      "grad_norm": 0.6796875,
+      "learning_rate": 0.0002829623770208463,
+      "loss": 1.6678,
+      "step": 16050
+    },
+    {
+      "epoch": 4.02544262295082,
+      "grad_norm": 0.55859375,
+      "learning_rate": 0.00028283976211526137,
+      "loss": 1.7396,
+      "step": 16100
+    },
+    {
+      "epoch": 4.025989071038252,
+      "grad_norm": 0.578125,
+      "learning_rate": 0.0002827167343406315,
+      "loss": 1.752,
+      "step": 16150
+    },
+    {
+      "epoch": 4.026535519125683,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.0002825932940793298,
+      "loss": 1.6994,
+      "step": 16200
+    },
+    {
+      "epoch": 4.027081967213115,
+      "grad_norm": 0.6015625,
+      "learning_rate": 0.00028246944171501145,
+      "loss": 1.7189,
+      "step": 16250
+    },
+    {
+      "epoch": 4.027628415300547,
+      "grad_norm": 0.5625,
+      "learning_rate": 0.00028234517763261243,
+      "loss": 1.7158,
+      "step": 16300
+    },
+    {
+      "epoch": 4.028174863387978,
+      "grad_norm": 0.5625,
+      "learning_rate": 0.00028222050221834847,
+      "loss": 1.6885,
+      "step": 16350
+    },
+    {
+      "epoch": 4.02872131147541,
+      "grad_norm": 0.5078125,
+      "learning_rate": 0.0002820954158597134,
+      "loss": 1.6865,
+      "step": 16400
+    },
+    {
+      "epoch": 4.029267759562842,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.0002819699189454788,
+      "loss": 1.6946,
+      "step": 16450
+    },
+    {
+      "epoch": 4.029814207650273,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.0002818440118656918,
+      "loss": 1.7194,
+      "step": 16500
+    },
+    {
+      "epoch": 4.030360655737705,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.0002817176950116746,
+      "loss": 1.7022,
+      "step": 16550
+    },
+    {
+      "epoch": 4.030907103825137,
+      "grad_norm": 0.61328125,
+      "learning_rate": 0.00028159096877602275,
+      "loss": 1.7159,
+      "step": 16600
+    },
+    {
+      "epoch": 4.031453551912568,
+      "grad_norm": 0.5625,
+      "learning_rate": 0.00028146383355260446,
+      "loss": 1.7063,
+      "step": 16650
+    },
+    {
+      "epoch": 4.032,
+      "grad_norm": 0.58984375,
+      "learning_rate": 0.00028133628973655894,
+      "loss": 1.7064,
+      "step": 16700
+    },
+    {
+      "epoch": 4.032546448087432,
+      "grad_norm": 0.55859375,
+      "learning_rate": 0.00028120833772429517,
+      "loss": 1.6992,
+      "step": 16750
+    },
+    {
+      "epoch": 4.033092896174863,
+      "grad_norm": 0.5546875,
+      "learning_rate": 0.0002810799779134911,
+      "loss": 1.7132,
+      "step": 16800
+    },
+    {
+      "epoch": 4.033639344262295,
+      "grad_norm": 0.5390625,
+      "learning_rate": 0.0002809512107030919,
+      "loss": 1.7125,
+      "step": 16850
+    },
+    {
+      "epoch": 4.034185792349727,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.0002808220364933091,
+      "loss": 1.6373,
+      "step": 16900
+    },
+    {
+      "epoch": 4.034732240437158,
+      "grad_norm": 0.5234375,
+      "learning_rate": 0.00028069245568561904,
+      "loss": 1.7379,
+      "step": 16950
+    },
+    {
+      "epoch": 4.03527868852459,
+      "grad_norm": 0.6015625,
+      "learning_rate": 0.00028056246868276186,
+      "loss": 1.699,
+      "step": 17000
+    },
+    {
+      "epoch": 4.035825136612022,
+      "grad_norm": 0.5546875,
+      "learning_rate": 0.0002804320758887403,
+      "loss": 1.6939,
+      "step": 17050
+    },
+    {
+      "epoch": 4.036371584699453,
+      "grad_norm": 0.498046875,
+      "learning_rate": 0.000280301277708818,
+      "loss": 1.7146,
+      "step": 17100
+    },
+    {
+      "epoch": 4.036918032786885,
+      "grad_norm": 0.5859375,
+      "learning_rate": 0.00028017007454951884,
+      "loss": 1.7363,
+      "step": 17150
+    },
+    {
+      "epoch": 4.037464480874317,
+      "grad_norm": 0.55078125,
+      "learning_rate": 0.00028003846681862524,
+      "loss": 1.6965,
+      "step": 17200
+    },
+    {
+      "epoch": 5.000382513661203,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.00027990645492517697,
+      "loss": 1.6887,
+      "step": 17250
+    },
+    {
+      "epoch": 5.000928961748634,
+      "grad_norm": 0.62109375,
+      "learning_rate": 0.0002797740392794702,
+      "loss": 1.6829,
+      "step": 17300
+    },
+    {
+      "epoch": 5.001475409836066,
+      "grad_norm": 0.58984375,
+      "learning_rate": 0.0002796412202930557,
+      "loss": 1.6235,
+      "step": 17350
+    },
+    {
+      "epoch": 5.002021857923498,
+      "grad_norm": 0.59375,
+      "learning_rate": 0.00027950799837873794,
+      "loss": 1.634,
+      "step": 17400
+    },
+    {
+      "epoch": 5.002568306010929,
+      "grad_norm": 0.55859375,
+      "learning_rate": 0.0002793743739505738,
+      "loss": 1.5863,
+      "step": 17450
+    },
+    {
+      "epoch": 5.003114754098361,
+      "grad_norm": 0.5546875,
+      "learning_rate": 0.0002792403474238709,
+      "loss": 1.6513,
+      "step": 17500
+    },
+    {
+      "epoch": 5.003661202185793,
+      "grad_norm": 0.59375,
+      "learning_rate": 0.000279105919215187,
+      "loss": 1.6388,
+      "step": 17550
+    },
+    {
+      "epoch": 5.004207650273224,
+      "grad_norm": 0.59375,
+      "learning_rate": 0.00027897108974232797,
+      "loss": 1.6302,
+      "step": 17600
+    },
+    {
+      "epoch": 5.004754098360656,
+      "grad_norm": 1.1875,
+      "learning_rate": 0.0002788358594243469,
+      "loss": 1.6336,
+      "step": 17650
+    },
+    {
+      "epoch": 5.005300546448088,
+      "grad_norm": 0.58984375,
+      "learning_rate": 0.0002787002286815428,
+      "loss": 1.6513,
+      "step": 17700
+    },
+    {
+      "epoch": 5.005846994535519,
+      "grad_norm": 0.6015625,
+      "learning_rate": 0.000278564197935459,
+      "loss": 1.6185,
+      "step": 17750
+    },
+    {
+      "epoch": 5.006393442622951,
+      "grad_norm": 0.58984375,
+      "learning_rate": 0.00027842776760888236,
+      "loss": 1.6366,
+      "step": 17800
+    },
+    {
+      "epoch": 5.006939890710383,
+      "grad_norm": 0.578125,
+      "learning_rate": 0.00027829093812584143,
+      "loss": 1.6162,
+      "step": 17850
+    },
+    {
+      "epoch": 5.007486338797814,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.0002781537099116054,
+      "loss": 1.6665,
+      "step": 17900
+    },
+    {
+      "epoch": 5.008032786885246,
+      "grad_norm": 0.55859375,
+      "learning_rate": 0.00027801608339268275,
+      "loss": 1.6505,
+      "step": 17950
+    },
+    {
+      "epoch": 5.008579234972678,
+      "grad_norm": 0.578125,
+      "learning_rate": 0.00027787805899681976,
+      "loss": 1.6079,
+      "step": 18000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 9.6261070880401e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null