Training in progress, step 1800, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee0cd03d3a9be3023a0e3720a6e91db11f47e20d8e7bec88e3c1220ca8a10eaa
 size 3237818848

 version https://git-lfs.github.com/spec/v1
+oid sha256:30cf4ddc8138dc0b63c04cf5856ccaefc44f54d57161548a2bcf67587713dfed
 size 3237818848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0523d436c3449c90448d00f0c9ea8840e7e341f44632cc2e10b78b0d80da3e7c
 size 2062251569

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c88d4612f6436cb0270beb0bb2ab7cbb57317eafb7b87764e12d36ec083c260
 size 2062251569

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:191b991347426ecc0aa235378fd9d2fce0ab0d707a85beb25ac14245f68ee477
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3b789b883f13ca849e56997deda5a819a4b325b5d103e882990a667f22165d3
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4c90e73b569a38f99c2197447433676c2eaa22ce221aeecf0a7d6e7d0501c17
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:1547aae10ac7691e1716f567b08e3b4d274fa923879a48af8c2bb55c815a28a2
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8c49d54f38ea4c21892dfde13ddaac2daecfb954dcbad06d74b64fe3dec95fd
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f5a59feb5a16bc7cf6785205b16a58a4ce06c6d1cd586567a10fcc2307ab6fc
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6666666666666666,
   "eval_steps": 300,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1070,6 +1070,216 @@
       "learning_rate": 5.231958800515164e-05,
       "loss": 1.0044,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1089,7 +1299,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.091882766336e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8,
   "eval_steps": 300,
+  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.231958800515164e-05,
       "loss": 1.0044,
       "step": 1500
+    },
+    {
+      "epoch": 0.6711111111111111,
+      "grad_norm": 7.949609279632568,
+      "learning_rate": 5.107265654859855e-05,
+      "loss": 1.0194,
+      "step": 1510
+    },
+    {
+      "epoch": 0.6755555555555556,
+      "grad_norm": 8.028242111206055,
+      "learning_rate": 4.983564786433763e-05,
+      "loss": 0.9705,
+      "step": 1520
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 8.18526840209961,
+      "learning_rate": 4.860881282549285e-05,
+      "loss": 0.9802,
+      "step": 1530
+    },
+    {
+      "epoch": 0.6844444444444444,
+      "grad_norm": 9.321311950683594,
+      "learning_rate": 4.739240024190904e-05,
+      "loss": 0.9649,
+      "step": 1540
+    },
+    {
+      "epoch": 0.6888888888888889,
+      "grad_norm": 10.959417343139648,
+      "learning_rate": 4.618665680969163e-05,
+      "loss": 0.9957,
+      "step": 1550
+    },
+    {
+      "epoch": 0.6933333333333334,
+      "grad_norm": 9.302586555480957,
+      "learning_rate": 4.49918270611752e-05,
+      "loss": 0.9833,
+      "step": 1560
+    },
+    {
+      "epoch": 0.6977777777777778,
+      "grad_norm": 7.047448635101318,
+      "learning_rate": 4.380815331533088e-05,
+      "loss": 1.0179,
+      "step": 1570
+    },
+    {
+      "epoch": 0.7022222222222222,
+      "grad_norm": 9.307101249694824,
+      "learning_rate": 4.2635875628622345e-05,
+      "loss": 0.9883,
+      "step": 1580
+    },
+    {
+      "epoch": 0.7066666666666667,
+      "grad_norm": 8.306827545166016,
+      "learning_rate": 4.147523174632103e-05,
+      "loss": 0.984,
+      "step": 1590
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 9.073155403137207,
+      "learning_rate": 4.032645705428985e-05,
+      "loss": 0.9916,
+      "step": 1600
+    },
+    {
+      "epoch": 0.7155555555555555,
+      "grad_norm": 11.148294448852539,
+      "learning_rate": 3.9189784531245334e-05,
+      "loss": 0.993,
+      "step": 1610
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 7.878681659698486,
+      "learning_rate": 3.806544470150831e-05,
+      "loss": 0.9733,
+      "step": 1620
+    },
+    {
+      "epoch": 0.7244444444444444,
+      "grad_norm": 9.204869270324707,
+      "learning_rate": 3.6953665588251984e-05,
+      "loss": 0.9689,
+      "step": 1630
+    },
+    {
+      "epoch": 0.7288888888888889,
+      "grad_norm": 8.391727447509766,
+      "learning_rate": 3.585467266725737e-05,
+      "loss": 0.9782,
+      "step": 1640
+    },
+    {
+      "epoch": 0.7333333333333333,
+      "grad_norm": 6.572085857391357,
+      "learning_rate": 3.4768688821185566e-05,
+      "loss": 0.9548,
+      "step": 1650
+    },
+    {
+      "epoch": 0.7377777777777778,
+      "grad_norm": 9.943083763122559,
+      "learning_rate": 3.3695934294375544e-05,
+      "loss": 0.9904,
+      "step": 1660
+    },
+    {
+      "epoch": 0.7422222222222222,
+      "grad_norm": 8.165312767028809,
+      "learning_rate": 3.263662664817728e-05,
+      "loss": 0.9728,
+      "step": 1670
+    },
+    {
+      "epoch": 0.7466666666666667,
+      "grad_norm": 9.635257720947266,
+      "learning_rate": 3.15909807168291e-05,
+      "loss": 0.961,
+      "step": 1680
+    },
+    {
+      "epoch": 0.7511111111111111,
+      "grad_norm": 7.636417865753174,
+      "learning_rate": 3.055920856388779e-05,
+      "loss": 0.9403,
+      "step": 1690
+    },
+    {
+      "epoch": 0.7555555555555555,
+      "grad_norm": 6.770568370819092,
+      "learning_rate": 2.95415194392207e-05,
+      "loss": 0.9484,
+      "step": 1700
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 7.254674434661865,
+      "learning_rate": 2.8538119736568845e-05,
+      "loss": 0.9701,
+      "step": 1710
+    },
+    {
+      "epoch": 0.7644444444444445,
+      "grad_norm": 8.287463188171387,
+      "learning_rate": 2.7549212951688598e-05,
+      "loss": 0.9591,
+      "step": 1720
+    },
+    {
+      "epoch": 0.7688888888888888,
+      "grad_norm": 8.489920616149902,
+      "learning_rate": 2.6574999641081812e-05,
+      "loss": 0.9285,
+      "step": 1730
+    },
+    {
+      "epoch": 0.7733333333333333,
+      "grad_norm": 7.725697994232178,
+      "learning_rate": 2.561567738132149e-05,
+      "loss": 0.8912,
+      "step": 1740
+    },
+    {
+      "epoch": 0.7777777777777778,
+      "grad_norm": 8.986964225769043,
+      "learning_rate": 2.467144072898202e-05,
+      "loss": 0.9386,
+      "step": 1750
+    },
+    {
+      "epoch": 0.7822222222222223,
+      "grad_norm": 8.926631927490234,
+      "learning_rate": 2.3742481181182065e-05,
+      "loss": 0.9224,
+      "step": 1760
+    },
+    {
+      "epoch": 0.7866666666666666,
+      "grad_norm": 7.921815395355225,
+      "learning_rate": 2.2828987136747505e-05,
+      "loss": 0.9393,
+      "step": 1770
+    },
+    {
+      "epoch": 0.7911111111111111,
+      "grad_norm": 6.680901050567627,
+      "learning_rate": 2.193114385800309e-05,
+      "loss": 0.9359,
+      "step": 1780
+    },
+    {
+      "epoch": 0.7955555555555556,
+      "grad_norm": 6.957186698913574,
+      "learning_rate": 2.104913343320013e-05,
+      "loss": 0.9285,
+      "step": 1790
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 7.6232008934021,
+      "learning_rate": 2.0183134739587807e-05,
+      "loss": 0.9083,
+      "step": 1800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.9102593196032e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null