Training in progress, step 600, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b9d88423883eaf1c04e57a3842d0888c8c7e8d00f10a953643dbcd1d1ac64c4
 size 3237829088

 version https://git-lfs.github.com/spec/v1
+oid sha256:70bb5bb361cb2c44a3c95065d77a422ed9649be5bd191a41e78d34e35834847b
 size 3237829088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34d645606d6eb146eb99e0cc0adef1d87d290800358b32916d2b761d315b2c6b
-size 2061570519

 version https://git-lfs.github.com/spec/v1
+oid sha256:098af36ab395a778e4ad67ddfa0191cced4901cc9518f1a83364c1e0ed5e1dbe
+size 2062272049

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d383a88beb779fca7791b337addbc04045039df50bd4a6ea6c5557699bd1e48
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e4743b658fa9de4e54f29c9ad2e962e40b252677e30a13b5a792846f596864f
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc1a0da602f8abf4bf342932694d528cc1f0baa4d5027de58ad34f4d9855d085
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e35963fbe17703d43e57c264c8bf401c049828d6ea5abe6c269f936eebec007
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2aecfedc7f5bc992e41736b72929d50222b1c844811a96ac093ccc646bdc5dd7
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bb282d448dcf74bd6fbccf99dc933faaae6d52cfc91f1d2df7df3c6a133ab1a
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.08609556607834697,
   "eval_steps": 300,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -218,6 +218,216 @@
       "learning_rate": 0.00019782875990384568,
       "loss": 1.0476,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -237,7 +447,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2275648299008e+19,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.17219113215669393,
   "eval_steps": 300,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00019782875990384568,
       "loss": 1.0476,
       "step": 300
+    },
+    {
+      "epoch": 0.08896541828095852,
+      "grad_norm": 8.840872764587402,
+      "learning_rate": 0.00019763402207343338,
+      "loss": 1.0478,
+      "step": 310
+    },
+    {
+      "epoch": 0.0918352704835701,
+      "grad_norm": 11.326393127441406,
+      "learning_rate": 0.00019743102648521967,
+      "loss": 1.0235,
+      "step": 320
+    },
+    {
+      "epoch": 0.09470512268618166,
+      "grad_norm": 15.35113525390625,
+      "learning_rate": 0.00019721979030830572,
+      "loss": 0.9794,
+      "step": 330
+    },
+    {
+      "epoch": 0.09757497488879323,
+      "grad_norm": 11.8535795211792,
+      "learning_rate": 0.0001970003314087709,
+      "loss": 1.0072,
+      "step": 340
+    },
+    {
+      "epoch": 0.10044482709140479,
+      "grad_norm": 24.779190063476562,
+      "learning_rate": 0.0001967726683481617,
+      "loss": 1.0056,
+      "step": 350
+    },
+    {
+      "epoch": 0.10331467929401636,
+      "grad_norm": 20.744426727294922,
+      "learning_rate": 0.00019653682038192188,
+      "loss": 1.0066,
+      "step": 360
+    },
+    {
+      "epoch": 0.10618453149662792,
+      "grad_norm": 21.19144630432129,
+      "learning_rate": 0.00019629280745776364,
+      "loss": 0.9673,
+      "step": 370
+    },
+    {
+      "epoch": 0.10905438369923949,
+      "grad_norm": 18.140127182006836,
+      "learning_rate": 0.0001960406502139808,
+      "loss": 0.9903,
+      "step": 380
+    },
+    {
+      "epoch": 0.11192423590185105,
+      "grad_norm": 19.997053146362305,
+      "learning_rate": 0.00019578036997770296,
+      "loss": 0.9715,
+      "step": 390
+    },
+    {
+      "epoch": 0.11479408810446262,
+      "grad_norm": 15.790470123291016,
+      "learning_rate": 0.0001955119887630919,
+      "loss": 0.9508,
+      "step": 400
+    },
+    {
+      "epoch": 0.11766394030707418,
+      "grad_norm": 18.330507278442383,
+      "learning_rate": 0.0001952355292694795,
+      "loss": 0.9867,
+      "step": 410
+    },
+    {
+      "epoch": 0.12053379250968575,
+      "grad_norm": 13.211642265319824,
+      "learning_rate": 0.0001949510148794478,
+      "loss": 1.0481,
+      "step": 420
+    },
+    {
+      "epoch": 0.12340364471229731,
+      "grad_norm": 9.442767143249512,
+      "learning_rate": 0.00019465846965685158,
+      "loss": 0.9686,
+      "step": 430
+    },
+    {
+      "epoch": 0.12627349691490888,
+      "grad_norm": 15.597809791564941,
+      "learning_rate": 0.00019435791834478293,
+      "loss": 1.0821,
+      "step": 440
+    },
+    {
+      "epoch": 0.12914334911752046,
+      "grad_norm": 13.517879486083984,
+      "learning_rate": 0.0001940493863634784,
+      "loss": 0.9397,
+      "step": 450
+    },
+    {
+      "epoch": 0.132013201320132,
+      "grad_norm": 13.031438827514648,
+      "learning_rate": 0.00019373289980816917,
+      "loss": 1.0009,
+      "step": 460
+    },
+    {
+      "epoch": 0.13488305352274357,
+      "grad_norm": 14.64666748046875,
+      "learning_rate": 0.00019340848544687386,
+      "loss": 0.9571,
+      "step": 470
+    },
+    {
+      "epoch": 0.13775290572535515,
+      "grad_norm": 10.706031799316406,
+      "learning_rate": 0.00019307617071813454,
+      "loss": 1.0283,
+      "step": 480
+    },
+    {
+      "epoch": 0.14062275792796672,
+      "grad_norm": 9.723997116088867,
+      "learning_rate": 0.00019273598372869603,
+      "loss": 0.9815,
+      "step": 490
+    },
+    {
+      "epoch": 0.14349261013057826,
+      "grad_norm": 9.667860984802246,
+      "learning_rate": 0.0001923879532511287,
+      "loss": 0.9424,
+      "step": 500
+    },
+    {
+      "epoch": 0.14636246233318984,
+      "grad_norm": 6.956273078918457,
+      "learning_rate": 0.00019203210872139476,
+      "loss": 0.9793,
+      "step": 510
+    },
+    {
+      "epoch": 0.1492323145358014,
+      "grad_norm": 15.395605087280273,
+      "learning_rate": 0.00019166848023635883,
+      "loss": 1.0637,
+      "step": 520
+    },
+    {
+      "epoch": 0.15210216673841298,
+      "grad_norm": 23.60310173034668,
+      "learning_rate": 0.0001912970985512422,
+      "loss": 0.9625,
+      "step": 530
+    },
+    {
+      "epoch": 0.15497201894102453,
+      "grad_norm": 20.658727645874023,
+      "learning_rate": 0.00019091799507702181,
+      "loss": 0.9393,
+      "step": 540
+    },
+    {
+      "epoch": 0.1578418711436361,
+      "grad_norm": 18.22756576538086,
+      "learning_rate": 0.0001905312018777733,
+      "loss": 0.9354,
+      "step": 550
+    },
+    {
+      "epoch": 0.16071172334624767,
+      "grad_norm": 11.863499641418457,
+      "learning_rate": 0.00019013675166795922,
+      "loss": 0.933,
+      "step": 560
+    },
+    {
+      "epoch": 0.16358157554885924,
+      "grad_norm": 11.65882682800293,
+      "learning_rate": 0.00018973467780966202,
+      "loss": 0.9119,
+      "step": 570
+    },
+    {
+      "epoch": 0.1664514277514708,
+      "grad_norm": 11.474069595336914,
+      "learning_rate": 0.00018932501430976242,
+      "loss": 0.9511,
+      "step": 580
+    },
+    {
+      "epoch": 0.16932127995408236,
+      "grad_norm": 8.225656509399414,
+      "learning_rate": 0.00018890779581706303,
+      "loss": 0.9474,
+      "step": 590
+    },
+    {
+      "epoch": 0.17219113215669393,
+      "grad_norm": 15.780831336975098,
+      "learning_rate": 0.00018848305761935797,
+      "loss": 0.9528,
+      "step": 600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.4551296598016e+19,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a7dea7536ca58c97fbccef8df0fd6f88f39f81b73f5f4eafbed1d750e825400
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:91ccf64bfb489d98f1d53ff4b75bafff9ef6970cd7568bffdd38c9685c6b4b38
 size 6033