Training in progress, step 2100, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30cf4ddc8138dc0b63c04cf5856ccaefc44f54d57161548a2bcf67587713dfed
 size 3237818848

 version https://git-lfs.github.com/spec/v1
+oid sha256:f413611c4d62c42b34cb3c35bf307f1f004d85a195b49625f53cb045532d3640
 size 3237818848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c88d4612f6436cb0270beb0bb2ab7cbb57317eafb7b87764e12d36ec083c260
 size 2062251569

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3f4fe7007d84dd8d6957cbfe09cbddc20609770c2a83ca6a81bf721da4dd27d
 size 2062251569

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3b789b883f13ca849e56997deda5a819a4b325b5d103e882990a667f22165d3
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e677751a73856bc26d9944f5cb47e64e748585d8eec5698550c17847fccdcc5
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1547aae10ac7691e1716f567b08e3b4d274fa923879a48af8c2bb55c815a28a2
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:f13dd54935d4d1876d05824ed5aab8e787b691f2aec583b5a7e328fd2bead633
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f5a59feb5a16bc7cf6785205b16a58a4ce06c6d1cd586567a10fcc2307ab6fc
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:ecb7b6032736995012c1953174826b2661afb8ec0cbb267bc342afa03a626fe2
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8,
   "eval_steps": 300,
-  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1280,6 +1280,216 @@
       "learning_rate": 2.0183134739587807e-05,
       "loss": 0.9083,
       "step": 1800
     }
   ],
   "logging_steps": 10,
@@ -1299,7 +1509,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.9102593196032e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9333333333333333,
   "eval_steps": 300,
+  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.0183134739587807e-05,
       "loss": 0.9083,
       "step": 1800
+    },
+    {
+      "epoch": 0.8044444444444444,
+      "grad_norm": 6.6202898025512695,
+      "learning_rate": 1.9333323407135652e-05,
+      "loss": 0.9497,
+      "step": 1810
+    },
+    {
+      "epoch": 0.8088888888888889,
+      "grad_norm": 8.43086051940918,
+      "learning_rate": 1.8499871782914823e-05,
+      "loss": 0.8944,
+      "step": 1820
+    },
+    {
+      "epoch": 0.8133333333333334,
+      "grad_norm": 7.180028915405273,
+      "learning_rate": 1.7682948896145037e-05,
+      "loss": 0.9319,
+      "step": 1830
+    },
+    {
+      "epoch": 0.8177777777777778,
+      "grad_norm": 9.3683500289917,
+      "learning_rate": 1.688272042391421e-05,
+      "loss": 0.9467,
+      "step": 1840
+    },
+    {
+      "epoch": 0.8222222222222222,
+      "grad_norm": 7.685975551605225,
+      "learning_rate": 1.609934865757835e-05,
+      "loss": 0.8837,
+      "step": 1850
+    },
+    {
+      "epoch": 0.8266666666666667,
+      "grad_norm": 6.820009231567383,
+      "learning_rate": 1.5332992469847595e-05,
+      "loss": 0.8969,
+      "step": 1860
+    },
+    {
+      "epoch": 0.8311111111111111,
+      "grad_norm": 6.4122161865234375,
+      "learning_rate": 1.4583807282566109e-05,
+      "loss": 0.892,
+      "step": 1870
+    },
+    {
+      "epoch": 0.8355555555555556,
+      "grad_norm": 11.386307716369629,
+      "learning_rate": 1.3851945035191271e-05,
+      "loss": 0.9494,
+      "step": 1880
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 7.07219934463501,
+      "learning_rate": 1.3137554153979648e-05,
+      "loss": 0.9254,
+      "step": 1890
+    },
+    {
+      "epoch": 0.8444444444444444,
+      "grad_norm": 8.010754585266113,
+      "learning_rate": 1.2440779521885026e-05,
+      "loss": 0.8829,
+      "step": 1900
+    },
+    {
+      "epoch": 0.8488888888888889,
+      "grad_norm": 7.019892692565918,
+      "learning_rate": 1.1761762449175362e-05,
+      "loss": 0.9155,
+      "step": 1910
+    },
+    {
+      "epoch": 0.8533333333333334,
+      "grad_norm": 9.830785751342773,
+      "learning_rate": 1.1100640644774174e-05,
+      "loss": 0.9572,
+      "step": 1920
+    },
+    {
+      "epoch": 0.8577777777777778,
+      "grad_norm": 8.173066139221191,
+      "learning_rate": 1.0457548188332156e-05,
+      "loss": 0.9465,
+      "step": 1930
+    },
+    {
+      "epoch": 0.8622222222222222,
+      "grad_norm": 7.015248775482178,
+      "learning_rate": 9.83261550303518e-06,
+      "loss": 0.8799,
+      "step": 1940
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "grad_norm": 7.390592575073242,
+      "learning_rate": 9.225969329153572e-06,
+      "loss": 0.9065,
+      "step": 1950
+    },
+    {
+      "epoch": 0.8711111111111111,
+      "grad_norm": 8.248661994934082,
+      "learning_rate": 8.637732698338353e-06,
+      "loss": 0.8821,
+      "step": 1960
+    },
+    {
+      "epoch": 0.8755555555555555,
+      "grad_norm": 7.508656024932861,
+      "learning_rate": 8.068024908669658e-06,
+      "loss": 0.9156,
+      "step": 1970
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 11.526093482971191,
+      "learning_rate": 7.516961500462438e-06,
+      "loss": 0.9091,
+      "step": 1980
+    },
+    {
+      "epoch": 0.8844444444444445,
+      "grad_norm": 7.947896480560303,
+      "learning_rate": 6.984654232833998e-06,
+      "loss": 0.9023,
+      "step": 1990
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 8.093976974487305,
+      "learning_rate": 6.471211061038695e-06,
+      "loss": 0.8878,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8933333333333333,
+      "grad_norm": 11.323365211486816,
+      "learning_rate": 5.976736114573867e-06,
+      "loss": 0.9262,
+      "step": 2010
+    },
+    {
+      "epoch": 0.8977777777777778,
+      "grad_norm": 8.999126434326172,
+      "learning_rate": 5.501329676061662e-06,
+      "loss": 0.878,
+      "step": 2020
+    },
+    {
+      "epoch": 0.9022222222222223,
+      "grad_norm": 8.701828956604004,
+      "learning_rate": 5.045088160911227e-06,
+      "loss": 0.8847,
+      "step": 2030
+    },
+    {
+      "epoch": 0.9066666666666666,
+      "grad_norm": 6.862762451171875,
+      "learning_rate": 4.60810409776491e-06,
+      "loss": 0.8999,
+      "step": 2040
+    },
+    {
+      "epoch": 0.9111111111111111,
+      "grad_norm": 7.2732672691345215,
+      "learning_rate": 4.190466109733004e-06,
+      "loss": 0.9271,
+      "step": 2050
+    },
+    {
+      "epoch": 0.9155555555555556,
+      "grad_norm": 6.5058979988098145,
+      "learning_rate": 3.7922588964203533e-06,
+      "loss": 0.8799,
+      "step": 2060
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 7.603868007659912,
+      "learning_rate": 3.4135632167487274e-06,
+      "loss": 0.9081,
+      "step": 2070
+    },
+    {
+      "epoch": 0.9244444444444444,
+      "grad_norm": 7.810312271118164,
+      "learning_rate": 3.054455872578421e-06,
+      "loss": 0.9159,
+      "step": 2080
+    },
+    {
+      "epoch": 0.9288888888888889,
+      "grad_norm": 8.112349510192871,
+      "learning_rate": 2.71500969313242e-06,
+      "loss": 0.8864,
+      "step": 2090
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 8.802750587463379,
+      "learning_rate": 2.3952935202260608e-06,
+      "loss": 0.8618,
+      "step": 2100
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.7286358728704e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9012ea34a655f218dd2bab2f2edc38d537cc1525f0e422dbcceaa6fa5a75517
 size 5969

 version https://git-lfs.github.com/spec/v1
+oid sha256:24107160801c0c99920b56e5852c1fa1822488d662f9e024502c2d7c259cfa1c
 size 5969