Training in progress, step 90000

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61757e92d02b06dda1da003da57fa0b18bc1cc2b413fc514841b017d0d63c3c8
 size 100172997

 version https://git-lfs.github.com/spec/v1
+oid sha256:0403e77fedd175fe2813435246e47b4db08141719006e4af642e66c252088876
 size 100172997

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81a90871ae24751a566fb99821bee5e29d062c303c164fcd6aeac08948cab240
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:459351fdd706b427a4771aa3d8515e577348d2de84329d8049ae17fe23916e8b
 size 146774203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7978600af4170dc4592efcab1d33d1582d45b26dc998a10a280a81e23e422deb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:70d5cceb52d0fa5a00f924e679cb68057477b161920a598903be579e5d6a58aa
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7331ea7e49edb5d8c1485934eca953ca913987924fdd220c26d2fc895357dc9
 size 246899880

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2086d296d1d3514176646dc6eef7a73ed351fdafb4d4a71a834e5c0056ed735
 size 246899880

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3437902879243661,
-  "global_step": 80000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2406,11 +2406,311 @@
       "learning_rate": 0.0005701789946806666,
       "loss": 3.1995,
       "step": 80000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
-  "total_flos": 1.2750639857664e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3867640739149119,
+  "global_step": 90000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0005701789946806666,
       "loss": 3.1995,
       "step": 80000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0005721781645068867,
+      "loss": 3.2116,
+      "step": 80200
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.000574176418806075,
+      "loss": 3.2256,
+      "step": 80400
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0005761737225165182,
+      "loss": 3.2221,
+      "step": 80600
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0005781700405931827,
+      "loss": 3.1956,
+      "step": 80800
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0005801653380083288,
+      "loss": 3.2031,
+      "step": 81000
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0005821595797521253,
+      "loss": 3.2029,
+      "step": 81200
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0005841527308332645,
+      "loss": 3.2065,
+      "step": 81400
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0005861447562795751,
+      "loss": 3.1783,
+      "step": 81600
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0005881356211386371,
+      "loss": 3.2181,
+      "step": 81800
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0005901252904783932,
+      "loss": 3.1991,
+      "step": 82000
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0005921137293877644,
+      "loss": 3.2011,
+      "step": 82200
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0005941009029772594,
+      "loss": 3.1852,
+      "step": 82400
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00059608677637959,
+      "loss": 3.1911,
+      "step": 82600
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00059807131475028,
+      "loss": 3.1999,
+      "step": 82800
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.000600054483268279,
+      "loss": 3.1853,
+      "step": 83000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0006020362471365711,
+      "loss": 3.1928,
+      "step": 83200
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0006040165715827878,
+      "loss": 3.1833,
+      "step": 83400
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0006059954218598161,
+      "loss": 3.1972,
+      "step": 83600
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0006079727632464092,
+      "loss": 3.2052,
+      "step": 83800
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.000609948561047796,
+      "loss": 3.1881,
+      "step": 84000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0006119227805962891,
+      "loss": 3.174,
+      "step": 84200
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0006138953872518932,
+      "loss": 3.1831,
+      "step": 84400
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0006158663464029133,
+      "loss": 3.1961,
+      "step": 84600
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0006178356234665618,
+      "loss": 3.1759,
+      "step": 84800
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0006198031838895652,
+      "loss": 3.1728,
+      "step": 85000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0006217689931487707,
+      "loss": 3.194,
+      "step": 85200
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0006237330167517514,
+      "loss": 3.1747,
+      "step": 85400
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0006256952202374121,
+      "loss": 3.1805,
+      "step": 85600
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0006276555691765935,
+      "loss": 3.1781,
+      "step": 85800
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0006296140291726768,
+      "loss": 3.1829,
+      "step": 86000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0006315705658621865,
+      "loss": 3.1832,
+      "step": 86200
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0006335251449153937,
+      "loss": 3.1634,
+      "step": 86400
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0006354777320369192,
+      "loss": 3.1664,
+      "step": 86600
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0006374282929663341,
+      "loss": 3.1576,
+      "step": 86800
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0006393767934787615,
+      "loss": 3.1667,
+      "step": 87000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0006413231993854767,
+      "loss": 3.1718,
+      "step": 87200
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0006432674765345077,
+      "loss": 3.1645,
+      "step": 87400
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0006452095908112336,
+      "loss": 3.2063,
+      "step": 87600
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0006471495081389843,
+      "loss": 3.2638,
+      "step": 87800
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0006490871944796369,
+      "loss": 3.2685,
+      "step": 88000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0006510226158342146,
+      "loss": 3.2519,
+      "step": 88200
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0006529557382434818,
+      "loss": 3.2101,
+      "step": 88400
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0006548865277885411,
+      "loss": 3.2109,
+      "step": 88600
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0006568149505914273,
+      "loss": 3.2291,
+      "step": 88800
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0006587409728157031,
+      "loss": 3.2282,
+      "step": 89000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.000660664560667052,
+      "loss": 3.2404,
+      "step": 89200
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0006625856803938711,
+      "loss": 3.2334,
+      "step": 89400
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.000664504298287864,
+      "loss": 3.243,
+      "step": 89600
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0006664203806846319,
+      "loss": 3.2475,
+      "step": 89800
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0006683338939642638,
+      "loss": 3.3556,
+      "step": 90000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
+  "total_flos": 1.4344469839872e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81a90871ae24751a566fb99821bee5e29d062c303c164fcd6aeac08948cab240
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:459351fdd706b427a4771aa3d8515e577348d2de84329d8049ae17fe23916e8b
 size 146774203