Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d74e94ad70bf2300a6f5f7498cc8db84819565ea3b55fa897d35134d2ab4382f
 size 1917255968

 version https://git-lfs.github.com/spec/v1
+oid sha256:92ecbb21d1e0fe04a76374b42b85859839cd5847c3b922def8d9c835efea99e0
 size 1917255968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3207fa8fc27939a3a2430169ac40a34063364307b65159c50517dd3c9d0903c8
 size 2479129381

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb40c6114ec922d7714527c3e12b5ccaf476fde4ca857ba014ddc6cfb4ede0c4
 size 2479129381

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1d565802a8e26c4e8a31328752b7a7fdc186d9401aa008e65697d0ad8c22e33
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c800b778fa7e115e4c34de8529902de8b61c9a1b4bab3eb8295d06dafff030e
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:169caddb558d3e6f8e851fcfc2118f9ce7d97665c7c298e0fc9db7186bcdd5a6
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:946649cc0ec301f9f67d287ff0bc2472a821330c5cd88309b298943469bb0e90
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9659502535619415,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1065,6 +1065,356 @@
       "learning_rate": 2.8464381903616438e-05,
       "loss": 0.3255,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1084,7 +1434,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.171541987873833e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2878531755614586,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.8464381903616438e-05,
       "loss": 0.3255,
       "step": 1500
+    },
+    {
+      "epoch": 0.9723899219190212,
+      "grad_norm": 10.125,
+      "learning_rate": 2.8200432913515235e-05,
+      "loss": 0.3507,
+      "step": 1510
+    },
+    {
+      "epoch": 0.9788295902761008,
+      "grad_norm": 17.0,
+      "learning_rate": 2.7936120715902957e-05,
+      "loss": 0.4079,
+      "step": 1520
+    },
+    {
+      "epoch": 0.9852692586331804,
+      "grad_norm": 11.6875,
+      "learning_rate": 2.7671475306776396e-05,
+      "loss": 0.4972,
+      "step": 1530
+    },
+    {
+      "epoch": 0.99170892699026,
+      "grad_norm": 10.4375,
+      "learning_rate": 2.740652671994754e-05,
+      "loss": 0.3757,
+      "step": 1540
+    },
+    {
+      "epoch": 0.9981485953473396,
+      "grad_norm": 8.0625,
+      "learning_rate": 2.7141305023635083e-05,
+      "loss": 0.3437,
+      "step": 1550
+    },
+    {
+      "epoch": 1.0045077678499557,
+      "grad_norm": 11.25,
+      "learning_rate": 2.687584031705211e-05,
+      "loss": 0.2757,
+      "step": 1560
+    },
+    {
+      "epoch": 1.0109474362070354,
+      "grad_norm": 7.03125,
+      "learning_rate": 2.6610162726990185e-05,
+      "loss": 0.2032,
+      "step": 1570
+    },
+    {
+      "epoch": 1.017387104564115,
+      "grad_norm": 10.4375,
+      "learning_rate": 2.6344302404400417e-05,
+      "loss": 0.2548,
+      "step": 1580
+    },
+    {
+      "epoch": 1.0238267729211945,
+      "grad_norm": 8.75,
+      "learning_rate": 2.607828952097165e-05,
+      "loss": 0.2578,
+      "step": 1590
+    },
+    {
+      "epoch": 1.0302664412782743,
+      "grad_norm": 10.75,
+      "learning_rate": 2.5812154265706413e-05,
+      "loss": 0.2078,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0367061096353538,
+      "grad_norm": 11.375,
+      "learning_rate": 2.5545926841494826e-05,
+      "loss": 0.1952,
+      "step": 1610
+    },
+    {
+      "epoch": 1.0431457779924334,
+      "grad_norm": 7.6875,
+      "learning_rate": 2.5279637461687026e-05,
+      "loss": 0.1958,
+      "step": 1620
+    },
+    {
+      "epoch": 1.049585446349513,
+      "grad_norm": 9.9375,
+      "learning_rate": 2.5013316346664273e-05,
+      "loss": 0.2133,
+      "step": 1630
+    },
+    {
+      "epoch": 1.0560251147065927,
+      "grad_norm": 8.75,
+      "learning_rate": 2.474699372040936e-05,
+      "loss": 0.2355,
+      "step": 1640
+    },
+    {
+      "epoch": 1.0624647830636722,
+      "grad_norm": 9.9375,
+      "learning_rate": 2.4480699807076592e-05,
+      "loss": 0.225,
+      "step": 1650
+    },
+    {
+      "epoch": 1.0689044514207517,
+      "grad_norm": 9.125,
+      "learning_rate": 2.4214464827561752e-05,
+      "loss": 0.272,
+      "step": 1660
+    },
+    {
+      "epoch": 1.0753441197778315,
+      "grad_norm": 12.4375,
+      "learning_rate": 2.3948318996072363e-05,
+      "loss": 0.2001,
+      "step": 1670
+    },
+    {
+      "epoch": 1.081783788134911,
+      "grad_norm": 7.375,
+      "learning_rate": 2.3682292516698832e-05,
+      "loss": 0.183,
+      "step": 1680
+    },
+    {
+      "epoch": 1.0882234564919906,
+      "grad_norm": 7.71875,
+      "learning_rate": 2.3416415579986643e-05,
+      "loss": 0.1954,
+      "step": 1690
+    },
+    {
+      "epoch": 1.0946631248490704,
+      "grad_norm": 6.625,
+      "learning_rate": 2.3150718359510142e-05,
+      "loss": 0.1848,
+      "step": 1700
+    },
+    {
+      "epoch": 1.10110279320615,
+      "grad_norm": 8.5,
+      "learning_rate": 2.2885231008448216e-05,
+      "loss": 0.1769,
+      "step": 1710
+    },
+    {
+      "epoch": 1.1075424615632294,
+      "grad_norm": 17.875,
+      "learning_rate": 2.261998365616228e-05,
+      "loss": 0.2485,
+      "step": 1720
+    },
+    {
+      "epoch": 1.1139821299203092,
+      "grad_norm": 9.9375,
+      "learning_rate": 2.2355006404777057e-05,
+      "loss": 0.1795,
+      "step": 1730
+    },
+    {
+      "epoch": 1.1204217982773887,
+      "grad_norm": 8.375,
+      "learning_rate": 2.2090329325764294e-05,
+      "loss": 0.2424,
+      "step": 1740
+    },
+    {
+      "epoch": 1.1268614666344683,
+      "grad_norm": 8.5,
+      "learning_rate": 2.1825982456530086e-05,
+      "loss": 0.203,
+      "step": 1750
+    },
+    {
+      "epoch": 1.133301134991548,
+      "grad_norm": 6.0,
+      "learning_rate": 2.1561995797006017e-05,
+      "loss": 0.2003,
+      "step": 1760
+    },
+    {
+      "epoch": 1.1397408033486276,
+      "grad_norm": 18.5,
+      "learning_rate": 2.129839930624454e-05,
+      "loss": 0.1599,
+      "step": 1770
+    },
+    {
+      "epoch": 1.1461804717057071,
+      "grad_norm": 11.375,
+      "learning_rate": 2.1035222899019057e-05,
+      "loss": 0.2198,
+      "step": 1780
+    },
+    {
+      "epoch": 1.1526201400627867,
+      "grad_norm": 6.65625,
+      "learning_rate": 2.0772496442428914e-05,
+      "loss": 0.1721,
+      "step": 1790
+    },
+    {
+      "epoch": 1.1590598084198664,
+      "grad_norm": 6.625,
+      "learning_rate": 2.051024975250996e-05,
+      "loss": 0.1557,
+      "step": 1800
+    },
+    {
+      "epoch": 1.165499476776946,
+      "grad_norm": 7.96875,
+      "learning_rate": 2.0248512590850716e-05,
+      "loss": 0.205,
+      "step": 1810
+    },
+    {
+      "epoch": 1.1719391451340255,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.9987314661214904e-05,
+      "loss": 0.203,
+      "step": 1820
+    },
+    {
+      "epoch": 1.1783788134911053,
+      "grad_norm": 20.5,
+      "learning_rate": 1.9726685606170415e-05,
+      "loss": 0.2571,
+      "step": 1830
+    },
+    {
+      "epoch": 1.1848184818481848,
+      "grad_norm": 8.25,
+      "learning_rate": 1.9466655003725273e-05,
+      "loss": 0.2108,
+      "step": 1840
+    },
+    {
+      "epoch": 1.1912581502052644,
+      "grad_norm": 10.375,
+      "learning_rate": 1.920725236397091e-05,
+      "loss": 0.2667,
+      "step": 1850
+    },
+    {
+      "epoch": 1.197697818562344,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.8948507125733177e-05,
+      "loss": 0.1615,
+      "step": 1860
+    },
+    {
+      "epoch": 1.2041374869194237,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.869044865323138e-05,
+      "loss": 0.2647,
+      "step": 1870
+    },
+    {
+      "epoch": 1.2105771552765032,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.843310623274587e-05,
+      "loss": 0.1771,
+      "step": 1880
+    },
+    {
+      "epoch": 1.2170168236335828,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.8176509069294396e-05,
+      "loss": 0.1781,
+      "step": 1890
+    },
+    {
+      "epoch": 1.2234564919906625,
+      "grad_norm": 6.78125,
+      "learning_rate": 1.7920686283317712e-05,
+      "loss": 0.167,
+      "step": 1900
+    },
+    {
+      "epoch": 1.229896160347742,
+      "grad_norm": 8.0625,
+      "learning_rate": 1.7665666907374822e-05,
+      "loss": 0.1785,
+      "step": 1910
+    },
+    {
+      "epoch": 1.2363358287048216,
+      "grad_norm": 6.71875,
+      "learning_rate": 1.741147988284813e-05,
+      "loss": 0.1816,
+      "step": 1920
+    },
+    {
+      "epoch": 1.2427754970619014,
+      "grad_norm": 11.25,
+      "learning_rate": 1.715815405665897e-05,
+      "loss": 0.1934,
+      "step": 1930
+    },
+    {
+      "epoch": 1.249215165418981,
+      "grad_norm": 8.125,
+      "learning_rate": 1.6905718177993897e-05,
+      "loss": 0.1683,
+      "step": 1940
+    },
+    {
+      "epoch": 1.2556548337760605,
+      "grad_norm": 8.4375,
+      "learning_rate": 1.6654200895041962e-05,
+      "loss": 0.1812,
+      "step": 1950
+    },
+    {
+      "epoch": 1.2620945021331402,
+      "grad_norm": 7.25,
+      "learning_rate": 1.6403630751743576e-05,
+      "loss": 0.1787,
+      "step": 1960
+    },
+    {
+      "epoch": 1.2685341704902198,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.6154036184551098e-05,
+      "loss": 0.1483,
+      "step": 1970
+    },
+    {
+      "epoch": 1.2749738388472993,
+      "grad_norm": 9.0,
+      "learning_rate": 1.5905445519201694e-05,
+      "loss": 0.3355,
+      "step": 1980
+    },
+    {
+      "epoch": 1.281413507204379,
+      "grad_norm": 9.0,
+      "learning_rate": 1.5657886967502733e-05,
+      "loss": 0.3235,
+      "step": 1990
+    },
+    {
+      "epoch": 1.2878531755614586,
+      "grad_norm": 4.15625,
+      "learning_rate": 1.541138862413009e-05,
+      "loss": 0.1555,
+      "step": 2000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.5616435963670323e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null