Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0dd24ee6828501b624fa6d66fd1194cee27acdf6fbf4040fa3393ed025f1e0b8
 size 174663600

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e2039cdf0d4ca2fe364489b9a26fd1582201d0fd89c103dcb7a06c7a3083e2c
 size 174663600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57c4a4dab1575e19036cc179b540af28afc954075c76fa1c3f74f467b18a0a54
 size 177908997

 version https://git-lfs.github.com/spec/v1
+oid sha256:0df68d466562b2d42ea22f3c6f25f54c0ba6fc82f68b90e89c45cb2738741123
 size 177908997

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04eefe07496c9ea6eacb03b570d4b4b5896211d650c0810a1180d502bea3bcc3
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:4004b539c016dc3dd1a46f0cfd51bdccd67571231886c54485e4a0726c042be8
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:119c8b8031efeada1dd54137e4c5ca8dc90f054b53a8f73cacb65b1b4acc4f58
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba16ce8cf2517b7afd4a4313c86e62d498e4965522f1c59e111da3f1986b5604
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7086335183654187,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -608,6 +608,206 @@
       "mean_token_accuracy": 0.9487812982499599,
       "num_tokens": 24793698.0,
       "step": 1500
     }
   ],
   "logging_steps": 25,
@@ -627,7 +827,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.587361750240276e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9448446911538916,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.9487812982499599,
       "num_tokens": 24793698.0,
       "step": 1500
+    },
+    {
+      "entropy": 0.20117157969623803,
+      "epoch": 0.7204440770048424,
+      "grad_norm": 0.212890625,
+      "learning_rate": 9.416027663269881e-05,
+      "loss": 0.199,
+      "mean_token_accuracy": 0.9457039895653725,
+      "num_tokens": 25203851.0,
+      "step": 1525
+    },
+    {
+      "entropy": 0.18685766063630582,
+      "epoch": 0.732254635644266,
+      "grad_norm": 0.220703125,
+      "learning_rate": 9.383385876187659e-05,
+      "loss": 0.1848,
+      "mean_token_accuracy": 0.9489575871825218,
+      "num_tokens": 25608056.0,
+      "step": 1550
+    },
+    {
+      "entropy": 0.20038649912923576,
+      "epoch": 0.7440651942836897,
+      "grad_norm": 0.203125,
+      "learning_rate": 9.34991624194776e-05,
+      "loss": 0.1964,
+      "mean_token_accuracy": 0.9469015775620937,
+      "num_tokens": 26027627.0,
+      "step": 1575
+    },
+    {
+      "entropy": 0.19791467829607426,
+      "epoch": 0.7558757529231133,
+      "grad_norm": 0.1953125,
+      "learning_rate": 9.315625081632191e-05,
+      "loss": 0.1949,
+      "mean_token_accuracy": 0.9461945466697216,
+      "num_tokens": 26437140.0,
+      "step": 1600
+    },
+    {
+      "entropy": 0.1835308167617768,
+      "epoch": 0.7676863115625369,
+      "grad_norm": 0.19140625,
+      "learning_rate": 9.280518871476536e-05,
+      "loss": 0.182,
+      "mean_token_accuracy": 0.9500955049693585,
+      "num_tokens": 26845418.0,
+      "step": 1625
+    },
+    {
+      "entropy": 0.17514564257115126,
+      "epoch": 0.7794968702019606,
+      "grad_norm": 0.16015625,
+      "learning_rate": 9.244604241646864e-05,
+      "loss": 0.1703,
+      "mean_token_accuracy": 0.9527664017677308,
+      "num_tokens": 27259457.0,
+      "step": 1650
+    },
+    {
+      "entropy": 0.1950150650832802,
+      "epoch": 0.7913074288413842,
+      "grad_norm": 0.322265625,
+      "learning_rate": 9.207887974987546e-05,
+      "loss": 0.1933,
+      "mean_token_accuracy": 0.9472205652296544,
+      "num_tokens": 27681677.0,
+      "step": 1675
+    },
+    {
+      "entropy": 0.18074996698647738,
+      "epoch": 0.8031179874808079,
+      "grad_norm": 0.240234375,
+      "learning_rate": 9.170377005740251e-05,
+      "loss": 0.1771,
+      "mean_token_accuracy": 0.9505787827074528,
+      "num_tokens": 28105249.0,
+      "step": 1700
+    },
+    {
+      "entropy": 0.1879336739424616,
+      "epoch": 0.8149285461202315,
+      "grad_norm": 0.19140625,
+      "learning_rate": 9.132078418234344e-05,
+      "loss": 0.1849,
+      "mean_token_accuracy": 0.9493447379767894,
+      "num_tokens": 28530587.0,
+      "step": 1725
+    },
+    {
+      "entropy": 0.1837541355099529,
+      "epoch": 0.8267391047596552,
+      "grad_norm": 0.158203125,
+      "learning_rate": 9.09299944554893e-05,
+      "loss": 0.1806,
+      "mean_token_accuracy": 0.9498767641186714,
+      "num_tokens": 28958518.0,
+      "step": 1750
+    },
+    {
+      "entropy": 0.18400955947116018,
+      "epoch": 0.8385496633990788,
+      "grad_norm": 0.169921875,
+      "learning_rate": 9.05314746814683e-05,
+      "loss": 0.1825,
+      "mean_token_accuracy": 0.9495964366197586,
+      "num_tokens": 29370081.0,
+      "step": 1775
+    },
+    {
+      "entropy": 0.19354972328990697,
+      "epoch": 0.8503602220385024,
+      "grad_norm": 0.193359375,
+      "learning_rate": 9.012530012480684e-05,
+      "loss": 0.1909,
+      "mean_token_accuracy": 0.9474910768866539,
+      "num_tokens": 29782814.0,
+      "step": 1800
+    },
+    {
+      "entropy": 0.17223400254733862,
+      "epoch": 0.8621707806779261,
+      "grad_norm": 0.2216796875,
+      "learning_rate": 8.971154749571522e-05,
+      "loss": 0.171,
+      "mean_token_accuracy": 0.9524741047620773,
+      "num_tokens": 30188402.0,
+      "step": 1825
+    },
+    {
+      "entropy": 0.19484048396348952,
+      "epoch": 0.8739813393173497,
+      "grad_norm": 0.19140625,
+      "learning_rate": 8.92902949356e-05,
+      "loss": 0.1928,
+      "mean_token_accuracy": 0.947279536575079,
+      "num_tokens": 30600792.0,
+      "step": 1850
+    },
+    {
+      "entropy": 0.19088726976886392,
+      "epoch": 0.8857918979567734,
+      "grad_norm": 0.181640625,
+      "learning_rate": 8.886162200230628e-05,
+      "loss": 0.1894,
+      "mean_token_accuracy": 0.9477717036008835,
+      "num_tokens": 31020474.0,
+      "step": 1875
+    },
+    {
+      "entropy": 0.17441698019392787,
+      "epoch": 0.897602456596197,
+      "grad_norm": 0.1845703125,
+      "learning_rate": 8.84256096550924e-05,
+      "loss": 0.1717,
+      "mean_token_accuracy": 0.95237029671669,
+      "num_tokens": 31443050.0,
+      "step": 1900
+    },
+    {
+      "entropy": 0.18448449746705592,
+      "epoch": 0.9094130152356207,
+      "grad_norm": 0.1748046875,
+      "learning_rate": 8.798234023933985e-05,
+      "loss": 0.1825,
+      "mean_token_accuracy": 0.9495246517658233,
+      "num_tokens": 31852766.0,
+      "step": 1925
+    },
+    {
+      "entropy": 0.18353000645525752,
+      "epoch": 0.9212235738750443,
+      "grad_norm": 0.146484375,
+      "learning_rate": 8.753189747100161e-05,
+      "loss": 0.1808,
+      "mean_token_accuracy": 0.9494968324899673,
+      "num_tokens": 32264050.0,
+      "step": 1950
+    },
+    {
+      "entropy": 0.18177078458480536,
+      "epoch": 0.933034132514468,
+      "grad_norm": 0.1455078125,
+      "learning_rate": 8.707436642079154e-05,
+      "loss": 0.181,
+      "mean_token_accuracy": 0.9502438700199127,
+      "num_tokens": 32670263.0,
+      "step": 1975
+    },
+    {
+      "entropy": 0.18713734617456793,
+      "epoch": 0.9448446911538916,
+      "grad_norm": 0.189453125,
+      "learning_rate": 8.660983349811783e-05,
+      "loss": 0.1845,
+      "mean_token_accuracy": 0.9492973360419273,
+      "num_tokens": 33086791.0,
+      "step": 2000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 2.1213520186826977e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null