Training in progress, step 6500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9eb50dbcfebd5f63fc3cc77929d31805c3be0d18c479c86d9d2674102149d998
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:8da83f3c30b9473fef2b931e6b47e4814c76e805b02501c93641aed6bc786ead
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69bc7042f1e1e7b74e152e40dbcd26c60ace8254419664002f89f720c072bde5
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8c7391e5803dc14420bae3b5326bbd52abb5236b17e67147b31348d199ebeef
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6125d2b668a070022ee702876ba7ef10eb371529c27241694b5b376ca68bdc81
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:0717c8780efa444a6d80d462b725b32f107f9a3c24550aaaa04a7d27cefba76b
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2089462018940158,
   "eval_steps": 500,
-  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5408,6 +5408,456 @@
       "mean_token_accuracy": 0.8181872367858887,
       "num_tokens": 6657605.0,
       "step": 6000
     }
   ],
   "logging_steps": 10,
@@ -5427,7 +5877,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8046973169571840.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.309691718718517,
   "eval_steps": 500,
+  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8181872367858887,
       "num_tokens": 6657605.0,
       "step": 6000
+    },
+    {
+      "epoch": 1.2109611122305057,
+      "grad_norm": 16.125,
+      "learning_rate": 1.1928269192020955e-05,
+      "loss": 0.8571,
+      "mean_token_accuracy": 0.7833750724792481,
+      "num_tokens": 6667905.0,
+      "step": 6010
+    },
+    {
+      "epoch": 1.2129760225669957,
+      "grad_norm": 9.8125,
+      "learning_rate": 1.1914836456444356e-05,
+      "loss": 0.7898,
+      "mean_token_accuracy": 0.7975350022315979,
+      "num_tokens": 6678888.0,
+      "step": 6020
+    },
+    {
+      "epoch": 1.2149909329034858,
+      "grad_norm": 13.5,
+      "learning_rate": 1.1901403720867755e-05,
+      "loss": 0.8104,
+      "mean_token_accuracy": 0.7968179106712341,
+      "num_tokens": 6690767.0,
+      "step": 6030
+    },
+    {
+      "epoch": 1.2170058432399757,
+      "grad_norm": 12.9375,
+      "learning_rate": 1.1887970985291155e-05,
+      "loss": 0.8847,
+      "mean_token_accuracy": 0.7826601445674897,
+      "num_tokens": 6701963.0,
+      "step": 6040
+    },
+    {
+      "epoch": 1.2190207535764659,
+      "grad_norm": 10.375,
+      "learning_rate": 1.1874538249714556e-05,
+      "loss": 0.7929,
+      "mean_token_accuracy": 0.795721584558487,
+      "num_tokens": 6712765.0,
+      "step": 6050
+    },
+    {
+      "epoch": 1.2210356639129558,
+      "grad_norm": 9.5625,
+      "learning_rate": 1.1861105514137956e-05,
+      "loss": 0.8396,
+      "mean_token_accuracy": 0.7961892068386078,
+      "num_tokens": 6723997.0,
+      "step": 6060
+    },
+    {
+      "epoch": 1.223050574249446,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.1847672778561354e-05,
+      "loss": 0.7774,
+      "mean_token_accuracy": 0.8090421617031097,
+      "num_tokens": 6734959.0,
+      "step": 6070
+    },
+    {
+      "epoch": 1.225065484585936,
+      "grad_norm": 13.75,
+      "learning_rate": 1.1834240042984754e-05,
+      "loss": 0.8442,
+      "mean_token_accuracy": 0.7920287191867829,
+      "num_tokens": 6745125.0,
+      "step": 6080
+    },
+    {
+      "epoch": 1.227080394922426,
+      "grad_norm": 12.375,
+      "learning_rate": 1.1820807307408155e-05,
+      "loss": 0.7339,
+      "mean_token_accuracy": 0.8152937352657318,
+      "num_tokens": 6755578.0,
+      "step": 6090
+    },
+    {
+      "epoch": 1.229095305258916,
+      "grad_norm": 10.5,
+      "learning_rate": 1.1807374571831553e-05,
+      "loss": 0.7799,
+      "mean_token_accuracy": 0.8055865943431855,
+      "num_tokens": 6766161.0,
+      "step": 6100
+    },
+    {
+      "epoch": 1.2311102155954061,
+      "grad_norm": 12.5,
+      "learning_rate": 1.1793941836254954e-05,
+      "loss": 0.8072,
+      "mean_token_accuracy": 0.7963293552398681,
+      "num_tokens": 6776660.0,
+      "step": 6110
+    },
+    {
+      "epoch": 1.233125125931896,
+      "grad_norm": 14.0,
+      "learning_rate": 1.1780509100678354e-05,
+      "loss": 0.882,
+      "mean_token_accuracy": 0.7818022012710572,
+      "num_tokens": 6787702.0,
+      "step": 6120
+    },
+    {
+      "epoch": 1.235140036268386,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.1767076365101755e-05,
+      "loss": 0.8014,
+      "mean_token_accuracy": 0.8063171863555908,
+      "num_tokens": 6798904.0,
+      "step": 6130
+    },
+    {
+      "epoch": 1.2371549466048761,
+      "grad_norm": 13.75,
+      "learning_rate": 1.1753643629525154e-05,
+      "loss": 0.8453,
+      "mean_token_accuracy": 0.7982756316661834,
+      "num_tokens": 6808990.0,
+      "step": 6140
+    },
+    {
+      "epoch": 1.239169856941366,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.1740210893948554e-05,
+      "loss": 0.7952,
+      "mean_token_accuracy": 0.8004013955593109,
+      "num_tokens": 6818726.0,
+      "step": 6150
+    },
+    {
+      "epoch": 1.2411847672778562,
+      "grad_norm": 9.3125,
+      "learning_rate": 1.1726778158371955e-05,
+      "loss": 0.8466,
+      "mean_token_accuracy": 0.794275438785553,
+      "num_tokens": 6830189.0,
+      "step": 6160
+    },
+    {
+      "epoch": 1.2431996776143461,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.1713345422795352e-05,
+      "loss": 0.809,
+      "mean_token_accuracy": 0.7935117900371551,
+      "num_tokens": 6840564.0,
+      "step": 6170
+    },
+    {
+      "epoch": 1.2452145879508363,
+      "grad_norm": 10.1875,
+      "learning_rate": 1.1699912687218753e-05,
+      "loss": 0.8684,
+      "mean_token_accuracy": 0.7853965878486633,
+      "num_tokens": 6851057.0,
+      "step": 6180
+    },
+    {
+      "epoch": 1.2472294982873262,
+      "grad_norm": 12.3125,
+      "learning_rate": 1.1686479951642153e-05,
+      "loss": 0.7914,
+      "mean_token_accuracy": 0.7986515760421753,
+      "num_tokens": 6863098.0,
+      "step": 6190
+    },
+    {
+      "epoch": 1.2492444086238161,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.1673047216065552e-05,
+      "loss": 0.7723,
+      "mean_token_accuracy": 0.8050061583518981,
+      "num_tokens": 6873361.0,
+      "step": 6200
+    },
+    {
+      "epoch": 1.2512593189603063,
+      "grad_norm": 10.6875,
+      "learning_rate": 1.1659614480488952e-05,
+      "loss": 0.7892,
+      "mean_token_accuracy": 0.8081447362899781,
+      "num_tokens": 6885561.0,
+      "step": 6210
+    },
+    {
+      "epoch": 1.2532742292967962,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.1646181744912353e-05,
+      "loss": 0.8335,
+      "mean_token_accuracy": 0.7930399179458618,
+      "num_tokens": 6896678.0,
+      "step": 6220
+    },
+    {
+      "epoch": 1.2552891396332864,
+      "grad_norm": 12.5,
+      "learning_rate": 1.1632749009335754e-05,
+      "loss": 0.8161,
+      "mean_token_accuracy": 0.8012160181999206,
+      "num_tokens": 6906436.0,
+      "step": 6230
+    },
+    {
+      "epoch": 1.2573040499697763,
+      "grad_norm": 14.5625,
+      "learning_rate": 1.161931627375915e-05,
+      "loss": 0.8408,
+      "mean_token_accuracy": 0.7945603370666504,
+      "num_tokens": 6916620.0,
+      "step": 6240
+    },
+    {
+      "epoch": 1.2593189603062664,
+      "grad_norm": 16.25,
+      "learning_rate": 1.1605883538182551e-05,
+      "loss": 0.8039,
+      "mean_token_accuracy": 0.801008677482605,
+      "num_tokens": 6928094.0,
+      "step": 6250
+    },
+    {
+      "epoch": 1.2613338706427564,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.1592450802605952e-05,
+      "loss": 0.7906,
+      "mean_token_accuracy": 0.8035953044891357,
+      "num_tokens": 6937852.0,
+      "step": 6260
+    },
+    {
+      "epoch": 1.2633487809792463,
+      "grad_norm": 13.0,
+      "learning_rate": 1.157901806702935e-05,
+      "loss": 0.8865,
+      "mean_token_accuracy": 0.7758103013038635,
+      "num_tokens": 6948566.0,
+      "step": 6270
+    },
+    {
+      "epoch": 1.2653636913157364,
+      "grad_norm": 14.125,
+      "learning_rate": 1.1565585331452751e-05,
+      "loss": 0.9311,
+      "mean_token_accuracy": 0.7705212533473969,
+      "num_tokens": 6959264.0,
+      "step": 6280
+    },
+    {
+      "epoch": 1.2673786016522266,
+      "grad_norm": 11.3125,
+      "learning_rate": 1.1552152595876152e-05,
+      "loss": 0.8076,
+      "mean_token_accuracy": 0.7959451377391815,
+      "num_tokens": 6970706.0,
+      "step": 6290
+    },
+    {
+      "epoch": 1.2693935119887165,
+      "grad_norm": 12.9375,
+      "learning_rate": 1.1538719860299552e-05,
+      "loss": 0.8435,
+      "mean_token_accuracy": 0.7901066780090332,
+      "num_tokens": 6982005.0,
+      "step": 6300
+    },
+    {
+      "epoch": 1.2714084223252065,
+      "grad_norm": 15.875,
+      "learning_rate": 1.1525287124722951e-05,
+      "loss": 0.7781,
+      "mean_token_accuracy": 0.8100695073604584,
+      "num_tokens": 6993228.0,
+      "step": 6310
+    },
+    {
+      "epoch": 1.2734233326616966,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.1511854389146352e-05,
+      "loss": 0.7771,
+      "mean_token_accuracy": 0.7994659662246704,
+      "num_tokens": 7003855.0,
+      "step": 6320
+    },
+    {
+      "epoch": 1.2754382429981865,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.1498421653569752e-05,
+      "loss": 0.8883,
+      "mean_token_accuracy": 0.7779460906982422,
+      "num_tokens": 7016389.0,
+      "step": 6330
+    },
+    {
+      "epoch": 1.2774531533346767,
+      "grad_norm": 10.6875,
+      "learning_rate": 1.148498891799315e-05,
+      "loss": 0.7674,
+      "mean_token_accuracy": 0.8048594057559967,
+      "num_tokens": 7027229.0,
+      "step": 6340
+    },
+    {
+      "epoch": 1.2794680636711666,
+      "grad_norm": 13.0,
+      "learning_rate": 1.147155618241655e-05,
+      "loss": 0.8556,
+      "mean_token_accuracy": 0.7895182788372039,
+      "num_tokens": 7038636.0,
+      "step": 6350
+    },
+    {
+      "epoch": 1.2814829740076568,
+      "grad_norm": 10.75,
+      "learning_rate": 1.145812344683995e-05,
+      "loss": 0.8673,
+      "mean_token_accuracy": 0.7855879724025726,
+      "num_tokens": 7049602.0,
+      "step": 6360
+    },
+    {
+      "epoch": 1.2834978843441467,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.1444690711263349e-05,
+      "loss": 0.8281,
+      "mean_token_accuracy": 0.798017168045044,
+      "num_tokens": 7060783.0,
+      "step": 6370
+    },
+    {
+      "epoch": 1.2855127946806366,
+      "grad_norm": 10.5,
+      "learning_rate": 1.143125797568675e-05,
+      "loss": 0.781,
+      "mean_token_accuracy": 0.8092272758483887,
+      "num_tokens": 7072749.0,
+      "step": 6380
+    },
+    {
+      "epoch": 1.2875277050171268,
+      "grad_norm": 9.75,
+      "learning_rate": 1.141782524011015e-05,
+      "loss": 0.8664,
+      "mean_token_accuracy": 0.7885208010673523,
+      "num_tokens": 7085190.0,
+      "step": 6390
+    },
+    {
+      "epoch": 1.2895426153536167,
+      "grad_norm": 10.625,
+      "learning_rate": 1.140439250453355e-05,
+      "loss": 0.7861,
+      "mean_token_accuracy": 0.80192711353302,
+      "num_tokens": 7095259.0,
+      "step": 6400
+    },
+    {
+      "epoch": 1.2915575256901068,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.1390959768956948e-05,
+      "loss": 0.7456,
+      "mean_token_accuracy": 0.8084029912948608,
+      "num_tokens": 7104840.0,
+      "step": 6410
+    },
+    {
+      "epoch": 1.2935724360265968,
+      "grad_norm": 9.25,
+      "learning_rate": 1.1377527033380348e-05,
+      "loss": 0.9101,
+      "mean_token_accuracy": 0.7775183081626892,
+      "num_tokens": 7116704.0,
+      "step": 6420
+    },
+    {
+      "epoch": 1.295587346363087,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.1364094297803749e-05,
+      "loss": 0.8154,
+      "mean_token_accuracy": 0.7952620327472687,
+      "num_tokens": 7128360.0,
+      "step": 6430
+    },
+    {
+      "epoch": 1.2976022566995769,
+      "grad_norm": 10.0625,
+      "learning_rate": 1.1350661562227148e-05,
+      "loss": 0.7922,
+      "mean_token_accuracy": 0.8016098260879516,
+      "num_tokens": 7139177.0,
+      "step": 6440
+    },
+    {
+      "epoch": 1.2996171670360668,
+      "grad_norm": 13.0625,
+      "learning_rate": 1.1337228826650548e-05,
+      "loss": 0.9353,
+      "mean_token_accuracy": 0.7753040254116058,
+      "num_tokens": 7149827.0,
+      "step": 6450
+    },
+    {
+      "epoch": 1.301632077372557,
+      "grad_norm": 9.4375,
+      "learning_rate": 1.1323796091073949e-05,
+      "loss": 0.8437,
+      "mean_token_accuracy": 0.7929971814155579,
+      "num_tokens": 7162136.0,
+      "step": 6460
+    },
+    {
+      "epoch": 1.303646987709047,
+      "grad_norm": 10.875,
+      "learning_rate": 1.1310363355497348e-05,
+      "loss": 0.9565,
+      "mean_token_accuracy": 0.7702773094177247,
+      "num_tokens": 7173369.0,
+      "step": 6470
+    },
+    {
+      "epoch": 1.305661898045537,
+      "grad_norm": 10.75,
+      "learning_rate": 1.1296930619920748e-05,
+      "loss": 0.8265,
+      "mean_token_accuracy": 0.7950271546840668,
+      "num_tokens": 7184403.0,
+      "step": 6480
+    },
+    {
+      "epoch": 1.307676808382027,
+      "grad_norm": 14.9375,
+      "learning_rate": 1.1283497884344149e-05,
+      "loss": 0.7715,
+      "mean_token_accuracy": 0.8035805761814118,
+      "num_tokens": 7195550.0,
+      "step": 6490
+    },
+    {
+      "epoch": 1.309691718718517,
+      "grad_norm": 13.8125,
+      "learning_rate": 1.1270065148767547e-05,
+      "loss": 0.8843,
+      "mean_token_accuracy": 0.7886571526527405,
+      "num_tokens": 7207013.0,
+      "step": 6500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8718380552103936.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null