Training in progress, step 1930, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +423 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ecb1c43c9a6caae32eedb74afa839b6db8df1604949ac103d65018afa63a05ce
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7ee4397f7ac55478163e72ab579b35e42a987ee8ac4921495614e46cb4fa3fd
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d22ddd6eb04ea57bbea8812aaf6fcc69925e5324bb385f88fbe59698add4850d
 size 4768662910

 version https://git-lfs.github.com/spec/v1
+oid sha256:f16b1b30bde836034c65491c3dbf61376ed4653b1ed3d9965a4aacdd5e4b53be
 size 4768662910

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52cca5856c568bc52c683b690919168fa27bfbdfefc6e0a62355afa6011157c3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9afbf853352cfbcfea61884ff6a2ddcd2aee1ce8618589cf5b56912c1b160011
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7cc13ac7175e5452c0a51656649ea1f0782593abf479b3fbadc42f21b535fdb6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed086eb7192e41567a97c6bf18d0c6b0652f463d79fa509a55c93668bd7f3655
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7771014117342313,
   "eval_steps": 100,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1478,6 +1478,425 @@
       "eval_samples_per_second": 9.672,
       "eval_steps_per_second": 1.212,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1492,12 +1911,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.6237392297984e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9998704830980443,
   "eval_steps": 100,
+  "global_step": 1930,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.672,
       "eval_steps_per_second": 1.212,
       "step": 1500
+    },
+    {
+      "epoch": 0.7822820878124596,
+      "grad_norm": 0.8270747065544128,
+      "learning_rate": 1.2118595279217041e-05,
+      "loss": 0.1642,
+      "mean_token_accuracy": 0.969116922467947,
+      "num_tokens": 6184960.0,
+      "step": 1510
+    },
+    {
+      "epoch": 0.7874627638906877,
+      "grad_norm": 0.7555075883865356,
+      "learning_rate": 1.1830742659758205e-05,
+      "loss": 0.1521,
+      "mean_token_accuracy": 0.9724070452153682,
+      "num_tokens": 6225920.0,
+      "step": 1520
+    },
+    {
+      "epoch": 0.792643439968916,
+      "grad_norm": 0.8719633221626282,
+      "learning_rate": 1.1542890040299368e-05,
+      "loss": 0.1639,
+      "mean_token_accuracy": 0.9688356138765812,
+      "num_tokens": 6266880.0,
+      "step": 1530
+    },
+    {
+      "epoch": 0.7978241160471442,
+      "grad_norm": 0.792812705039978,
+      "learning_rate": 1.125503742084053e-05,
+      "loss": 0.1641,
+      "mean_token_accuracy": 0.9699363961815834,
+      "num_tokens": 6307840.0,
+      "step": 1540
+    },
+    {
+      "epoch": 0.8030047921253723,
+      "grad_norm": 1.0832456350326538,
+      "learning_rate": 1.0967184801381693e-05,
+      "loss": 0.1441,
+      "mean_token_accuracy": 0.9728962793946266,
+      "num_tokens": 6348800.0,
+      "step": 1550
+    },
+    {
+      "epoch": 0.8081854682036006,
+      "grad_norm": 0.8835451006889343,
+      "learning_rate": 1.0679332181922857e-05,
+      "loss": 0.1652,
+      "mean_token_accuracy": 0.9685420744121075,
+      "num_tokens": 6389760.0,
+      "step": 1560
+    },
+    {
+      "epoch": 0.8133661442818287,
+      "grad_norm": 0.695384681224823,
+      "learning_rate": 1.0391479562464019e-05,
+      "loss": 0.1454,
+      "mean_token_accuracy": 0.973140899837017,
+      "num_tokens": 6430720.0,
+      "step": 1570
+    },
+    {
+      "epoch": 0.818546820360057,
+      "grad_norm": 0.926196277141571,
+      "learning_rate": 1.0103626943005182e-05,
+      "loss": 0.1448,
+      "mean_token_accuracy": 0.9730430491268635,
+      "num_tokens": 6471680.0,
+      "step": 1580
+    },
+    {
+      "epoch": 0.8237274964382852,
+      "grad_norm": 0.8786157369613647,
+      "learning_rate": 9.815774323546346e-06,
+      "loss": 0.1444,
+      "mean_token_accuracy": 0.9727250434458256,
+      "num_tokens": 6512640.0,
+      "step": 1590
+    },
+    {
+      "epoch": 0.8289081725165134,
+      "grad_norm": 0.8193939328193665,
+      "learning_rate": 9.527921704087508e-06,
+      "loss": 0.1434,
+      "step": 1600
+    },
+    {
+      "epoch": 0.8289081725165134,
+      "eval_loss": 0.15118131041526794,
+      "eval_mean_token_accuracy": 0.9719678637593292,
+      "eval_num_tokens": 6553600.0,
+      "eval_runtime": 177.6288,
+      "eval_samples_per_second": 9.661,
+      "eval_steps_per_second": 1.21,
+      "step": 1600
+    },
+    {
+      "epoch": 0.8340888485947416,
+      "grad_norm": 0.7355690002441406,
+      "learning_rate": 9.240069084628671e-06,
+      "loss": 0.1486,
+      "mean_token_accuracy": 0.9729452040046453,
+      "num_tokens": 6594560.0,
+      "step": 1610
+    },
+    {
+      "epoch": 0.8392695246729698,
+      "grad_norm": 0.8735950589179993,
+      "learning_rate": 8.952216465169835e-06,
+      "loss": 0.1445,
+      "mean_token_accuracy": 0.9733365938067436,
+      "num_tokens": 6635520.0,
+      "step": 1620
+    },
+    {
+      "epoch": 0.844450200751198,
+      "grad_norm": 1.1389552354812622,
+      "learning_rate": 8.664363845710997e-06,
+      "loss": 0.1558,
+      "mean_token_accuracy": 0.9712817937135696,
+      "num_tokens": 6676480.0,
+      "step": 1630
+    },
+    {
+      "epoch": 0.8496308768294263,
+      "grad_norm": 0.8766786456108093,
+      "learning_rate": 8.37651122625216e-06,
+      "loss": 0.1558,
+      "mean_token_accuracy": 0.9699853204190731,
+      "num_tokens": 6717440.0,
+      "step": 1640
+    },
+    {
+      "epoch": 0.8548115529076544,
+      "grad_norm": 0.8025283217430115,
+      "learning_rate": 8.088658606793324e-06,
+      "loss": 0.1561,
+      "mean_token_accuracy": 0.9704500935971737,
+      "num_tokens": 6758400.0,
+      "step": 1650
+    },
+    {
+      "epoch": 0.8599922289858827,
+      "grad_norm": 0.7806901931762695,
+      "learning_rate": 7.800805987334485e-06,
+      "loss": 0.1635,
+      "mean_token_accuracy": 0.969275925308466,
+      "num_tokens": 6799360.0,
+      "step": 1660
+    },
+    {
+      "epoch": 0.8651729050641108,
+      "grad_norm": 0.6943385601043701,
+      "learning_rate": 7.512953367875648e-06,
+      "loss": 0.1351,
+      "mean_token_accuracy": 0.9746330663561821,
+      "num_tokens": 6840320.0,
+      "step": 1670
+    },
+    {
+      "epoch": 0.8703535811423391,
+      "grad_norm": 0.7692267894744873,
+      "learning_rate": 7.225100748416811e-06,
+      "loss": 0.15,
+      "mean_token_accuracy": 0.9721134983003139,
+      "num_tokens": 6881280.0,
+      "step": 1680
+    },
+    {
+      "epoch": 0.8755342572205673,
+      "grad_norm": 1.0311888456344604,
+      "learning_rate": 6.9372481289579734e-06,
+      "loss": 0.1476,
+      "mean_token_accuracy": 0.9735812105238437,
+      "num_tokens": 6922240.0,
+      "step": 1690
+    },
+    {
+      "epoch": 0.8807149332987955,
+      "grad_norm": 0.7127304673194885,
+      "learning_rate": 6.649395509499137e-06,
+      "loss": 0.1639,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8807149332987955,
+      "eval_loss": 0.15019147098064423,
+      "eval_mean_token_accuracy": 0.972071400076844,
+      "eval_num_tokens": 6963200.0,
+      "eval_runtime": 177.5182,
+      "eval_samples_per_second": 9.667,
+      "eval_steps_per_second": 1.211,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8858956093770237,
+      "grad_norm": 0.8600668907165527,
+      "learning_rate": 6.3615428900403e-06,
+      "loss": 0.1562,
+      "mean_token_accuracy": 0.9699975498020649,
+      "num_tokens": 7004160.0,
+      "step": 1710
+    },
+    {
+      "epoch": 0.8910762854552519,
+      "grad_norm": 0.8082440495491028,
+      "learning_rate": 6.073690270581462e-06,
+      "loss": 0.1587,
+      "mean_token_accuracy": 0.9702299386262894,
+      "num_tokens": 7045120.0,
+      "step": 1720
+    },
+    {
+      "epoch": 0.8962569615334801,
+      "grad_norm": 0.8098168969154358,
+      "learning_rate": 5.785837651122626e-06,
+      "loss": 0.1421,
+      "mean_token_accuracy": 0.9735078245401383,
+      "num_tokens": 7086080.0,
+      "step": 1730
+    },
+    {
+      "epoch": 0.9014376376117084,
+      "grad_norm": 0.6847867965698242,
+      "learning_rate": 5.4979850316637885e-06,
+      "loss": 0.1435,
+      "mean_token_accuracy": 0.9728962808847428,
+      "num_tokens": 7127040.0,
+      "step": 1740
+    },
+    {
+      "epoch": 0.9066183136899365,
+      "grad_norm": 1.0864291191101074,
+      "learning_rate": 5.210132412204952e-06,
+      "loss": 0.1471,
+      "mean_token_accuracy": 0.9716976463794709,
+      "num_tokens": 7168000.0,
+      "step": 1750
+    },
+    {
+      "epoch": 0.9117989897681648,
+      "grad_norm": 0.7632136344909668,
+      "learning_rate": 4.922279792746115e-06,
+      "loss": 0.1421,
+      "mean_token_accuracy": 0.9734344378113746,
+      "num_tokens": 7208960.0,
+      "step": 1760
+    },
+    {
+      "epoch": 0.9169796658463929,
+      "grad_norm": 0.7627587914466858,
+      "learning_rate": 4.634427173287277e-06,
+      "loss": 0.155,
+      "mean_token_accuracy": 0.970841483771801,
+      "num_tokens": 7249920.0,
+      "step": 1770
+    },
+    {
+      "epoch": 0.9221603419246212,
+      "grad_norm": 0.8158827424049377,
+      "learning_rate": 4.34657455382844e-06,
+      "loss": 0.1516,
+      "mean_token_accuracy": 0.9719178065657615,
+      "num_tokens": 7290880.0,
+      "step": 1780
+    },
+    {
+      "epoch": 0.9273410180028494,
+      "grad_norm": 0.7051241397857666,
+      "learning_rate": 4.058721934369604e-06,
+      "loss": 0.155,
+      "mean_token_accuracy": 0.9710616424679757,
+      "num_tokens": 7331840.0,
+      "step": 1790
+    },
+    {
+      "epoch": 0.9325216940810775,
+      "grad_norm": 0.9571183919906616,
+      "learning_rate": 3.770869314910766e-06,
+      "loss": 0.1523,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9325216940810775,
+      "eval_loss": 0.1495211273431778,
+      "eval_mean_token_accuracy": 0.9722500282664631,
+      "eval_num_tokens": 7372800.0,
+      "eval_runtime": 177.4195,
+      "eval_samples_per_second": 9.672,
+      "eval_steps_per_second": 1.212,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9377023701593058,
+      "grad_norm": 0.7204054594039917,
+      "learning_rate": 3.4830166954519285e-06,
+      "loss": 0.147,
+      "mean_token_accuracy": 0.9728962782770395,
+      "num_tokens": 7413760.0,
+      "step": 1810
+    },
+    {
+      "epoch": 0.942883046237534,
+      "grad_norm": 0.7952613830566406,
+      "learning_rate": 3.1951640759930916e-06,
+      "loss": 0.1379,
+      "mean_token_accuracy": 0.9747309163212776,
+      "num_tokens": 7454720.0,
+      "step": 1820
+    },
+    {
+      "epoch": 0.9480637223157622,
+      "grad_norm": 0.6960965991020203,
+      "learning_rate": 2.9073114565342547e-06,
+      "loss": 0.1439,
+      "mean_token_accuracy": 0.9738992169499397,
+      "num_tokens": 7495680.0,
+      "step": 1830
+    },
+    {
+      "epoch": 0.9532443983939904,
+      "grad_norm": 0.6948501467704773,
+      "learning_rate": 2.619458837075418e-06,
+      "loss": 0.1472,
+      "mean_token_accuracy": 0.9721868857741356,
+      "num_tokens": 7536640.0,
+      "step": 1840
+    },
+    {
+      "epoch": 0.9584250744722186,
+      "grad_norm": 1.1260844469070435,
+      "learning_rate": 2.3316062176165805e-06,
+      "loss": 0.1595,
+      "mean_token_accuracy": 0.9702788606286049,
+      "num_tokens": 7577600.0,
+      "step": 1850
+    },
+    {
+      "epoch": 0.9636057505504468,
+      "grad_norm": 0.8835856914520264,
+      "learning_rate": 2.0437535981577436e-06,
+      "loss": 0.1555,
+      "mean_token_accuracy": 0.9711839489638805,
+      "num_tokens": 7618560.0,
+      "step": 1860
+    },
+    {
+      "epoch": 0.9687864266286751,
+      "grad_norm": 0.7467979788780212,
+      "learning_rate": 1.755900978698906e-06,
+      "loss": 0.1706,
+      "mean_token_accuracy": 0.9686643823981285,
+      "num_tokens": 7659520.0,
+      "step": 1870
+    },
+    {
+      "epoch": 0.9739671027069032,
+      "grad_norm": 1.7198349237442017,
+      "learning_rate": 1.4680483592400692e-06,
+      "loss": 0.1638,
+      "mean_token_accuracy": 0.9698630094528198,
+      "num_tokens": 7700480.0,
+      "step": 1880
+    },
+    {
+      "epoch": 0.9791477787851315,
+      "grad_norm": 0.6408202052116394,
+      "learning_rate": 1.180195739781232e-06,
+      "loss": 0.1508,
+      "mean_token_accuracy": 0.9718444183468818,
+      "num_tokens": 7741440.0,
+      "step": 1890
+    },
+    {
+      "epoch": 0.9843284548633596,
+      "grad_norm": 0.810226321220398,
+      "learning_rate": 8.92343120322395e-07,
+      "loss": 0.1443,
+      "step": 1900
+    },
+    {
+      "epoch": 0.9843284548633596,
+      "eval_loss": 0.14907296001911163,
+      "eval_mean_token_accuracy": 0.9723376360050467,
+      "eval_num_tokens": 7782400.0,
+      "eval_runtime": 177.4193,
+      "eval_samples_per_second": 9.672,
+      "eval_steps_per_second": 1.212,
+      "step": 1900
+    },
+    {
+      "epoch": 0.9895091309415879,
+      "grad_norm": 0.8254349231719971,
+      "learning_rate": 6.04490500863558e-07,
+      "loss": 0.145,
+      "mean_token_accuracy": 0.9729085095226765,
+      "num_tokens": 7823360.0,
+      "step": 1910
+    },
+    {
+      "epoch": 0.9946898070198161,
+      "grad_norm": 0.7384099364280701,
+      "learning_rate": 3.166378814047208e-07,
+      "loss": 0.1438,
+      "mean_token_accuracy": 0.9729941256344319,
+      "num_tokens": 7864320.0,
+      "step": 1920
+    },
+    {
+      "epoch": 0.9998704830980443,
+      "grad_norm": 0.8660192489624023,
+      "learning_rate": 2.878526194588371e-08,
+      "loss": 0.1535,
+      "mean_token_accuracy": 0.971844420582056,
+      "num_tokens": 7905280.0,
+      "step": 1930
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.089211142340608e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null