Training in progress, step 9963, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +418 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21dfe2ee8a06dc5ec848e866be280ee76107c1cedbfa1071f376a458a04a60d5
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:67b1f8f2070aa722256f17caddf76eccc4633099da20d1cc2d61bdf981a76af8
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7df3209f9ba7a30bd7850a80a1fd6686500517ffa3fb89677230076abf146df1
 size 4768663315

 version https://git-lfs.github.com/spec/v1
+oid sha256:b36278ea5a4363a66e19662925b0de521702174b32536c12eb455816bf17796c
 size 4768663315

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7bc6c7300807cf30f1442e05d88e3a8f3c8b9c282aa3836c6b57202974e90680
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca5d742b0ea9db6ebea78c7225beca171b7914b0e5ee83796c299293cd2c7879
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.860778555831639,
   "eval_steps": 100,
-  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8558,6 +8558,420 @@
       "mean_token_accuracy": 0.7814946219325065,
       "num_tokens": 77811712.0,
       "step": 9500
     }
   ],
   "logging_steps": 10,
@@ -8572,12 +8986,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.0564116098986803e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 100,
+  "global_step": 9963,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7814946219325065,
       "num_tokens": 77811712.0,
       "step": 9500
+    },
+    {
+      "epoch": 2.86379037723063,
+      "grad_norm": 1.1517497301101685,
+      "learning_rate": 5.063573499888468e-07,
+      "loss": 0.1073,
+      "mean_token_accuracy": 0.8048312108963728,
+      "num_tokens": 77893632.0,
+      "step": 9510
+    },
+    {
+      "epoch": 2.866802198629621,
+      "grad_norm": 1.5399608612060547,
+      "learning_rate": 4.952041043943788e-07,
+      "loss": 0.0834,
+      "mean_token_accuracy": 0.8002446211874485,
+      "num_tokens": 77975552.0,
+      "step": 9520
+    },
+    {
+      "epoch": 2.8698140200286124,
+      "grad_norm": 1.0819060802459717,
+      "learning_rate": 4.840508587999108e-07,
+      "loss": 0.1048,
+      "mean_token_accuracy": 0.789444712176919,
+      "num_tokens": 78057472.0,
+      "step": 9530
+    },
+    {
+      "epoch": 2.8728258414276033,
+      "grad_norm": 1.1191598176956177,
+      "learning_rate": 4.7289761320544284e-07,
+      "loss": 0.101,
+      "mean_token_accuracy": 0.8058096900582313,
+      "num_tokens": 78139392.0,
+      "step": 9540
+    },
+    {
+      "epoch": 2.8758376628265943,
+      "grad_norm": 1.1794003248214722,
+      "learning_rate": 4.617443676109748e-07,
+      "loss": 0.0946,
+      "mean_token_accuracy": 0.804403131455183,
+      "num_tokens": 78221312.0,
+      "step": 9550
+    },
+    {
+      "epoch": 2.8788494842255856,
+      "grad_norm": 1.377267599105835,
+      "learning_rate": 4.505911220165068e-07,
+      "loss": 0.1017,
+      "mean_token_accuracy": 0.7931017633527517,
+      "num_tokens": 78303232.0,
+      "step": 9560
+    },
+    {
+      "epoch": 2.8818613056245765,
+      "grad_norm": 1.4520881175994873,
+      "learning_rate": 4.394378764220388e-07,
+      "loss": 0.1217,
+      "mean_token_accuracy": 0.7699119374155998,
+      "num_tokens": 78385152.0,
+      "step": 9570
+    },
+    {
+      "epoch": 2.8848731270235675,
+      "grad_norm": 1.2226645946502686,
+      "learning_rate": 4.2828463082757086e-07,
+      "loss": 0.1191,
+      "mean_token_accuracy": 0.7835861057043075,
+      "num_tokens": 78467072.0,
+      "step": 9580
+    },
+    {
+      "epoch": 2.8878849484225584,
+      "grad_norm": 1.7126904726028442,
+      "learning_rate": 4.1713138523310286e-07,
+      "loss": 0.1196,
+      "mean_token_accuracy": 0.7943126205354929,
+      "num_tokens": 78548992.0,
+      "step": 9590
+    },
+    {
+      "epoch": 2.8908967698215493,
+      "grad_norm": 1.312665343284607,
+      "learning_rate": 4.059781396386349e-07,
+      "loss": 0.1047,
+      "mean_token_accuracy": 0.7909001961350441,
+      "num_tokens": 78630912.0,
+      "step": 9600
+    },
+    {
+      "epoch": 2.8939085912205407,
+      "grad_norm": 1.339685320854187,
+      "learning_rate": 3.9482489404416684e-07,
+      "loss": 0.1053,
+      "mean_token_accuracy": 0.786631602421403,
+      "num_tokens": 78712832.0,
+      "step": 9610
+    },
+    {
+      "epoch": 2.8969204126195316,
+      "grad_norm": 2.0059938430786133,
+      "learning_rate": 3.836716484496989e-07,
+      "loss": 0.1082,
+      "mean_token_accuracy": 0.7798312120139599,
+      "num_tokens": 78794752.0,
+      "step": 9620
+    },
+    {
+      "epoch": 2.8999322340185225,
+      "grad_norm": 1.2985539436340332,
+      "learning_rate": 3.725184028552309e-07,
+      "loss": 0.0949,
+      "mean_token_accuracy": 0.7817759312689304,
+      "num_tokens": 78876672.0,
+      "step": 9630
+    },
+    {
+      "epoch": 2.902944055417514,
+      "grad_norm": 1.9637115001678467,
+      "learning_rate": 3.613651572607629e-07,
+      "loss": 0.1199,
+      "mean_token_accuracy": 0.7892734818160534,
+      "num_tokens": 78958592.0,
+      "step": 9640
+    },
+    {
+      "epoch": 2.905955876816505,
+      "grad_norm": 1.2397360801696777,
+      "learning_rate": 3.502119116662949e-07,
+      "loss": 0.1069,
+      "mean_token_accuracy": 0.7752935424447059,
+      "num_tokens": 79040512.0,
+      "step": 9650
+    },
+    {
+      "epoch": 2.9089676982154957,
+      "grad_norm": 1.2161389589309692,
+      "learning_rate": 3.3905866607182696e-07,
+      "loss": 0.0987,
+      "mean_token_accuracy": 0.7955479428172112,
+      "num_tokens": 79122432.0,
+      "step": 9660
+    },
+    {
+      "epoch": 2.911979519614487,
+      "grad_norm": 0.8789703845977783,
+      "learning_rate": 3.2790542047735896e-07,
+      "loss": 0.1042,
+      "mean_token_accuracy": 0.8027641840279103,
+      "num_tokens": 79204352.0,
+      "step": 9670
+    },
+    {
+      "epoch": 2.914991341013478,
+      "grad_norm": 0.981950581073761,
+      "learning_rate": 3.16752174882891e-07,
+      "loss": 0.1272,
+      "mean_token_accuracy": 0.7878424659371376,
+      "num_tokens": 79286272.0,
+      "step": 9680
+    },
+    {
+      "epoch": 2.918003162412469,
+      "grad_norm": 1.3362120389938354,
+      "learning_rate": 3.0559892928842294e-07,
+      "loss": 0.1049,
+      "mean_token_accuracy": 0.800146771967411,
+      "num_tokens": 79368192.0,
+      "step": 9690
+    },
+    {
+      "epoch": 2.92101498381146,
+      "grad_norm": 0.9886929988861084,
+      "learning_rate": 2.94445683693955e-07,
+      "loss": 0.1229,
+      "mean_token_accuracy": 0.7738380614668131,
+      "num_tokens": 79450112.0,
+      "step": 9700
+    },
+    {
+      "epoch": 2.9240268052104508,
+      "grad_norm": 1.2238775491714478,
+      "learning_rate": 2.83292438099487e-07,
+      "loss": 0.1047,
+      "mean_token_accuracy": 0.788319468870759,
+      "num_tokens": 79532032.0,
+      "step": 9710
+    },
+    {
+      "epoch": 2.927038626609442,
+      "grad_norm": 1.005550742149353,
+      "learning_rate": 2.7213919250501897e-07,
+      "loss": 0.1215,
+      "mean_token_accuracy": 0.7744006853550672,
+      "num_tokens": 79613952.0,
+      "step": 9720
+    },
+    {
+      "epoch": 2.930050448008433,
+      "grad_norm": 1.1485919952392578,
+      "learning_rate": 2.60985946910551e-07,
+      "loss": 0.1218,
+      "mean_token_accuracy": 0.7930772993713617,
+      "num_tokens": 79695872.0,
+      "step": 9730
+    },
+    {
+      "epoch": 2.933062269407424,
+      "grad_norm": 1.2947425842285156,
+      "learning_rate": 2.49832701316083e-07,
+      "loss": 0.1003,
+      "mean_token_accuracy": 0.7740215234458446,
+      "num_tokens": 79777792.0,
+      "step": 9740
+    },
+    {
+      "epoch": 2.9360740908064153,
+      "grad_norm": 1.7832204103469849,
+      "learning_rate": 2.38679455721615e-07,
+      "loss": 0.1055,
+      "mean_token_accuracy": 0.7808341465890407,
+      "num_tokens": 79859712.0,
+      "step": 9750
+    },
+    {
+      "epoch": 2.9390859122054063,
+      "grad_norm": 1.1873085498809814,
+      "learning_rate": 2.2752621012714705e-07,
+      "loss": 0.1288,
+      "mean_token_accuracy": 0.7696917787194252,
+      "num_tokens": 79941632.0,
+      "step": 9760
+    },
+    {
+      "epoch": 2.942097733604397,
+      "grad_norm": 1.529731035232544,
+      "learning_rate": 2.1637296453267904e-07,
+      "loss": 0.1186,
+      "mean_token_accuracy": 0.791890898346901,
+      "num_tokens": 80023552.0,
+      "step": 9770
+    },
+    {
+      "epoch": 2.9451095550033886,
+      "grad_norm": 1.333554983139038,
+      "learning_rate": 2.0521971893821103e-07,
+      "loss": 0.1051,
+      "mean_token_accuracy": 0.7844911962747574,
+      "num_tokens": 80105472.0,
+      "step": 9780
+    },
+    {
+      "epoch": 2.9481213764023795,
+      "grad_norm": 1.4663509130477905,
+      "learning_rate": 1.9406647334374302e-07,
+      "loss": 0.1041,
+      "mean_token_accuracy": 0.7966854199767113,
+      "num_tokens": 80187392.0,
+      "step": 9790
+    },
+    {
+      "epoch": 2.9511331978013704,
+      "grad_norm": 1.002288579940796,
+      "learning_rate": 1.8291322774927504e-07,
+      "loss": 0.0909,
+      "mean_token_accuracy": 0.7919275924563408,
+      "num_tokens": 80269312.0,
+      "step": 9800
+    },
+    {
+      "epoch": 2.9541450192003613,
+      "grad_norm": 1.2249246835708618,
+      "learning_rate": 1.7175998215480706e-07,
+      "loss": 0.0977,
+      "mean_token_accuracy": 0.7821917802095413,
+      "num_tokens": 80351232.0,
+      "step": 9810
+    },
+    {
+      "epoch": 2.9571568405993522,
+      "grad_norm": 1.3539292812347412,
+      "learning_rate": 1.6060673656033905e-07,
+      "loss": 0.1107,
+      "mean_token_accuracy": 0.7898727986961603,
+      "num_tokens": 80433152.0,
+      "step": 9820
+    },
+    {
+      "epoch": 2.9601686619983436,
+      "grad_norm": 1.2705157995224,
+      "learning_rate": 1.4945349096587107e-07,
+      "loss": 0.0916,
+      "mean_token_accuracy": 0.8011252459138631,
+      "num_tokens": 80515072.0,
+      "step": 9830
+    },
+    {
+      "epoch": 2.9631804833973345,
+      "grad_norm": 1.3075294494628906,
+      "learning_rate": 1.383002453714031e-07,
+      "loss": 0.111,
+      "mean_token_accuracy": 0.7639554768800736,
+      "num_tokens": 80596992.0,
+      "step": 9840
+    },
+    {
+      "epoch": 2.9661923047963255,
+      "grad_norm": 1.1203222274780273,
+      "learning_rate": 1.271469997769351e-07,
+      "loss": 0.1212,
+      "mean_token_accuracy": 0.7945205442607403,
+      "num_tokens": 80678912.0,
+      "step": 9850
+    },
+    {
+      "epoch": 2.969204126195317,
+      "grad_norm": 1.466186285018921,
+      "learning_rate": 1.1599375418246712e-07,
+      "loss": 0.1254,
+      "mean_token_accuracy": 0.7881849348545075,
+      "num_tokens": 80760832.0,
+      "step": 9860
+    },
+    {
+      "epoch": 2.9722159475943077,
+      "grad_norm": 1.363336205482483,
+      "learning_rate": 1.0484050858799912e-07,
+      "loss": 0.1191,
+      "mean_token_accuracy": 0.7713184926658869,
+      "num_tokens": 80842752.0,
+      "step": 9870
+    },
+    {
+      "epoch": 2.9752277689932987,
+      "grad_norm": 0.9907705783843994,
+      "learning_rate": 9.368726299353113e-08,
+      "loss": 0.0936,
+      "mean_token_accuracy": 0.794019079580903,
+      "num_tokens": 80924672.0,
+      "step": 9880
+    },
+    {
+      "epoch": 2.9782395903922896,
+      "grad_norm": 1.0468392372131348,
+      "learning_rate": 8.253401739906312e-08,
+      "loss": 0.1124,
+      "mean_token_accuracy": 0.7831335622817278,
+      "num_tokens": 81006592.0,
+      "step": 9890
+    },
+    {
+      "epoch": 2.9812514117912805,
+      "grad_norm": 1.0683683156967163,
+      "learning_rate": 7.138077180459515e-08,
+      "loss": 0.0994,
+      "mean_token_accuracy": 0.7868028357625008,
+      "num_tokens": 81088512.0,
+      "step": 9900
+    },
+    {
+      "epoch": 2.984263233190272,
+      "grad_norm": 1.7116000652313232,
+      "learning_rate": 6.022752621012715e-08,
+      "loss": 0.0879,
+      "mean_token_accuracy": 0.7907044999301434,
+      "num_tokens": 81170432.0,
+      "step": 9910
+    },
+    {
+      "epoch": 2.987275054589263,
+      "grad_norm": 1.3669886589050293,
+      "learning_rate": 4.9074280615659164e-08,
+      "loss": 0.1216,
+      "mean_token_accuracy": 0.7789016645401716,
+      "num_tokens": 81252352.0,
+      "step": 9920
+    },
+    {
+      "epoch": 2.9902868759882537,
+      "grad_norm": 0.9469903707504272,
+      "learning_rate": 3.792103502119117e-08,
+      "loss": 0.0938,
+      "mean_token_accuracy": 0.7959637988358736,
+      "num_tokens": 81334272.0,
+      "step": 9930
+    },
+    {
+      "epoch": 2.993298697387245,
+      "grad_norm": 1.380719780921936,
+      "learning_rate": 2.676778942672318e-08,
+      "loss": 0.089,
+      "mean_token_accuracy": 0.7933586109429598,
+      "num_tokens": 81416192.0,
+      "step": 9940
+    },
+    {
+      "epoch": 2.996310518786236,
+      "grad_norm": 1.1363697052001953,
+      "learning_rate": 1.5614543832255188e-08,
+      "loss": 0.1048,
+      "mean_token_accuracy": 0.8045499000698328,
+      "num_tokens": 81498112.0,
+      "step": 9950
+    },
+    {
+      "epoch": 2.999322340185227,
+      "grad_norm": 1.5490316152572632,
+      "learning_rate": 4.461298237787197e-09,
+      "loss": 0.1019,
+      "mean_token_accuracy": 0.790349805355072,
+      "num_tokens": 81580032.0,
+      "step": 9960
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.156488071095255e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null