Training in progress, step 6000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7187f070bae9f728ae7049ac2993dc4453f90c49119d18bdbd8b64447c6d997e
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:a51051b34edc25e0d64c30ca7f33b83a0761c13d9072778abfd10448c19f3f5e
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:223e221ba487127dc4e54dca78f99736852f1b0b40562c23f04e0259e427bcd7
 size 4768663315

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f3b41dca90dac11ca9ea5d9671e951dd4dabbed860e4fb7230df978f7f0f912
 size 4768663315

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b1d2665185a3f2f39cba5fc2105358b29b2d7d0e055734db8e9a540adc3d4b5
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf6efc206c57420111096224e0f9dccda6dffe818f96d885666ae79f4ad31671
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.6562758828401476,
   "eval_steps": 100,
-  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4958,6 +4958,456 @@
       "mean_token_accuracy": 0.7709882587194443,
       "num_tokens": 45049856.0,
       "step": 5500
     }
   ],
   "logging_steps": 10,
@@ -4977,7 +5427,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1905797279291802e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.8068669527896994,
   "eval_steps": 100,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7709882587194443,
       "num_tokens": 45049856.0,
       "step": 5500
+    },
+    {
+      "epoch": 1.6592877042391385,
+      "grad_norm": 0.7701192498207092,
+      "learning_rate": 4.967655587776044e-06,
+      "loss": 0.1216,
+      "mean_token_accuracy": 0.7994618371129036,
+      "num_tokens": 45131776.0,
+      "step": 5510
+    },
+    {
+      "epoch": 1.6622995256381297,
+      "grad_norm": 1.0482795238494873,
+      "learning_rate": 4.956502342181575e-06,
+      "loss": 0.1661,
+      "mean_token_accuracy": 0.7507583145052195,
+      "num_tokens": 45213696.0,
+      "step": 5520
+    },
+    {
+      "epoch": 1.6653113470371208,
+      "grad_norm": 1.0718356370925903,
+      "learning_rate": 4.9453490965871075e-06,
+      "loss": 0.1351,
+      "mean_token_accuracy": 0.8001345373690129,
+      "num_tokens": 45295616.0,
+      "step": 5530
+    },
+    {
+      "epoch": 1.6683231684361117,
+      "grad_norm": 0.9752377271652222,
+      "learning_rate": 4.934195850992639e-06,
+      "loss": 0.1215,
+      "mean_token_accuracy": 0.7919031277298927,
+      "num_tokens": 45377536.0,
+      "step": 5540
+    },
+    {
+      "epoch": 1.6713349898351026,
+      "grad_norm": 1.1375031471252441,
+      "learning_rate": 4.923042605398171e-06,
+      "loss": 0.1395,
+      "mean_token_accuracy": 0.7713551849126816,
+      "num_tokens": 45459456.0,
+      "step": 5550
+    },
+    {
+      "epoch": 1.6743468112340938,
+      "grad_norm": 1.122489094734192,
+      "learning_rate": 4.911889359803703e-06,
+      "loss": 0.1349,
+      "mean_token_accuracy": 0.7769814103841781,
+      "num_tokens": 45541376.0,
+      "step": 5560
+    },
+    {
+      "epoch": 1.677358632633085,
+      "grad_norm": 1.0552014112472534,
+      "learning_rate": 4.900736114209236e-06,
+      "loss": 0.1194,
+      "mean_token_accuracy": 0.7823997054249048,
+      "num_tokens": 45623296.0,
+      "step": 5570
+    },
+    {
+      "epoch": 1.6803704540320759,
+      "grad_norm": 1.4772262573242188,
+      "learning_rate": 4.889582868614767e-06,
+      "loss": 0.1432,
+      "mean_token_accuracy": 0.7968811176717281,
+      "num_tokens": 45705216.0,
+      "step": 5580
+    },
+    {
+      "epoch": 1.6833822754310668,
+      "grad_norm": 1.0504951477050781,
+      "learning_rate": 4.878429623020299e-06,
+      "loss": 0.1534,
+      "mean_token_accuracy": 0.7667196691036224,
+      "num_tokens": 45787136.0,
+      "step": 5590
+    },
+    {
+      "epoch": 1.6863940968300581,
+      "grad_norm": 1.0767134428024292,
+      "learning_rate": 4.8672763774258316e-06,
+      "loss": 0.1384,
+      "mean_token_accuracy": 0.7868884541094303,
+      "num_tokens": 45869056.0,
+      "step": 5600
+    },
+    {
+      "epoch": 1.689405918229049,
+      "grad_norm": 1.119947910308838,
+      "learning_rate": 4.856123131831364e-06,
+      "loss": 0.1249,
+      "mean_token_accuracy": 0.7958781808614731,
+      "num_tokens": 45950976.0,
+      "step": 5610
+    },
+    {
+      "epoch": 1.69241773962804,
+      "grad_norm": 1.1654057502746582,
+      "learning_rate": 4.844969886236895e-06,
+      "loss": 0.1418,
+      "mean_token_accuracy": 0.7592465754598379,
+      "num_tokens": 46032896.0,
+      "step": 5620
+    },
+    {
+      "epoch": 1.6954295610270311,
+      "grad_norm": 1.3118687868118286,
+      "learning_rate": 4.8338166406424275e-06,
+      "loss": 0.1268,
+      "mean_token_accuracy": 0.7850048918277025,
+      "num_tokens": 46114816.0,
+      "step": 5630
+    },
+    {
+      "epoch": 1.6984413824260223,
+      "grad_norm": 0.907384991645813,
+      "learning_rate": 4.82266339504796e-06,
+      "loss": 0.1068,
+      "mean_token_accuracy": 0.8026663415133953,
+      "num_tokens": 46196736.0,
+      "step": 5640
+    },
+    {
+      "epoch": 1.7014532038250132,
+      "grad_norm": 1.247758388519287,
+      "learning_rate": 4.811510149453492e-06,
+      "loss": 0.1181,
+      "mean_token_accuracy": 0.784491191059351,
+      "num_tokens": 46278656.0,
+      "step": 5650
+    },
+    {
+      "epoch": 1.7044650252240041,
+      "grad_norm": 1.2206517457962036,
+      "learning_rate": 4.800356903859023e-06,
+      "loss": 0.1263,
+      "mean_token_accuracy": 0.7789261259138585,
+      "num_tokens": 46360576.0,
+      "step": 5660
+    },
+    {
+      "epoch": 1.7074768466229953,
+      "grad_norm": 1.4693553447723389,
+      "learning_rate": 4.789203658264555e-06,
+      "loss": 0.1288,
+      "mean_token_accuracy": 0.7743395268917084,
+      "num_tokens": 46442496.0,
+      "step": 5670
+    },
+    {
+      "epoch": 1.7104886680219864,
+      "grad_norm": 1.5424615144729614,
+      "learning_rate": 4.778050412670087e-06,
+      "loss": 0.1205,
+      "mean_token_accuracy": 0.7858732886612415,
+      "num_tokens": 46524416.0,
+      "step": 5680
+    },
+    {
+      "epoch": 1.7135004894209773,
+      "grad_norm": 1.4653291702270508,
+      "learning_rate": 4.766897167075619e-06,
+      "loss": 0.1466,
+      "mean_token_accuracy": 0.7676614470779896,
+      "num_tokens": 46606336.0,
+      "step": 5690
+    },
+    {
+      "epoch": 1.7165123108199682,
+      "grad_norm": 1.5882482528686523,
+      "learning_rate": 4.755743921481152e-06,
+      "loss": 0.1065,
+      "mean_token_accuracy": 0.7988013669848442,
+      "num_tokens": 46688256.0,
+      "step": 5700
+    },
+    {
+      "epoch": 1.7195241322189594,
+      "grad_norm": 1.2498167753219604,
+      "learning_rate": 4.744590675886683e-06,
+      "loss": 0.1202,
+      "mean_token_accuracy": 0.7973214272409678,
+      "num_tokens": 46770176.0,
+      "step": 5710
+    },
+    {
+      "epoch": 1.7225359536179505,
+      "grad_norm": 1.5788949728012085,
+      "learning_rate": 4.733437430292215e-06,
+      "loss": 0.102,
+      "mean_token_accuracy": 0.7933341491967439,
+      "num_tokens": 46852096.0,
+      "step": 5720
+    },
+    {
+      "epoch": 1.7255477750169415,
+      "grad_norm": 1.5957988500595093,
+      "learning_rate": 4.7222841846977475e-06,
+      "loss": 0.1407,
+      "mean_token_accuracy": 0.7833292562514543,
+      "num_tokens": 46934016.0,
+      "step": 5730
+    },
+    {
+      "epoch": 1.7285595964159324,
+      "grad_norm": 1.243113398551941,
+      "learning_rate": 4.71113093910328e-06,
+      "loss": 0.1184,
+      "mean_token_accuracy": 0.7828277878463268,
+      "num_tokens": 47015936.0,
+      "step": 5740
+    },
+    {
+      "epoch": 1.7315714178149237,
+      "grad_norm": 1.1513034105300903,
+      "learning_rate": 4.699977693508811e-06,
+      "loss": 0.1371,
+      "mean_token_accuracy": 0.7631604719907046,
+      "num_tokens": 47097856.0,
+      "step": 5750
+    },
+    {
+      "epoch": 1.7345832392139147,
+      "grad_norm": 1.3796018362045288,
+      "learning_rate": 4.6888244479143434e-06,
+      "loss": 0.1624,
+      "mean_token_accuracy": 0.7756115447729826,
+      "num_tokens": 47179776.0,
+      "step": 5760
+    },
+    {
+      "epoch": 1.7375950606129056,
+      "grad_norm": 1.6037061214447021,
+      "learning_rate": 4.677671202319876e-06,
+      "loss": 0.135,
+      "mean_token_accuracy": 0.7826076343655586,
+      "num_tokens": 47261696.0,
+      "step": 5770
+    },
+    {
+      "epoch": 1.7406068820118967,
+      "grad_norm": 1.030444860458374,
+      "learning_rate": 4.666517956725408e-06,
+      "loss": 0.1303,
+      "mean_token_accuracy": 0.7866193737834692,
+      "num_tokens": 47343616.0,
+      "step": 5780
+    },
+    {
+      "epoch": 1.7436187034108879,
+      "grad_norm": 1.1653821468353271,
+      "learning_rate": 4.655364711130939e-06,
+      "loss": 0.1352,
+      "mean_token_accuracy": 0.7857142832130194,
+      "num_tokens": 47425536.0,
+      "step": 5790
+    },
+    {
+      "epoch": 1.7466305248098788,
+      "grad_norm": 1.128597617149353,
+      "learning_rate": 4.644211465536472e-06,
+      "loss": 0.1329,
+      "mean_token_accuracy": 0.7797822903841733,
+      "num_tokens": 47507456.0,
+      "step": 5800
+    },
+    {
+      "epoch": 1.7496423462088697,
+      "grad_norm": 1.2128268480300903,
+      "learning_rate": 4.633058219942004e-06,
+      "loss": 0.1336,
+      "mean_token_accuracy": 0.7869496114552021,
+      "num_tokens": 47589376.0,
+      "step": 5810
+    },
+    {
+      "epoch": 1.7526541676078609,
+      "grad_norm": 1.5500558614730835,
+      "learning_rate": 4.621904974347535e-06,
+      "loss": 0.1571,
+      "mean_token_accuracy": 0.7766511704772711,
+      "num_tokens": 47671296.0,
+      "step": 5820
+    },
+    {
+      "epoch": 1.755665989006852,
+      "grad_norm": 1.3147218227386475,
+      "learning_rate": 4.6107517287530675e-06,
+      "loss": 0.1131,
+      "mean_token_accuracy": 0.7829745605587959,
+      "num_tokens": 47753216.0,
+      "step": 5830
+    },
+    {
+      "epoch": 1.758677810405843,
+      "grad_norm": 1.2580207586288452,
+      "learning_rate": 4.599598483158599e-06,
+      "loss": 0.1107,
+      "mean_token_accuracy": 0.7984466716647148,
+      "num_tokens": 47835136.0,
+      "step": 5840
+    },
+    {
+      "epoch": 1.7616896318048338,
+      "grad_norm": 1.2919446229934692,
+      "learning_rate": 4.588445237564131e-06,
+      "loss": 0.1122,
+      "mean_token_accuracy": 0.7956947181373835,
+      "num_tokens": 47917056.0,
+      "step": 5850
+    },
+    {
+      "epoch": 1.764701453203825,
+      "grad_norm": 1.4461500644683838,
+      "learning_rate": 4.5772919919696635e-06,
+      "loss": 0.1569,
+      "mean_token_accuracy": 0.7789261236786842,
+      "num_tokens": 47998976.0,
+      "step": 5860
+    },
+    {
+      "epoch": 1.7677132746028161,
+      "grad_norm": 0.9612492918968201,
+      "learning_rate": 4.566138746375196e-06,
+      "loss": 0.1155,
+      "mean_token_accuracy": 0.800122307986021,
+      "num_tokens": 48080896.0,
+      "step": 5870
+    },
+    {
+      "epoch": 1.770725096001807,
+      "grad_norm": 1.1701524257659912,
+      "learning_rate": 4.554985500780727e-06,
+      "loss": 0.1268,
+      "mean_token_accuracy": 0.7784735832363368,
+      "num_tokens": 48162816.0,
+      "step": 5880
+    },
+    {
+      "epoch": 1.773736917400798,
+      "grad_norm": 0.8847672343254089,
+      "learning_rate": 4.543832255186259e-06,
+      "loss": 0.1395,
+      "mean_token_accuracy": 0.771404106169939,
+      "num_tokens": 48244736.0,
+      "step": 5890
+    },
+    {
+      "epoch": 1.7767487387997891,
+      "grad_norm": 1.2543238401412964,
+      "learning_rate": 4.532679009591792e-06,
+      "loss": 0.1293,
+      "mean_token_accuracy": 0.7882093921303749,
+      "num_tokens": 48326656.0,
+      "step": 5900
+    },
+    {
+      "epoch": 1.7797605601987803,
+      "grad_norm": 1.0476740598678589,
+      "learning_rate": 4.521525763997324e-06,
+      "loss": 0.1401,
+      "mean_token_accuracy": 0.7806506846100092,
+      "num_tokens": 48408576.0,
+      "step": 5910
+    },
+    {
+      "epoch": 1.7827723815977712,
+      "grad_norm": 0.9780436754226685,
+      "learning_rate": 4.510372518402855e-06,
+      "loss": 0.128,
+      "mean_token_accuracy": 0.7880748540163041,
+      "num_tokens": 48490496.0,
+      "step": 5920
+    },
+    {
+      "epoch": 1.7857842029967623,
+      "grad_norm": 1.645817756652832,
+      "learning_rate": 4.4992192728083876e-06,
+      "loss": 0.1207,
+      "mean_token_accuracy": 0.7967710334807634,
+      "num_tokens": 48572416.0,
+      "step": 5930
+    },
+    {
+      "epoch": 1.7887960243957535,
+      "grad_norm": 1.1234519481658936,
+      "learning_rate": 4.48806602721392e-06,
+      "loss": 0.1117,
+      "mean_token_accuracy": 0.7863380637019872,
+      "num_tokens": 48654336.0,
+      "step": 5940
+    },
+    {
+      "epoch": 1.7918078457947444,
+      "grad_norm": 1.2160331010818481,
+      "learning_rate": 4.476912781619452e-06,
+      "loss": 0.1089,
+      "mean_token_accuracy": 0.7874755386263133,
+      "num_tokens": 48736256.0,
+      "step": 5950
+    },
+    {
+      "epoch": 1.7948196671937353,
+      "grad_norm": 1.0973700284957886,
+      "learning_rate": 4.4657595360249835e-06,
+      "loss": 0.1106,
+      "mean_token_accuracy": 0.7923556726425887,
+      "num_tokens": 48818176.0,
+      "step": 5960
+    },
+    {
+      "epoch": 1.7978314885927265,
+      "grad_norm": 1.1763473749160767,
+      "learning_rate": 4.454606290430516e-06,
+      "loss": 0.1464,
+      "mean_token_accuracy": 0.7801859095692635,
+      "num_tokens": 48900096.0,
+      "step": 5970
+    },
+    {
+      "epoch": 1.8008433099917176,
+      "grad_norm": 1.0403779745101929,
+      "learning_rate": 4.443453044836047e-06,
+      "loss": 0.1553,
+      "mean_token_accuracy": 0.7728351287543773,
+      "num_tokens": 48982016.0,
+      "step": 5980
+    },
+    {
+      "epoch": 1.8038551313907085,
+      "grad_norm": 1.446248173713684,
+      "learning_rate": 4.4322997992415794e-06,
+      "loss": 0.1393,
+      "mean_token_accuracy": 0.783953033387661,
+      "num_tokens": 49063936.0,
+      "step": 5990
+    },
+    {
+      "epoch": 1.8068669527896994,
+      "grad_norm": 1.383080005645752,
+      "learning_rate": 4.421146553647112e-06,
+      "loss": 0.134,
+      "mean_token_accuracy": 0.7743395321071148,
+      "num_tokens": 49145856.0,
+      "step": 6000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.2988290099157402e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null