Training in progress, step 9500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68351bdfc9f2775d55135f85d4da406751f2017ee1e6038a2f1f11809940cc1b
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:070b5b7acfb870eafcd0bf40ce133115da39bd3236dee84b8493ea73e863aebf
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f079cb7f5616b227a12a8a76dc488cc35d940f620f47389c7b64c2321c29ddbc
 size 4768663315

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6986d123949d70dafc8db16862d29980777537d8be6a72c449522a071032d5c
 size 4768663315

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6023996335cf65957e240cbf24c23b1c1817d3b9ce032bb60007899ddd598fd
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:40beb3dc5129ab4ac6babe96012ebdd87569ab488ea6742096d9d349a8d4cd73
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.548872446631501,
   "eval_steps": 100,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8108,6 +8108,456 @@
       "mean_token_accuracy": 0.7797822907567025,
       "num_tokens": 73725952.0,
       "step": 9000
     }
   ],
   "logging_steps": 10,
@@ -8127,7 +8577,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9484329511170867e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.6904804049987607,
   "eval_steps": 100,
+  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7797822907567025,
       "num_tokens": 73725952.0,
       "step": 9000
+    },
+    {
+      "epoch": 2.5517046057988457,
+      "grad_norm": 1.1519678831100464,
+      "learning_rate": 1.661596559320256e-06,
+      "loss": 0.1289,
+      "mean_token_accuracy": 0.764640410989523,
+      "num_tokens": 73807872.0,
+      "step": 9010
+    },
+    {
+      "epoch": 2.554536764966191,
+      "grad_norm": 1.1929394006729126,
+      "learning_rate": 1.65110668205182e-06,
+      "loss": 0.1074,
+      "mean_token_accuracy": 0.7785836592316627,
+      "num_tokens": 73889792.0,
+      "step": 9020
+    },
+    {
+      "epoch": 2.5573689241335362,
+      "grad_norm": 1.3088452816009521,
+      "learning_rate": 1.6406168047833843e-06,
+      "loss": 0.0986,
+      "mean_token_accuracy": 0.7910469707101584,
+      "num_tokens": 73971712.0,
+      "step": 9030
+    },
+    {
+      "epoch": 2.5602010833008815,
+      "grad_norm": 1.795518159866333,
+      "learning_rate": 1.6301269275149482e-06,
+      "loss": 0.1081,
+      "mean_token_accuracy": 0.7642245594412088,
+      "num_tokens": 74053632.0,
+      "step": 9040
+    },
+    {
+      "epoch": 2.5630332424682267,
+      "grad_norm": 1.3358420133590698,
+      "learning_rate": 1.6196370502465123e-06,
+      "loss": 0.1147,
+      "mean_token_accuracy": 0.7747553832828998,
+      "num_tokens": 74135552.0,
+      "step": 9050
+    },
+    {
+      "epoch": 2.565865401635572,
+      "grad_norm": 1.489589810371399,
+      "learning_rate": 1.6091471729780763e-06,
+      "loss": 0.1207,
+      "mean_token_accuracy": 0.7772504851222038,
+      "num_tokens": 74217472.0,
+      "step": 9060
+    },
+    {
+      "epoch": 2.5686975608029172,
+      "grad_norm": 1.3394817113876343,
+      "learning_rate": 1.5986572957096402e-06,
+      "loss": 0.1376,
+      "mean_token_accuracy": 0.7540484316647053,
+      "num_tokens": 74299392.0,
+      "step": 9070
+    },
+    {
+      "epoch": 2.5715297199702625,
+      "grad_norm": 1.119963526725769,
+      "learning_rate": 1.5881674184412043e-06,
+      "loss": 0.1185,
+      "mean_token_accuracy": 0.7621819950640202,
+      "num_tokens": 74381312.0,
+      "step": 9080
+    },
+    {
+      "epoch": 2.5743618791376077,
+      "grad_norm": 1.4001566171646118,
+      "learning_rate": 1.5776775411727686e-06,
+      "loss": 0.104,
+      "mean_token_accuracy": 0.7811521515250206,
+      "num_tokens": 74463232.0,
+      "step": 9090
+    },
+    {
+      "epoch": 2.5771940383049525,
+      "grad_norm": 1.5772784948349,
+      "learning_rate": 1.5671876639043324e-06,
+      "loss": 0.1152,
+      "mean_token_accuracy": 0.7650195706635714,
+      "num_tokens": 74545152.0,
+      "step": 9100
+    },
+    {
+      "epoch": 2.5800261974722978,
+      "grad_norm": 1.7766703367233276,
+      "learning_rate": 1.5566977866358965e-06,
+      "loss": 0.113,
+      "mean_token_accuracy": 0.7801981404423713,
+      "num_tokens": 74627072.0,
+      "step": 9110
+    },
+    {
+      "epoch": 2.582858356639643,
+      "grad_norm": 1.4249588251113892,
+      "learning_rate": 1.5462079093674606e-06,
+      "loss": 0.1236,
+      "mean_token_accuracy": 0.7641022481024266,
+      "num_tokens": 74708992.0,
+      "step": 9120
+    },
+    {
+      "epoch": 2.5856905158069883,
+      "grad_norm": 1.6609476804733276,
+      "learning_rate": 1.5357180320990244e-06,
+      "loss": 0.1154,
+      "mean_token_accuracy": 0.763050389662385,
+      "num_tokens": 74790912.0,
+      "step": 9130
+    },
+    {
+      "epoch": 2.5885226749743335,
+      "grad_norm": 0.9137653708457947,
+      "learning_rate": 1.5252281548305885e-06,
+      "loss": 0.1179,
+      "mean_token_accuracy": 0.7632950112223625,
+      "num_tokens": 74872832.0,
+      "step": 9140
+    },
+    {
+      "epoch": 2.5913548341416788,
+      "grad_norm": 0.9380526542663574,
+      "learning_rate": 1.5147382775621528e-06,
+      "loss": 0.1242,
+      "mean_token_accuracy": 0.7689334619790316,
+      "num_tokens": 74954752.0,
+      "step": 9150
+    },
+    {
+      "epoch": 2.594186993309024,
+      "grad_norm": 1.246500849723816,
+      "learning_rate": 1.5042484002937167e-06,
+      "loss": 0.1106,
+      "mean_token_accuracy": 0.758524950966239,
+      "num_tokens": 75036672.0,
+      "step": 9160
+    },
+    {
+      "epoch": 2.5970191524763693,
+      "grad_norm": 1.2258425951004028,
+      "learning_rate": 1.4937585230252807e-06,
+      "loss": 0.121,
+      "mean_token_accuracy": 0.7841976564377546,
+      "num_tokens": 75118592.0,
+      "step": 9170
+    },
+    {
+      "epoch": 2.5998513116437145,
+      "grad_norm": 1.4543510675430298,
+      "learning_rate": 1.4832686457568448e-06,
+      "loss": 0.0928,
+      "mean_token_accuracy": 0.794337086752057,
+      "num_tokens": 75200512.0,
+      "step": 9180
+    },
+    {
+      "epoch": 2.6026834708110593,
+      "grad_norm": 1.4098447561264038,
+      "learning_rate": 1.4727787684884087e-06,
+      "loss": 0.1181,
+      "mean_token_accuracy": 0.7629280813038349,
+      "num_tokens": 75282432.0,
+      "step": 9190
+    },
+    {
+      "epoch": 2.605515629978405,
+      "grad_norm": 1.3578165769577026,
+      "learning_rate": 1.4622888912199728e-06,
+      "loss": 0.1072,
+      "mean_token_accuracy": 0.7831213314086198,
+      "num_tokens": 75364352.0,
+      "step": 9200
+    },
+    {
+      "epoch": 2.60834778914575,
+      "grad_norm": 1.7388701438903809,
+      "learning_rate": 1.451799013951537e-06,
+      "loss": 0.1029,
+      "mean_token_accuracy": 0.7875366933643818,
+      "num_tokens": 75446272.0,
+      "step": 9210
+    },
+    {
+      "epoch": 2.611179948313095,
+      "grad_norm": 1.3704735040664673,
+      "learning_rate": 1.441309136683101e-06,
+      "loss": 0.1546,
+      "mean_token_accuracy": 0.7491927597671747,
+      "num_tokens": 75528192.0,
+      "step": 9220
+    },
+    {
+      "epoch": 2.6140121074804403,
+      "grad_norm": 1.2139005661010742,
+      "learning_rate": 1.430819259414665e-06,
+      "loss": 0.1298,
+      "mean_token_accuracy": 0.7586350254714489,
+      "num_tokens": 75610112.0,
+      "step": 9230
+    },
+    {
+      "epoch": 2.6168442666477856,
+      "grad_norm": 2.0187840461730957,
+      "learning_rate": 1.420329382146229e-06,
+      "loss": 0.1319,
+      "mean_token_accuracy": 0.7546477496623993,
+      "num_tokens": 75692032.0,
+      "step": 9240
+    },
+    {
+      "epoch": 2.619676425815131,
+      "grad_norm": 1.0713800191879272,
+      "learning_rate": 1.409839504877793e-06,
+      "loss": 0.0989,
+      "mean_token_accuracy": 0.7925269067287445,
+      "num_tokens": 75773952.0,
+      "step": 9250
+    },
+    {
+      "epoch": 2.622508584982476,
+      "grad_norm": 1.284598469734192,
+      "learning_rate": 1.3993496276093572e-06,
+      "loss": 0.1198,
+      "mean_token_accuracy": 0.7871208406984807,
+      "num_tokens": 75855872.0,
+      "step": 9260
+    },
+    {
+      "epoch": 2.6253407441498213,
+      "grad_norm": 0.9530990123748779,
+      "learning_rate": 1.3888597503409213e-06,
+      "loss": 0.1194,
+      "mean_token_accuracy": 0.7739114474505187,
+      "num_tokens": 75937792.0,
+      "step": 9270
+    },
+    {
+      "epoch": 2.6281729033171666,
+      "grad_norm": 1.252050757408142,
+      "learning_rate": 1.3783698730724852e-06,
+      "loss": 0.1143,
+      "mean_token_accuracy": 0.7736790612339973,
+      "num_tokens": 76019712.0,
+      "step": 9280
+    },
+    {
+      "epoch": 2.631005062484512,
+      "grad_norm": 1.2160993814468384,
+      "learning_rate": 1.3678799958040492e-06,
+      "loss": 0.1035,
+      "mean_token_accuracy": 0.7817025430500507,
+      "num_tokens": 76101632.0,
+      "step": 9290
+    },
+    {
+      "epoch": 2.6338372216518566,
+      "grad_norm": 1.4404122829437256,
+      "learning_rate": 1.3573901185356133e-06,
+      "loss": 0.1285,
+      "mean_token_accuracy": 0.7545743621885777,
+      "num_tokens": 76183552.0,
+      "step": 9300
+    },
+    {
+      "epoch": 2.636669380819202,
+      "grad_norm": 1.158105492591858,
+      "learning_rate": 1.3469002412671772e-06,
+      "loss": 0.1127,
+      "mean_token_accuracy": 0.7763209372758866,
+      "num_tokens": 76265472.0,
+      "step": 9310
+    },
+    {
+      "epoch": 2.639501539986547,
+      "grad_norm": 1.2974953651428223,
+      "learning_rate": 1.3364103639987415e-06,
+      "loss": 0.1254,
+      "mean_token_accuracy": 0.7779109582304955,
+      "num_tokens": 76347392.0,
+      "step": 9320
+    },
+    {
+      "epoch": 2.6423336991538924,
+      "grad_norm": 1.4528638124465942,
+      "learning_rate": 1.3259204867303055e-06,
+      "loss": 0.1089,
+      "mean_token_accuracy": 0.7840998075902462,
+      "num_tokens": 76429312.0,
+      "step": 9330
+    },
+    {
+      "epoch": 2.6451658583212376,
+      "grad_norm": 0.9896726012229919,
+      "learning_rate": 1.3154306094618694e-06,
+      "loss": 0.103,
+      "mean_token_accuracy": 0.7768224064260721,
+      "num_tokens": 76511232.0,
+      "step": 9340
+    },
+    {
+      "epoch": 2.647998017488583,
+      "grad_norm": 1.1756311655044556,
+      "learning_rate": 1.3049407321934335e-06,
+      "loss": 0.1033,
+      "mean_token_accuracy": 0.7787426613271237,
+      "num_tokens": 76593152.0,
+      "step": 9350
+    },
+    {
+      "epoch": 2.650830176655928,
+      "grad_norm": 1.280672550201416,
+      "learning_rate": 1.2944508549249975e-06,
+      "loss": 0.1049,
+      "mean_token_accuracy": 0.7903131127357483,
+      "num_tokens": 76675072.0,
+      "step": 9360
+    },
+    {
+      "epoch": 2.6536623358232734,
+      "grad_norm": 1.228232979774475,
+      "learning_rate": 1.2839609776565614e-06,
+      "loss": 0.1449,
+      "mean_token_accuracy": 0.743456457555294,
+      "num_tokens": 76756992.0,
+      "step": 9370
+    },
+    {
+      "epoch": 2.6564944949906186,
+      "grad_norm": 1.4639639854431152,
+      "learning_rate": 1.2734711003881257e-06,
+      "loss": 0.1358,
+      "mean_token_accuracy": 0.7659980464726687,
+      "num_tokens": 76838912.0,
+      "step": 9380
+    },
+    {
+      "epoch": 2.6593266541579634,
+      "grad_norm": 1.4914389848709106,
+      "learning_rate": 1.2629812231196898e-06,
+      "loss": 0.1121,
+      "mean_token_accuracy": 0.7777764193713665,
+      "num_tokens": 76920832.0,
+      "step": 9390
+    },
+    {
+      "epoch": 2.662158813325309,
+      "grad_norm": 1.1283109188079834,
+      "learning_rate": 1.2524913458512536e-06,
+      "loss": 0.113,
+      "mean_token_accuracy": 0.7669520601630211,
+      "num_tokens": 77002752.0,
+      "step": 9400
+    },
+    {
+      "epoch": 2.664990972492654,
+      "grad_norm": 1.1668506860733032,
+      "learning_rate": 1.2420014685828177e-06,
+      "loss": 0.1224,
+      "mean_token_accuracy": 0.7749633088707923,
+      "num_tokens": 77084672.0,
+      "step": 9410
+    },
+    {
+      "epoch": 2.667823131659999,
+      "grad_norm": 1.8604751825332642,
+      "learning_rate": 1.2315115913143818e-06,
+      "loss": 0.1349,
+      "mean_token_accuracy": 0.7719178080558777,
+      "num_tokens": 77166592.0,
+      "step": 9420
+    },
+    {
+      "epoch": 2.6706552908273444,
+      "grad_norm": 2.2527692317962646,
+      "learning_rate": 1.2210217140459456e-06,
+      "loss": 0.1357,
+      "mean_token_accuracy": 0.7704500976949931,
+      "num_tokens": 77248512.0,
+      "step": 9430
+    },
+    {
+      "epoch": 2.6734874499946897,
+      "grad_norm": 1.1649688482284546,
+      "learning_rate": 1.21053183677751e-06,
+      "loss": 0.1056,
+      "mean_token_accuracy": 0.7830601751804351,
+      "num_tokens": 77330432.0,
+      "step": 9440
+    },
+    {
+      "epoch": 2.676319609162035,
+      "grad_norm": 1.1416834592819214,
+      "learning_rate": 1.2000419595090738e-06,
+      "loss": 0.1265,
+      "mean_token_accuracy": 0.7677592922002077,
+      "num_tokens": 77412352.0,
+      "step": 9450
+    },
+    {
+      "epoch": 2.67915176832938,
+      "grad_norm": 1.1690260171890259,
+      "learning_rate": 1.1895520822406379e-06,
+      "loss": 0.1164,
+      "mean_token_accuracy": 0.7738502897322178,
+      "num_tokens": 77494272.0,
+      "step": 9460
+    },
+    {
+      "epoch": 2.6819839274967254,
+      "grad_norm": 1.4305615425109863,
+      "learning_rate": 1.179062204972202e-06,
+      "loss": 0.1248,
+      "mean_token_accuracy": 0.7664261247962714,
+      "num_tokens": 77576192.0,
+      "step": 9470
+    },
+    {
+      "epoch": 2.6848160866640707,
+      "grad_norm": 1.3226728439331055,
+      "learning_rate": 1.168572327703766e-06,
+      "loss": 0.1253,
+      "mean_token_accuracy": 0.7715998016297817,
+      "num_tokens": 77658112.0,
+      "step": 9480
+    },
+    {
+      "epoch": 2.687648245831416,
+      "grad_norm": 1.2239925861358643,
+      "learning_rate": 1.1580824504353299e-06,
+      "loss": 0.1412,
+      "mean_token_accuracy": 0.7618395283818244,
+      "num_tokens": 77740032.0,
+      "step": 9490
+    },
+    {
+      "epoch": 2.6904804049987607,
+      "grad_norm": 1.3090022802352905,
+      "learning_rate": 1.1475925731668942e-06,
+      "loss": 0.1944,
+      "mean_token_accuracy": 0.7248899202793837,
+      "num_tokens": 77821952.0,
+      "step": 9500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.0566822331036467e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null