Training in progress, step 3500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6c549f8867ec3aa46fdb16d23e60b8f0ae222fa21f2d19da894e88c1f3b09c3
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f96aaa5e97f3f83387afc0775efd5e922752a17138c7276a9efe7c9ff0bbeee
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53021cc365fb35689cf7935de3e1b4f7d09b54591f9f81b2f7c83736f1ee6045
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:451881f3cab07a4e85e5f970801619f2d6aa94fada708d3b827ca3fafa636054
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:852ff1feb145f352899b6aa5117c88c8890d68604ca6bf2baf1e72eb1508c72e
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:cae1361ad95b650252f8194ff20a5669981349cd4f0f59f3528fb4497ea319b8
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6044731009470079,
   "eval_steps": 500,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2708,6 +2708,456 @@
       "mean_token_accuracy": 0.7911386549472809,
       "num_tokens": 3316348.0,
       "step": 3000
     }
   ],
   "logging_steps": 10,
@@ -2727,7 +3177,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4014132187054080.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7052186177715092,
   "eval_steps": 500,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7911386549472809,
       "num_tokens": 3316348.0,
       "step": 3000
+    },
+    {
+      "epoch": 0.6064880112834978,
+      "grad_norm": 11.25,
+      "learning_rate": 1.595808986500101e-05,
+      "loss": 0.9079,
+      "mean_token_accuracy": 0.7789463937282562,
+      "num_tokens": 3326996.0,
+      "step": 3010
+    },
+    {
+      "epoch": 0.6085029216199879,
+      "grad_norm": 11.75,
+      "learning_rate": 1.5944657129424407e-05,
+      "loss": 0.8986,
+      "mean_token_accuracy": 0.7775606334209442,
+      "num_tokens": 3339244.0,
+      "step": 3020
+    },
+    {
+      "epoch": 0.6105178319564779,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.593122439384781e-05,
+      "loss": 0.8756,
+      "mean_token_accuracy": 0.7890569746494294,
+      "num_tokens": 3349636.0,
+      "step": 3030
+    },
+    {
+      "epoch": 0.612532742292968,
+      "grad_norm": 11.9375,
+      "learning_rate": 1.591779165827121e-05,
+      "loss": 0.8937,
+      "mean_token_accuracy": 0.7829440474510193,
+      "num_tokens": 3360711.0,
+      "step": 3040
+    },
+    {
+      "epoch": 0.614547652629458,
+      "grad_norm": 10.25,
+      "learning_rate": 1.5904358922694607e-05,
+      "loss": 0.9303,
+      "mean_token_accuracy": 0.7729782402515412,
+      "num_tokens": 3372520.0,
+      "step": 3050
+    },
+    {
+      "epoch": 0.616562562965948,
+      "grad_norm": 10.625,
+      "learning_rate": 1.5890926187118006e-05,
+      "loss": 0.9247,
+      "mean_token_accuracy": 0.7741464018821717,
+      "num_tokens": 3384007.0,
+      "step": 3060
+    },
+    {
+      "epoch": 0.6185774733024381,
+      "grad_norm": 9.75,
+      "learning_rate": 1.5877493451541408e-05,
+      "loss": 0.7869,
+      "mean_token_accuracy": 0.8034534513950348,
+      "num_tokens": 3395421.0,
+      "step": 3070
+    },
+    {
+      "epoch": 0.6205923836389281,
+      "grad_norm": 12.0,
+      "learning_rate": 1.5864060715964807e-05,
+      "loss": 0.8645,
+      "mean_token_accuracy": 0.7838839650154114,
+      "num_tokens": 3405277.0,
+      "step": 3080
+    },
+    {
+      "epoch": 0.6226072939754181,
+      "grad_norm": 11.375,
+      "learning_rate": 1.5850627980388206e-05,
+      "loss": 0.8441,
+      "mean_token_accuracy": 0.7875894546508789,
+      "num_tokens": 3417672.0,
+      "step": 3090
+    },
+    {
+      "epoch": 0.6246222043119081,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.5837195244811608e-05,
+      "loss": 0.876,
+      "mean_token_accuracy": 0.7891711950302124,
+      "num_tokens": 3428808.0,
+      "step": 3100
+    },
+    {
+      "epoch": 0.6266371146483981,
+      "grad_norm": 10.6875,
+      "learning_rate": 1.5823762509235007e-05,
+      "loss": 0.8585,
+      "mean_token_accuracy": 0.790976220369339,
+      "num_tokens": 3440047.0,
+      "step": 3110
+    },
+    {
+      "epoch": 0.6286520249848881,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.5810329773658406e-05,
+      "loss": 0.8671,
+      "mean_token_accuracy": 0.7851876437664032,
+      "num_tokens": 3450270.0,
+      "step": 3120
+    },
+    {
+      "epoch": 0.6306669353213782,
+      "grad_norm": 13.125,
+      "learning_rate": 1.5796897038081808e-05,
+      "loss": 0.9273,
+      "mean_token_accuracy": 0.7657091677188873,
+      "num_tokens": 3462054.0,
+      "step": 3130
+    },
+    {
+      "epoch": 0.6326818456578682,
+      "grad_norm": 10.9375,
+      "learning_rate": 1.5783464302505207e-05,
+      "loss": 0.8185,
+      "mean_token_accuracy": 0.7917792797088623,
+      "num_tokens": 3472333.0,
+      "step": 3140
+    },
+    {
+      "epoch": 0.6346967559943583,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.5770031566928606e-05,
+      "loss": 0.9939,
+      "mean_token_accuracy": 0.7620590627193451,
+      "num_tokens": 3484753.0,
+      "step": 3150
+    },
+    {
+      "epoch": 0.6367116663308483,
+      "grad_norm": 14.1875,
+      "learning_rate": 1.5756598831352005e-05,
+      "loss": 0.8723,
+      "mean_token_accuracy": 0.7846651554107666,
+      "num_tokens": 3496220.0,
+      "step": 3160
+    },
+    {
+      "epoch": 0.6387265766673383,
+      "grad_norm": 11.6875,
+      "learning_rate": 1.5743166095775407e-05,
+      "loss": 0.9375,
+      "mean_token_accuracy": 0.7770143210887909,
+      "num_tokens": 3508224.0,
+      "step": 3170
+    },
+    {
+      "epoch": 0.6407414870038284,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.5729733360198806e-05,
+      "loss": 0.8789,
+      "mean_token_accuracy": 0.7903493702411651,
+      "num_tokens": 3519271.0,
+      "step": 3180
+    },
+    {
+      "epoch": 0.6427563973403183,
+      "grad_norm": 16.25,
+      "learning_rate": 1.5716300624622204e-05,
+      "loss": 0.9003,
+      "mean_token_accuracy": 0.7797963619232178,
+      "num_tokens": 3530537.0,
+      "step": 3190
+    },
+    {
+      "epoch": 0.6447713076768083,
+      "grad_norm": 10.75,
+      "learning_rate": 1.5702867889045607e-05,
+      "loss": 0.9229,
+      "mean_token_accuracy": 0.7731367945671082,
+      "num_tokens": 3540961.0,
+      "step": 3200
+    },
+    {
+      "epoch": 0.6467862180132984,
+      "grad_norm": 11.75,
+      "learning_rate": 1.5689435153469006e-05,
+      "loss": 0.9519,
+      "mean_token_accuracy": 0.766649729013443,
+      "num_tokens": 3552392.0,
+      "step": 3210
+    },
+    {
+      "epoch": 0.6488011283497884,
+      "grad_norm": 11.375,
+      "learning_rate": 1.5676002417892404e-05,
+      "loss": 0.8958,
+      "mean_token_accuracy": 0.7798868775367737,
+      "num_tokens": 3563665.0,
+      "step": 3220
+    },
+    {
+      "epoch": 0.6508160386862785,
+      "grad_norm": 10.875,
+      "learning_rate": 1.5662569682315803e-05,
+      "loss": 0.9158,
+      "mean_token_accuracy": 0.7784943222999573,
+      "num_tokens": 3575115.0,
+      "step": 3230
+    },
+    {
+      "epoch": 0.6528309490227685,
+      "grad_norm": 10.1875,
+      "learning_rate": 1.5649136946739205e-05,
+      "loss": 0.8092,
+      "mean_token_accuracy": 0.7988557398319245,
+      "num_tokens": 3585453.0,
+      "step": 3240
+    },
+    {
+      "epoch": 0.6548458593592585,
+      "grad_norm": 12.8125,
+      "learning_rate": 1.5635704211162604e-05,
+      "loss": 0.8562,
+      "mean_token_accuracy": 0.7906098127365112,
+      "num_tokens": 3595472.0,
+      "step": 3250
+    },
+    {
+      "epoch": 0.6568607696957486,
+      "grad_norm": 10.9375,
+      "learning_rate": 1.5622271475586003e-05,
+      "loss": 0.9317,
+      "mean_token_accuracy": 0.776879757642746,
+      "num_tokens": 3607704.0,
+      "step": 3260
+    },
+    {
+      "epoch": 0.6588756800322386,
+      "grad_norm": 9.6875,
+      "learning_rate": 1.5608838740009405e-05,
+      "loss": 0.8642,
+      "mean_token_accuracy": 0.7901065409183502,
+      "num_tokens": 3618233.0,
+      "step": 3270
+    },
+    {
+      "epoch": 0.6608905903687285,
+      "grad_norm": 13.8125,
+      "learning_rate": 1.5595406004432804e-05,
+      "loss": 0.9939,
+      "mean_token_accuracy": 0.7686895251274108,
+      "num_tokens": 3628902.0,
+      "step": 3280
+    },
+    {
+      "epoch": 0.6629055007052186,
+      "grad_norm": 12.25,
+      "learning_rate": 1.5581973268856203e-05,
+      "loss": 0.8935,
+      "mean_token_accuracy": 0.7827515482902527,
+      "num_tokens": 3640225.0,
+      "step": 3290
+    },
+    {
+      "epoch": 0.6649204110417086,
+      "grad_norm": 13.8125,
+      "learning_rate": 1.5568540533279605e-05,
+      "loss": 0.8856,
+      "mean_token_accuracy": 0.7820924818515778,
+      "num_tokens": 3651992.0,
+      "step": 3300
+    },
+    {
+      "epoch": 0.6669353213781987,
+      "grad_norm": 11.0,
+      "learning_rate": 1.5555107797703004e-05,
+      "loss": 0.9789,
+      "mean_token_accuracy": 0.7679969072341919,
+      "num_tokens": 3663369.0,
+      "step": 3310
+    },
+    {
+      "epoch": 0.6689502317146887,
+      "grad_norm": 10.625,
+      "learning_rate": 1.5541675062126403e-05,
+      "loss": 0.9536,
+      "mean_token_accuracy": 0.7675111889839172,
+      "num_tokens": 3674969.0,
+      "step": 3320
+    },
+    {
+      "epoch": 0.6709651420511787,
+      "grad_norm": 10.375,
+      "learning_rate": 1.5528242326549802e-05,
+      "loss": 0.917,
+      "mean_token_accuracy": 0.7766897320747376,
+      "num_tokens": 3685794.0,
+      "step": 3330
+    },
+    {
+      "epoch": 0.6729800523876688,
+      "grad_norm": 12.6875,
+      "learning_rate": 1.5514809590973204e-05,
+      "loss": 0.8213,
+      "mean_token_accuracy": 0.798279982805252,
+      "num_tokens": 3698384.0,
+      "step": 3340
+    },
+    {
+      "epoch": 0.6749949627241588,
+      "grad_norm": 14.125,
+      "learning_rate": 1.5501376855396603e-05,
+      "loss": 0.9941,
+      "mean_token_accuracy": 0.7723333060741424,
+      "num_tokens": 3709110.0,
+      "step": 3350
+    },
+    {
+      "epoch": 0.6770098730606487,
+      "grad_norm": 10.875,
+      "learning_rate": 1.548794411982e-05,
+      "loss": 0.9428,
+      "mean_token_accuracy": 0.7793790519237518,
+      "num_tokens": 3720500.0,
+      "step": 3360
+    },
+    {
+      "epoch": 0.6790247833971388,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.5474511384243404e-05,
+      "loss": 0.9055,
+      "mean_token_accuracy": 0.7757111012935638,
+      "num_tokens": 3733649.0,
+      "step": 3370
+    },
+    {
+      "epoch": 0.6810396937336288,
+      "grad_norm": 11.625,
+      "learning_rate": 1.5461078648666803e-05,
+      "loss": 1.0494,
+      "mean_token_accuracy": 0.748576694726944,
+      "num_tokens": 3744082.0,
+      "step": 3380
+    },
+    {
+      "epoch": 0.6830546040701189,
+      "grad_norm": 11.0,
+      "learning_rate": 1.54476459130902e-05,
+      "loss": 0.9308,
+      "mean_token_accuracy": 0.7800273001194,
+      "num_tokens": 3755970.0,
+      "step": 3390
+    },
+    {
+      "epoch": 0.6850695144066089,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.54342131775136e-05,
+      "loss": 0.8138,
+      "mean_token_accuracy": 0.7963871121406555,
+      "num_tokens": 3766720.0,
+      "step": 3400
+    },
+    {
+      "epoch": 0.6870844247430989,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.5420780441937003e-05,
+      "loss": 0.8504,
+      "mean_token_accuracy": 0.7921045780181885,
+      "num_tokens": 3777338.0,
+      "step": 3410
+    },
+    {
+      "epoch": 0.689099335079589,
+      "grad_norm": 11.625,
+      "learning_rate": 1.54073477063604e-05,
+      "loss": 0.9142,
+      "mean_token_accuracy": 0.7711953699588776,
+      "num_tokens": 3788475.0,
+      "step": 3420
+    },
+    {
+      "epoch": 0.691114245416079,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.53939149707838e-05,
+      "loss": 0.9957,
+      "mean_token_accuracy": 0.7668613314628601,
+      "num_tokens": 3800222.0,
+      "step": 3430
+    },
+    {
+      "epoch": 0.6931291557525691,
+      "grad_norm": 13.125,
+      "learning_rate": 1.5380482235207202e-05,
+      "loss": 0.8789,
+      "mean_token_accuracy": 0.7842870116233825,
+      "num_tokens": 3811363.0,
+      "step": 3440
+    },
+    {
+      "epoch": 0.695144066089059,
+      "grad_norm": 14.4375,
+      "learning_rate": 1.53670494996306e-05,
+      "loss": 0.7952,
+      "mean_token_accuracy": 0.8054643094539642,
+      "num_tokens": 3821569.0,
+      "step": 3450
+    },
+    {
+      "epoch": 0.697158976425549,
+      "grad_norm": 9.6875,
+      "learning_rate": 1.5353616764054e-05,
+      "loss": 0.8705,
+      "mean_token_accuracy": 0.7873030543327332,
+      "num_tokens": 3833270.0,
+      "step": 3460
+    },
+    {
+      "epoch": 0.6991738867620391,
+      "grad_norm": 10.6875,
+      "learning_rate": 1.53401840284774e-05,
+      "loss": 0.9286,
+      "mean_token_accuracy": 0.7691307544708252,
+      "num_tokens": 3844114.0,
+      "step": 3470
+    },
+    {
+      "epoch": 0.7011887970985291,
+      "grad_norm": 11.4375,
+      "learning_rate": 1.53267512929008e-05,
+      "loss": 0.993,
+      "mean_token_accuracy": 0.7620323598384857,
+      "num_tokens": 3856040.0,
+      "step": 3480
+    },
+    {
+      "epoch": 0.7032037074350191,
+      "grad_norm": 11.5,
+      "learning_rate": 1.53133185573242e-05,
+      "loss": 0.8668,
+      "mean_token_accuracy": 0.7913073658943176,
+      "num_tokens": 3867207.0,
+      "step": 3490
+    },
+    {
+      "epoch": 0.7052186177715092,
+      "grad_norm": 9.25,
+      "learning_rate": 1.52998858217476e-05,
+      "loss": 0.8715,
+      "mean_token_accuracy": 0.7891253709793091,
+      "num_tokens": 3879065.0,
+      "step": 3500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4699418269335552.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null