Training in progress, step 3270, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +247 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31d9122a84b2d3c5cf5893ddcf3d410c40a6e910883ed09aa758af7d3d918b91
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b681f70180e1b9b225d43794577d9735c1e90ae1f568ab2e1fb38b668291955
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67b348575e8f1b08569c8702876caefe242bd5ec9e432ba23de8cf313eac7d95
 size 4768663315

 version https://git-lfs.github.com/spec/v1
+oid sha256:4baa6e79b984a80f604cda311b89dfe7d2e9a825e68647fc5d3797a8b813e2ea
 size 4768663315

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a46667fdbbd166561e9277fe7ced0cc3234da12ccb11f38025f6a5cb754a1493
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:860913dca1e25255803c968661dca63cd03ec08cdee939cf5f78b0d42cbe6907
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.7528979685527375,
   "eval_steps": 100,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2708,6 +2708,249 @@
       "mean_token_accuracy": 0.8454745601862669,
       "num_tokens": 24560640.0,
       "step": 3000
     }
   ],
   "logging_steps": 10,
@@ -2722,12 +2965,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.490897571119104e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 100,
+  "global_step": 3270,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8454745601862669,
       "num_tokens": 24560640.0,
       "step": 3000
+    },
+    {
+      "epoch": 2.7620796510960632,
+      "grad_norm": 1.08968985080719,
+      "learning_rate": 8.868501529051989e-07,
+      "loss": 0.1619,
+      "mean_token_accuracy": 0.8165728993713856,
+      "num_tokens": 24642560.0,
+      "step": 3010
+    },
+    {
+      "epoch": 2.7712613336393894,
+      "grad_norm": 0.9702316522598267,
+      "learning_rate": 8.528712198436969e-07,
+      "loss": 0.1506,
+      "mean_token_accuracy": 0.8149584170430899,
+      "num_tokens": 24724480.0,
+      "step": 3020
+    },
+    {
+      "epoch": 2.7804430161827156,
+      "grad_norm": 1.215406060218811,
+      "learning_rate": 8.188922867821951e-07,
+      "loss": 0.1273,
+      "mean_token_accuracy": 0.8383683957159519,
+      "num_tokens": 24806400.0,
+      "step": 3030
+    },
+    {
+      "epoch": 2.7896246987260414,
+      "grad_norm": 1.3644214868545532,
+      "learning_rate": 7.849133537206933e-07,
+      "loss": 0.1361,
+      "mean_token_accuracy": 0.823642372712493,
+      "num_tokens": 24888320.0,
+      "step": 3040
+    },
+    {
+      "epoch": 2.7988063812693675,
+      "grad_norm": 1.827764630317688,
+      "learning_rate": 7.509344206591913e-07,
+      "loss": 0.1394,
+      "mean_token_accuracy": 0.8243884552270174,
+      "num_tokens": 24970240.0,
+      "step": 3050
+    },
+    {
+      "epoch": 2.8079880638126937,
+      "grad_norm": 1.2215831279754639,
+      "learning_rate": 7.169554875976895e-07,
+      "loss": 0.1345,
+      "mean_token_accuracy": 0.8343688864260912,
+      "num_tokens": 25052160.0,
+      "step": 3060
+    },
+    {
+      "epoch": 2.8171697463560195,
+      "grad_norm": 1.2051235437393188,
+      "learning_rate": 6.829765545361876e-07,
+      "loss": 0.1448,
+      "mean_token_accuracy": 0.8268346361815929,
+      "num_tokens": 25134080.0,
+      "step": 3070
+    },
+    {
+      "epoch": 2.8263514288993457,
+      "grad_norm": 1.358314037322998,
+      "learning_rate": 6.489976214746857e-07,
+      "loss": 0.1401,
+      "mean_token_accuracy": 0.8394080217927694,
+      "num_tokens": 25216000.0,
+      "step": 3080
+    },
+    {
+      "epoch": 2.835533111442672,
+      "grad_norm": 1.5445815324783325,
+      "learning_rate": 6.150186884131839e-07,
+      "loss": 0.1444,
+      "mean_token_accuracy": 0.8344789650291204,
+      "num_tokens": 25297920.0,
+      "step": 3090
+    },
+    {
+      "epoch": 2.844714793985998,
+      "grad_norm": 0.9232423305511475,
+      "learning_rate": 5.81039755351682e-07,
+      "loss": 0.1197,
+      "mean_token_accuracy": 0.8397871796041727,
+      "num_tokens": 25379840.0,
+      "step": 3100
+    },
+    {
+      "epoch": 2.853896476529324,
+      "grad_norm": 1.2474477291107178,
+      "learning_rate": 5.470608222901801e-07,
+      "loss": 0.1358,
+      "mean_token_accuracy": 0.830565071478486,
+      "num_tokens": 25461760.0,
+      "step": 3110
+    },
+    {
+      "epoch": 2.86307815907265,
+      "grad_norm": 1.3741815090179443,
+      "learning_rate": 5.130818892286782e-07,
+      "loss": 0.1367,
+      "mean_token_accuracy": 0.822761744633317,
+      "num_tokens": 25543680.0,
+      "step": 3120
+    },
+    {
+      "epoch": 2.872259841615976,
+      "grad_norm": 0.8645684719085693,
+      "learning_rate": 4.791029561671764e-07,
+      "loss": 0.1414,
+      "mean_token_accuracy": 0.8360322870314121,
+      "num_tokens": 25625600.0,
+      "step": 3130
+    },
+    {
+      "epoch": 2.8814415241593023,
+      "grad_norm": 1.3521939516067505,
+      "learning_rate": 4.451240231056745e-07,
+      "loss": 0.1368,
+      "mean_token_accuracy": 0.8312010750174522,
+      "num_tokens": 25707520.0,
+      "step": 3140
+    },
+    {
+      "epoch": 2.890623206702628,
+      "grad_norm": 1.3353580236434937,
+      "learning_rate": 4.111450900441726e-07,
+      "loss": 0.1192,
+      "mean_token_accuracy": 0.8368639908730984,
+      "num_tokens": 25789440.0,
+      "step": 3150
+    },
+    {
+      "epoch": 2.8998048892459543,
+      "grad_norm": 1.0142643451690674,
+      "learning_rate": 3.7716615698267073e-07,
+      "loss": 0.1391,
+      "mean_token_accuracy": 0.8295865952968597,
+      "num_tokens": 25871360.0,
+      "step": 3160
+    },
+    {
+      "epoch": 2.9089865717892804,
+      "grad_norm": 1.3363066911697388,
+      "learning_rate": 3.4318722392116895e-07,
+      "loss": 0.15,
+      "mean_token_accuracy": 0.8194104671478272,
+      "num_tokens": 25953280.0,
+      "step": 3170
+    },
+    {
+      "epoch": 2.918168254332606,
+      "grad_norm": 1.1663857698440552,
+      "learning_rate": 3.09208290859667e-07,
+      "loss": 0.1391,
+      "mean_token_accuracy": 0.8333170261234045,
+      "num_tokens": 26035200.0,
+      "step": 3180
+    },
+    {
+      "epoch": 2.9273499368759324,
+      "grad_norm": 1.1857463121414185,
+      "learning_rate": 2.752293577981652e-07,
+      "loss": 0.1508,
+      "mean_token_accuracy": 0.8284246563911438,
+      "num_tokens": 26117120.0,
+      "step": 3190
+    },
+    {
+      "epoch": 2.9365316194192586,
+      "grad_norm": 1.3892704248428345,
+      "learning_rate": 2.412504247366633e-07,
+      "loss": 0.1399,
+      "mean_token_accuracy": 0.8355797432363034,
+      "num_tokens": 26199040.0,
+      "step": 3200
+    },
+    {
+      "epoch": 2.9457133019625847,
+      "grad_norm": 1.4766535758972168,
+      "learning_rate": 2.0727149167516142e-07,
+      "loss": 0.1713,
+      "mean_token_accuracy": 0.8024461850523948,
+      "num_tokens": 26280960.0,
+      "step": 3210
+    },
+    {
+      "epoch": 2.954894984505911,
+      "grad_norm": 1.0841213464736938,
+      "learning_rate": 1.7329255861365954e-07,
+      "loss": 0.1464,
+      "mean_token_accuracy": 0.822847356274724,
+      "num_tokens": 26362880.0,
+      "step": 3220
+    },
+    {
+      "epoch": 2.9640766670492367,
+      "grad_norm": 1.0091631412506104,
+      "learning_rate": 1.3931362555215769e-07,
+      "loss": 0.1402,
+      "mean_token_accuracy": 0.8205234851688147,
+      "num_tokens": 26444800.0,
+      "step": 3230
+    },
+    {
+      "epoch": 2.973258349592563,
+      "grad_norm": 1.2437331676483154,
+      "learning_rate": 1.053346924906558e-07,
+      "loss": 0.1487,
+      "mean_token_accuracy": 0.8193126212805509,
+      "num_tokens": 26526720.0,
+      "step": 3240
+    },
+    {
+      "epoch": 2.982440032135889,
+      "grad_norm": 1.2033171653747559,
+      "learning_rate": 7.135575942915393e-08,
+      "loss": 0.1081,
+      "mean_token_accuracy": 0.8560909986495971,
+      "num_tokens": 26608640.0,
+      "step": 3250
+    },
+    {
+      "epoch": 2.991621714679215,
+      "grad_norm": 1.167435884475708,
+      "learning_rate": 3.737682636765206e-08,
+      "loss": 0.1496,
+      "mean_token_accuracy": 0.8093933459371329,
+      "num_tokens": 26690560.0,
+      "step": 3260
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 7.105273246765137,
+      "learning_rate": 3.3978933061501875e-09,
+      "loss": 0.1229,
+      "mean_token_accuracy": 0.8537249038480732,
+      "num_tokens": 26764800.0,
+      "step": 3270
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 7.07341401980928e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null