Training in progress, step 7000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f7f960c526aaddf3dc6988e73942fac836299ec8e275266c1eba5701ae94d95
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:85553c2cc4b71cc764d219a255a3d7c329d548c46a05c1b60f352b7a9a28b2a1
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1ba615b7681549fb237aead953796280a2ad4be16081ccbd5f79689ec8c3f9c
 size 4768663315

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cef3423760a08b83e2c1f1529056dce5e88b5150c5b965e4bf1c35daa74b70f
 size 4768663315

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de69a2834426ff9ef8199d077e00892579278af31d8969d77f98235b5cfc010a
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:2534e434cd5abbb8f7668d3eab0549db0ef95d6a797a3efa86b712e8e32266a7
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:edf1be9c157afb4ca46e7843711b38a681d679ee3bcd0c31f21d197c72d6bbf2
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc1bf8ba09c7a33e82766bf9f5af704c56a2c04ffb9328ada50fa2f824e9badd
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9574580227392515,
   "eval_steps": 100,
-  "global_step": 6500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5858,6 +5858,456 @@
       "mean_token_accuracy": 0.7979574371129274,
       "num_tokens": 53241856.0,
       "step": 6500
     }
   ],
   "logging_steps": 10,
@@ -5877,7 +6327,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4070782919023002e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.107823206083879,
   "eval_steps": 100,
+  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7979574371129274,
       "num_tokens": 53241856.0,
       "step": 6500
+    },
+    {
+      "epoch": 1.9604698441382427,
+      "grad_norm": 1.5861074924468994,
+      "learning_rate": 3.852331028329244e-06,
+      "loss": 0.1401,
+      "mean_token_accuracy": 0.7667318984866143,
+      "num_tokens": 53323776.0,
+      "step": 6510
+    },
+    {
+      "epoch": 1.9634816655372336,
+      "grad_norm": 1.195090889930725,
+      "learning_rate": 3.841177782734776e-06,
+      "loss": 0.1359,
+      "mean_token_accuracy": 0.7738136008381844,
+      "num_tokens": 53405696.0,
+      "step": 6520
+    },
+    {
+      "epoch": 1.9664934869362247,
+      "grad_norm": 1.410537600517273,
+      "learning_rate": 3.830024537140309e-06,
+      "loss": 0.1116,
+      "mean_token_accuracy": 0.7794153623282909,
+      "num_tokens": 53487616.0,
+      "step": 6530
+    },
+    {
+      "epoch": 1.9695053083352159,
+      "grad_norm": 1.2453457117080688,
+      "learning_rate": 3.81887129154584e-06,
+      "loss": 0.1626,
+      "mean_token_accuracy": 0.7636007871478796,
+      "num_tokens": 53569536.0,
+      "step": 6540
+    },
+    {
+      "epoch": 1.9725171297342068,
+      "grad_norm": 1.5458024740219116,
+      "learning_rate": 3.8077180459513723e-06,
+      "loss": 0.1225,
+      "mean_token_accuracy": 0.7851883560419083,
+      "num_tokens": 53651456.0,
+      "step": 6550
+    },
+    {
+      "epoch": 1.9755289511331977,
+      "grad_norm": 1.335051417350769,
+      "learning_rate": 3.7965648003569045e-06,
+      "loss": 0.1244,
+      "mean_token_accuracy": 0.7711105648428201,
+      "num_tokens": 53733376.0,
+      "step": 6560
+    },
+    {
+      "epoch": 1.9785407725321889,
+      "grad_norm": 1.1321961879730225,
+      "learning_rate": 3.785411554762436e-06,
+      "loss": 0.1145,
+      "mean_token_accuracy": 0.7770547956228256,
+      "num_tokens": 53815296.0,
+      "step": 6570
+    },
+    {
+      "epoch": 1.98155259393118,
+      "grad_norm": 1.4666228294372559,
+      "learning_rate": 3.7742583091679678e-06,
+      "loss": 0.1128,
+      "mean_token_accuracy": 0.8008316993713379,
+      "num_tokens": 53897216.0,
+      "step": 6580
+    },
+    {
+      "epoch": 1.984564415330171,
+      "grad_norm": 1.1132220029830933,
+      "learning_rate": 3.7631050635735e-06,
+      "loss": 0.1223,
+      "mean_token_accuracy": 0.7956457916647196,
+      "num_tokens": 53979136.0,
+      "step": 6590
+    },
+    {
+      "epoch": 1.9875762367291618,
+      "grad_norm": 1.015281319618225,
+      "learning_rate": 3.751951817979032e-06,
+      "loss": 0.1115,
+      "mean_token_accuracy": 0.7839285705238581,
+      "num_tokens": 54061056.0,
+      "step": 6600
+    },
+    {
+      "epoch": 1.990588058128153,
+      "grad_norm": 1.3019957542419434,
+      "learning_rate": 3.740798572384564e-06,
+      "loss": 0.1132,
+      "mean_token_accuracy": 0.7918786682188511,
+      "num_tokens": 54142976.0,
+      "step": 6610
+    },
+    {
+      "epoch": 1.9935998795271441,
+      "grad_norm": 1.3737001419067383,
+      "learning_rate": 3.729645326790096e-06,
+      "loss": 0.12,
+      "mean_token_accuracy": 0.7895425636321306,
+      "num_tokens": 54224896.0,
+      "step": 6620
+    },
+    {
+      "epoch": 1.996611700926135,
+      "grad_norm": 1.220357060432434,
+      "learning_rate": 3.7184920811956282e-06,
+      "loss": 0.1267,
+      "mean_token_accuracy": 0.7734589025378227,
+      "num_tokens": 54306816.0,
+      "step": 6630
+    },
+    {
+      "epoch": 1.999623522325126,
+      "grad_norm": 0.9205222725868225,
+      "learning_rate": 3.70733883560116e-06,
+      "loss": 0.1376,
+      "mean_token_accuracy": 0.77977005392313,
+      "num_tokens": 54388736.0,
+      "step": 6640
+    },
+    {
+      "epoch": 2.002409457119193,
+      "grad_norm": 1.058834433555603,
+      "learning_rate": 3.6961855900066923e-06,
+      "loss": 0.1066,
+      "mean_token_accuracy": 0.7967816152282663,
+      "num_tokens": 54464512.0,
+      "step": 6650
+    },
+    {
+      "epoch": 2.0054212785181837,
+      "grad_norm": 1.4777971506118774,
+      "learning_rate": 3.685032344412224e-06,
+      "loss": 0.1153,
+      "mean_token_accuracy": 0.783109100162983,
+      "num_tokens": 54546432.0,
+      "step": 6660
+    },
+    {
+      "epoch": 2.008433099917175,
+      "grad_norm": 1.3833023309707642,
+      "learning_rate": 3.6738790988177564e-06,
+      "loss": 0.1312,
+      "mean_token_accuracy": 0.7731409035623074,
+      "num_tokens": 54628352.0,
+      "step": 6670
+    },
+    {
+      "epoch": 2.011444921316166,
+      "grad_norm": 1.062574028968811,
+      "learning_rate": 3.6627258532232887e-06,
+      "loss": 0.0978,
+      "mean_token_accuracy": 0.7889799430966378,
+      "num_tokens": 54710272.0,
+      "step": 6680
+    },
+    {
+      "epoch": 2.014456742715157,
+      "grad_norm": 1.269668459892273,
+      "learning_rate": 3.6515726076288205e-06,
+      "loss": 0.1001,
+      "mean_token_accuracy": 0.7908879652619362,
+      "num_tokens": 54792192.0,
+      "step": 6690
+    },
+    {
+      "epoch": 2.017468564114148,
+      "grad_norm": 1.7478396892547607,
+      "learning_rate": 3.6404193620343527e-06,
+      "loss": 0.1288,
+      "mean_token_accuracy": 0.7696673195809126,
+      "num_tokens": 54874112.0,
+      "step": 6700
+    },
+    {
+      "epoch": 2.0204803855131392,
+      "grad_norm": 1.484840989112854,
+      "learning_rate": 3.6292661164398846e-06,
+      "loss": 0.1461,
+      "mean_token_accuracy": 0.779011744260788,
+      "num_tokens": 54956032.0,
+      "step": 6710
+    },
+    {
+      "epoch": 2.02349220691213,
+      "grad_norm": 1.2291215658187866,
+      "learning_rate": 3.618112870845416e-06,
+      "loss": 0.1269,
+      "mean_token_accuracy": 0.7728228956460953,
+      "num_tokens": 55037952.0,
+      "step": 6720
+    },
+    {
+      "epoch": 2.026504028311121,
+      "grad_norm": 1.2073824405670166,
+      "learning_rate": 3.6069596252509482e-06,
+      "loss": 0.1097,
+      "mean_token_accuracy": 0.7927470624446868,
+      "num_tokens": 55119872.0,
+      "step": 6730
+    },
+    {
+      "epoch": 2.029515849710112,
+      "grad_norm": 1.3367125988006592,
+      "learning_rate": 3.59580637965648e-06,
+      "loss": 0.0825,
+      "mean_token_accuracy": 0.8145425617694855,
+      "num_tokens": 55201792.0,
+      "step": 6740
+    },
+    {
+      "epoch": 2.0325276711091034,
+      "grad_norm": 0.9058095812797546,
+      "learning_rate": 3.5846531340620123e-06,
+      "loss": 0.1062,
+      "mean_token_accuracy": 0.8042319010943174,
+      "num_tokens": 55283712.0,
+      "step": 6750
+    },
+    {
+      "epoch": 2.0355394925080943,
+      "grad_norm": 1.2049607038497925,
+      "learning_rate": 3.573499888467544e-06,
+      "loss": 0.1278,
+      "mean_token_accuracy": 0.7739603724330664,
+      "num_tokens": 55365632.0,
+      "step": 6760
+    },
+    {
+      "epoch": 2.038551313907085,
+      "grad_norm": 1.4414746761322021,
+      "learning_rate": 3.5623466428730764e-06,
+      "loss": 0.0992,
+      "mean_token_accuracy": 0.8063600823283196,
+      "num_tokens": 55447552.0,
+      "step": 6770
+    },
+    {
+      "epoch": 2.041563135306076,
+      "grad_norm": 1.0376569032669067,
+      "learning_rate": 3.5511933972786083e-06,
+      "loss": 0.1134,
+      "mean_token_accuracy": 0.7815435409545899,
+      "num_tokens": 55529472.0,
+      "step": 6780
+    },
+    {
+      "epoch": 2.0445749567050675,
+      "grad_norm": 1.3576596975326538,
+      "learning_rate": 3.5400401516841405e-06,
+      "loss": 0.1019,
+      "mean_token_accuracy": 0.7937255371361971,
+      "num_tokens": 55611392.0,
+      "step": 6790
+    },
+    {
+      "epoch": 2.0475867781040584,
+      "grad_norm": 0.9655880331993103,
+      "learning_rate": 3.5288869060896724e-06,
+      "loss": 0.1065,
+      "mean_token_accuracy": 0.7986423678696155,
+      "num_tokens": 55693312.0,
+      "step": 6800
+    },
+    {
+      "epoch": 2.0505985995030493,
+      "grad_norm": 1.2648464441299438,
+      "learning_rate": 3.5177336604952046e-06,
+      "loss": 0.1086,
+      "mean_token_accuracy": 0.795303326100111,
+      "num_tokens": 55775232.0,
+      "step": 6810
+    },
+    {
+      "epoch": 2.0536104209020407,
+      "grad_norm": 1.6027874946594238,
+      "learning_rate": 3.5065804149007364e-06,
+      "loss": 0.0982,
+      "mean_token_accuracy": 0.7956213317811489,
+      "num_tokens": 55857152.0,
+      "step": 6820
+    },
+    {
+      "epoch": 2.0566222423010316,
+      "grad_norm": 1.4525415897369385,
+      "learning_rate": 3.4954271693062687e-06,
+      "loss": 0.1175,
+      "mean_token_accuracy": 0.7873654570430517,
+      "num_tokens": 55939072.0,
+      "step": 6830
+    },
+    {
+      "epoch": 2.0596340637000226,
+      "grad_norm": 1.5248804092407227,
+      "learning_rate": 3.4842739237118005e-06,
+      "loss": 0.0992,
+      "mean_token_accuracy": 0.7903008766472339,
+      "num_tokens": 56020992.0,
+      "step": 6840
+    },
+    {
+      "epoch": 2.0626458850990135,
+      "grad_norm": 1.1746339797973633,
+      "learning_rate": 3.473120678117333e-06,
+      "loss": 0.1205,
+      "mean_token_accuracy": 0.7796355158090591,
+      "num_tokens": 56102912.0,
+      "step": 6850
+    },
+    {
+      "epoch": 2.065657706498005,
+      "grad_norm": 1.181340217590332,
+      "learning_rate": 3.4619674325228646e-06,
+      "loss": 0.1235,
+      "mean_token_accuracy": 0.7802837561815977,
+      "num_tokens": 56184832.0,
+      "step": 6860
+    },
+    {
+      "epoch": 2.0686695278969958,
+      "grad_norm": 1.4108185768127441,
+      "learning_rate": 3.450814186928396e-06,
+      "loss": 0.1011,
+      "mean_token_accuracy": 0.8037915851920843,
+      "num_tokens": 56266752.0,
+      "step": 6870
+    },
+    {
+      "epoch": 2.0716813492959867,
+      "grad_norm": 1.146896481513977,
+      "learning_rate": 3.4396609413339283e-06,
+      "loss": 0.1233,
+      "mean_token_accuracy": 0.7929427601397038,
+      "num_tokens": 56348672.0,
+      "step": 6880
+    },
+    {
+      "epoch": 2.0746931706949776,
+      "grad_norm": 1.2894806861877441,
+      "learning_rate": 3.42850769573946e-06,
+      "loss": 0.1127,
+      "mean_token_accuracy": 0.7803816046565771,
+      "num_tokens": 56430592.0,
+      "step": 6890
+    },
+    {
+      "epoch": 2.077704992093969,
+      "grad_norm": 0.9775878190994263,
+      "learning_rate": 3.4173544501449924e-06,
+      "loss": 0.1012,
+      "mean_token_accuracy": 0.7998899217694998,
+      "num_tokens": 56512512.0,
+      "step": 6900
+    },
+    {
+      "epoch": 2.08071681349296,
+      "grad_norm": 1.141923427581787,
+      "learning_rate": 3.4062012045505242e-06,
+      "loss": 0.1032,
+      "mean_token_accuracy": 0.7836839504539966,
+      "num_tokens": 56594432.0,
+      "step": 6910
+    },
+    {
+      "epoch": 2.083728634891951,
+      "grad_norm": 1.037724494934082,
+      "learning_rate": 3.3950479589560565e-06,
+      "loss": 0.1049,
+      "mean_token_accuracy": 0.8032534249126911,
+      "num_tokens": 56676352.0,
+      "step": 6920
+    },
+    {
+      "epoch": 2.0867404562909417,
+      "grad_norm": 1.3930587768554688,
+      "learning_rate": 3.3838947133615883e-06,
+      "loss": 0.1065,
+      "mean_token_accuracy": 0.786497063934803,
+      "num_tokens": 56758272.0,
+      "step": 6930
+    },
+    {
+      "epoch": 2.089752277689933,
+      "grad_norm": 0.9995868802070618,
+      "learning_rate": 3.3727414677671206e-06,
+      "loss": 0.1105,
+      "mean_token_accuracy": 0.7776051837950945,
+      "num_tokens": 56840192.0,
+      "step": 6940
+    },
+    {
+      "epoch": 2.092764099088924,
+      "grad_norm": 1.704577088356018,
+      "learning_rate": 3.3615882221726524e-06,
+      "loss": 0.1174,
+      "mean_token_accuracy": 0.7858610555529595,
+      "num_tokens": 56922112.0,
+      "step": 6950
+    },
+    {
+      "epoch": 2.095775920487915,
+      "grad_norm": 1.1011236906051636,
+      "learning_rate": 3.3504349765781847e-06,
+      "loss": 0.1084,
+      "mean_token_accuracy": 0.7746819939464331,
+      "num_tokens": 57004032.0,
+      "step": 6960
+    },
+    {
+      "epoch": 2.0987877418869063,
+      "grad_norm": 0.932067334651947,
+      "learning_rate": 3.3392817309837165e-06,
+      "loss": 0.1242,
+      "mean_token_accuracy": 0.7733732841908931,
+      "num_tokens": 57085952.0,
+      "step": 6970
+    },
+    {
+      "epoch": 2.1017995632858972,
+      "grad_norm": 0.9481123685836792,
+      "learning_rate": 3.3281284853892487e-06,
+      "loss": 0.1079,
+      "mean_token_accuracy": 0.7982142839580775,
+      "num_tokens": 57167872.0,
+      "step": 6980
+    },
+    {
+      "epoch": 2.104811384684888,
+      "grad_norm": 1.3651145696640015,
+      "learning_rate": 3.3169752397947806e-06,
+      "loss": 0.1265,
+      "mean_token_accuracy": 0.7904231909662485,
+      "num_tokens": 57249792.0,
+      "step": 6990
+    },
+    {
+      "epoch": 2.107823206083879,
+      "grad_norm": 1.0314269065856934,
+      "learning_rate": 3.305821994200313e-06,
+      "loss": 0.1519,
+      "mean_token_accuracy": 0.7659491188824177,
+      "num_tokens": 57331712.0,
+      "step": 7000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.5151651999658803e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null