Training in progress, step 100, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_config.json +2 -2
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +54 -504
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -28,10 +28,10 @@
     "down_proj",
     "gate_proj",
     "q_proj",
-    "k_proj",
     "v_proj",
     "up_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

     "down_proj",
     "gate_proj",
     "q_proj",
     "v_proj",
+    "o_proj",
     "up_proj",
+    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddc2f6d25f763b9de0ed5430306eb636ad7c54269a7b3b70c998dbb4d0242450
 size 35668592

 version https://git-lfs.github.com/spec/v1
+oid sha256:218ab56f7a51eb8b7fcd24a854a377779a21c223f5f3094f1c9e892485262041
 size 35668592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d46dc4e7f4c38bd7d740c9f5afd10a56d0c7b90d973e3e7ceaf2a89f6ab3066a
-size 18257163

 version https://git-lfs.github.com/spec/v1
+oid sha256:368e648350fa88e97ed24bf06f585bb7f7097580946a4a9480bef2318de437fd
+size 18257035

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:532727a1ac4eb5b9846bd900afbac875d546089027ad66d97c611355ff543eb1
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f92bb13c8c261c5bbacd52e4713611a2458ef3c2d47986ab438b3233a082b5f
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20260be3fc45a3cfa8fd6a74639f50b3b33a87c97c47f472437044dfb3488bc9
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4393a84a3109995aa1202073b039b12062e3189ed89aa0b94ef0510ba843009
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02647c16a79c538141d09a2e5ec5135201f004952aab2cef2e8f97c0a0eb658e
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2b5ed8d4c0db2e24674d7f125356981e2c73273d96a8f3eabaf284b99f24856
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,556 +2,106 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1805189921022941,
   "eval_steps": 500,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.003008649868371568,
-      "grad_norm": 4.276698589324951,
-      "learning_rate": 3.0060120240480964e-07,
-      "loss": 480.0683,
       "mean_token_accuracy": 0.0,
-      "num_tokens": 34261.0,
       "step": 10
     },
     {
-      "epoch": 0.006017299736743136,
-      "grad_norm": 4.8311052322387695,
-      "learning_rate": 8.016032064128256e-07,
-      "loss": 477.3868,
       "mean_token_accuracy": 0.0,
-      "num_tokens": 69155.0,
       "step": 20
     },
     {
-      "epoch": 0.009025949605114705,
-      "grad_norm": 5.98472261428833,
-      "learning_rate": 1.2525050100200402e-06,
-      "loss": 1114.7921,
       "mean_token_accuracy": 0.0,
-      "num_tokens": 103105.0,
       "step": 30
     },
     {
-      "epoch": 0.012034599473486273,
-      "grad_norm": 5.757265567779541,
-      "learning_rate": 1.7535070140280561e-06,
-      "loss": 143.3327,
       "mean_token_accuracy": 0.0,
-      "num_tokens": 138287.0,
       "step": 40
     },
     {
-      "epoch": 0.01504324934185784,
-      "grad_norm": 6.342145919799805,
-      "learning_rate": 2.2545090180360722e-06,
-      "loss": 1132.4002,
       "mean_token_accuracy": 0.0,
-      "num_tokens": 173859.0,
       "step": 50
     },
     {
-      "epoch": 0.01805189921022941,
-      "grad_norm": 5.444029808044434,
-      "learning_rate": 2.755511022044088e-06,
-      "loss": 564.7068,
       "mean_token_accuracy": 0.0,
-      "num_tokens": 208076.0,
       "step": 60
     },
     {
-      "epoch": 0.021060549078600978,
-      "grad_norm": 8.959345817565918,
-      "learning_rate": 3.256513026052104e-06,
-      "loss": 511.3984,
       "mean_token_accuracy": 0.0,
-      "num_tokens": 242205.0,
       "step": 70
     },
     {
-      "epoch": 0.024069198946972545,
-      "grad_norm": 8.90196418762207,
-      "learning_rate": 3.757515030060121e-06,
-      "loss": 1757.1668,
       "mean_token_accuracy": 0.0,
-      "num_tokens": 278838.0,
       "step": 80
     },
     {
-      "epoch": 0.027077848815344113,
-      "grad_norm": 10.707074165344238,
-      "learning_rate": 4.258517034068137e-06,
-      "loss": 409.6564,
       "mean_token_accuracy": 0.0,
-      "num_tokens": 313816.0,
       "step": 90
     },
     {
-      "epoch": 0.03008649868371568,
-      "grad_norm": 11.27257251739502,
-      "learning_rate": 4.759519038076152e-06,
-      "loss": 476.8946,
       "mean_token_accuracy": 0.0,
-      "num_tokens": 349435.0,
       "step": 100
-    },
-    {
-      "epoch": 0.03309514855208725,
-      "grad_norm": 10.067933082580566,
-      "learning_rate": 5.2605210420841686e-06,
-      "loss": 3136.1221,
-      "mean_token_accuracy": 0.0,
-      "num_tokens": 385097.0,
-      "step": 110
-    },
-    {
-      "epoch": 0.03610379842045882,
-      "grad_norm": 12.381434440612793,
-      "learning_rate": 5.761523046092185e-06,
-      "loss": 152.1215,
-      "mean_token_accuracy": 0.0,
-      "num_tokens": 420134.0,
-      "step": 120
-    },
-    {
-      "epoch": 0.039112448288830384,
-      "grad_norm": 16.296707153320312,
-      "learning_rate": 6.2625250501002e-06,
-      "loss": 544.0213,
-      "mean_token_accuracy": 0.0,
-      "num_tokens": 454034.0,
-      "step": 130
-    },
-    {
-      "epoch": 0.042121098157201955,
-      "grad_norm": 24.59258270263672,
-      "learning_rate": 6.763527054108217e-06,
-      "loss": 548.5192,
-      "mean_token_accuracy": 0.0,
-      "num_tokens": 488139.0,
-      "step": 140
-    },
-    {
-      "epoch": 0.04512974802557353,
-      "grad_norm": 23.74886131286621,
-      "learning_rate": 7.264529058116233e-06,
-      "loss": 346.1137,
-      "mean_token_accuracy": 0.0,
-      "num_tokens": 522244.0,
-      "step": 150
-    },
-    {
-      "epoch": 0.04813839789394509,
-      "grad_norm": 20.021039962768555,
-      "learning_rate": 7.765531062124248e-06,
-      "loss": 166.4427,
-      "mean_token_accuracy": 0.1875,
-      "num_tokens": 556290.0,
-      "step": 160
-    },
-    {
-      "epoch": 0.05114704776231666,
-      "grad_norm": 19.577783584594727,
-      "learning_rate": 8.266533066132265e-06,
-      "loss": 86.5497,
-      "mean_token_accuracy": 0.525,
-      "num_tokens": 588646.0,
-      "step": 170
-    },
-    {
-      "epoch": 0.054155697630688227,
-      "grad_norm": 1.172348976135254,
-      "learning_rate": 8.767535070140282e-06,
-      "loss": 23.6608,
-      "mean_token_accuracy": 0.6125,
-      "num_tokens": 622280.0,
-      "step": 180
-    },
-    {
-      "epoch": 0.0571643474990598,
-      "grad_norm": 0.18244539201259613,
-      "learning_rate": 9.268537074148296e-06,
-      "loss": 9.9449,
-      "mean_token_accuracy": 0.6125,
-      "num_tokens": 656869.0,
-      "step": 190
-    },
-    {
-      "epoch": 0.06017299736743136,
-      "grad_norm": 0.10955705493688583,
-      "learning_rate": 9.769539078156313e-06,
-      "loss": 1.8071,
-      "mean_token_accuracy": 0.575,
-      "num_tokens": 691096.0,
-      "step": 200
-    },
-    {
-      "epoch": 0.06318164723580294,
-      "grad_norm": 0.04723483696579933,
-      "learning_rate": 1.027054108216433e-05,
-      "loss": 0.0957,
-      "mean_token_accuracy": 0.5875,
-      "num_tokens": 726392.0,
-      "step": 210
-    },
-    {
-      "epoch": 0.0661902971041745,
-      "grad_norm": 0.010282195173203945,
-      "learning_rate": 1.0771543086172344e-05,
-      "loss": 0.3321,
-      "mean_token_accuracy": 0.55,
-      "num_tokens": 761837.0,
-      "step": 220
-    },
-    {
-      "epoch": 0.06919894697254607,
-      "grad_norm": 13.442811012268066,
-      "learning_rate": 1.1272545090180361e-05,
-      "loss": 1.0772,
-      "mean_token_accuracy": 0.55,
-      "num_tokens": 797225.0,
-      "step": 230
-    },
-    {
-      "epoch": 0.07220759684091764,
-      "grad_norm": 0.011219559237360954,
-      "learning_rate": 1.1773547094188378e-05,
-      "loss": 0.0339,
-      "mean_token_accuracy": 0.6125,
-      "num_tokens": 831675.0,
-      "step": 240
-    },
-    {
-      "epoch": 0.07521624670928921,
-      "grad_norm": 0.004255462437868118,
-      "learning_rate": 1.2274549098196394e-05,
-      "loss": 0.01,
-      "mean_token_accuracy": 0.675,
-      "num_tokens": 865688.0,
-      "step": 250
-    },
-    {
-      "epoch": 0.07822489657766077,
-      "grad_norm": 0.017930058762431145,
-      "learning_rate": 1.2775551102204408e-05,
-      "loss": 0.0087,
-      "mean_token_accuracy": 0.6,
-      "num_tokens": 901141.0,
-      "step": 260
-    },
-    {
-      "epoch": 0.08123354644603234,
-      "grad_norm": 0.0016301374416798353,
-      "learning_rate": 1.3276553106212425e-05,
-      "loss": 0.0208,
-      "mean_token_accuracy": 0.6125,
-      "num_tokens": 935822.0,
-      "step": 270
-    },
-    {
-      "epoch": 0.08424219631440391,
-      "grad_norm": 0.008146238513290882,
-      "learning_rate": 1.3777555110220442e-05,
-      "loss": 0.0119,
-      "mean_token_accuracy": 0.6375,
-      "num_tokens": 970555.0,
-      "step": 280
-    },
-    {
-      "epoch": 0.08725084618277548,
-      "grad_norm": 0.009405690245330334,
-      "learning_rate": 1.4278557114228458e-05,
-      "loss": 0.0484,
-      "mean_token_accuracy": 0.5875,
-      "num_tokens": 1005588.0,
-      "step": 290
-    },
-    {
-      "epoch": 0.09025949605114705,
-      "grad_norm": 14.278578758239746,
-      "learning_rate": 1.4779559118236475e-05,
-      "loss": 0.027,
-      "mean_token_accuracy": 0.5125,
-      "num_tokens": 1040690.0,
-      "step": 300
-    },
-    {
-      "epoch": 0.09326814591951861,
-      "grad_norm": 0.0022012211848050356,
-      "learning_rate": 1.5280561122244487e-05,
-      "loss": 0.0203,
-      "mean_token_accuracy": 0.4875,
-      "num_tokens": 1075623.0,
-      "step": 310
-    },
-    {
-      "epoch": 0.09627679578789018,
-      "grad_norm": 0.004598209168761969,
-      "learning_rate": 1.5781563126252504e-05,
-      "loss": 0.0049,
-      "mean_token_accuracy": 0.65,
-      "num_tokens": 1110299.0,
-      "step": 320
-    },
-    {
-      "epoch": 0.09928544565626175,
-      "grad_norm": 0.006529012229293585,
-      "learning_rate": 1.628256513026052e-05,
-      "loss": 0.0014,
-      "mean_token_accuracy": 0.75,
-      "num_tokens": 1143605.0,
-      "step": 330
-    },
-    {
-      "epoch": 0.10229409552463332,
-      "grad_norm": 0.0015496546402573586,
-      "learning_rate": 1.678356713426854e-05,
-      "loss": 0.0088,
-      "mean_token_accuracy": 0.6125,
-      "num_tokens": 1178167.0,
-      "step": 340
-    },
-    {
-      "epoch": 0.1053027453930049,
-      "grad_norm": 0.005931541323661804,
-      "learning_rate": 1.7284569138276556e-05,
-      "loss": 1.3814,
-      "mean_token_accuracy": 0.6125,
-      "num_tokens": 1212839.0,
-      "step": 350
-    },
-    {
-      "epoch": 0.10831139526137645,
-      "grad_norm": 0.0023496279027312994,
-      "learning_rate": 1.7785571142284573e-05,
-      "loss": 0.0054,
-      "mean_token_accuracy": 0.6375,
-      "num_tokens": 1246660.0,
-      "step": 360
-    },
-    {
-      "epoch": 0.11132004512974802,
-      "grad_norm": 0.001145790098235011,
-      "learning_rate": 1.8286573146292587e-05,
-      "loss": 0.0764,
-      "mean_token_accuracy": 0.5375,
-      "num_tokens": 1281889.0,
-      "step": 370
-    },
-    {
-      "epoch": 0.1143286949981196,
-      "grad_norm": 0.0035560056567192078,
-      "learning_rate": 1.87875751503006e-05,
-      "loss": 0.0156,
-      "mean_token_accuracy": 0.5375,
-      "num_tokens": 1317575.0,
-      "step": 380
-    },
-    {
-      "epoch": 0.11733734486649117,
-      "grad_norm": 0.0020822687074542046,
-      "learning_rate": 1.9288577154308618e-05,
-      "loss": 0.0921,
-      "mean_token_accuracy": 0.6625,
-      "num_tokens": 1350936.0,
-      "step": 390
-    },
-    {
-      "epoch": 0.12034599473486272,
-      "grad_norm": 0.0026227079797536135,
-      "learning_rate": 1.9789579158316635e-05,
-      "loss": 0.0013,
-      "mean_token_accuracy": 0.625,
-      "num_tokens": 1385961.0,
-      "step": 400
-    },
-    {
-      "epoch": 0.1233546446032343,
-      "grad_norm": 0.06864658743143082,
-      "learning_rate": 2.0290581162324652e-05,
-      "loss": 0.0724,
-      "mean_token_accuracy": 0.55,
-      "num_tokens": 1421542.0,
-      "step": 410
-    },
-    {
-      "epoch": 0.12636329447160588,
-      "grad_norm": 0.0036715222522616386,
-      "learning_rate": 2.079158316633267e-05,
-      "loss": 0.007,
-      "mean_token_accuracy": 0.55,
-      "num_tokens": 1457078.0,
-      "step": 420
-    },
-    {
-      "epoch": 0.12937194433997742,
-      "grad_norm": 0.00313239055685699,
-      "learning_rate": 2.1292585170340683e-05,
-      "loss": 0.001,
-      "mean_token_accuracy": 0.6375,
-      "num_tokens": 1490852.0,
-      "step": 430
-    },
-    {
-      "epoch": 0.132380594208349,
-      "grad_norm": 0.0015605625230818987,
-      "learning_rate": 2.1793587174348697e-05,
-      "loss": 0.2283,
-      "mean_token_accuracy": 0.5125,
-      "num_tokens": 1525241.0,
-      "step": 440
-    },
-    {
-      "epoch": 0.13538924407672057,
-      "grad_norm": 0.0009020116995088756,
-      "learning_rate": 2.2294589178356714e-05,
-      "loss": 0.0017,
-      "mean_token_accuracy": 0.5875,
-      "num_tokens": 1561253.0,
-      "step": 450
-    },
-    {
-      "epoch": 0.13839789394509214,
-      "grad_norm": 0.0005520946579053998,
-      "learning_rate": 2.279559118236473e-05,
-      "loss": 0.0005,
-      "mean_token_accuracy": 0.6375,
-      "num_tokens": 1596990.0,
-      "step": 460
-    },
-    {
-      "epoch": 0.1414065438134637,
-      "grad_norm": 0.0006775453221052885,
-      "learning_rate": 2.3296593186372748e-05,
-      "loss": 0.0085,
-      "mean_token_accuracy": 0.5,
-      "num_tokens": 1633419.0,
-      "step": 470
-    },
-    {
-      "epoch": 0.14441519368183528,
-      "grad_norm": 0.0002734291192609817,
-      "learning_rate": 2.3797595190380762e-05,
-      "loss": 0.0014,
-      "mean_token_accuracy": 0.575,
-      "num_tokens": 1668732.0,
-      "step": 480
-    },
-    {
-      "epoch": 0.14742384355020685,
-      "grad_norm": 0.0007396186119876802,
-      "learning_rate": 2.429859719438878e-05,
-      "loss": 0.001,
-      "mean_token_accuracy": 0.6375,
-      "num_tokens": 1703568.0,
-      "step": 490
-    },
-    {
-      "epoch": 0.15043249341857842,
-      "grad_norm": 0.0009952335385605693,
-      "learning_rate": 2.4799599198396793e-05,
-      "loss": 0.0017,
-      "mean_token_accuracy": 0.7375,
-      "num_tokens": 1736202.0,
-      "step": 500
-    },
-    {
-      "epoch": 0.15344114328695,
-      "grad_norm": 0.0044481828808784485,
-      "learning_rate": 2.530060120240481e-05,
-      "loss": 0.0004,
-      "mean_token_accuracy": 0.6,
-      "num_tokens": 1770561.0,
-      "step": 510
-    },
-    {
-      "epoch": 0.15644979315532154,
-      "grad_norm": 0.0005716494051739573,
-      "learning_rate": 2.5801603206412827e-05,
-      "loss": 0.0005,
-      "mean_token_accuracy": 0.625,
-      "num_tokens": 1804749.0,
-      "step": 520
-    },
-    {
-      "epoch": 0.1594584430236931,
-      "grad_norm": 0.00020559463882818818,
-      "learning_rate": 2.6302605210420845e-05,
-      "loss": 0.002,
-      "mean_token_accuracy": 0.5375,
-      "num_tokens": 1839027.0,
-      "step": 530
-    },
-    {
-      "epoch": 0.16246709289206468,
-      "grad_norm": 0.000684644328430295,
-      "learning_rate": 2.6803607214428862e-05,
-      "loss": 0.0012,
-      "mean_token_accuracy": 0.6375,
-      "num_tokens": 1872641.0,
-      "step": 540
-    },
-    {
-      "epoch": 0.16547574276043625,
-      "grad_norm": 0.0008667957736179233,
-      "learning_rate": 2.730460921843688e-05,
-      "loss": 0.0011,
-      "mean_token_accuracy": 0.5375,
-      "num_tokens": 1908397.0,
-      "step": 550
-    },
-    {
-      "epoch": 0.16848439262880782,
-      "grad_norm": 0.0003756976220756769,
-      "learning_rate": 2.780561122244489e-05,
-      "loss": 0.0087,
-      "mean_token_accuracy": 0.675,
-      "num_tokens": 1942186.0,
-      "step": 560
-    },
-    {
-      "epoch": 0.1714930424971794,
-      "grad_norm": 0.0013846313813701272,
-      "learning_rate": 2.8306613226452906e-05,
-      "loss": 0.0006,
-      "mean_token_accuracy": 0.625,
-      "num_tokens": 1976984.0,
-      "step": 570
-    },
-    {
-      "epoch": 0.17450169236555096,
-      "grad_norm": 0.0010639706160873175,
-      "learning_rate": 2.880761523046092e-05,
-      "loss": 0.0003,
-      "mean_token_accuracy": 0.6375,
-      "num_tokens": 2011487.0,
-      "step": 580
-    },
-    {
-      "epoch": 0.17751034223392254,
-      "grad_norm": 0.002905157394707203,
-      "learning_rate": 2.9308617234468937e-05,
-      "loss": 0.0004,
-      "mean_token_accuracy": 0.5625,
-      "num_tokens": 2047066.0,
-      "step": 590
-    },
-    {
-      "epoch": 0.1805189921022941,
-      "grad_norm": 0.0001582392433192581,
-      "learning_rate": 2.9809619238476955e-05,
-      "loss": 0.0004,
-      "mean_token_accuracy": 0.6875,
-      "num_tokens": 2081518.0,
-      "step": 600
     }
   ],
   "logging_steps": 10,
-  "max_steps": 9972,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 100,
@@ -567,7 +117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.660300459087872e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.020057665789143787,
   "eval_steps": 500,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0020057665789143786,
+      "grad_norm": 0.0,
+      "learning_rate": 3.0080213903743316e-07,
+      "loss": 0.0,
       "mean_token_accuracy": 0.0,
+      "num_tokens": 36673.0,
       "step": 10
     },
     {
+      "epoch": 0.004011533157828757,
+      "grad_norm": 0.0,
+      "learning_rate": 6.350267379679145e-07,
+      "loss": 0.0,
       "mean_token_accuracy": 0.0,
+      "num_tokens": 73344.0,
       "step": 20
     },
     {
+      "epoch": 0.006017299736743136,
+      "grad_norm": 0.0,
+      "learning_rate": 9.692513368983958e-07,
+      "loss": 0.0,
       "mean_token_accuracy": 0.0,
+      "num_tokens": 110756.0,
       "step": 30
     },
     {
+      "epoch": 0.008023066315657515,
+      "grad_norm": 0.0,
+      "learning_rate": 1.3034759358288772e-06,
+      "loss": 0.0,
       "mean_token_accuracy": 0.0,
+      "num_tokens": 147094.0,
       "step": 40
     },
     {
+      "epoch": 0.010028832894571894,
+      "grad_norm": 0.0,
+      "learning_rate": 1.6377005347593583e-06,
+      "loss": 0.0,
       "mean_token_accuracy": 0.0,
+      "num_tokens": 184910.0,
       "step": 50
     },
     {
+      "epoch": 0.012034599473486273,
+      "grad_norm": 0.0,
+      "learning_rate": 1.9719251336898394e-06,
+      "loss": 0.0,
       "mean_token_accuracy": 0.0,
+      "num_tokens": 222083.0,
       "step": 60
     },
     {
+      "epoch": 0.014040366052400652,
+      "grad_norm": 0.0,
+      "learning_rate": 2.306149732620321e-06,
+      "loss": 0.0,
       "mean_token_accuracy": 0.0,
+      "num_tokens": 259469.0,
       "step": 70
     },
     {
+      "epoch": 0.01604613263131503,
+      "grad_norm": 0.0,
+      "learning_rate": 2.6403743315508026e-06,
+      "loss": 0.0,
       "mean_token_accuracy": 0.0,
+      "num_tokens": 296196.0,
       "step": 80
     },
     {
+      "epoch": 0.01805189921022941,
+      "grad_norm": 0.0,
+      "learning_rate": 2.9745989304812837e-06,
+      "loss": 0.0,
       "mean_token_accuracy": 0.0,
+      "num_tokens": 333651.0,
       "step": 90
     },
     {
+      "epoch": 0.020057665789143787,
+      "grad_norm": 0.0,
+      "learning_rate": 3.308823529411765e-06,
+      "loss": 0.0,
       "mean_token_accuracy": 0.0,
+      "num_tokens": 371196.0,
       "step": 100
     }
   ],
   "logging_steps": 10,
+  "max_steps": 14958,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 8310689070243840.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ded845851c4b5597a29e266e94059b4ee139b0a361d4b536a00f62e6b055230
 size 6225

 version https://git-lfs.github.com/spec/v1
+oid sha256:c671635e3fdfb7dbe9bdceef520a026df917c27ba861bca94f3b3be5f375546f
 size 6225