Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +264 -907
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -13,7 +13,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 8,
   "lora_bias": false,
   "lora_dropout": 0.1,
   "megatron_config": null,
@@ -26,11 +26,11 @@
   "revision": null,
   "target_modules": [
     "o_proj",
-    "down_proj",
-    "v_proj",
-    "k_proj",
     "up_proj",
     "q_proj",
     "gate_proj"
   ],
   "target_parameters": null,

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 16,
   "lora_bias": false,
   "lora_dropout": 0.1,
   "megatron_config": null,
   "revision": null,
   "target_modules": [
     "o_proj",
     "up_proj",
     "q_proj",
+    "down_proj",
+    "k_proj",
+    "v_proj",
     "gate_proj"
   ],
   "target_parameters": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7113572bd44d1b799b937244a2a917333bc610c5e13306503d99b2a5d605d2d
 size 645975704

 version https://git-lfs.github.com/spec/v1
+oid sha256:7910da3c4957e71800c849379173ba91d8f5e700436be19029cac09f62f6d4a8
 size 645975704

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:715b98a5d8bdd5b8483d08b0795b537485c9e1e9acc5147f00dd8f4fc6958299
 size 1292087499

 version https://git-lfs.github.com/spec/v1
+oid sha256:8dd8ce59e89a9efc32937df859f80518d82028400a830a9b29264b30c291ebd1
 size 1292087499

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38d7663d615e7d9fcd80d81534d2ffa88a4bd0246f4ca20f26a690fbfdce8036
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:5844d24e029460a14b821935a1464ceba31cf265535853016e1f6652d0694907
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42f5f246856bfc4b5fa9a61aafa2feee7015df871d22d57b538c34491b7e33b3
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:954c3b26f534b41d23b4604b2fd25ad07029756854b57c8ddfc09c8a621110f7
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,1126 +2,483 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.0,
   "eval_steps": 500,
-  "global_step": 2905,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.060350030175015085,
-      "grad_norm": 0.20090460777282715,
-      "learning_rate": 0.0001636363636363636,
-      "loss": 1.8921,
-      "mean_token_accuracy": 0.621737614274025,
-      "num_tokens": 155587.0,
       "step": 25
     },
     {
       "epoch": 0.12070006035003017,
-      "grad_norm": 0.17085565626621246,
-      "learning_rate": 0.00033409090909090905,
-      "loss": 0.9553,
-      "mean_token_accuracy": 0.7632233685255051,
-      "num_tokens": 282345.0,
       "step": 50
     },
     {
       "epoch": 0.18105009052504525,
-      "grad_norm": 0.15321753919124603,
-      "learning_rate": 0.0005045454545454546,
-      "loss": 0.653,
-      "mean_token_accuracy": 0.8232995158433914,
-      "num_tokens": 441398.0,
       "step": 75
     },
     {
       "epoch": 0.24140012070006034,
-      "grad_norm": 0.24833154678344727,
-      "learning_rate": 0.0005999774265866424,
-      "loss": 0.5573,
-      "mean_token_accuracy": 0.8464936971664428,
-      "num_tokens": 567353.0,
       "step": 100
     },
     {
       "epoch": 0.30175015087507545,
-      "grad_norm": 0.15748420357704163,
-      "learning_rate": 0.0005997582513956242,
-      "loss": 0.4065,
-      "mean_token_accuracy": 0.8838793677091599,
-      "num_tokens": 724260.0,
       "step": 125
     },
     {
       "epoch": 0.3621001810500905,
-      "grad_norm": 0.17303556203842163,
-      "learning_rate": 0.0005993060798733474,
-      "loss": 0.3538,
-      "mean_token_accuracy": 0.8992524355649948,
-      "num_tokens": 849790.0,
       "step": 150
     },
     {
       "epoch": 0.4224502112251056,
-      "grad_norm": 0.1528756469488144,
-      "learning_rate": 0.0005986212634840513,
-      "loss": 0.2586,
-      "mean_token_accuracy": 0.9249306803941727,
-      "num_tokens": 1006269.0,
       "step": 175
     },
     {
       "epoch": 0.4828002414001207,
-      "grad_norm": 0.16112498939037323,
-      "learning_rate": 0.0005977043345223621,
-      "loss": 0.2347,
-      "mean_token_accuracy": 0.9317040795087814,
-      "num_tokens": 1132441.0,
       "step": 200
     },
     {
       "epoch": 0.5431502715751357,
-      "grad_norm": 0.11938610672950745,
-      "learning_rate": 0.0005965560056995495,
-      "loss": 0.1813,
-      "mean_token_accuracy": 0.9481321328878403,
-      "num_tokens": 1290980.0,
       "step": 225
     },
     {
       "epoch": 0.6035003017501509,
-      "grad_norm": 0.17489156126976013,
-      "learning_rate": 0.0005951771695895515,
-      "loss": 0.1551,
-      "mean_token_accuracy": 0.9559709775447846,
-      "num_tokens": 1417621.0,
       "step": 250
     },
     {
       "epoch": 0.663850331925166,
-      "grad_norm": 0.12637701630592346,
-      "learning_rate": 0.0005935688979351926,
-      "loss": 0.1437,
-      "mean_token_accuracy": 0.9594241315126419,
-      "num_tokens": 1576677.0,
       "step": 275
     },
     {
       "epoch": 0.724200362100181,
-      "grad_norm": 0.16465479135513306,
-      "learning_rate": 0.0005917324408151391,
-      "loss": 0.1302,
-      "mean_token_accuracy": 0.9632405745983124,
-      "num_tokens": 1704788.0,
       "step": 300
     },
     {
       "epoch": 0.7845503922751962,
-      "grad_norm": 0.08237937092781067,
-      "learning_rate": 0.0005896692256722372,
-      "loss": 0.1191,
-      "mean_token_accuracy": 0.9669104343652726,
-      "num_tokens": 1862745.0,
       "step": 325
     },
     {
       "epoch": 0.8449004224502112,
-      "grad_norm": 0.20071323215961456,
-      "learning_rate": 0.0005873808562039883,
-      "loss": 0.0883,
-      "mean_token_accuracy": 0.9747090804576873,
-      "num_tokens": 1989934.0,
       "step": 350
     },
     {
       "epoch": 0.9052504526252263,
-      "grad_norm": 0.08867258578538895,
-      "learning_rate": 0.000584869111116027,
-      "loss": 0.1031,
-      "mean_token_accuracy": 0.9720449894666672,
-      "num_tokens": 2147872.0,
       "step": 375
     },
     {
       "epoch": 0.9656004828002414,
-      "grad_norm": 0.15626519918441772,
-      "learning_rate": 0.000582135942739566,
-      "loss": 0.0846,
-      "mean_token_accuracy": 0.9759581971168518,
-      "num_tokens": 2274914.0,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.0935852974653244,
-      "eval_mean_token_accuracy": 0.973474471955686,
       "eval_num_tokens": 2354180.0,
-      "eval_runtime": 15.7785,
-      "eval_samples_per_second": 23.386,
-      "eval_steps_per_second": 11.725,
       "step": 415
     },
     {
       "epoch": 1.024140012070006,
-      "grad_norm": 0.10558875650167465,
-      "learning_rate": 0.0005791834755138876,
-      "loss": 0.0891,
-      "mean_token_accuracy": 0.9749482642744005,
-      "num_tokens": 2422664.0,
       "step": 425
     },
     {
       "epoch": 1.0844900422450212,
-      "grad_norm": 0.0805174931883812,
-      "learning_rate": 0.0005760140043350575,
-      "loss": 0.0642,
-      "mean_token_accuracy": 0.9817380511760712,
-      "num_tokens": 2564993.0,
       "step": 450
     },
     {
       "epoch": 1.1448400724200363,
-      "grad_norm": 0.07888537645339966,
-      "learning_rate": 0.0005726299927721457,
-      "loss": 0.0801,
-      "mean_token_accuracy": 0.9775149941444397,
-      "num_tokens": 2706480.0,
       "step": 475
     },
     {
       "epoch": 1.2051901025950513,
-      "grad_norm": 0.08255880326032639,
-      "learning_rate": 0.0005690340711523424,
-      "loss": 0.0574,
-      "mean_token_accuracy": 0.9840424680709838,
-      "num_tokens": 2849915.0,
       "step": 500
     },
     {
       "epoch": 1.2655401327700664,
-      "grad_norm": 0.08410744369029999,
-      "learning_rate": 0.0005652290345164548,
-      "loss": 0.0843,
-      "mean_token_accuracy": 0.9765041953325272,
-      "num_tokens": 2991414.0,
       "step": 525
     },
     {
       "epoch": 1.3258901629450814,
-      "grad_norm": 0.08183339238166809,
-      "learning_rate": 0.0005612178404463753,
-      "loss": 0.0552,
-      "mean_token_accuracy": 0.9844763785600662,
-      "num_tokens": 3133623.0,
       "step": 550
     },
     {
       "epoch": 1.3862401931200965,
-      "grad_norm": 0.0897441878914833,
-      "learning_rate": 0.0005570036067662102,
-      "loss": 0.0664,
-      "mean_token_accuracy": 0.9818173968791961,
-      "num_tokens": 3275382.0,
       "step": 575
     },
     {
       "epoch": 1.4465902232951118,
-      "grad_norm": 0.08169595152139664,
-      "learning_rate": 0.0005525896091188552,
-      "loss": 0.0506,
-      "mean_token_accuracy": 0.9850967526435852,
-      "num_tokens": 3416201.0,
       "step": 600
     },
     {
       "epoch": 1.5069402534701268,
-      "grad_norm": 0.05605079606175423,
-      "learning_rate": 0.0005479792784199004,
-      "loss": 0.0775,
-      "mean_token_accuracy": 0.9789031559228897,
-      "num_tokens": 3559740.0,
       "step": 625
     },
     {
       "epoch": 1.567290283645142,
-      "grad_norm": 0.07204550504684448,
-      "learning_rate": 0.0005431761981908461,
-      "loss": 0.049,
-      "mean_token_accuracy": 0.9865607488155365,
-      "num_tokens": 3704393.0,
       "step": 650
     },
     {
       "epoch": 1.627640313820157,
-      "grad_norm": 0.05560595169663429,
-      "learning_rate": 0.0005381841017737,
-      "loss": 0.0626,
-      "mean_token_accuracy": 0.982689215540886,
-      "num_tokens": 3847664.0,
       "step": 675
     },
     {
       "epoch": 1.687990343995172,
-      "grad_norm": 0.05605713650584221,
-      "learning_rate": 0.0005330068694291224,
-      "loss": 0.0485,
-      "mean_token_accuracy": 0.9857253217697144,
-      "num_tokens": 3989914.0,
       "step": 700
     },
     {
       "epoch": 1.748340374170187,
-      "grad_norm": 0.053301677107810974,
-      "learning_rate": 0.000527648525320374,
-      "loss": 0.0561,
-      "mean_token_accuracy": 0.9841935896873474,
-      "num_tokens": 4130965.0,
       "step": 725
     },
     {
       "epoch": 1.8086904043452021,
-      "grad_norm": 0.058443792164325714,
-      "learning_rate": 0.0005221132343854112,
-      "loss": 0.0454,
-      "mean_token_accuracy": 0.9869389832019806,
-      "num_tokens": 4273126.0,
       "step": 750
     },
     {
       "epoch": 1.8690404345202172,
-      "grad_norm": 0.05557582527399063,
-      "learning_rate": 0.0005164052990995595,
-      "loss": 0.0586,
-      "mean_token_accuracy": 0.9833663034439087,
-      "num_tokens": 4413184.0,
       "step": 775
     },
     {
       "epoch": 1.9293904646952322,
-      "grad_norm": 0.06535590440034866,
-      "learning_rate": 0.0005105291561312827,
-      "loss": 0.0423,
-      "mean_token_accuracy": 0.9879541498422623,
-      "num_tokens": 4556318.0,
       "step": 800
     },
     {
       "epoch": 1.9897404948702473,
-      "grad_norm": 0.04030626267194748,
-      "learning_rate": 0.0005044893728936449,
-      "loss": 0.0492,
-      "mean_token_accuracy": 0.9859029227495193,
-      "num_tokens": 4688481.0,
       "step": 825
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.0574427954852581,
-      "eval_mean_token_accuracy": 0.9839089316290778,
       "eval_num_tokens": 4708360.0,
-      "eval_runtime": 15.7562,
-      "eval_samples_per_second": 23.419,
-      "eval_steps_per_second": 11.741,
       "step": 830
     },
     {
       "epoch": 2.048280024140012,
-      "grad_norm": 0.0485665388405323,
-      "learning_rate": 0.0004982906439941489,
-      "loss": 0.0505,
-      "mean_token_accuracy": 0.9851801610484565,
-      "num_tokens": 4837161.0,
       "step": 850
     },
     {
       "epoch": 2.1086300543150274,
-      "grad_norm": 0.05395647510886192,
-      "learning_rate": 0.0004919377875857071,
-      "loss": 0.0343,
-      "mean_token_accuracy": 0.9896635556221008,
-      "num_tokens": 4970144.0,
       "step": 875
     },
     {
       "epoch": 2.1689800844900424,
-      "grad_norm": 0.0749589204788208,
-      "learning_rate": 0.00048543574162158455,
-      "loss": 0.0537,
-      "mean_token_accuracy": 0.985042062997818,
-      "num_tokens": 5121673.0,
       "step": 900
     },
     {
       "epoch": 2.2293301146650575,
-      "grad_norm": 0.04066776856780052,
-      "learning_rate": 0.00047878956001722235,
-      "loss": 0.0353,
-      "mean_token_accuracy": 0.9900505661964416,
-      "num_tokens": 5254931.0,
       "step": 925
     },
     {
       "epoch": 2.2896801448400725,
-      "grad_norm": 0.045161083340644836,
-      "learning_rate": 0.00047200440872192636,
-      "loss": 0.0474,
-      "mean_token_accuracy": 0.9861310094594955,
-      "num_tokens": 5405358.0,
       "step": 950
     },
     {
       "epoch": 2.3500301750150876,
-      "grad_norm": 0.03835665062069893,
-      "learning_rate": 0.0004650855617034737,
-      "loss": 0.034,
-      "mean_token_accuracy": 0.9899905091524124,
-      "num_tokens": 5537530.0,
       "step": 975
     },
     {
       "epoch": 2.4103802051901027,
-      "grad_norm": 0.044723257422447205,
-      "learning_rate": 0.00045803839684875944,
-      "loss": 0.0431,
-      "mean_token_accuracy": 0.9870987349748611,
-      "num_tokens": 5689697.0,
       "step": 1000
     },
     {
       "epoch": 2.4707302353651177,
-      "grad_norm": 0.02631463296711445,
-      "learning_rate": 0.00045086839178366795,
-      "loss": 0.0316,
-      "mean_token_accuracy": 0.9909015417098999,
-      "num_tokens": 5822211.0,
       "step": 1025
     },
     {
       "epoch": 2.5310802655401328,
-      "grad_norm": 0.053898368030786514,
-      "learning_rate": 0.00044358111961541986,
-      "loss": 0.0449,
-      "mean_token_accuracy": 0.9868414753675461,
-      "num_tokens": 5974286.0,
       "step": 1050
     },
     {
       "epoch": 2.591430295715148,
-      "grad_norm": 0.050944212824106216,
-      "learning_rate": 0.0004361822446007026,
-      "loss": 0.0326,
-      "mean_token_accuracy": 0.9903159868717194,
-      "num_tokens": 6107693.0,
       "step": 1075
     },
     {
       "epoch": 2.651780325890163,
-      "grad_norm": 0.07088279724121094,
-      "learning_rate": 0.00042867751774295254,
-      "loss": 0.0474,
-      "mean_token_accuracy": 0.9863699376583099,
-      "num_tokens": 6258918.0,
       "step": 1100
     },
     {
       "epoch": 2.712130356065178,
-      "grad_norm": 0.045055486261844635,
-      "learning_rate": 0.0004210727723222105,
-      "loss": 0.0288,
-      "mean_token_accuracy": 0.9913076066970825,
-      "num_tokens": 6391301.0,
       "step": 1125
     },
     {
       "epoch": 2.772480386240193,
-      "grad_norm": 0.04561085253953934,
-      "learning_rate": 0.0004133739193610255,
-      "loss": 0.0492,
-      "mean_token_accuracy": 0.9852611935138702,
-      "num_tokens": 6544010.0,
       "step": 1150
     },
     {
       "epoch": 2.832830416415208,
-      "grad_norm": 0.04456303268671036,
-      "learning_rate": 0.00040558694302992963,
-      "loss": 0.0292,
-      "mean_token_accuracy": 0.9911560428142547,
-      "num_tokens": 6677793.0,
       "step": 1175
     },
     {
       "epoch": 2.8931804465902236,
-      "grad_norm": 0.034333277493715286,
-      "learning_rate": 0.00039771789599605845,
-      "loss": 0.0387,
-      "mean_token_accuracy": 0.988199480175972,
-      "num_tokens": 6826843.0,
       "step": 1200
     },
     {
       "epoch": 2.9535304767652386,
-      "grad_norm": 0.03919946029782295,
-      "learning_rate": 0.0003897728947185279,
-      "loss": 0.028,
-      "mean_token_accuracy": 0.9913868033885955,
-      "num_tokens": 6958293.0,
       "step": 1225
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.04582400992512703,
-      "eval_mean_token_accuracy": 0.9875572819967527,
       "eval_num_tokens": 7062540.0,
-      "eval_runtime": 15.7727,
-      "eval_samples_per_second": 23.395,
-      "eval_steps_per_second": 11.729,
       "step": 1245
-    },
-    {
-      "epoch": 3.012070006035003,
-      "grad_norm": 0.04459620267152786,
-      "learning_rate": 0.00038175811469422905,
-      "loss": 0.04,
-      "mean_token_accuracy": 0.9881644027749288,
-      "num_tokens": 7099773.0,
-      "step": 1250
-    },
-    {
-      "epoch": 3.0724200362100182,
-      "grad_norm": 0.025668803602457047,
-      "learning_rate": 0.00037367978565773226,
-      "loss": 0.027,
-      "mean_token_accuracy": 0.9916459822654724,
-      "num_tokens": 7247178.0,
-      "step": 1275
-    },
-    {
-      "epoch": 3.1327700663850333,
-      "grad_norm": 0.048161111772060394,
-      "learning_rate": 0.0003655441867390346,
-      "loss": 0.0296,
-      "mean_token_accuracy": 0.990880873799324,
-      "num_tokens": 7383662.0,
-      "step": 1300
-    },
-    {
-      "epoch": 3.1931200965600484,
-      "grad_norm": 0.04576310142874718,
-      "learning_rate": 0.00035735764158291254,
-      "loss": 0.0296,
-      "mean_token_accuracy": 0.9907885307073593,
-      "num_tokens": 7533651.0,
-      "step": 1325
-    },
-    {
-      "epoch": 3.2534701267350634,
-      "grad_norm": 0.04082406684756279,
-      "learning_rate": 0.0003491265134336745,
-      "loss": 0.0327,
-      "mean_token_accuracy": 0.9898776888847352,
-      "num_tokens": 7671505.0,
-      "step": 1350
-    },
-    {
-      "epoch": 3.3138201569100785,
-      "grad_norm": 0.04111408442258835,
-      "learning_rate": 0.00034085720018913276,
-      "loss": 0.0264,
-      "mean_token_accuracy": 0.9915948182344436,
-      "num_tokens": 7819430.0,
-      "step": 1375
-    },
-    {
-      "epoch": 3.3741701870850935,
-      "grad_norm": 0.05790106952190399,
-      "learning_rate": 0.0003325561294276413,
-      "loss": 0.0286,
-      "mean_token_accuracy": 0.9912853974103928,
-      "num_tokens": 7954433.0,
-      "step": 1400
-    },
-    {
-      "epoch": 3.4345202172601086,
-      "grad_norm": 0.027405843138694763,
-      "learning_rate": 0.00032422975341206157,
-      "loss": 0.0281,
-      "mean_token_accuracy": 0.991134095788002,
-      "num_tokens": 8102229.0,
-      "step": 1425
-    },
-    {
-      "epoch": 3.4948702474351236,
-      "grad_norm": 0.043464187532663345,
-      "learning_rate": 0.000315884544074543,
-      "loss": 0.0292,
-      "mean_token_accuracy": 0.9907919150590897,
-      "num_tokens": 8237057.0,
-      "step": 1450
-    },
-    {
-      "epoch": 3.5552202776101387,
-      "grad_norm": 0.04483381658792496,
-      "learning_rate": 0.0003075269879860149,
-      "loss": 0.0255,
-      "mean_token_accuracy": 0.9919383651018143,
-      "num_tokens": 8385229.0,
-      "step": 1475
-    },
-    {
-      "epoch": 3.6155703077851538,
-      "grad_norm": 0.03719889372587204,
-      "learning_rate": 0.0002991635813142984,
-      "loss": 0.0305,
-      "mean_token_accuracy": 0.9901222789287567,
-      "num_tokens": 8521392.0,
-      "step": 1500
-    },
-    {
-      "epoch": 3.675920337960169,
-      "grad_norm": 0.026905681937932968,
-      "learning_rate": 0.0002908008247747611,
-      "loss": 0.025,
-      "mean_token_accuracy": 0.9921067571640014,
-      "num_tokens": 8669874.0,
-      "step": 1525
-    },
-    {
-      "epoch": 3.736270368135184,
-      "grad_norm": 0.05321066826581955,
-      "learning_rate": 0.00028244521857743467,
-      "loss": 0.0309,
-      "mean_token_accuracy": 0.9903623193502427,
-      "num_tokens": 8804899.0,
-      "step": 1550
-    },
-    {
-      "epoch": 3.796620398310199,
-      "grad_norm": 0.02997380495071411,
-      "learning_rate": 0.00027410325737452793,
-      "loss": 0.0247,
-      "mean_token_accuracy": 0.9921429508924484,
-      "num_tokens": 8952948.0,
-      "step": 1575
-    },
-    {
-      "epoch": 3.856970428485214,
-      "grad_norm": 0.042058832943439484,
-      "learning_rate": 0.0002657814252122571,
-      "loss": 0.0276,
-      "mean_token_accuracy": 0.9911820942163467,
-      "num_tokens": 9088804.0,
-      "step": 1600
-    },
-    {
-      "epoch": 3.9173204586602295,
-      "grad_norm": 0.028029246255755424,
-      "learning_rate": 0.00025748619049092167,
-      "loss": 0.0246,
-      "mean_token_accuracy": 0.9920519244670868,
-      "num_tokens": 9237788.0,
-      "step": 1625
-    },
-    {
-      "epoch": 3.9776704888352445,
-      "grad_norm": 0.02371133305132389,
-      "learning_rate": 0.0002492240009371417,
-      "loss": 0.0245,
-      "mean_token_accuracy": 0.9923285436630249,
-      "num_tokens": 9369559.0,
-      "step": 1650
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 0.041972678154706955,
-      "eval_mean_token_accuracy": 0.989047556632274,
-      "eval_num_tokens": 9416720.0,
-      "eval_runtime": 15.7616,
-      "eval_samples_per_second": 23.411,
-      "eval_steps_per_second": 11.737,
-      "step": 1660
-    },
-    {
-      "epoch": 4.036210018105009,
-      "grad_norm": 0.027629472315311432,
-      "learning_rate": 0.00024100127859216246,
-      "loss": 0.0242,
-      "mean_token_accuracy": 0.9923697267611002,
-      "num_tokens": 9517456.0,
-      "step": 1675
-    },
-    {
-      "epoch": 4.096560048280024,
-      "grad_norm": 0.018458090722560883,
-      "learning_rate": 0.0002328244148201266,
-      "loss": 0.0198,
-      "mean_token_accuracy": 0.9934357500076294,
-      "num_tokens": 9655983.0,
-      "step": 1700
-    },
-    {
-      "epoch": 4.15691007845504,
-      "grad_norm": 0.025151990354061127,
-      "learning_rate": 0.0002246997653401883,
-      "loss": 0.0252,
-      "mean_token_accuracy": 0.9922802877426148,
-      "num_tokens": 9802927.0,
-      "step": 1725
-    },
-    {
-      "epoch": 4.217260108630055,
-      "grad_norm": 0.02359866164624691,
-      "learning_rate": 0.00021663364528633574,
-      "loss": 0.0192,
-      "mean_token_accuracy": 0.9935739403963089,
-      "num_tokens": 9939784.0,
-      "step": 1750
-    },
-    {
-      "epoch": 4.27761013880507,
-      "grad_norm": 0.029893064871430397,
-      "learning_rate": 0.00020863232429875822,
-      "loss": 0.0219,
-      "mean_token_accuracy": 0.9929185563325882,
-      "num_tokens": 10085314.0,
-      "step": 1775
-    },
-    {
-      "epoch": 4.337960168980085,
-      "grad_norm": 0.01731249690055847,
-      "learning_rate": 0.00020070202165057554,
-      "loss": 0.0191,
-      "mean_token_accuracy": 0.9936865222454071,
-      "num_tokens": 10223073.0,
-      "step": 1800
-    },
-    {
-      "epoch": 4.3983101991551,
-      "grad_norm": 0.01831655018031597,
-      "learning_rate": 0.00019284890141371618,
-      "loss": 0.0228,
-      "mean_token_accuracy": 0.992409136891365,
-      "num_tokens": 10368536.0,
-      "step": 1825
-    },
-    {
-      "epoch": 4.458660229330115,
-      "grad_norm": 0.018383309245109558,
-      "learning_rate": 0.00018507906766770314,
-      "loss": 0.0186,
-      "mean_token_accuracy": 0.99377023935318,
-      "num_tokens": 10507164.0,
-      "step": 1850
-    },
-    {
-      "epoch": 4.51901025950513,
-      "grad_norm": 0.022526893764734268,
-      "learning_rate": 0.00017739855975506917,
-      "loss": 0.024,
-      "mean_token_accuracy": 0.9923234033584595,
-      "num_tokens": 10653645.0,
-      "step": 1875
-    },
-    {
-      "epoch": 4.579360289680145,
-      "grad_norm": 0.01562182791531086,
-      "learning_rate": 0.00016981334758709322,
-      "loss": 0.0187,
-      "mean_token_accuracy": 0.9941441065073013,
-      "num_tokens": 10791134.0,
-      "step": 1900
-    },
-    {
-      "epoch": 4.63971031985516,
-      "grad_norm": 0.02683549001812935,
-      "learning_rate": 0.00016232932700350157,
-      "loss": 0.0214,
-      "mean_token_accuracy": 0.9926981467008591,
-      "num_tokens": 10938557.0,
-      "step": 1925
-    },
-    {
-      "epoch": 4.700060350030175,
-      "grad_norm": 0.03423510119318962,
-      "learning_rate": 0.00015495231518974608,
-      "loss": 0.0193,
-      "mean_token_accuracy": 0.9936627286672592,
-      "num_tokens": 11076634.0,
-      "step": 1950
-    },
-    {
-      "epoch": 4.76041038020519,
-      "grad_norm": 0.029518209397792816,
-      "learning_rate": 0.000147688046155417,
-      "loss": 0.0226,
-      "mean_token_accuracy": 0.9926369667053223,
-      "num_tokens": 11224638.0,
-      "step": 1975
-    },
-    {
-      "epoch": 4.820760410380205,
-      "grad_norm": 0.021354857832193375,
-      "learning_rate": 0.00014054216627730755,
-      "loss": 0.0188,
-      "mean_token_accuracy": 0.9936299502849579,
-      "num_tokens": 11362368.0,
-      "step": 2000
-    },
-    {
-      "epoch": 4.88111044055522,
-      "grad_norm": 0.033567801117897034,
-      "learning_rate": 0.00013352022991059375,
-      "loss": 0.0236,
-      "mean_token_accuracy": 0.9924637532234192,
-      "num_tokens": 11509364.0,
-      "step": 2025
-    },
-    {
-      "epoch": 4.941460470730235,
-      "grad_norm": 0.02483433112502098,
-      "learning_rate": 0.00012662769507154113,
-      "loss": 0.0183,
-      "mean_token_accuracy": 0.9939434814453125,
-      "num_tokens": 11645477.0,
-      "step": 2050
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 0.04451137036085129,
-      "learning_rate": 0.00011986991919509261,
-      "loss": 0.0203,
-      "mean_token_accuracy": 0.9933847133646306,
-      "num_tokens": 11770900.0,
-      "step": 2075
-    },
-    {
-      "epoch": 5.0,
-      "eval_loss": 0.04097144305706024,
-      "eval_mean_token_accuracy": 0.9897108348640236,
-      "eval_num_tokens": 11770900.0,
-      "eval_runtime": 15.7693,
-      "eval_samples_per_second": 23.4,
-      "eval_steps_per_second": 11.732,
-      "step": 2075
-    },
-    {
-      "epoch": 5.060350030175015,
-      "grad_norm": 0.01309128850698471,
-      "learning_rate": 0.00011325215497063858,
-      "loss": 0.0169,
-      "mean_token_accuracy": 0.9943383944034576,
-      "num_tokens": 11929319.0,
-      "step": 2100
-    },
-    {
-      "epoch": 5.12070006035003,
-      "grad_norm": 0.018124833703041077,
-      "learning_rate": 0.00010677954625920108,
-      "loss": 0.0165,
-      "mean_token_accuracy": 0.994610543847084,
-      "num_tokens": 12054482.0,
-      "step": 2125
-    },
-    {
-      "epoch": 5.181050090525045,
-      "grad_norm": 0.014541085809469223,
-      "learning_rate": 0.00010045712409521008,
-      "loss": 0.017,
-      "mean_token_accuracy": 0.9943281805515289,
-      "num_tokens": 12211531.0,
-      "step": 2150
-    },
-    {
-      "epoch": 5.24140012070006,
-      "grad_norm": 0.024412041530013084,
-      "learning_rate": 9.428980277597675e-05,
-      "loss": 0.0164,
-      "mean_token_accuracy": 0.9944160294532776,
-      "num_tokens": 12338886.0,
-      "step": 2175
-    },
-    {
-      "epoch": 5.301750150875075,
-      "grad_norm": 0.01901293359696865,
-      "learning_rate": 8.828237604190513e-05,
-      "loss": 0.0175,
-      "mean_token_accuracy": 0.9941371762752533,
-      "num_tokens": 12495549.0,
-      "step": 2200
-    },
-    {
-      "epoch": 5.36210018105009,
-      "grad_norm": 0.017199428752064705,
-      "learning_rate": 8.243951335040891e-05,
-      "loss": 0.0166,
-      "mean_token_accuracy": 0.9944494879245758,
-      "num_tokens": 12622459.0,
-      "step": 2225
-    },
-    {
-      "epoch": 5.422450211225105,
-      "grad_norm": 0.03323078528046608,
-      "learning_rate": 7.67657562464325e-05,
-      "loss": 0.0174,
-      "mean_token_accuracy": 0.9939983171224595,
-      "num_tokens": 12780223.0,
-      "step": 2250
-    },
-    {
-      "epoch": 5.4828002414001205,
-      "grad_norm": 0.02575470507144928,
-      "learning_rate": 7.126551483239509e-05,
-      "loss": 0.0165,
-      "mean_token_accuracy": 0.9944772917032242,
-      "num_tokens": 12907099.0,
-      "step": 2275
-    },
-    {
-      "epoch": 5.5431502715751355,
-      "grad_norm": 0.01993207074701786,
-      "learning_rate": 6.59430643403031e-05,
-      "loss": 0.0172,
-      "mean_token_accuracy": 0.9943294197320938,
-      "num_tokens": 13065287.0,
-      "step": 2300
-    },
-    {
-      "epoch": 5.603500301750151,
-      "grad_norm": 0.021883873268961906,
-      "learning_rate": 6.0802541808693984e-05,
-      "loss": 0.0167,
-      "mean_token_accuracy": 0.9944075202941894,
-      "num_tokens": 13191570.0,
-      "step": 2325
-    },
-    {
-      "epoch": 5.663850331925166,
-      "grad_norm": 0.02263251692056656,
-      "learning_rate": 5.584794286699583e-05,
-      "loss": 0.017,
-      "mean_token_accuracy": 0.9944959133863449,
-      "num_tokens": 13348858.0,
-      "step": 2350
-    },
-    {
-      "epoch": 5.724200362100181,
-      "grad_norm": 0.01838994212448597,
-      "learning_rate": 5.10831186298017e-05,
-      "loss": 0.0165,
-      "mean_token_accuracy": 0.994613738656044,
-      "num_tokens": 13475838.0,
-      "step": 2375
-    },
-    {
-      "epoch": 5.784550392275197,
-      "grad_norm": 0.015676449984312057,
-      "learning_rate": 4.6511772703471414e-05,
-      "loss": 0.0169,
-      "mean_token_accuracy": 0.9943792551755906,
-      "num_tokens": 13634866.0,
-      "step": 2400
-    },
-    {
-      "epoch": 5.844900422450211,
-      "grad_norm": 0.024185990914702415,
-      "learning_rate": 4.2137458307390404e-05,
-      "loss": 0.0166,
-      "mean_token_accuracy": 0.9944125992059708,
-      "num_tokens": 13761458.0,
-      "step": 2425
-    },
-    {
-      "epoch": 5.905250452625227,
-      "grad_norm": 0.017580190673470497,
-      "learning_rate": 3.796357551211986e-05,
-      "loss": 0.0163,
-      "mean_token_accuracy": 0.9945475596189499,
-      "num_tokens": 13918561.0,
-      "step": 2450
-    },
-    {
-      "epoch": 5.965600482800241,
-      "grad_norm": 0.018194038420915604,
-      "learning_rate": 3.399336859658742e-05,
-      "loss": 0.016,
-      "mean_token_accuracy": 0.9947626197338104,
-      "num_tokens": 14046227.0,
-      "step": 2475
-    },
-    {
-      "epoch": 6.0,
-      "eval_loss": 0.04244406521320343,
-      "eval_mean_token_accuracy": 0.9900913918340528,
-      "eval_num_tokens": 14125080.0,
-      "eval_runtime": 15.774,
-      "eval_samples_per_second": 23.393,
-      "eval_steps_per_second": 11.728,
-      "step": 2490
-    },
-    {
-      "epoch": 6.024140012070006,
-      "grad_norm": 0.019757593050599098,
-      "learning_rate": 3.0229923526371535e-05,
-      "loss": 0.0165,
-      "mean_token_accuracy": 0.9946722658639101,
-      "num_tokens": 14194026.0,
-      "step": 2500
-    },
-    {
-      "epoch": 6.084490042245021,
-      "grad_norm": 0.015921050682663918,
-      "learning_rate": 2.667616555503964e-05,
-      "loss": 0.0139,
-      "mean_token_accuracy": 0.9953104478120803,
-      "num_tokens": 14337164.0,
-      "step": 2525
-    },
-    {
-      "epoch": 6.1448400724200365,
-      "grad_norm": 0.01795029267668724,
-      "learning_rate": 2.333485695040469e-05,
-      "loss": 0.0153,
-      "mean_token_accuracy": 0.9950164467096329,
-      "num_tokens": 14478393.0,
-      "step": 2550
-    },
-    {
-      "epoch": 6.2051901025950515,
-      "grad_norm": 0.01615080237388611,
-      "learning_rate": 2.0208594847467508e-05,
-      "loss": 0.0142,
-      "mean_token_accuracy": 0.9951647013425827,
-      "num_tokens": 14620740.0,
-      "step": 2575
-    },
-    {
-      "epoch": 6.265540132770067,
-      "grad_norm": 0.02364126406610012,
-      "learning_rate": 1.729980922971349e-05,
-      "loss": 0.0154,
-      "mean_token_accuracy": 0.9948040336370468,
-      "num_tokens": 14762878.0,
-      "step": 2600
-    },
-    {
-      "epoch": 6.325890162945082,
-      "grad_norm": 0.018266433849930763,
-      "learning_rate": 1.4610761040333573e-05,
-      "loss": 0.0142,
-      "mean_token_accuracy": 0.9954759681224823,
-      "num_tokens": 14905328.0,
-      "step": 2625
-    },
-    {
-      "epoch": 6.386240193120097,
-      "grad_norm": 0.022892849519848824,
-      "learning_rate": 1.214354042483573e-05,
-      "loss": 0.0148,
-      "mean_token_accuracy": 0.9951095223426819,
-      "num_tokens": 15047420.0,
-      "step": 2650
-    },
-    {
-      "epoch": 6.446590223295112,
-      "grad_norm": 0.013281609863042831,
-      "learning_rate": 9.900065106415866e-06,
-      "loss": 0.0139,
-      "mean_token_accuracy": 0.9951714134216308,
-      "num_tokens": 15191784.0,
-      "step": 2675
-    },
-    {
-      "epoch": 6.506940253470127,
-      "grad_norm": 0.015181739814579487,
-      "learning_rate": 7.882078895347798e-06,
-      "loss": 0.016,
-      "mean_token_accuracy": 0.9947543793916702,
-      "num_tokens": 15336195.0,
-      "step": 2700
-    },
-    {
-      "epoch": 6.567290283645142,
-      "grad_norm": 0.013374337926506996,
-      "learning_rate": 6.091150333553274e-06,
-      "loss": 0.0136,
-      "mean_token_accuracy": 0.995315499305725,
-      "num_tokens": 15480763.0,
-      "step": 2725
-    },
-    {
-      "epoch": 6.627640313820157,
-      "grad_norm": 0.014570921659469604,
-      "learning_rate": 4.528671475404433e-06,
-      "loss": 0.0152,
-      "mean_token_accuracy": 0.9951956886053085,
-      "num_tokens": 15623624.0,
-      "step": 2750
-    },
-    {
-      "epoch": 6.687990343995172,
-      "grad_norm": 0.0181302297860384,
-      "learning_rate": 3.1958568057067313e-06,
-      "loss": 0.0142,
-      "mean_token_accuracy": 0.9953425723314285,
-      "num_tokens": 15765653.0,
-      "step": 2775
-    },
-    {
-      "epoch": 6.748340374170187,
-      "grad_norm": 0.017040640115737915,
-      "learning_rate": 2.093742295703127e-06,
-      "loss": 0.0148,
-      "mean_token_accuracy": 0.9950855672359467,
-      "num_tokens": 15905979.0,
-      "step": 2800
-    },
-    {
-      "epoch": 6.808690404345202,
-      "grad_norm": 0.016313739120960236,
-      "learning_rate": 1.2231845978335708e-06,
-      "loss": 0.0141,
-      "mean_token_accuracy": 0.9952906262874603,
-      "num_tokens": 16047220.0,
-      "step": 2825
-    },
-    {
-      "epoch": 6.869040434520217,
-      "grad_norm": 0.0156137989833951,
-      "learning_rate": 5.848603798755402e-07,
-      "loss": 0.0152,
-      "mean_token_accuracy": 0.9951014250516892,
-      "num_tokens": 16187543.0,
-      "step": 2850
-    },
-    {
-      "epoch": 6.929390464695232,
-      "grad_norm": 0.01440385077148676,
-      "learning_rate": 1.7926579898319693e-07,
-      "loss": 0.014,
-      "mean_token_accuracy": 0.9952051192522049,
-      "num_tokens": 16328399.0,
-      "step": 2875
-    },
-    {
-      "epoch": 6.989740494870247,
-      "grad_norm": 0.014613240025937557,
-      "learning_rate": 6.716116033844699e-09,
-      "loss": 0.0148,
-      "mean_token_accuracy": 0.9950145679712296,
-      "num_tokens": 16459625.0,
-      "step": 2900
-    },
-    {
-      "epoch": 7.0,
-      "eval_loss": 0.04441880062222481,
-      "eval_mean_token_accuracy": 0.990020250307547,
-      "eval_num_tokens": 16479260.0,
-      "eval_runtime": 15.7702,
-      "eval_samples_per_second": 23.398,
-      "eval_steps_per_second": 11.731,
-      "step": 2905
     }
   ],
   "logging_steps": 25,
@@ -1136,12 +493,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 7.159071108309658e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 1245,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.060350030175015085,
+      "grad_norm": 0.3043883144855499,
+      "learning_rate": 0.00010909090909090909,
+      "loss": 1.8586,
+      "mean_token_accuracy": 0.6245462906360626,
+      "num_tokens": 157786.0,
       "step": 25
     },
     {
       "epoch": 0.12070006035003017,
+      "grad_norm": 0.24695894122123718,
+      "learning_rate": 0.00022272727272727272,
+      "loss": 0.9383,
+      "mean_token_accuracy": 0.7651280963420868,
+      "num_tokens": 283437.0,
       "step": 50
     },
     {
       "epoch": 0.18105009052504525,
+      "grad_norm": 0.19023272395133972,
+      "learning_rate": 0.0003363636363636364,
+      "loss": 0.649,
+      "mean_token_accuracy": 0.8234076803922653,
+      "num_tokens": 442299.0,
       "step": 75
     },
     {
       "epoch": 0.24140012070006034,
+      "grad_norm": 0.22401368618011475,
+      "learning_rate": 0.0003999849510577617,
+      "loss": 0.5125,
+      "mean_token_accuracy": 0.8562434083223343,
+      "num_tokens": 569621.0,
       "step": 100
     },
     {
       "epoch": 0.30175015087507545,
+      "grad_norm": 0.23774276673793793,
+      "learning_rate": 0.0003998388342637495,
+      "loss": 0.3972,
+      "mean_token_accuracy": 0.8866757136583329,
+      "num_tokens": 725959.0,
       "step": 125
     },
     {
       "epoch": 0.3621001810500905,
+      "grad_norm": 0.3460250496864319,
+      "learning_rate": 0.00039953738658223166,
+      "loss": 0.3554,
+      "mean_token_accuracy": 0.9000710541009903,
+      "num_tokens": 851583.0,
       "step": 150
     },
     {
       "epoch": 0.4224502112251056,
+      "grad_norm": 0.2395441234111786,
+      "learning_rate": 0.00039908084232270096,
+      "loss": 0.2503,
+      "mean_token_accuracy": 0.9276190227270127,
+      "num_tokens": 1010006.0,
       "step": 175
     },
     {
       "epoch": 0.4828002414001207,
+      "grad_norm": 0.28712666034698486,
+      "learning_rate": 0.00039846955634824144,
+      "loss": 0.2602,
+      "mean_token_accuracy": 0.9267517280578613,
+      "num_tokens": 1137732.0,
       "step": 200
     },
     {
       "epoch": 0.5431502715751357,
+      "grad_norm": 0.17056156694889069,
+      "learning_rate": 0.00039770400379969973,
+      "loss": 0.1851,
+      "mean_token_accuracy": 0.9475770330429077,
+      "num_tokens": 1294237.0,
       "step": 225
     },
     {
       "epoch": 0.6035003017501509,
+      "grad_norm": 0.21380072832107544,
+      "learning_rate": 0.00039678477972636774,
+      "loss": 0.1622,
+      "mean_token_accuracy": 0.9546336072683335,
+      "num_tokens": 1419338.0,
       "step": 250
     },
     {
       "epoch": 0.663850331925166,
+      "grad_norm": 0.20465914905071259,
+      "learning_rate": 0.00039571259862346183,
+      "loss": 0.1329,
+      "mean_token_accuracy": 0.961662837266922,
+      "num_tokens": 1576946.0,
       "step": 275
     },
     {
       "epoch": 0.724200362100181,
+      "grad_norm": 0.2113582342863083,
+      "learning_rate": 0.00039448829387675954,
+      "loss": 0.1287,
+      "mean_token_accuracy": 0.9641147536039353,
+      "num_tokens": 1703683.0,
       "step": 300
     },
     {
       "epoch": 0.7845503922751962,
+      "grad_norm": 0.15074850618839264,
+      "learning_rate": 0.0003931128171148249,
+      "loss": 0.1232,
+      "mean_token_accuracy": 0.9665374368429184,
+      "num_tokens": 1860622.0,
       "step": 325
     },
     {
       "epoch": 0.8449004224502112,
+      "grad_norm": 0.4272288978099823,
+      "learning_rate": 0.00039158723746932566,
+      "loss": 0.0974,
+      "mean_token_accuracy": 0.9736644911766053,
+      "num_tokens": 1987884.0,
       "step": 350
     },
     {
       "epoch": 0.9052504526252263,
+      "grad_norm": 0.13680922985076904,
+      "learning_rate": 0.00038991274074401806,
+      "loss": 0.1007,
+      "mean_token_accuracy": 0.9723848593235016,
+      "num_tokens": 2145729.0,
       "step": 375
     },
     {
       "epoch": 0.9656004828002414,
+      "grad_norm": 0.15923215448856354,
+      "learning_rate": 0.00038809062849304407,
+      "loss": 0.0747,
+      "mean_token_accuracy": 0.9784966939687729,
+      "num_tokens": 2273076.0,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.09010029584169388,
+      "eval_mean_token_accuracy": 0.9750096942927386,
       "eval_num_tokens": 2354180.0,
+      "eval_runtime": 15.8229,
+      "eval_samples_per_second": 23.321,
+      "eval_steps_per_second": 11.692,
       "step": 415
     },
     {
       "epoch": 1.024140012070006,
+      "grad_norm": 0.12324528396129608,
+      "learning_rate": 0.0003861223170092585,
+      "loss": 0.0923,
+      "mean_token_accuracy": 0.9740137457847595,
+      "num_tokens": 2422803.0,
       "step": 425
     },
     {
       "epoch": 1.0844900422450212,
+      "grad_norm": 0.21983321011066437,
+      "learning_rate": 0.00038400933622337167,
+      "loss": 0.0619,
+      "mean_token_accuracy": 0.9822656351327896,
+      "num_tokens": 2563793.0,
       "step": 450
     },
     {
       "epoch": 1.1448400724200363,
+      "grad_norm": 0.11064327508211136,
+      "learning_rate": 0.00038175332851476387,
+      "loss": 0.075,
+      "mean_token_accuracy": 0.9794844657182693,
+      "num_tokens": 2706197.0,
       "step": 475
     },
     {
       "epoch": 1.2051901025950513,
+      "grad_norm": 0.1068505346775055,
+      "learning_rate": 0.00037935604743489506,
+      "loss": 0.0544,
+      "mean_token_accuracy": 0.9840904027223587,
+      "num_tokens": 2850268.0,
       "step": 500
     },
     {
       "epoch": 1.2655401327700664,
+      "grad_norm": 0.15822124481201172,
+      "learning_rate": 0.00037681935634430327,
+      "loss": 0.078,
+      "mean_token_accuracy": 0.9782475352287292,
+      "num_tokens": 2992275.0,
       "step": 525
     },
     {
       "epoch": 1.3258901629450814,
+      "grad_norm": 0.10555300116539001,
+      "learning_rate": 0.0003741452269642502,
+      "loss": 0.0542,
+      "mean_token_accuracy": 0.9846927672624588,
+      "num_tokens": 3135599.0,
       "step": 550
     },
     {
       "epoch": 1.3862401931200965,
+      "grad_norm": 0.07533632218837738,
+      "learning_rate": 0.0003713357378441402,
+      "loss": 0.0641,
+      "mean_token_accuracy": 0.9822721928358078,
+      "num_tokens": 3278124.0,
       "step": 575
     },
     {
       "epoch": 1.4465902232951118,
+      "grad_norm": 0.1403859406709671,
+      "learning_rate": 0.00036839307274590355,
+      "loss": 0.0491,
+      "mean_token_accuracy": 0.985781243443489,
+      "num_tokens": 3421679.0,
       "step": 600
     },
     {
       "epoch": 1.5069402534701268,
+      "grad_norm": 0.10379917174577713,
+      "learning_rate": 0.00036531951894660034,
+      "loss": 0.069,
+      "mean_token_accuracy": 0.9809466338157654,
+      "num_tokens": 3564486.0,
       "step": 625
     },
     {
       "epoch": 1.567290283645142,
+      "grad_norm": 0.09850325435400009,
+      "learning_rate": 0.00036211746546056415,
+      "loss": 0.0516,
+      "mean_token_accuracy": 0.9853906160593033,
+      "num_tokens": 3707529.0,
       "step": 650
     },
     {
       "epoch": 1.627640313820157,
+      "grad_norm": 0.11964337527751923,
+      "learning_rate": 0.00035878940118246673,
+      "loss": 0.0596,
+      "mean_token_accuracy": 0.9836755973100663,
+      "num_tokens": 3848570.0,
       "step": 675
     },
     {
       "epoch": 1.687990343995172,
+      "grad_norm": 0.05955597385764122,
+      "learning_rate": 0.00035533791295274834,
+      "loss": 0.0428,
+      "mean_token_accuracy": 0.9875983273983002,
+      "num_tokens": 3990912.0,
       "step": 700
     },
     {
       "epoch": 1.748340374170187,
+      "grad_norm": 0.07114022970199585,
+      "learning_rate": 0.0003517656835469161,
+      "loss": 0.0627,
+      "mean_token_accuracy": 0.9830698877573013,
+      "num_tokens": 4131622.0,
       "step": 725
     },
     {
       "epoch": 1.8086904043452021,
+      "grad_norm": 0.09389431029558182,
+      "learning_rate": 0.0003480754895902742,
+      "loss": 0.0459,
+      "mean_token_accuracy": 0.9864954763650894,
+      "num_tokens": 4273640.0,
       "step": 750
     },
     {
       "epoch": 1.8690404345202172,
+      "grad_norm": 0.06497396528720856,
+      "learning_rate": 0.0003442701993997064,
+      "loss": 0.0577,
+      "mean_token_accuracy": 0.9838357955217362,
+      "num_tokens": 4414471.0,
       "step": 775
     },
     {
       "epoch": 1.9293904646952322,
+      "grad_norm": 0.11333642154932022,
+      "learning_rate": 0.00034035277075418854,
+      "loss": 0.0431,
+      "mean_token_accuracy": 0.9871519947052002,
+      "num_tokens": 4555376.0,
       "step": 800
     },
     {
       "epoch": 1.9897404948702473,
+      "grad_norm": 0.05740824714303017,
+      "learning_rate": 0.0003363262485957633,
+      "loss": 0.0418,
+      "mean_token_accuracy": 0.9883395010232925,
+      "num_tokens": 4688406.0,
       "step": 825
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.053012676537036896,
+      "eval_mean_token_accuracy": 0.9854460068651147,
       "eval_num_tokens": 4708360.0,
+      "eval_runtime": 15.7874,
+      "eval_samples_per_second": 23.373,
+      "eval_steps_per_second": 11.718,
       "step": 830
     },
     {
       "epoch": 2.048280024140012,
+      "grad_norm": 0.09828540682792664,
+      "learning_rate": 0.00033219376266276594,
+      "loss": 0.0495,
+      "mean_token_accuracy": 0.9852321922164602,
+      "num_tokens": 4836946.0,
       "step": 850
     },
     {
       "epoch": 2.1086300543150274,
+      "grad_norm": 0.10078238695859909,
+      "learning_rate": 0.00032795852505713806,
+      "loss": 0.0313,
+      "mean_token_accuracy": 0.9908820760250091,
+      "num_tokens": 4968203.0,
       "step": 875
     },
     {
       "epoch": 2.1689800844900424,
+      "grad_norm": 0.07217393070459366,
+      "learning_rate": 0.0003236238277477231,
+      "loss": 0.0471,
+      "mean_token_accuracy": 0.985995357632637,
+      "num_tokens": 5118541.0,
       "step": 900
     },
     {
       "epoch": 2.2293301146650575,
+      "grad_norm": 0.09504982829093933,
+      "learning_rate": 0.0003191930400114816,
+      "loss": 0.0322,
+      "mean_token_accuracy": 0.9904332131147384,
+      "num_tokens": 5251007.0,
       "step": 925
     },
     {
       "epoch": 2.2896801448400725,
+      "grad_norm": 0.04393278807401657,
+      "learning_rate": 0.0003146696058146176,
+      "loss": 0.0481,
+      "mean_token_accuracy": 0.9860882490873337,
+      "num_tokens": 5403517.0,
       "step": 950
     },
     {
       "epoch": 2.3500301750150876,
+      "grad_norm": 0.12678726017475128,
+      "learning_rate": 0.00031005704113564917,
+      "loss": 0.0349,
+      "mean_token_accuracy": 0.9900296354293823,
+      "num_tokens": 5536492.0,
       "step": 975
     },
     {
       "epoch": 2.4103802051901027,
+      "grad_norm": 0.06465219706296921,
+      "learning_rate": 0.00030535893123250635,
+      "loss": 0.0484,
+      "mean_token_accuracy": 0.9857117992639541,
+      "num_tokens": 5688657.0,
       "step": 1000
     },
     {
       "epoch": 2.4707302353651177,
+      "grad_norm": 0.07911183685064316,
+      "learning_rate": 0.00030057892785577867,
+      "loss": 0.0313,
+      "mean_token_accuracy": 0.9907743036746979,
+      "num_tokens": 5821424.0,
       "step": 1025
     },
     {
       "epoch": 2.5310802655401328,
+      "grad_norm": 0.04166734963655472,
+      "learning_rate": 0.00029572074641027996,
+      "loss": 0.0448,
+      "mean_token_accuracy": 0.9870600712299347,
+      "num_tokens": 5970144.0,
       "step": 1050
     },
     {
       "epoch": 2.591430295715148,
+      "grad_norm": 0.09666065871715546,
+      "learning_rate": 0.0002907881630671351,
+      "loss": 0.0301,
+      "mean_token_accuracy": 0.9908553779125213,
+      "num_tokens": 6103689.0,
       "step": 1075
     },
     {
       "epoch": 2.651780325890163,
+      "grad_norm": 0.07375594228506088,
+      "learning_rate": 0.00028578501182863507,
+      "loss": 0.0425,
+      "mean_token_accuracy": 0.9875227802991867,
+      "num_tokens": 6256525.0,
       "step": 1100
     },
     {
       "epoch": 2.712130356065178,
+      "grad_norm": 0.086298368871212,
+      "learning_rate": 0.00028071518154814036,
+      "loss": 0.0323,
+      "mean_token_accuracy": 0.9902477955818176,
+      "num_tokens": 6390348.0,
       "step": 1125
     },
     {
       "epoch": 2.772480386240193,
+      "grad_norm": 0.03587740287184715,
+      "learning_rate": 0.0002755826129073503,
+      "loss": 0.0427,
+      "mean_token_accuracy": 0.9872915095090866,
+      "num_tokens": 6540900.0,
       "step": 1150
     },
     {
       "epoch": 2.832830416415208,
+      "grad_norm": 0.08814697712659836,
+      "learning_rate": 0.00027039129535328646,
+      "loss": 0.0328,
+      "mean_token_accuracy": 0.990228921175003,
+      "num_tokens": 6673531.0,
       "step": 1175
     },
     {
       "epoch": 2.8931804465902236,
+      "grad_norm": 0.054661527276039124,
+      "learning_rate": 0.00026514526399737235,
+      "loss": 0.0406,
+      "mean_token_accuracy": 0.9875594407320023,
+      "num_tokens": 6826045.0,
       "step": 1200
     },
     {
       "epoch": 2.9535304767652386,
+      "grad_norm": 0.04500816389918327,
+      "learning_rate": 0.00025984859647901865,
+      "loss": 0.0282,
+      "mean_token_accuracy": 0.9915571695566178,
+      "num_tokens": 6959176.0,
       "step": 1225
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.04558952525258064,
+      "eval_mean_token_accuracy": 0.9875019208804982,
       "eval_num_tokens": 7062540.0,
+      "eval_runtime": 15.8013,
+      "eval_samples_per_second": 23.352,
+      "eval_steps_per_second": 11.708,
       "step": 1245
     }
   ],
   "logging_steps": 25,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.0683713883526144e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd8c143acd31b17c8bb07fdf2f75438bc73146d85eae4fba82837890a5b819c7
 size 6097

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb3c001872d0d895453223b44ff6bc35437b36d517310a2af89b31048c8561be
 size 6097