Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +261 -261
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -25,13 +25,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "down_proj",
-    "o_proj",
     "q_proj",
     "v_proj",
     "up_proj",
-    "gate_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
     "v_proj",
+    "o_proj",
+    "down_proj",
     "up_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a0c1f01af04ec0d51c229f63e9191c2baab2c2e7a1ad6795ccffe749aae29ff
 size 645975704

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c6578e135fe1ebeda7645f7528d4a5264cb6fe59bbad0e296050b928987a8c6
 size 645975704

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85a21d03c2ea98d53c52fd96d7e7982e7d6b7827185339dabc6a151f19b15814
 size 1292087499

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb772037ca81bcf148d2e2c2f1836a59149e28bee20036962419895038fcf9fa
 size 1292087499

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:994c2cba2555eef301d8087ae1484ed0e7252f44df4637c6e9af3389b996ceee
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:437694cf80dc70be6a53ad52dce7f6e7f66c496ccc9712033fd53a04b6022a0e
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b1736ec6627ebf927133b64702a5b6824ab5d43b5017e4277694c355a4f042e
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:4361ddfd3652d9646a72d7e3e69463d6582550af453e0c12dedcaaac34a5d817
 size 1465

trainer_state.json CHANGED Viewed

@@ -11,473 +11,473 @@
   "log_history": [
     {
       "epoch": 0.060350030175015085,
-      "grad_norm": 0.292353093624115,
-      "learning_rate": 0.00013971818181818181,
-      "loss": 1.8075,
-      "mean_token_accuracy": 0.6316984993219376,
-      "num_tokens": 155458.0,
       "step": 25
     },
     {
       "epoch": 0.12070006035003017,
-      "grad_norm": 0.23519554734230042,
-      "learning_rate": 0.00028525795454545453,
-      "loss": 0.8594,
-      "mean_token_accuracy": 0.7813338875770569,
-      "num_tokens": 280957.0,
       "step": 50
     },
     {
       "epoch": 0.18105009052504525,
-      "grad_norm": 0.17745567858219147,
-      "learning_rate": 0.0004307977272727273,
-      "loss": 0.6189,
-      "mean_token_accuracy": 0.8301489073038101,
-      "num_tokens": 439583.0,
       "step": 75
     },
     {
       "epoch": 0.24140012070006034,
-      "grad_norm": 0.28904563188552856,
-      "learning_rate": 0.0005122807260672283,
-      "loss": 0.514,
-      "mean_token_accuracy": 0.8567226785421371,
-      "num_tokens": 566372.0,
       "step": 100
     },
     {
       "epoch": 0.30175015087507545,
-      "grad_norm": 0.18326736986637115,
-      "learning_rate": 0.0005120935869832972,
-      "loss": 0.3703,
-      "mean_token_accuracy": 0.8942542725801468,
-      "num_tokens": 721871.0,
       "step": 125
     },
     {
       "epoch": 0.3621001810500905,
-      "grad_norm": 0.22670747339725494,
-      "learning_rate": 0.0005117075078651932,
-      "loss": 0.3122,
-      "mean_token_accuracy": 0.9121941888332367,
-      "num_tokens": 848123.0,
       "step": 150
     },
     {
       "epoch": 0.4224502112251056,
-      "grad_norm": 0.1902594268321991,
-      "learning_rate": 0.0005111227888047993,
-      "loss": 0.2411,
-      "mean_token_accuracy": 0.9314639317989349,
-      "num_tokens": 1005664.0,
       "step": 175
     },
     {
       "epoch": 0.4828002414001207,
-      "grad_norm": 0.29753610491752625,
-      "learning_rate": 0.0005103398842930102,
-      "loss": 0.2266,
-      "mean_token_accuracy": 0.9340476477146149,
-      "num_tokens": 1132284.0,
       "step": 200
     },
     {
       "epoch": 0.5431502715751357,
-      "grad_norm": 0.1415078341960907,
-      "learning_rate": 0.0005093594028664655,
-      "loss": 0.1822,
-      "mean_token_accuracy": 0.9487657606601715,
-      "num_tokens": 1290915.0,
       "step": 225
     },
     {
       "epoch": 0.6035003017501509,
-      "grad_norm": 0.19810789823532104,
-      "learning_rate": 0.0005081821066345455,
-      "loss": 0.1458,
-      "mean_token_accuracy": 0.9581668329238892,
-      "num_tokens": 1418595.0,
       "step": 250
     },
     {
       "epoch": 0.663850331925166,
-      "grad_norm": 0.1245037168264389,
-      "learning_rate": 0.0005068089106869988,
-      "loss": 0.1361,
-      "mean_token_accuracy": 0.9611250156164169,
-      "num_tokens": 1576137.0,
       "step": 275
     },
     {
       "epoch": 0.724200362100181,
-      "grad_norm": 0.18405039608478546,
-      "learning_rate": 0.0005052408823826598,
-      "loss": 0.1393,
-      "mean_token_accuracy": 0.9614962357282638,
-      "num_tokens": 1701485.0,
       "step": 300
     },
     {
       "epoch": 0.7845503922751962,
-      "grad_norm": 0.18599726259708405,
-      "learning_rate": 0.000503479240519812,
-      "loss": 0.1137,
-      "mean_token_accuracy": 0.9682038247585296,
-      "num_tokens": 1859818.0,
       "step": 325
     },
     {
       "epoch": 0.8449004224502112,
-      "grad_norm": 0.1856354922056198,
-      "learning_rate": 0.0005015253543888389,
-      "loss": 0.0891,
-      "mean_token_accuracy": 0.9745866447687149,
-      "num_tokens": 1987015.0,
       "step": 350
     },
     {
       "epoch": 0.9052504526252263,
-      "grad_norm": 0.10939127951860428,
-      "learning_rate": 0.0004993807427079012,
-      "loss": 0.1001,
-      "mean_token_accuracy": 0.9714098435640335,
-      "num_tokens": 2146234.0,
       "step": 375
     },
     {
       "epoch": 0.9656004828002414,
-      "grad_norm": 0.3307282030582428,
-      "learning_rate": 0.0004970470724424662,
-      "loss": 0.0884,
-      "mean_token_accuracy": 0.9754749721288681,
-      "num_tokens": 2273585.0,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.08956408500671387,
-      "eval_mean_token_accuracy": 0.9750892632716411,
       "eval_num_tokens": 2354180.0,
-      "eval_runtime": 16.024,
-      "eval_samples_per_second": 23.028,
-      "eval_steps_per_second": 11.545,
       "step": 415
     },
     {
       "epoch": 1.024140012070006,
-      "grad_norm": 0.16935159265995026,
-      "learning_rate": 0.0004945261575096078,
-      "loss": 0.101,
-      "mean_token_accuracy": 0.9729157378993083,
-      "num_tokens": 2425025.0,
       "step": 425
     },
     {
       "epoch": 1.0844900422450212,
-      "grad_norm": 0.12800893187522888,
-      "learning_rate": 0.0004918199573680834,
-      "loss": 0.0615,
-      "mean_token_accuracy": 0.9824073499441147,
-      "num_tokens": 2568833.0,
       "step": 450
     },
     {
       "epoch": 1.1448400724200363,
-      "grad_norm": 0.10300774872303009,
-      "learning_rate": 0.0004889305754952839,
-      "loss": 0.0805,
-      "mean_token_accuracy": 0.9773273587226867,
-      "num_tokens": 2710895.0,
       "step": 475
     },
     {
       "epoch": 1.2051901025950513,
-      "grad_norm": 0.11092197895050049,
-      "learning_rate": 0.0004858602577522418,
-      "loss": 0.0588,
-      "mean_token_accuracy": 0.9833286923170089,
-      "num_tokens": 2853318.0,
       "step": 500
     },
     {
       "epoch": 1.2655401327700664,
-      "grad_norm": 0.0948944017291069,
-      "learning_rate": 0.0004826113906379664,
-      "loss": 0.0838,
-      "mean_token_accuracy": 0.9770084321498871,
-      "num_tokens": 2994882.0,
       "step": 525
     },
     {
       "epoch": 1.3258901629450814,
-      "grad_norm": 0.12024246156215668,
-      "learning_rate": 0.00047918649943446345,
-      "loss": 0.0572,
-      "mean_token_accuracy": 0.9838370496034622,
-      "num_tokens": 3137930.0,
       "step": 550
     },
     {
       "epoch": 1.3862401931200965,
-      "grad_norm": 0.12121743708848953,
-      "learning_rate": 0.0004755882462438826,
-      "loss": 0.0611,
-      "mean_token_accuracy": 0.9828894352912902,
-      "num_tokens": 3279894.0,
       "step": 575
     },
     {
       "epoch": 1.4465902232951118,
-      "grad_norm": 0.19103674590587616,
-      "learning_rate": 0.000471819427919316,
-      "loss": 0.0455,
-      "mean_token_accuracy": 0.9865969383716583,
-      "num_tokens": 3420462.0,
       "step": 600
     },
     {
       "epoch": 1.5069402534701268,
-      "grad_norm": 0.06473100930452347,
-      "learning_rate": 0.0004678829738908584,
-      "loss": 0.0647,
-      "mean_token_accuracy": 0.9815235859155655,
-      "num_tokens": 3561941.0,
       "step": 625
     },
     {
       "epoch": 1.567290283645142,
-      "grad_norm": 0.09202416986227036,
-      "learning_rate": 0.0004637819438886175,
-      "loss": 0.0517,
-      "mean_token_accuracy": 0.9851528346538544,
-      "num_tokens": 3703510.0,
       "step": 650
     },
     {
       "epoch": 1.627640313820157,
-      "grad_norm": 0.08362529426813126,
-      "learning_rate": 0.00045951952556444426,
-      "loss": 0.0642,
-      "mean_token_accuracy": 0.9822886544466018,
-      "num_tokens": 3842063.0,
       "step": 675
     },
     {
       "epoch": 1.687990343995172,
-      "grad_norm": 0.0631742924451828,
-      "learning_rate": 0.0004550990320142324,
-      "loss": 0.0441,
-      "mean_token_accuracy": 0.9875086861848831,
-      "num_tokens": 3984506.0,
       "step": 700
     },
     {
       "epoch": 1.748340374170187,
-      "grad_norm": 0.07872219383716583,
-      "learning_rate": 0.00045052389920271276,
-      "loss": 0.0569,
-      "mean_token_accuracy": 0.9842114639282227,
-      "num_tokens": 4127213.0,
       "step": 725
     },
     {
       "epoch": 1.8086904043452021,
-      "grad_norm": 0.08871777355670929,
-      "learning_rate": 0.0004457976832927436,
-      "loss": 0.0437,
-      "mean_token_accuracy": 0.9873430663347245,
-      "num_tokens": 4270185.0,
       "step": 750
     },
     {
       "epoch": 1.8690404345202172,
-      "grad_norm": 0.08713535219430923,
-      "learning_rate": 0.00044092405788117396,
-      "loss": 0.0583,
-      "mean_token_accuracy": 0.9836823076009751,
-      "num_tokens": 4412354.0,
       "step": 775
     },
     {
       "epoch": 1.9293904646952322,
-      "grad_norm": 0.10155721753835678,
-      "learning_rate": 0.00043590681114342696,
-      "loss": 0.0404,
-      "mean_token_accuracy": 0.9879835307598114,
-      "num_tokens": 4556520.0,
       "step": 800
     },
     {
       "epoch": 1.9897404948702473,
-      "grad_norm": 0.0794239267706871,
-      "learning_rate": 0.0004307498428890239,
-      "loss": 0.045,
-      "mean_token_accuracy": 0.9872637808322906,
-      "num_tokens": 4688903.0,
       "step": 825
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.05410139262676239,
-      "eval_mean_token_accuracy": 0.9851650663324305,
       "eval_num_tokens": 4708360.0,
-      "eval_runtime": 16.0082,
-      "eval_samples_per_second": 23.051,
-      "eval_steps_per_second": 11.557,
       "step": 830
     },
     {
       "epoch": 2.048280024140012,
-      "grad_norm": 0.10252567380666733,
-      "learning_rate": 0.00042545716153033746,
-      "loss": 0.0495,
-      "mean_token_accuracy": 0.9853065284257082,
-      "num_tokens": 4838468.0,
       "step": 850
     },
     {
       "epoch": 2.1086300543150274,
-      "grad_norm": 0.04914547875523567,
-      "learning_rate": 0.0004200328809669296,
-      "loss": 0.0313,
-      "mean_token_accuracy": 0.9909292554855347,
-      "num_tokens": 4972061.0,
       "step": 875
     },
     {
       "epoch": 2.1689800844900424,
-      "grad_norm": 0.06335192173719406,
-      "learning_rate": 0.00041448121738789633,
-      "loss": 0.0449,
-      "mean_token_accuracy": 0.9870324164628983,
-      "num_tokens": 5123609.0,
       "step": 900
     },
     {
       "epoch": 2.2293301146650575,
-      "grad_norm": 0.09024782478809357,
-      "learning_rate": 0.0004088064859947051,
-      "loss": 0.0336,
-      "mean_token_accuracy": 0.9899903804063797,
-      "num_tokens": 5255900.0,
       "step": 925
     },
     {
       "epoch": 2.2896801448400725,
-      "grad_norm": 0.06487799435853958,
-      "learning_rate": 0.0004030130976470715,
-      "loss": 0.0471,
-      "mean_token_accuracy": 0.9861943638324737,
-      "num_tokens": 5408377.0,
       "step": 950
     },
     {
       "epoch": 2.3500301750150876,
-      "grad_norm": 0.03881136327981949,
-      "learning_rate": 0.00039710555543448267,
-      "loss": 0.033,
-      "mean_token_accuracy": 0.9898175239562989,
-      "num_tokens": 5540979.0,
       "step": 975
     },
     {
       "epoch": 2.4103802051901027,
-      "grad_norm": 0.05819237604737282,
-      "learning_rate": 0.0003910884511760325,
-      "loss": 0.0428,
-      "mean_token_accuracy": 0.9870308661460876,
-      "num_tokens": 5693030.0,
       "step": 1000
     },
     {
       "epoch": 2.4707302353651177,
-      "grad_norm": 0.06926289945840836,
-      "learning_rate": 0.00038496646185128854,
-      "loss": 0.0288,
-      "mean_token_accuracy": 0.9914705574512481,
-      "num_tokens": 5827027.0,
       "step": 1025
     },
     {
       "epoch": 2.5310802655401328,
-      "grad_norm": 0.09394887089729309,
-      "learning_rate": 0.000378744345964966,
-      "loss": 0.0439,
-      "mean_token_accuracy": 0.9866676324605942,
-      "num_tokens": 5975797.0,
       "step": 1050
     },
     {
       "epoch": 2.591430295715148,
-      "grad_norm": 0.07537297159433365,
-      "learning_rate": 0.0003724269398482333,
-      "loss": 0.0316,
-      "mean_token_accuracy": 0.9907770365476608,
-      "num_tokens": 6107036.0,
       "step": 1075
     },
     {
       "epoch": 2.651780325890163,
-      "grad_norm": 0.044363752007484436,
-      "learning_rate": 0.00036601915389952434,
-      "loss": 0.046,
-      "mean_token_accuracy": 0.9861960715055466,
-      "num_tokens": 6258873.0,
       "step": 1100
     },
     {
       "epoch": 2.712130356065178,
-      "grad_norm": 0.084761843085289,
-      "learning_rate": 0.00035952596876778076,
-      "loss": 0.031,
-      "mean_token_accuracy": 0.9905279046297073,
-      "num_tokens": 6392411.0,
       "step": 1125
     },
     {
       "epoch": 2.772480386240193,
-      "grad_norm": 0.05843805894255638,
-      "learning_rate": 0.00035295243148108894,
-      "loss": 0.0441,
-      "mean_token_accuracy": 0.9872340881824493,
-      "num_tokens": 6542051.0,
       "step": 1150
     },
     {
       "epoch": 2.832830416415208,
-      "grad_norm": 0.05149897560477257,
-      "learning_rate": 0.00034630365152372165,
-      "loss": 0.0286,
-      "mean_token_accuracy": 0.9911447340250015,
-      "num_tokens": 6674951.0,
       "step": 1175
     },
     {
       "epoch": 2.8931804465902236,
-      "grad_norm": 0.04212498292326927,
-      "learning_rate": 0.00033958479686463464,
-      "loss": 0.042,
-      "mean_token_accuracy": 0.9873944985866546,
-      "num_tokens": 6827063.0,
       "step": 1200
     },
     {
       "epoch": 2.9535304767652386,
-      "grad_norm": 0.02952578291296959,
-      "learning_rate": 0.00033280108994050315,
-      "loss": 0.0288,
-      "mean_token_accuracy": 0.9914515954256058,
-      "num_tokens": 6960300.0,
       "step": 1225
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.045313552021980286,
-      "eval_mean_token_accuracy": 0.9875944820610253,
       "eval_num_tokens": 7062540.0,
-      "eval_runtime": 15.9787,
-      "eval_samples_per_second": 23.093,
-      "eval_steps_per_second": 11.578,
       "step": 1245
     }
   ],
@@ -498,7 +498,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.0685210928193024e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.060350030175015085,
+      "grad_norm": 0.2729557752609253,
+      "learning_rate": 0.00013936363636363633,
+      "loss": 1.8006,
+      "mean_token_accuracy": 0.6339444428682327,
+      "num_tokens": 157350.0,
       "step": 25
     },
     {
       "epoch": 0.12070006035003017,
+      "grad_norm": 0.3110716938972473,
+      "learning_rate": 0.0002845340909090909,
+      "loss": 0.8486,
+      "mean_token_accuracy": 0.78412382543087,
+      "num_tokens": 281749.0,
       "step": 50
     },
     {
       "epoch": 0.18105009052504525,
+      "grad_norm": 0.1929408758878708,
+      "learning_rate": 0.00042970454545454545,
+      "loss": 0.6116,
+      "mean_token_accuracy": 0.8317048019170761,
+      "num_tokens": 439677.0,
       "step": 75
     },
     {
       "epoch": 0.24140012070006034,
+      "grad_norm": 0.2782052755355835,
+      "learning_rate": 0.0005109807749762905,
+      "loss": 0.489,
+      "mean_token_accuracy": 0.8621344155073166,
+      "num_tokens": 566627.0,
       "step": 100
     },
     {
       "epoch": 0.30175015087507545,
+      "grad_norm": 0.188531756401062,
+      "learning_rate": 0.00051079411077194,
+      "loss": 0.3545,
+      "mean_token_accuracy": 0.8989184832572937,
+      "num_tokens": 724945.0,
       "step": 125
     },
     {
       "epoch": 0.3621001810500905,
+      "grad_norm": 0.2349298596382141,
+      "learning_rate": 0.0005104090113588009,
+      "loss": 0.325,
+      "mean_token_accuracy": 0.9072138226032257,
+      "num_tokens": 851980.0,
       "step": 150
     },
     {
       "epoch": 0.4224502112251056,
+      "grad_norm": 0.18686626851558685,
+      "learning_rate": 0.0005098257760672504,
+      "loss": 0.2363,
+      "mean_token_accuracy": 0.9327792012691498,
+      "num_tokens": 1007684.0,
       "step": 175
     },
     {
       "epoch": 0.4828002414001207,
+      "grad_norm": 0.31283071637153625,
+      "learning_rate": 0.0005090448582348783,
+      "loss": 0.2257,
+      "mean_token_accuracy": 0.9364256656169891,
+      "num_tokens": 1134676.0,
       "step": 200
     },
     {
       "epoch": 0.5431502715751357,
+      "grad_norm": 0.2003205120563507,
+      "learning_rate": 0.0005080668648541163,
+      "loss": 0.1798,
+      "mean_token_accuracy": 0.9486303454637528,
+      "num_tokens": 1288843.0,
       "step": 225
     },
     {
       "epoch": 0.6035003017501509,
+      "grad_norm": 0.24583138525485992,
+      "learning_rate": 0.0005068925561004347,
+      "loss": 0.1614,
+      "mean_token_accuracy": 0.9540205806493759,
+      "num_tokens": 1413587.0,
       "step": 250
     },
     {
       "epoch": 0.663850331925166,
+      "grad_norm": 0.2094200849533081,
+      "learning_rate": 0.0005055228447414724,
+      "loss": 0.1345,
+      "mean_token_accuracy": 0.9615936678647995,
+      "num_tokens": 1571290.0,
       "step": 275
     },
     {
       "epoch": 0.724200362100181,
+      "grad_norm": 0.20863880217075348,
+      "learning_rate": 0.0005039587954275602,
+      "loss": 0.1209,
+      "mean_token_accuracy": 0.9658558475971222,
+      "num_tokens": 1697243.0,
       "step": 300
     },
     {
       "epoch": 0.7845503922751962,
+      "grad_norm": 0.12524789571762085,
+      "learning_rate": 0.0005022016238641887,
+      "loss": 0.1104,
+      "mean_token_accuracy": 0.969045399427414,
+      "num_tokens": 1855662.0,
       "step": 325
     },
     {
       "epoch": 0.8449004224502112,
+      "grad_norm": 0.17329099774360657,
+      "learning_rate": 0.0005002526958670635,
+      "loss": 0.0871,
+      "mean_token_accuracy": 0.9757317280769349,
+      "num_tokens": 1983678.0,
       "step": 350
     },
     {
       "epoch": 0.9052504526252263,
+      "grad_norm": 0.07487187534570694,
+      "learning_rate": 0.000498113526300483,
+      "loss": 0.1073,
+      "mean_token_accuracy": 0.9719128596782685,
+      "num_tokens": 2142312.0,
       "step": 375
     },
     {
       "epoch": 0.9656004828002414,
+      "grad_norm": 0.18816682696342468,
+      "learning_rate": 0.0004957857778998638,
+      "loss": 0.0837,
+      "mean_token_accuracy": 0.9764218652248382,
+      "num_tokens": 2270799.0,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.08532869815826416,
+      "eval_mean_token_accuracy": 0.9769232859482636,
       "eval_num_tokens": 2354180.0,
+      "eval_runtime": 15.9895,
+      "eval_samples_per_second": 23.078,
+      "eval_steps_per_second": 11.57,
       "step": 415
     },
     {
       "epoch": 1.024140012070006,
+      "grad_norm": 0.09524519741535187,
+      "learning_rate": 0.0004932712599793277,
+      "loss": 0.0927,
+      "mean_token_accuracy": 0.9739998161178274,
+      "num_tokens": 2423160.0,
       "step": 425
     },
     {
       "epoch": 1.0844900422450212,
+      "grad_norm": 0.09827826172113419,
+      "learning_rate": 0.0004905719270253573,
+      "loss": 0.0573,
+      "mean_token_accuracy": 0.9832522106170655,
+      "num_tokens": 2565487.0,
       "step": 450
     },
     {
       "epoch": 1.1448400724200363,
+      "grad_norm": 0.12874829769134521,
+      "learning_rate": 0.0004876898771776108,
+      "loss": 0.0797,
+      "mean_token_accuracy": 0.9777371490001678,
+      "num_tokens": 2706106.0,
       "step": 475
     },
     {
       "epoch": 1.2051901025950513,
+      "grad_norm": 0.09082050621509552,
+      "learning_rate": 0.00048462735059807835,
+      "loss": 0.053,
+      "mean_token_accuracy": 0.9846914553642273,
+      "num_tokens": 2848007.0,
       "step": 500
     },
     {
       "epoch": 1.2655401327700664,
+      "grad_norm": 0.0940171331167221,
+      "learning_rate": 0.00048138672772984735,
+      "loss": 0.072,
+      "mean_token_accuracy": 0.980380329489708,
+      "num_tokens": 2990068.0,
       "step": 525
     },
     {
       "epoch": 1.3258901629450814,
+      "grad_norm": 0.11513015627861023,
+      "learning_rate": 0.00047797052744682957,
+      "loss": 0.0522,
+      "mean_token_accuracy": 0.9850564336776734,
+      "num_tokens": 3131402.0,
       "step": 550
     },
     {
       "epoch": 1.3862401931200965,
+      "grad_norm": 0.0951244980096817,
+      "learning_rate": 0.0004743814050958891,
+      "loss": 0.0651,
+      "mean_token_accuracy": 0.9819402652978897,
+      "num_tokens": 3272231.0,
       "step": 575
     },
     {
       "epoch": 1.4465902232951118,
+      "grad_norm": 0.0790608748793602,
+      "learning_rate": 0.00047062215043289175,
+      "loss": 0.0496,
+      "mean_token_accuracy": 0.9858078044652939,
+      "num_tokens": 3415731.0,
       "step": 600
     },
     {
       "epoch": 1.5069402534701268,
+      "grad_norm": 0.09390847384929657,
+      "learning_rate": 0.00046669568545428187,
+      "loss": 0.0624,
+      "mean_token_accuracy": 0.9824297106266022,
+      "num_tokens": 3558206.0,
       "step": 625
     },
     {
       "epoch": 1.567290283645142,
+      "grad_norm": 0.10085475444793701,
+      "learning_rate": 0.00046260506212587063,
+      "loss": 0.0481,
+      "mean_token_accuracy": 0.9865269219875336,
+      "num_tokens": 3701088.0,
       "step": 650
     },
     {
       "epoch": 1.627640313820157,
+      "grad_norm": 0.08241600543260574,
+      "learning_rate": 0.00045835346001060117,
+      "loss": 0.0658,
+      "mean_token_accuracy": 0.9819342768192292,
+      "num_tokens": 3842946.0,
       "step": 675
     },
     {
       "epoch": 1.687990343995172,
+      "grad_norm": 0.05363951995968819,
+      "learning_rate": 0.0004539441837971359,
+      "loss": 0.0414,
+      "mean_token_accuracy": 0.9879044550657272,
+      "num_tokens": 3984790.0,
       "step": 700
     },
     {
       "epoch": 1.748340374170187,
+      "grad_norm": 0.0792899951338768,
+      "learning_rate": 0.00044938066073118524,
+      "loss": 0.057,
+      "mean_token_accuracy": 0.983517536520958,
+      "num_tokens": 4126482.0,
       "step": 725
     },
     {
       "epoch": 1.8086904043452021,
+      "grad_norm": 0.05479871854186058,
+      "learning_rate": 0.00044466643795157515,
+      "loss": 0.0447,
+      "mean_token_accuracy": 0.9873181569576264,
+      "num_tokens": 4269376.0,
       "step": 750
     },
     {
       "epoch": 1.8690404345202172,
+      "grad_norm": 0.06352550536394119,
+      "learning_rate": 0.00043980517973312485,
+      "loss": 0.0524,
+      "mean_token_accuracy": 0.9851584023237229,
+      "num_tokens": 4411323.0,
       "step": 775
     },
     {
       "epoch": 1.9293904646952322,
+      "grad_norm": 0.07205910980701447,
+      "learning_rate": 0.00043480066463847576,
+      "loss": 0.0387,
+      "mean_token_accuracy": 0.9883100253343582,
+      "num_tokens": 4555676.0,
       "step": 800
     },
     {
       "epoch": 1.9897404948702473,
+      "grad_norm": 0.12736694514751434,
+      "learning_rate": 0.0004296567825810876,
+      "loss": 0.0484,
+      "mean_token_accuracy": 0.9870092964172363,
+      "num_tokens": 4688499.0,
       "step": 825
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.05405727028846741,
+      "eval_mean_token_accuracy": 0.9849017378446218,
       "eval_num_tokens": 4708360.0,
+      "eval_runtime": 15.9245,
+      "eval_samples_per_second": 23.172,
+      "eval_steps_per_second": 11.617,
       "step": 830
     },
     {
       "epoch": 2.048280024140012,
+      "grad_norm": 0.07416768372058868,
+      "learning_rate": 0.00042437753180168345,
+      "loss": 0.0454,
+      "mean_token_accuracy": 0.9866191566604929,
+      "num_tokens": 4835961.0,
       "step": 850
     },
     {
       "epoch": 2.1086300543150274,
+      "grad_norm": 0.1151156798005104,
+      "learning_rate": 0.00041896701576049384,
+      "loss": 0.0346,
+      "mean_token_accuracy": 0.9898207432031632,
+      "num_tokens": 4967947.0,
       "step": 875
     },
     {
       "epoch": 2.1689800844900424,
+      "grad_norm": 0.09905433654785156,
+      "learning_rate": 0.00041342943994771616,
+      "loss": 0.0476,
+      "mean_token_accuracy": 0.9861520522832871,
+      "num_tokens": 5119123.0,
       "step": 900
     },
     {
       "epoch": 2.2293301146650575,
+      "grad_norm": 0.1043798103928566,
+      "learning_rate": 0.0004077691086146677,
+      "loss": 0.0337,
+      "mean_token_accuracy": 0.9898509311676026,
+      "num_tokens": 5251750.0,
       "step": 925
     },
     {
       "epoch": 2.2896801448400725,
+      "grad_norm": 0.08311837911605835,
+      "learning_rate": 0.0004019904214281739,
+      "loss": 0.0497,
+      "mean_token_accuracy": 0.985140620470047,
+      "num_tokens": 5403588.0,
       "step": 950
     },
     {
       "epoch": 2.3500301750150876,
+      "grad_norm": 0.06609100848436356,
+      "learning_rate": 0.00039609787005079176,
+      "loss": 0.0329,
+      "mean_token_accuracy": 0.9901149165630341,
+      "num_tokens": 5537023.0,
       "step": 975
     },
     {
       "epoch": 2.4103802051901027,
+      "grad_norm": 0.06421645730733871,
+      "learning_rate": 0.0003900960346495268,
+      "loss": 0.0526,
+      "mean_token_accuracy": 0.9848462229967118,
+      "num_tokens": 5688978.0,
       "step": 1000
     },
     {
       "epoch": 2.4707302353651177,
+      "grad_norm": 0.07097386568784714,
+      "learning_rate": 0.0003839895803357572,
+      "loss": 0.031,
+      "mean_token_accuracy": 0.9907027989625931,
+      "num_tokens": 5820828.0,
       "step": 1025
     },
     {
       "epoch": 2.5310802655401328,
+      "grad_norm": 0.06456780433654785,
+      "learning_rate": 0.0003777832535391326,
+      "loss": 0.0423,
+      "mean_token_accuracy": 0.9876184749603272,
+      "num_tokens": 5969776.0,
       "step": 1050
     },
     {
       "epoch": 2.591430295715148,
+      "grad_norm": 0.08945687860250473,
+      "learning_rate": 0.000371481878318265,
+      "loss": 0.031,
+      "mean_token_accuracy": 0.9904923564195633,
+      "num_tokens": 6101538.0,
       "step": 1075
     },
     {
       "epoch": 2.651780325890163,
+      "grad_norm": 0.059836167842149734,
+      "learning_rate": 0.0003650903526110812,
+      "loss": 0.0468,
+      "mean_token_accuracy": 0.9865248650312424,
+      "num_tokens": 6254993.0,
       "step": 1100
     },
     {
       "epoch": 2.712130356065178,
+      "grad_norm": 0.08414298295974731,
+      "learning_rate": 0.00035861364442774926,
+      "loss": 0.0306,
+      "mean_token_accuracy": 0.9909639322757721,
+      "num_tokens": 6389539.0,
       "step": 1125
     },
     {
       "epoch": 2.772480386240193,
+      "grad_norm": 0.07291322946548462,
+      "learning_rate": 0.00035205678798914004,
+      "loss": 0.0399,
+      "mean_token_accuracy": 0.988108462691307,
+      "num_tokens": 6541057.0,
       "step": 1150
     },
     {
       "epoch": 2.832830416415208,
+      "grad_norm": 0.05344131961464882,
+      "learning_rate": 0.0003454248798138234,
+      "loss": 0.0303,
+      "mean_token_accuracy": 0.9908234792947769,
+      "num_tokens": 6674451.0,
       "step": 1175
     },
     {
       "epoch": 2.8931804465902236,
+      "grad_norm": 0.08897681534290314,
+      "learning_rate": 0.0003387230747566431,
+      "loss": 0.0425,
+      "mean_token_accuracy": 0.9875851464271546,
+      "num_tokens": 6827173.0,
       "step": 1200
     },
     {
       "epoch": 2.9535304767652386,
+      "grad_norm": 0.043970294296741486,
+      "learning_rate": 0.0003319565820019463,
+      "loss": 0.0289,
+      "mean_token_accuracy": 0.9910114580392837,
+      "num_tokens": 6961397.0,
       "step": 1225
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.04635874554514885,
+      "eval_mean_token_accuracy": 0.9874976680085465,
       "eval_num_tokens": 7062540.0,
+      "eval_runtime": 15.9412,
+      "eval_samples_per_second": 23.148,
+      "eval_steps_per_second": 11.605,
       "step": 1245
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 3.068133596909875e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3aca81315bde14ece69eb9f4dddd5f4b7bb5393ac99e6a78ae025523ceef1a1d
 size 6097

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8fddb2b708f03bb265536e876e142110e772af61dc986b3ada0247ff2f7859c
 size 6097