Training in progress, step 200, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/trainer_state.json +614 -614
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,12 +20,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
     "gate_proj",
-    "v_proj",
-    "k_proj",
-    "q_proj",
     "o_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_proj",
     "o_proj",
+    "q_proj",
+    "k_proj",
+    "up_proj",
+    "v_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27fd9d96fe970ba05e3d0a1187867e9aa0f91a35a9b7e5e06afe41cda5ffe858
 size 180385008

 version https://git-lfs.github.com/spec/v1
+oid sha256:db5cce6156c4621517be68ed6604412d1e180059ddcba2665cbdb58955f9bb05
 size 180385008

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19fb996b6d924aaf741f7960cca2cac6d95b543b45fd8cbb1841f51822eae0d3
 size 137651322

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfcc971a71e688b4db954d5f9e261787333eb8279ea692ae9db960cb16db16c5
 size 137651322

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bc53698ebe0612a88894cc5efe6ed9ebe6574153de26ad3dbff99f5c01de187
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:11309a88af1da04c34187de7c9fa4eeb4751eebe97a4effc8b29c06633b89aa3
 size 14244

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 1.4612168073654175,
   "best_model_checkpoint": "miner_id_24/checkpoint-200",
-  "epoch": 0.0008042690601713897,
   "eval_steps": 200,
   "global_step": 200,
   "is_hyper_param_search": false,
@@ -9,1424 +9,1424 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 4.021345300856949e-06,
-      "grad_norm": 2.1250829696655273,
       "learning_rate": 2e-05,
-      "loss": 0.5581,
       "step": 1
     },
     {
-      "epoch": 4.021345300856949e-06,
-      "eval_loss": 0.4672188460826874,
-      "eval_runtime": 32.0568,
-      "eval_samples_per_second": 7.767,
-      "eval_steps_per_second": 7.767,
       "step": 1
     },
     {
-      "epoch": 8.042690601713897e-06,
-      "grad_norm": 1.9934287071228027,
       "learning_rate": 4e-05,
-      "loss": 0.5831,
       "step": 2
     },
     {
-      "epoch": 1.2064035902570847e-05,
-      "grad_norm": 1.3228237628936768,
       "learning_rate": 6e-05,
-      "loss": 0.4479,
       "step": 3
     },
     {
-      "epoch": 1.6085381203427795e-05,
-      "grad_norm": 1.273181438446045,
       "learning_rate": 8e-05,
-      "loss": 0.4714,
       "step": 4
     },
     {
-      "epoch": 2.0106726504284744e-05,
-      "grad_norm": 1.606476902961731,
       "learning_rate": 0.0001,
-      "loss": 0.8307,
       "step": 5
     },
     {
-      "epoch": 2.4128071805141694e-05,
-      "grad_norm": 1.6689647436141968,
       "learning_rate": 0.00012,
-      "loss": 0.374,
       "step": 6
     },
     {
-      "epoch": 2.814941710599864e-05,
-      "grad_norm": 4.524862289428711,
       "learning_rate": 0.00014,
-      "loss": 0.9419,
       "step": 7
     },
     {
-      "epoch": 3.217076240685559e-05,
-      "grad_norm": 4.146886348724365,
       "learning_rate": 0.00016,
-      "loss": 0.6234,
       "step": 8
     },
     {
-      "epoch": 3.6192107707712536e-05,
-      "grad_norm": 5.241947650909424,
       "learning_rate": 0.00018,
-      "loss": 0.8098,
       "step": 9
     },
     {
-      "epoch": 4.021345300856949e-05,
-      "grad_norm": 7.22183084487915,
       "learning_rate": 0.0002,
-      "loss": 0.6312,
       "step": 10
     },
     {
-      "epoch": 4.4234798309426435e-05,
-      "grad_norm": 6.737246990203857,
       "learning_rate": 0.0002,
-      "loss": 0.6996,
       "step": 11
     },
     {
-      "epoch": 4.825614361028339e-05,
-      "grad_norm": 6.468095779418945,
       "learning_rate": 0.0002,
-      "loss": 0.8823,
       "step": 12
     },
     {
-      "epoch": 5.2277488911140334e-05,
-      "grad_norm": 16.900236129760742,
       "learning_rate": 0.0002,
-      "loss": 0.6476,
       "step": 13
     },
     {
-      "epoch": 5.629883421199728e-05,
-      "grad_norm": 8.813634872436523,
       "learning_rate": 0.0002,
-      "loss": 0.7912,
       "step": 14
     },
     {
-      "epoch": 6.032017951285423e-05,
-      "grad_norm": 18.69288444519043,
       "learning_rate": 0.0002,
-      "loss": 0.8103,
       "step": 15
     },
     {
-      "epoch": 6.434152481371118e-05,
-      "grad_norm": 15.614603996276855,
       "learning_rate": 0.0002,
-      "loss": 0.9055,
       "step": 16
     },
     {
-      "epoch": 6.836287011456813e-05,
-      "grad_norm": 12.850824356079102,
       "learning_rate": 0.0002,
-      "loss": 1.3363,
       "step": 17
     },
     {
-      "epoch": 7.238421541542507e-05,
-      "grad_norm": 8.7499418258667,
       "learning_rate": 0.0002,
-      "loss": 0.9585,
       "step": 18
     },
     {
-      "epoch": 7.640556071628202e-05,
-      "grad_norm": 6.852315425872803,
       "learning_rate": 0.0002,
-      "loss": 1.0607,
       "step": 19
     },
     {
-      "epoch": 8.042690601713898e-05,
-      "grad_norm": 11.972504615783691,
       "learning_rate": 0.0002,
-      "loss": 1.0609,
       "step": 20
     },
     {
-      "epoch": 8.444825131799592e-05,
-      "grad_norm": 5.352021217346191,
       "learning_rate": 0.0002,
-      "loss": 0.7703,
       "step": 21
     },
     {
-      "epoch": 8.846959661885287e-05,
-      "grad_norm": 4.236023426055908,
       "learning_rate": 0.0002,
-      "loss": 0.8208,
       "step": 22
     },
     {
-      "epoch": 9.249094191970982e-05,
-      "grad_norm": 6.339336395263672,
       "learning_rate": 0.0002,
-      "loss": 0.9896,
       "step": 23
     },
     {
-      "epoch": 9.651228722056678e-05,
-      "grad_norm": 6.273009777069092,
       "learning_rate": 0.0002,
-      "loss": 0.9005,
       "step": 24
     },
     {
-      "epoch": 0.00010053363252142371,
-      "grad_norm": 10.484920501708984,
       "learning_rate": 0.0002,
-      "loss": 0.7364,
       "step": 25
     },
     {
-      "epoch": 0.00010455497782228067,
-      "grad_norm": 17.437223434448242,
       "learning_rate": 0.0002,
-      "loss": 0.9995,
       "step": 26
     },
     {
-      "epoch": 0.00010857632312313762,
-      "grad_norm": 10.151628494262695,
       "learning_rate": 0.0002,
-      "loss": 0.8712,
       "step": 27
     },
     {
-      "epoch": 0.00011259766842399456,
-      "grad_norm": 9.369444847106934,
       "learning_rate": 0.0002,
-      "loss": 1.8323,
       "step": 28
     },
     {
-      "epoch": 0.00011661901372485151,
-      "grad_norm": 8.75271987915039,
       "learning_rate": 0.0002,
-      "loss": 0.9926,
       "step": 29
     },
     {
-      "epoch": 0.00012064035902570847,
-      "grad_norm": 9.381953239440918,
       "learning_rate": 0.0002,
-      "loss": 1.2458,
       "step": 30
     },
     {
-      "epoch": 0.00012466170432656542,
-      "grad_norm": 6.763002395629883,
       "learning_rate": 0.0002,
-      "loss": 1.1212,
       "step": 31
     },
     {
-      "epoch": 0.00012868304962742236,
-      "grad_norm": 6.601625919342041,
       "learning_rate": 0.0002,
-      "loss": 1.3255,
       "step": 32
     },
     {
-      "epoch": 0.0001327043949282793,
-      "grad_norm": 7.443782806396484,
       "learning_rate": 0.0002,
-      "loss": 0.9829,
       "step": 33
     },
     {
-      "epoch": 0.00013672574022913626,
-      "grad_norm": 12.476454734802246,
       "learning_rate": 0.0002,
-      "loss": 1.3845,
       "step": 34
     },
     {
-      "epoch": 0.0001407470855299932,
-      "grad_norm": 17.0606689453125,
       "learning_rate": 0.0002,
-      "loss": 1.99,
       "step": 35
     },
     {
-      "epoch": 0.00014476843083085014,
-      "grad_norm": 6.719250679016113,
       "learning_rate": 0.0002,
-      "loss": 1.135,
       "step": 36
     },
     {
-      "epoch": 0.0001487897761317071,
-      "grad_norm": 5.461545944213867,
       "learning_rate": 0.0002,
-      "loss": 1.4928,
       "step": 37
     },
     {
-      "epoch": 0.00015281112143256405,
-      "grad_norm": 5.649755001068115,
       "learning_rate": 0.0002,
-      "loss": 0.839,
       "step": 38
     },
     {
-      "epoch": 0.000156832466733421,
-      "grad_norm": 12.541187286376953,
       "learning_rate": 0.0002,
-      "loss": 1.2483,
       "step": 39
     },
     {
-      "epoch": 0.00016085381203427795,
-      "grad_norm": 15.279743194580078,
       "learning_rate": 0.0002,
-      "loss": 0.84,
       "step": 40
     },
     {
-      "epoch": 0.0001648751573351349,
-      "grad_norm": 14.897642135620117,
       "learning_rate": 0.0002,
-      "loss": 1.4763,
       "step": 41
     },
     {
-      "epoch": 0.00016889650263599183,
-      "grad_norm": 23.705480575561523,
       "learning_rate": 0.0002,
-      "loss": 1.7018,
       "step": 42
     },
     {
-      "epoch": 0.0001729178479368488,
-      "grad_norm": 23.132944107055664,
       "learning_rate": 0.0002,
-      "loss": 1.579,
       "step": 43
     },
     {
-      "epoch": 0.00017693919323770574,
-      "grad_norm": 13.163228034973145,
       "learning_rate": 0.0002,
-      "loss": 1.1921,
       "step": 44
     },
     {
-      "epoch": 0.00018096053853856268,
-      "grad_norm": 11.848477363586426,
       "learning_rate": 0.0002,
-      "loss": 1.3981,
       "step": 45
     },
     {
-      "epoch": 0.00018498188383941964,
-      "grad_norm": 11.794342041015625,
       "learning_rate": 0.0002,
-      "loss": 1.2867,
       "step": 46
     },
     {
-      "epoch": 0.00018900322914027658,
-      "grad_norm": 13.43369197845459,
       "learning_rate": 0.0002,
-      "loss": 1.7953,
       "step": 47
     },
     {
-      "epoch": 0.00019302457444113355,
-      "grad_norm": 10.306236267089844,
       "learning_rate": 0.0002,
-      "loss": 1.2805,
       "step": 48
     },
     {
-      "epoch": 0.0001970459197419905,
-      "grad_norm": 7.8810715675354,
       "learning_rate": 0.0002,
-      "loss": 1.4666,
       "step": 49
     },
     {
-      "epoch": 0.00020106726504284743,
-      "grad_norm": 10.786847114562988,
       "learning_rate": 0.0002,
-      "loss": 0.9801,
       "step": 50
     },
     {
-      "epoch": 0.0002050886103437044,
-      "grad_norm": 18.616641998291016,
       "learning_rate": 0.0002,
-      "loss": 1.5865,
       "step": 51
     },
     {
-      "epoch": 0.00020910995564456133,
-      "grad_norm": 5.640084743499756,
       "learning_rate": 0.0002,
-      "loss": 1.2003,
       "step": 52
     },
     {
-      "epoch": 0.00021313130094541827,
-      "grad_norm": 7.515094757080078,
       "learning_rate": 0.0002,
-      "loss": 1.1607,
       "step": 53
     },
     {
-      "epoch": 0.00021715264624627524,
-      "grad_norm": 8.680420875549316,
       "learning_rate": 0.0002,
-      "loss": 1.0826,
       "step": 54
     },
     {
-      "epoch": 0.00022117399154713218,
-      "grad_norm": 10.082337379455566,
       "learning_rate": 0.0002,
-      "loss": 1.102,
       "step": 55
     },
     {
-      "epoch": 0.00022519533684798912,
-      "grad_norm": 7.704357147216797,
       "learning_rate": 0.0002,
-      "loss": 1.7538,
       "step": 56
     },
     {
-      "epoch": 0.00022921668214884609,
-      "grad_norm": 13.682107925415039,
       "learning_rate": 0.0002,
-      "loss": 1.566,
       "step": 57
     },
     {
-      "epoch": 0.00023323802744970302,
-      "grad_norm": 8.392353057861328,
       "learning_rate": 0.0002,
-      "loss": 1.0485,
       "step": 58
     },
     {
-      "epoch": 0.00023725937275055996,
-      "grad_norm": 10.200504302978516,
       "learning_rate": 0.0002,
-      "loss": 1.8267,
       "step": 59
     },
     {
-      "epoch": 0.00024128071805141693,
-      "grad_norm": 10.44006633758545,
       "learning_rate": 0.0002,
-      "loss": 1.6873,
       "step": 60
     },
     {
-      "epoch": 0.00024530206335227387,
-      "grad_norm": 11.430456161499023,
       "learning_rate": 0.0002,
-      "loss": 1.1932,
       "step": 61
     },
     {
-      "epoch": 0.00024932340865313084,
-      "grad_norm": 9.302727699279785,
       "learning_rate": 0.0002,
-      "loss": 1.2453,
       "step": 62
     },
     {
-      "epoch": 0.00025334475395398775,
-      "grad_norm": 10.85357666015625,
       "learning_rate": 0.0002,
-      "loss": 1.0684,
       "step": 63
     },
     {
-      "epoch": 0.0002573660992548447,
-      "grad_norm": 12.542272567749023,
       "learning_rate": 0.0002,
-      "loss": 1.5268,
       "step": 64
     },
     {
-      "epoch": 0.0002613874445557017,
-      "grad_norm": 8.385772705078125,
       "learning_rate": 0.0002,
-      "loss": 1.6718,
       "step": 65
     },
     {
-      "epoch": 0.0002654087898565586,
-      "grad_norm": 17.25252342224121,
       "learning_rate": 0.0002,
-      "loss": 1.1325,
       "step": 66
     },
     {
-      "epoch": 0.00026943013515741556,
-      "grad_norm": 10.651689529418945,
       "learning_rate": 0.0002,
-      "loss": 1.1901,
       "step": 67
     },
     {
-      "epoch": 0.0002734514804582725,
-      "grad_norm": 6.3180084228515625,
       "learning_rate": 0.0002,
-      "loss": 1.1154,
       "step": 68
     },
     {
-      "epoch": 0.00027747282575912944,
-      "grad_norm": 7.142451286315918,
       "learning_rate": 0.0002,
-      "loss": 1.293,
       "step": 69
     },
     {
-      "epoch": 0.0002814941710599864,
-      "grad_norm": 8.585003852844238,
       "learning_rate": 0.0002,
-      "loss": 1.4001,
       "step": 70
     },
     {
-      "epoch": 0.00028551551636084337,
-      "grad_norm": 12.69324016571045,
       "learning_rate": 0.0002,
-      "loss": 1.0116,
       "step": 71
     },
     {
-      "epoch": 0.0002895368616617003,
-      "grad_norm": 13.226308822631836,
       "learning_rate": 0.0002,
-      "loss": 1.2387,
       "step": 72
     },
     {
-      "epoch": 0.00029355820696255725,
-      "grad_norm": 15.932046890258789,
       "learning_rate": 0.0002,
-      "loss": 1.4289,
       "step": 73
     },
     {
-      "epoch": 0.0002975795522634142,
-      "grad_norm": 14.791518211364746,
       "learning_rate": 0.0002,
-      "loss": 1.4636,
       "step": 74
     },
     {
-      "epoch": 0.00030160089756427113,
-      "grad_norm": 9.525426864624023,
       "learning_rate": 0.0002,
-      "loss": 1.2034,
       "step": 75
     },
     {
-      "epoch": 0.0003056222428651281,
-      "grad_norm": 9.078874588012695,
       "learning_rate": 0.0002,
-      "loss": 1.087,
       "step": 76
     },
     {
-      "epoch": 0.00030964358816598506,
-      "grad_norm": 11.860196113586426,
       "learning_rate": 0.0002,
-      "loss": 1.5046,
       "step": 77
     },
     {
-      "epoch": 0.000313664933466842,
-      "grad_norm": 15.652862548828125,
       "learning_rate": 0.0002,
-      "loss": 1.3219,
       "step": 78
     },
     {
-      "epoch": 0.00031768627876769894,
-      "grad_norm": 9.072121620178223,
       "learning_rate": 0.0002,
-      "loss": 0.9932,
       "step": 79
     },
     {
-      "epoch": 0.0003217076240685559,
-      "grad_norm": 11.151254653930664,
       "learning_rate": 0.0002,
-      "loss": 1.0352,
       "step": 80
     },
     {
-      "epoch": 0.0003257289693694128,
-      "grad_norm": 8.298866271972656,
       "learning_rate": 0.0002,
-      "loss": 1.3864,
       "step": 81
     },
     {
-      "epoch": 0.0003297503146702698,
-      "grad_norm": 11.593015670776367,
       "learning_rate": 0.0002,
-      "loss": 1.1893,
       "step": 82
     },
     {
-      "epoch": 0.00033377165997112675,
-      "grad_norm": 7.286454677581787,
       "learning_rate": 0.0002,
-      "loss": 1.161,
       "step": 83
     },
     {
-      "epoch": 0.00033779300527198367,
-      "grad_norm": 8.644365310668945,
       "learning_rate": 0.0002,
-      "loss": 1.0684,
       "step": 84
     },
     {
-      "epoch": 0.00034181435057284063,
-      "grad_norm": 6.340452194213867,
       "learning_rate": 0.0002,
-      "loss": 1.026,
       "step": 85
     },
     {
-      "epoch": 0.0003458356958736976,
-      "grad_norm": 14.825886726379395,
       "learning_rate": 0.0002,
-      "loss": 1.428,
       "step": 86
     },
     {
-      "epoch": 0.0003498570411745545,
-      "grad_norm": 10.448280334472656,
       "learning_rate": 0.0002,
-      "loss": 1.4677,
       "step": 87
     },
     {
-      "epoch": 0.0003538783864754115,
-      "grad_norm": 11.790903091430664,
       "learning_rate": 0.0002,
-      "loss": 1.6509,
       "step": 88
     },
     {
-      "epoch": 0.00035789973177626844,
-      "grad_norm": 15.971644401550293,
       "learning_rate": 0.0002,
-      "loss": 0.9585,
       "step": 89
     },
     {
-      "epoch": 0.00036192107707712536,
-      "grad_norm": 8.853199005126953,
       "learning_rate": 0.0002,
-      "loss": 0.9822,
       "step": 90
     },
     {
-      "epoch": 0.0003659424223779823,
-      "grad_norm": 16.233217239379883,
       "learning_rate": 0.0002,
-      "loss": 1.8514,
       "step": 91
     },
     {
-      "epoch": 0.0003699637676788393,
-      "grad_norm": 10.900402069091797,
       "learning_rate": 0.0002,
-      "loss": 1.4084,
       "step": 92
     },
     {
-      "epoch": 0.0003739851129796962,
-      "grad_norm": 14.19662857055664,
       "learning_rate": 0.0002,
-      "loss": 1.4282,
       "step": 93
     },
     {
-      "epoch": 0.00037800645828055317,
-      "grad_norm": 9.281522750854492,
       "learning_rate": 0.0002,
-      "loss": 1.0121,
       "step": 94
     },
     {
-      "epoch": 0.00038202780358141013,
-      "grad_norm": 9.312750816345215,
       "learning_rate": 0.0002,
-      "loss": 0.8598,
       "step": 95
     },
     {
-      "epoch": 0.0003860491488822671,
-      "grad_norm": 33.047245025634766,
       "learning_rate": 0.0002,
-      "loss": 1.1154,
       "step": 96
     },
     {
-      "epoch": 0.000390070494183124,
-      "grad_norm": 17.734811782836914,
       "learning_rate": 0.0002,
-      "loss": 1.2669,
       "step": 97
     },
     {
-      "epoch": 0.000394091839483981,
-      "grad_norm": 9.97078800201416,
       "learning_rate": 0.0002,
-      "loss": 0.9161,
       "step": 98
     },
     {
-      "epoch": 0.00039811318478483795,
-      "grad_norm": 12.870509147644043,
       "learning_rate": 0.0002,
-      "loss": 0.9081,
       "step": 99
     },
     {
-      "epoch": 0.00040213453008569486,
-      "grad_norm": 12.00430965423584,
       "learning_rate": 0.0002,
-      "loss": 1.3502,
       "step": 100
     },
     {
-      "epoch": 0.0004061558753865518,
-      "grad_norm": 29.870113372802734,
       "learning_rate": 0.0002,
-      "loss": 1.3471,
       "step": 101
     },
     {
-      "epoch": 0.0004101772206874088,
-      "grad_norm": 12.41720962524414,
       "learning_rate": 0.0002,
-      "loss": 1.6199,
       "step": 102
     },
     {
-      "epoch": 0.0004141985659882657,
-      "grad_norm": 17.7427978515625,
       "learning_rate": 0.0002,
-      "loss": 1.2317,
       "step": 103
     },
     {
-      "epoch": 0.00041821991128912267,
-      "grad_norm": 10.443873405456543,
       "learning_rate": 0.0002,
-      "loss": 1.352,
       "step": 104
     },
     {
-      "epoch": 0.00042224125658997964,
-      "grad_norm": 10.916038513183594,
       "learning_rate": 0.0002,
-      "loss": 1.2256,
       "step": 105
     },
     {
-      "epoch": 0.00042626260189083655,
-      "grad_norm": 22.543190002441406,
       "learning_rate": 0.0002,
-      "loss": 1.9063,
       "step": 106
     },
     {
-      "epoch": 0.0004302839471916935,
-      "grad_norm": 13.181563377380371,
       "learning_rate": 0.0002,
-      "loss": 1.3225,
       "step": 107
     },
     {
-      "epoch": 0.0004343052924925505,
-      "grad_norm": 7.7589898109436035,
       "learning_rate": 0.0002,
-      "loss": 1.1763,
       "step": 108
     },
     {
-      "epoch": 0.0004383266377934074,
-      "grad_norm": 42.25303268432617,
       "learning_rate": 0.0002,
-      "loss": 1.6523,
       "step": 109
     },
     {
-      "epoch": 0.00044234798309426436,
-      "grad_norm": 11.621317863464355,
       "learning_rate": 0.0002,
-      "loss": 1.06,
       "step": 110
     },
     {
-      "epoch": 0.0004463693283951213,
-      "grad_norm": 19.160158157348633,
       "learning_rate": 0.0002,
-      "loss": 1.9047,
       "step": 111
     },
     {
-      "epoch": 0.00045039067369597824,
-      "grad_norm": 8.714892387390137,
       "learning_rate": 0.0002,
-      "loss": 1.1184,
       "step": 112
     },
     {
-      "epoch": 0.0004544120189968352,
-      "grad_norm": 24.73910140991211,
       "learning_rate": 0.0002,
-      "loss": 2.4336,
       "step": 113
     },
     {
-      "epoch": 0.00045843336429769217,
-      "grad_norm": 11.352472305297852,
       "learning_rate": 0.0002,
-      "loss": 1.5641,
       "step": 114
     },
     {
-      "epoch": 0.0004624547095985491,
-      "grad_norm": 9.388741493225098,
       "learning_rate": 0.0002,
-      "loss": 1.0202,
       "step": 115
     },
     {
-      "epoch": 0.00046647605489940605,
-      "grad_norm": 10.607665061950684,
       "learning_rate": 0.0002,
-      "loss": 1.1882,
       "step": 116
     },
     {
-      "epoch": 0.000470497400200263,
-      "grad_norm": 11.667326927185059,
       "learning_rate": 0.0002,
-      "loss": 0.9898,
       "step": 117
     },
     {
-      "epoch": 0.00047451874550111993,
-      "grad_norm": 13.278824806213379,
       "learning_rate": 0.0002,
-      "loss": 1.6049,
       "step": 118
     },
     {
-      "epoch": 0.0004785400908019769,
-      "grad_norm": 19.007776260375977,
       "learning_rate": 0.0002,
-      "loss": 1.3523,
       "step": 119
     },
     {
-      "epoch": 0.00048256143610283386,
-      "grad_norm": 25.230680465698242,
       "learning_rate": 0.0002,
-      "loss": 1.3257,
       "step": 120
     },
     {
-      "epoch": 0.0004865827814036908,
-      "grad_norm": 7.6431450843811035,
       "learning_rate": 0.0002,
-      "loss": 0.9766,
       "step": 121
     },
     {
-      "epoch": 0.0004906041267045477,
-      "grad_norm": 7.645576477050781,
       "learning_rate": 0.0002,
-      "loss": 0.9987,
       "step": 122
     },
     {
-      "epoch": 0.0004946254720054047,
-      "grad_norm": 13.02873420715332,
       "learning_rate": 0.0002,
-      "loss": 1.0794,
       "step": 123
     },
     {
-      "epoch": 0.0004986468173062617,
-      "grad_norm": 57.77375411987305,
       "learning_rate": 0.0002,
-      "loss": 1.8805,
       "step": 124
     },
     {
-      "epoch": 0.0005026681626071186,
-      "grad_norm": 18.01174545288086,
       "learning_rate": 0.0002,
-      "loss": 1.351,
       "step": 125
     },
     {
-      "epoch": 0.0005066895079079755,
-      "grad_norm": 16.48109245300293,
       "learning_rate": 0.0002,
-      "loss": 1.5716,
       "step": 126
     },
     {
-      "epoch": 0.0005107108532088325,
-      "grad_norm": 15.327945709228516,
       "learning_rate": 0.0002,
-      "loss": 1.1796,
       "step": 127
     },
     {
-      "epoch": 0.0005147321985096894,
-      "grad_norm": 56.11573028564453,
       "learning_rate": 0.0002,
-      "loss": 2.877,
       "step": 128
     },
     {
-      "epoch": 0.0005187535438105463,
-      "grad_norm": 23.577686309814453,
       "learning_rate": 0.0002,
-      "loss": 1.2067,
       "step": 129
     },
     {
-      "epoch": 0.0005227748891114034,
-      "grad_norm": 38.37621307373047,
       "learning_rate": 0.0002,
-      "loss": 1.402,
       "step": 130
     },
     {
-      "epoch": 0.0005267962344122603,
-      "grad_norm": 9.98384952545166,
       "learning_rate": 0.0002,
-      "loss": 1.3932,
       "step": 131
     },
     {
-      "epoch": 0.0005308175797131172,
-      "grad_norm": 9.067256927490234,
       "learning_rate": 0.0002,
-      "loss": 0.9654,
       "step": 132
     },
     {
-      "epoch": 0.0005348389250139742,
-      "grad_norm": 9.063508033752441,
       "learning_rate": 0.0002,
-      "loss": 1.413,
       "step": 133
     },
     {
-      "epoch": 0.0005388602703148311,
-      "grad_norm": 13.763749122619629,
       "learning_rate": 0.0002,
-      "loss": 1.5151,
       "step": 134
     },
     {
-      "epoch": 0.000542881615615688,
-      "grad_norm": 35.761844635009766,
       "learning_rate": 0.0002,
-      "loss": 2.3071,
       "step": 135
     },
     {
-      "epoch": 0.000546902960916545,
-      "grad_norm": 10.740913391113281,
       "learning_rate": 0.0002,
-      "loss": 1.3204,
       "step": 136
     },
     {
-      "epoch": 0.000550924306217402,
-      "grad_norm": 29.596393585205078,
       "learning_rate": 0.0002,
-      "loss": 1.6114,
       "step": 137
     },
     {
-      "epoch": 0.0005549456515182589,
-      "grad_norm": 11.534493446350098,
       "learning_rate": 0.0002,
-      "loss": 1.584,
       "step": 138
     },
     {
-      "epoch": 0.0005589669968191159,
-      "grad_norm": 14.048515319824219,
       "learning_rate": 0.0002,
-      "loss": 1.8239,
       "step": 139
     },
     {
-      "epoch": 0.0005629883421199728,
-      "grad_norm": 15.496759414672852,
       "learning_rate": 0.0002,
-      "loss": 1.4984,
       "step": 140
     },
     {
-      "epoch": 0.0005670096874208297,
-      "grad_norm": 20.077861785888672,
       "learning_rate": 0.0002,
-      "loss": 1.3176,
       "step": 141
     },
     {
-      "epoch": 0.0005710310327216867,
-      "grad_norm": 13.013651847839355,
       "learning_rate": 0.0002,
-      "loss": 1.5781,
       "step": 142
     },
     {
-      "epoch": 0.0005750523780225437,
-      "grad_norm": 8.42491340637207,
       "learning_rate": 0.0002,
-      "loss": 1.175,
       "step": 143
     },
     {
-      "epoch": 0.0005790737233234006,
-      "grad_norm": 13.043536186218262,
       "learning_rate": 0.0002,
-      "loss": 1.6594,
       "step": 144
     },
     {
-      "epoch": 0.0005830950686242576,
-      "grad_norm": 8.459278106689453,
       "learning_rate": 0.0002,
-      "loss": 1.2524,
       "step": 145
     },
     {
-      "epoch": 0.0005871164139251145,
-      "grad_norm": 16.37969207763672,
       "learning_rate": 0.0002,
-      "loss": 1.0042,
       "step": 146
     },
     {
-      "epoch": 0.0005911377592259714,
-      "grad_norm": 11.152143478393555,
       "learning_rate": 0.0002,
-      "loss": 1.5675,
       "step": 147
     },
     {
-      "epoch": 0.0005951591045268284,
-      "grad_norm": 24.192337036132812,
       "learning_rate": 0.0002,
-      "loss": 1.4515,
       "step": 148
     },
     {
-      "epoch": 0.0005991804498276853,
-      "grad_norm": 14.054618835449219,
       "learning_rate": 0.0002,
-      "loss": 1.4857,
       "step": 149
     },
     {
-      "epoch": 0.0006032017951285423,
-      "grad_norm": 11.309020042419434,
       "learning_rate": 0.0002,
-      "loss": 1.2878,
       "step": 150
     },
     {
-      "epoch": 0.0006072231404293993,
-      "grad_norm": 16.008554458618164,
       "learning_rate": 0.0002,
-      "loss": 1.2043,
       "step": 151
     },
     {
-      "epoch": 0.0006112444857302562,
-      "grad_norm": 9.693023681640625,
       "learning_rate": 0.0002,
-      "loss": 1.1373,
       "step": 152
     },
     {
-      "epoch": 0.0006152658310311131,
-      "grad_norm": 18.5133056640625,
       "learning_rate": 0.0002,
-      "loss": 2.0182,
       "step": 153
     },
     {
-      "epoch": 0.0006192871763319701,
-      "grad_norm": 13.03020191192627,
       "learning_rate": 0.0002,
-      "loss": 1.1401,
       "step": 154
     },
     {
-      "epoch": 0.000623308521632827,
-      "grad_norm": 18.04163932800293,
       "learning_rate": 0.0002,
-      "loss": 1.2094,
       "step": 155
     },
     {
-      "epoch": 0.000627329866933684,
-      "grad_norm": 27.854990005493164,
       "learning_rate": 0.0002,
-      "loss": 1.6173,
       "step": 156
     },
     {
-      "epoch": 0.000631351212234541,
-      "grad_norm": 10.695880889892578,
       "learning_rate": 0.0002,
-      "loss": 1.5821,
       "step": 157
     },
     {
-      "epoch": 0.0006353725575353979,
-      "grad_norm": 65.75477600097656,
       "learning_rate": 0.0002,
-      "loss": 4.1151,
       "step": 158
     },
     {
-      "epoch": 0.0006393939028362548,
-      "grad_norm": 51.57217025756836,
       "learning_rate": 0.0002,
-      "loss": 2.5532,
       "step": 159
     },
     {
-      "epoch": 0.0006434152481371118,
-      "grad_norm": 12.791463851928711,
       "learning_rate": 0.0002,
-      "loss": 1.438,
       "step": 160
     },
     {
-      "epoch": 0.0006474365934379687,
-      "grad_norm": 12.390244483947754,
       "learning_rate": 0.0002,
-      "loss": 1.7736,
       "step": 161
     },
     {
-      "epoch": 0.0006514579387388256,
-      "grad_norm": 32.154598236083984,
       "learning_rate": 0.0002,
-      "loss": 1.7178,
       "step": 162
     },
     {
-      "epoch": 0.0006554792840396827,
-      "grad_norm": 16.198659896850586,
       "learning_rate": 0.0002,
-      "loss": 1.8435,
       "step": 163
     },
     {
-      "epoch": 0.0006595006293405396,
-      "grad_norm": 21.361989974975586,
       "learning_rate": 0.0002,
-      "loss": 1.7035,
       "step": 164
     },
     {
-      "epoch": 0.0006635219746413965,
-      "grad_norm": 9.898756980895996,
       "learning_rate": 0.0002,
-      "loss": 1.3707,
       "step": 165
     },
     {
-      "epoch": 0.0006675433199422535,
-      "grad_norm": 16.237110137939453,
       "learning_rate": 0.0002,
-      "loss": 1.5044,
       "step": 166
     },
     {
-      "epoch": 0.0006715646652431104,
-      "grad_norm": 22.132568359375,
       "learning_rate": 0.0002,
-      "loss": 1.491,
       "step": 167
     },
     {
-      "epoch": 0.0006755860105439673,
-      "grad_norm": 13.93227481842041,
       "learning_rate": 0.0002,
-      "loss": 1.0854,
       "step": 168
     },
     {
-      "epoch": 0.0006796073558448244,
-      "grad_norm": 15.528178215026855,
       "learning_rate": 0.0002,
-      "loss": 1.4709,
       "step": 169
     },
     {
-      "epoch": 0.0006836287011456813,
-      "grad_norm": 16.82071876525879,
       "learning_rate": 0.0002,
-      "loss": 1.8743,
       "step": 170
     },
     {
-      "epoch": 0.0006876500464465382,
-      "grad_norm": 28.489633560180664,
       "learning_rate": 0.0002,
-      "loss": 1.432,
       "step": 171
     },
     {
-      "epoch": 0.0006916713917473952,
-      "grad_norm": 13.395151138305664,
       "learning_rate": 0.0002,
-      "loss": 1.3452,
       "step": 172
     },
     {
-      "epoch": 0.0006956927370482521,
-      "grad_norm": 12.414864540100098,
       "learning_rate": 0.0002,
-      "loss": 1.5916,
       "step": 173
     },
     {
-      "epoch": 0.000699714082349109,
-      "grad_norm": 12.605962753295898,
       "learning_rate": 0.0002,
-      "loss": 1.5301,
       "step": 174
     },
     {
-      "epoch": 0.000703735427649966,
-      "grad_norm": 8.837152481079102,
       "learning_rate": 0.0002,
-      "loss": 1.4052,
       "step": 175
     },
     {
-      "epoch": 0.000707756772950823,
-      "grad_norm": 15.721978187561035,
       "learning_rate": 0.0002,
-      "loss": 2.087,
       "step": 176
     },
     {
-      "epoch": 0.0007117781182516799,
-      "grad_norm": 14.101908683776855,
       "learning_rate": 0.0002,
-      "loss": 0.9505,
       "step": 177
     },
     {
-      "epoch": 0.0007157994635525369,
-      "grad_norm": 11.634686470031738,
       "learning_rate": 0.0002,
-      "loss": 1.6044,
       "step": 178
     },
     {
-      "epoch": 0.0007198208088533938,
-      "grad_norm": 20.826696395874023,
       "learning_rate": 0.0002,
-      "loss": 2.5433,
       "step": 179
     },
     {
-      "epoch": 0.0007238421541542507,
-      "grad_norm": 17.852861404418945,
       "learning_rate": 0.0002,
-      "loss": 1.6406,
       "step": 180
     },
     {
-      "epoch": 0.0007278634994551077,
-      "grad_norm": 11.486310958862305,
       "learning_rate": 0.0002,
-      "loss": 1.1016,
       "step": 181
     },
     {
-      "epoch": 0.0007318848447559646,
-      "grad_norm": 13.983698844909668,
       "learning_rate": 0.0002,
-      "loss": 1.5827,
       "step": 182
     },
     {
-      "epoch": 0.0007359061900568216,
-      "grad_norm": 16.355886459350586,
       "learning_rate": 0.0002,
-      "loss": 1.9982,
       "step": 183
     },
     {
-      "epoch": 0.0007399275353576786,
-      "grad_norm": 10.875386238098145,
       "learning_rate": 0.0002,
-      "loss": 0.8674,
       "step": 184
     },
     {
-      "epoch": 0.0007439488806585355,
-      "grad_norm": 14.478775024414062,
       "learning_rate": 0.0002,
-      "loss": 1.8666,
       "step": 185
     },
     {
-      "epoch": 0.0007479702259593924,
-      "grad_norm": 20.979000091552734,
       "learning_rate": 0.0002,
-      "loss": 1.8665,
       "step": 186
     },
     {
-      "epoch": 0.0007519915712602494,
-      "grad_norm": 11.725519180297852,
       "learning_rate": 0.0002,
-      "loss": 1.291,
       "step": 187
     },
     {
-      "epoch": 0.0007560129165611063,
-      "grad_norm": 12.288352012634277,
       "learning_rate": 0.0002,
-      "loss": 1.1208,
       "step": 188
     },
     {
-      "epoch": 0.0007600342618619634,
-      "grad_norm": 23.79787826538086,
       "learning_rate": 0.0002,
-      "loss": 1.9853,
       "step": 189
     },
     {
-      "epoch": 0.0007640556071628203,
-      "grad_norm": 28.1628475189209,
       "learning_rate": 0.0002,
-      "loss": 1.5199,
       "step": 190
     },
     {
-      "epoch": 0.0007680769524636772,
-      "grad_norm": 21.436002731323242,
       "learning_rate": 0.0002,
-      "loss": 1.9569,
       "step": 191
     },
     {
-      "epoch": 0.0007720982977645342,
-      "grad_norm": 12.12016773223877,
       "learning_rate": 0.0002,
-      "loss": 1.3846,
       "step": 192
     },
     {
-      "epoch": 0.0007761196430653911,
-      "grad_norm": 24.61306381225586,
       "learning_rate": 0.0002,
-      "loss": 2.4186,
       "step": 193
     },
     {
-      "epoch": 0.000780140988366248,
-      "grad_norm": 11.681290626525879,
       "learning_rate": 0.0002,
-      "loss": 1.7408,
       "step": 194
     },
     {
-      "epoch": 0.000784162333667105,
-      "grad_norm": 21.627490997314453,
       "learning_rate": 0.0002,
-      "loss": 1.3919,
       "step": 195
     },
     {
-      "epoch": 0.000788183678967962,
-      "grad_norm": 11.827309608459473,
       "learning_rate": 0.0002,
-      "loss": 1.8474,
       "step": 196
     },
     {
-      "epoch": 0.0007922050242688189,
-      "grad_norm": 13.740830421447754,
       "learning_rate": 0.0002,
-      "loss": 1.2792,
       "step": 197
     },
     {
-      "epoch": 0.0007962263695696759,
-      "grad_norm": 10.612765312194824,
       "learning_rate": 0.0002,
-      "loss": 1.3391,
       "step": 198
     },
     {
-      "epoch": 0.0008002477148705328,
-      "grad_norm": 23.91811180114746,
       "learning_rate": 0.0002,
-      "loss": 1.5853,
       "step": 199
     },
     {
-      "epoch": 0.0008042690601713897,
-      "grad_norm": 13.433571815490723,
       "learning_rate": 0.0002,
-      "loss": 1.0399,
       "step": 200
     },
     {
-      "epoch": 0.0008042690601713897,
-      "eval_loss": 1.4612168073654175,
-      "eval_runtime": 32.2018,
-      "eval_samples_per_second": 7.732,
-      "eval_steps_per_second": 7.732,
       "step": 200
     }
   ],
   "logging_steps": 1,
-  "max_steps": 746019,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 200,
@@ -1451,7 +1451,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1476424284241920.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7864285707473755,
   "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.003217076240685559,
   "eval_steps": 200,
   "global_step": 200,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.6085381203427795e-05,
+      "grad_norm": 0.9673656821250916,
       "learning_rate": 2e-05,
+      "loss": 0.5297,
       "step": 1
     },
     {
+      "epoch": 1.6085381203427795e-05,
+      "eval_loss": 0.46725764870643616,
+      "eval_runtime": 25.4799,
+      "eval_samples_per_second": 9.772,
+      "eval_steps_per_second": 9.772,
       "step": 1
     },
     {
+      "epoch": 3.217076240685559e-05,
+      "grad_norm": 0.9954096078872681,
       "learning_rate": 4e-05,
+      "loss": 0.6221,
       "step": 2
     },
     {
+      "epoch": 4.825614361028339e-05,
+      "grad_norm": 0.8733547329902649,
       "learning_rate": 6e-05,
+      "loss": 0.4143,
       "step": 3
     },
     {
+      "epoch": 6.434152481371118e-05,
+      "grad_norm": 0.8365621566772461,
       "learning_rate": 8e-05,
+      "loss": 0.2579,
       "step": 4
     },
     {
+      "epoch": 8.042690601713898e-05,
+      "grad_norm": 1.2265547513961792,
       "learning_rate": 0.0001,
+      "loss": 0.4713,
       "step": 5
     },
     {
+      "epoch": 9.651228722056678e-05,
+      "grad_norm": 1.1219959259033203,
       "learning_rate": 0.00012,
+      "loss": 0.4131,
       "step": 6
     },
     {
+      "epoch": 0.00011259766842399456,
+      "grad_norm": 1.630370855331421,
       "learning_rate": 0.00014,
+      "loss": 0.5203,
       "step": 7
     },
     {
+      "epoch": 0.00012868304962742236,
+      "grad_norm": 1.959912896156311,
       "learning_rate": 0.00016,
+      "loss": 0.6619,
       "step": 8
     },
     {
+      "epoch": 0.00014476843083085014,
+      "grad_norm": 2.2232961654663086,
       "learning_rate": 0.00018,
+      "loss": 0.5758,
       "step": 9
     },
     {
+      "epoch": 0.00016085381203427795,
+      "grad_norm": 2.4021875858306885,
       "learning_rate": 0.0002,
+      "loss": 0.5578,
       "step": 10
     },
     {
+      "epoch": 0.00017693919323770574,
+      "grad_norm": 2.4358997344970703,
       "learning_rate": 0.0002,
+      "loss": 0.5025,
       "step": 11
     },
     {
+      "epoch": 0.00019302457444113355,
+      "grad_norm": 2.9442031383514404,
       "learning_rate": 0.0002,
+      "loss": 0.6399,
       "step": 12
     },
     {
+      "epoch": 0.00020910995564456133,
+      "grad_norm": 3.2934744358062744,
       "learning_rate": 0.0002,
+      "loss": 0.7238,
       "step": 13
     },
     {
+      "epoch": 0.00022519533684798912,
+      "grad_norm": 2.135126829147339,
       "learning_rate": 0.0002,
+      "loss": 0.6701,
       "step": 14
     },
     {
+      "epoch": 0.00024128071805141693,
+      "grad_norm": 3.4425387382507324,
       "learning_rate": 0.0002,
+      "loss": 0.7285,
       "step": 15
     },
     {
+      "epoch": 0.0002573660992548447,
+      "grad_norm": 4.053037166595459,
       "learning_rate": 0.0002,
+      "loss": 0.6067,
       "step": 16
     },
     {
+      "epoch": 0.0002734514804582725,
+      "grad_norm": 1.9749451875686646,
       "learning_rate": 0.0002,
+      "loss": 0.6545,
       "step": 17
     },
     {
+      "epoch": 0.0002895368616617003,
+      "grad_norm": 2.6539998054504395,
       "learning_rate": 0.0002,
+      "loss": 0.5582,
       "step": 18
     },
     {
+      "epoch": 0.0003056222428651281,
+      "grad_norm": 4.1893205642700195,
       "learning_rate": 0.0002,
+      "loss": 0.6518,
       "step": 19
     },
     {
+      "epoch": 0.0003217076240685559,
+      "grad_norm": 2.7660045623779297,
       "learning_rate": 0.0002,
+      "loss": 0.619,
       "step": 20
     },
     {
+      "epoch": 0.00033779300527198367,
+      "grad_norm": 3.1297731399536133,
       "learning_rate": 0.0002,
+      "loss": 0.6169,
       "step": 21
     },
     {
+      "epoch": 0.0003538783864754115,
+      "grad_norm": 2.4766297340393066,
       "learning_rate": 0.0002,
+      "loss": 0.671,
       "step": 22
     },
     {
+      "epoch": 0.0003699637676788393,
+      "grad_norm": 1.840955376625061,
       "learning_rate": 0.0002,
+      "loss": 0.5704,
       "step": 23
     },
     {
+      "epoch": 0.0003860491488822671,
+      "grad_norm": 2.017615556716919,
       "learning_rate": 0.0002,
+      "loss": 0.4936,
       "step": 24
     },
     {
+      "epoch": 0.00040213453008569486,
+      "grad_norm": 2.527812957763672,
       "learning_rate": 0.0002,
+      "loss": 0.436,
       "step": 25
     },
     {
+      "epoch": 0.00041821991128912267,
+      "grad_norm": 2.738335132598877,
       "learning_rate": 0.0002,
+      "loss": 0.6511,
       "step": 26
     },
     {
+      "epoch": 0.0004343052924925505,
+      "grad_norm": 2.6857173442840576,
       "learning_rate": 0.0002,
+      "loss": 0.8459,
       "step": 27
     },
     {
+      "epoch": 0.00045039067369597824,
+      "grad_norm": 3.223954200744629,
       "learning_rate": 0.0002,
+      "loss": 0.5558,
       "step": 28
     },
     {
+      "epoch": 0.00046647605489940605,
+      "grad_norm": 2.828322649002075,
       "learning_rate": 0.0002,
+      "loss": 0.7201,
       "step": 29
     },
     {
+      "epoch": 0.00048256143610283386,
+      "grad_norm": 3.2195804119110107,
       "learning_rate": 0.0002,
+      "loss": 0.5933,
       "step": 30
     },
     {
+      "epoch": 0.0004986468173062617,
+      "grad_norm": 2.4919071197509766,
       "learning_rate": 0.0002,
+      "loss": 0.5764,
       "step": 31
     },
     {
+      "epoch": 0.0005147321985096894,
+      "grad_norm": 4.92438268661499,
       "learning_rate": 0.0002,
+      "loss": 0.9201,
       "step": 32
     },
     {
+      "epoch": 0.0005308175797131172,
+      "grad_norm": 2.232290267944336,
       "learning_rate": 0.0002,
+      "loss": 0.5863,
       "step": 33
     },
     {
+      "epoch": 0.000546902960916545,
+      "grad_norm": 3.7385706901550293,
       "learning_rate": 0.0002,
+      "loss": 0.9086,
       "step": 34
     },
     {
+      "epoch": 0.0005629883421199728,
+      "grad_norm": 3.262006998062134,
       "learning_rate": 0.0002,
+      "loss": 0.6261,
       "step": 35
     },
     {
+      "epoch": 0.0005790737233234006,
+      "grad_norm": 2.7973763942718506,
       "learning_rate": 0.0002,
+      "loss": 0.6955,
       "step": 36
     },
     {
+      "epoch": 0.0005951591045268284,
+      "grad_norm": 3.127302885055542,
       "learning_rate": 0.0002,
+      "loss": 0.7446,
       "step": 37
     },
     {
+      "epoch": 0.0006112444857302562,
+      "grad_norm": 2.1533172130584717,
       "learning_rate": 0.0002,
+      "loss": 0.5484,
       "step": 38
     },
     {
+      "epoch": 0.000627329866933684,
+      "grad_norm": 4.116796016693115,
       "learning_rate": 0.0002,
+      "loss": 0.7521,
       "step": 39
     },
     {
+      "epoch": 0.0006434152481371118,
+      "grad_norm": 4.400921821594238,
       "learning_rate": 0.0002,
+      "loss": 0.9317,
       "step": 40
     },
     {
+      "epoch": 0.0006595006293405396,
+      "grad_norm": 2.6137619018554688,
       "learning_rate": 0.0002,
+      "loss": 0.7086,
       "step": 41
     },
     {
+      "epoch": 0.0006755860105439673,
+      "grad_norm": 2.341974973678589,
       "learning_rate": 0.0002,
+      "loss": 0.5551,
       "step": 42
     },
     {
+      "epoch": 0.0006916713917473952,
+      "grad_norm": 2.7685954570770264,
       "learning_rate": 0.0002,
+      "loss": 0.7665,
       "step": 43
     },
     {
+      "epoch": 0.000707756772950823,
+      "grad_norm": 3.1898794174194336,
       "learning_rate": 0.0002,
+      "loss": 0.8037,
       "step": 44
     },
     {
+      "epoch": 0.0007238421541542507,
+      "grad_norm": 3.215623617172241,
       "learning_rate": 0.0002,
+      "loss": 0.9811,
       "step": 45
     },
     {
+      "epoch": 0.0007399275353576786,
+      "grad_norm": 3.3365135192871094,
       "learning_rate": 0.0002,
+      "loss": 0.7127,
       "step": 46
     },
     {
+      "epoch": 0.0007560129165611063,
+      "grad_norm": 4.518591403961182,
       "learning_rate": 0.0002,
+      "loss": 0.797,
       "step": 47
     },
     {
+      "epoch": 0.0007720982977645342,
+      "grad_norm": 2.179842948913574,
       "learning_rate": 0.0002,
+      "loss": 0.7091,
       "step": 48
     },
     {
+      "epoch": 0.000788183678967962,
+      "grad_norm": 2.5702974796295166,
       "learning_rate": 0.0002,
+      "loss": 0.8829,
       "step": 49
     },
     {
+      "epoch": 0.0008042690601713897,
+      "grad_norm": 2.2742362022399902,
       "learning_rate": 0.0002,
+      "loss": 0.5818,
       "step": 50
     },
     {
+      "epoch": 0.0008203544413748176,
+      "grad_norm": 3.2687766551971436,
       "learning_rate": 0.0002,
+      "loss": 0.7228,
       "step": 51
     },
     {
+      "epoch": 0.0008364398225782453,
+      "grad_norm": 3.5674126148223877,
       "learning_rate": 0.0002,
+      "loss": 0.8874,
       "step": 52
     },
     {
+      "epoch": 0.0008525252037816731,
+      "grad_norm": 2.703923225402832,
       "learning_rate": 0.0002,
+      "loss": 0.6596,
       "step": 53
     },
     {
+      "epoch": 0.000868610584985101,
+      "grad_norm": 2.3442795276641846,
       "learning_rate": 0.0002,
+      "loss": 0.8213,
       "step": 54
     },
     {
+      "epoch": 0.0008846959661885287,
+      "grad_norm": 3.142275094985962,
       "learning_rate": 0.0002,
+      "loss": 0.8181,
       "step": 55
     },
     {
+      "epoch": 0.0009007813473919565,
+      "grad_norm": 4.0531487464904785,
       "learning_rate": 0.0002,
+      "loss": 0.5939,
       "step": 56
     },
     {
+      "epoch": 0.0009168667285953843,
+      "grad_norm": 4.309750556945801,
       "learning_rate": 0.0002,
+      "loss": 0.867,
       "step": 57
     },
     {
+      "epoch": 0.0009329521097988121,
+      "grad_norm": 3.4528746604919434,
       "learning_rate": 0.0002,
+      "loss": 0.5944,
       "step": 58
     },
     {
+      "epoch": 0.0009490374910022399,
+      "grad_norm": 3.531193494796753,
       "learning_rate": 0.0002,
+      "loss": 0.7985,
       "step": 59
     },
     {
+      "epoch": 0.0009651228722056677,
+      "grad_norm": 3.000215768814087,
       "learning_rate": 0.0002,
+      "loss": 0.7939,
       "step": 60
     },
     {
+      "epoch": 0.0009812082534090955,
+      "grad_norm": 4.317079067230225,
       "learning_rate": 0.0002,
+      "loss": 0.6823,
       "step": 61
     },
     {
+      "epoch": 0.0009972936346125233,
+      "grad_norm": 3.4617133140563965,
       "learning_rate": 0.0002,
+      "loss": 0.7672,
       "step": 62
     },
     {
+      "epoch": 0.001013379015815951,
+      "grad_norm": 3.625797986984253,
       "learning_rate": 0.0002,
+      "loss": 0.7985,
       "step": 63
     },
     {
+      "epoch": 0.0010294643970193789,
+      "grad_norm": 4.261772632598877,
       "learning_rate": 0.0002,
+      "loss": 0.8154,
       "step": 64
     },
     {
+      "epoch": 0.0010455497782228067,
+      "grad_norm": 3.3078057765960693,
       "learning_rate": 0.0002,
+      "loss": 0.7663,
       "step": 65
     },
     {
+      "epoch": 0.0010616351594262344,
+      "grad_norm": 2.1908516883850098,
       "learning_rate": 0.0002,
+      "loss": 0.6996,
       "step": 66
     },
     {
+      "epoch": 0.0010777205406296622,
+      "grad_norm": 2.491776943206787,
       "learning_rate": 0.0002,
+      "loss": 0.659,
       "step": 67
     },
     {
+      "epoch": 0.00109380592183309,
+      "grad_norm": 2.7965214252471924,
       "learning_rate": 0.0002,
+      "loss": 0.6798,
       "step": 68
     },
     {
+      "epoch": 0.0011098913030365178,
+      "grad_norm": 3.3033552169799805,
       "learning_rate": 0.0002,
+      "loss": 0.9425,
       "step": 69
     },
     {
+      "epoch": 0.0011259766842399456,
+      "grad_norm": 2.6152732372283936,
       "learning_rate": 0.0002,
+      "loss": 0.9675,
       "step": 70
     },
     {
+      "epoch": 0.0011420620654433735,
+      "grad_norm": 2.942465305328369,
       "learning_rate": 0.0002,
+      "loss": 0.8886,
       "step": 71
     },
     {
+      "epoch": 0.0011581474466468011,
+      "grad_norm": 3.2040352821350098,
       "learning_rate": 0.0002,
+      "loss": 0.7208,
       "step": 72
     },
     {
+      "epoch": 0.001174232827850229,
+      "grad_norm": 5.6633501052856445,
       "learning_rate": 0.0002,
+      "loss": 0.9701,
       "step": 73
     },
     {
+      "epoch": 0.0011903182090536569,
+      "grad_norm": 2.924656867980957,
       "learning_rate": 0.0002,
+      "loss": 0.6366,
       "step": 74
     },
     {
+      "epoch": 0.0012064035902570845,
+      "grad_norm": 3.251835584640503,
       "learning_rate": 0.0002,
+      "loss": 0.8638,
       "step": 75
     },
     {
+      "epoch": 0.0012224889714605124,
+      "grad_norm": 3.145000696182251,
       "learning_rate": 0.0002,
+      "loss": 0.6692,
       "step": 76
     },
     {
+      "epoch": 0.0012385743526639402,
+      "grad_norm": 2.7392325401306152,
       "learning_rate": 0.0002,
+      "loss": 0.7459,
       "step": 77
     },
     {
+      "epoch": 0.001254659733867368,
+      "grad_norm": 2.8011040687561035,
       "learning_rate": 0.0002,
+      "loss": 0.7722,
       "step": 78
     },
     {
+      "epoch": 0.0012707451150707958,
+      "grad_norm": 3.5295469760894775,
       "learning_rate": 0.0002,
+      "loss": 0.7733,
       "step": 79
     },
     {
+      "epoch": 0.0012868304962742236,
+      "grad_norm": 2.9453213214874268,
       "learning_rate": 0.0002,
+      "loss": 0.6945,
       "step": 80
     },
     {
+      "epoch": 0.0013029158774776513,
+      "grad_norm": 3.2154369354248047,
       "learning_rate": 0.0002,
+      "loss": 0.8776,
       "step": 81
     },
     {
+      "epoch": 0.0013190012586810791,
+      "grad_norm": 3.536776065826416,
       "learning_rate": 0.0002,
+      "loss": 0.8774,
       "step": 82
     },
     {
+      "epoch": 0.001335086639884507,
+      "grad_norm": 2.8547418117523193,
       "learning_rate": 0.0002,
+      "loss": 0.7109,
       "step": 83
     },
     {
+      "epoch": 0.0013511720210879347,
+      "grad_norm": 3.4063565731048584,
       "learning_rate": 0.0002,
+      "loss": 0.8466,
       "step": 84
     },
     {
+      "epoch": 0.0013672574022913625,
+      "grad_norm": 5.920643329620361,
       "learning_rate": 0.0002,
+      "loss": 0.8423,
       "step": 85
     },
     {
+      "epoch": 0.0013833427834947904,
+      "grad_norm": 4.299768924713135,
       "learning_rate": 0.0002,
+      "loss": 1.0802,
       "step": 86
     },
     {
+      "epoch": 0.001399428164698218,
+      "grad_norm": 3.5304558277130127,
       "learning_rate": 0.0002,
+      "loss": 0.8542,
       "step": 87
     },
     {
+      "epoch": 0.001415513545901646,
+      "grad_norm": 3.0248117446899414,
       "learning_rate": 0.0002,
+      "loss": 0.6346,
       "step": 88
     },
     {
+      "epoch": 0.0014315989271050738,
+      "grad_norm": 3.5863444805145264,
       "learning_rate": 0.0002,
+      "loss": 0.9679,
       "step": 89
     },
     {
+      "epoch": 0.0014476843083085014,
+      "grad_norm": 3.6556644439697266,
       "learning_rate": 0.0002,
+      "loss": 0.7355,
       "step": 90
     },
     {
+      "epoch": 0.0014637696895119293,
+      "grad_norm": 3.691444158554077,
       "learning_rate": 0.0002,
+      "loss": 0.8556,
       "step": 91
     },
     {
+      "epoch": 0.0014798550707153572,
+      "grad_norm": 3.8535704612731934,
       "learning_rate": 0.0002,
+      "loss": 1.0531,
       "step": 92
     },
     {
+      "epoch": 0.0014959404519187848,
+      "grad_norm": 3.402984619140625,
       "learning_rate": 0.0002,
+      "loss": 0.7127,
       "step": 93
     },
     {
+      "epoch": 0.0015120258331222127,
+      "grad_norm": 2.967519760131836,
       "learning_rate": 0.0002,
+      "loss": 0.7416,
       "step": 94
     },
     {
+      "epoch": 0.0015281112143256405,
+      "grad_norm": 4.5817718505859375,
       "learning_rate": 0.0002,
+      "loss": 0.6667,
       "step": 95
     },
     {
+      "epoch": 0.0015441965955290684,
+      "grad_norm": 4.2193379402160645,
       "learning_rate": 0.0002,
+      "loss": 0.6914,
       "step": 96
     },
     {
+      "epoch": 0.001560281976732496,
+      "grad_norm": 4.412436485290527,
       "learning_rate": 0.0002,
+      "loss": 0.6476,
       "step": 97
     },
     {
+      "epoch": 0.001576367357935924,
+      "grad_norm": 3.960810661315918,
       "learning_rate": 0.0002,
+      "loss": 0.6829,
       "step": 98
     },
     {
+      "epoch": 0.0015924527391393518,
+      "grad_norm": 4.494846343994141,
       "learning_rate": 0.0002,
+      "loss": 0.899,
       "step": 99
     },
     {
+      "epoch": 0.0016085381203427794,
+      "grad_norm": 5.150880813598633,
       "learning_rate": 0.0002,
+      "loss": 0.8743,
       "step": 100
     },
     {
+      "epoch": 0.0016246235015462073,
+      "grad_norm": 3.156965970993042,
       "learning_rate": 0.0002,
+      "loss": 0.754,
       "step": 101
     },
     {
+      "epoch": 0.0016407088827496352,
+      "grad_norm": 3.00789213180542,
       "learning_rate": 0.0002,
+      "loss": 0.8606,
       "step": 102
     },
     {
+      "epoch": 0.0016567942639530628,
+      "grad_norm": 3.9045052528381348,
       "learning_rate": 0.0002,
+      "loss": 0.833,
       "step": 103
     },
     {
+      "epoch": 0.0016728796451564907,
+      "grad_norm": 3.0179498195648193,
       "learning_rate": 0.0002,
+      "loss": 0.6971,
       "step": 104
     },
     {
+      "epoch": 0.0016889650263599185,
+      "grad_norm": 3.441555976867676,
       "learning_rate": 0.0002,
+      "loss": 0.9697,
       "step": 105
     },
     {
+      "epoch": 0.0017050504075633462,
+      "grad_norm": 3.4271888732910156,
       "learning_rate": 0.0002,
+      "loss": 0.8264,
       "step": 106
     },
     {
+      "epoch": 0.001721135788766774,
+      "grad_norm": 3.3394598960876465,
       "learning_rate": 0.0002,
+      "loss": 0.7529,
       "step": 107
     },
     {
+      "epoch": 0.001737221169970202,
+      "grad_norm": 4.098421573638916,
       "learning_rate": 0.0002,
+      "loss": 0.7967,
       "step": 108
     },
     {
+      "epoch": 0.0017533065511736296,
+      "grad_norm": 5.323544979095459,
       "learning_rate": 0.0002,
+      "loss": 0.9429,
       "step": 109
     },
     {
+      "epoch": 0.0017693919323770574,
+      "grad_norm": 3.8546035289764404,
       "learning_rate": 0.0002,
+      "loss": 0.8392,
       "step": 110
     },
     {
+      "epoch": 0.0017854773135804853,
+      "grad_norm": 3.514596939086914,
       "learning_rate": 0.0002,
+      "loss": 0.904,
       "step": 111
     },
     {
+      "epoch": 0.001801562694783913,
+      "grad_norm": 4.436436653137207,
       "learning_rate": 0.0002,
+      "loss": 0.8841,
       "step": 112
     },
     {
+      "epoch": 0.0018176480759873408,
+      "grad_norm": 3.042628049850464,
       "learning_rate": 0.0002,
+      "loss": 0.6856,
       "step": 113
     },
     {
+      "epoch": 0.0018337334571907687,
+      "grad_norm": 3.558793306350708,
       "learning_rate": 0.0002,
+      "loss": 0.9463,
       "step": 114
     },
     {
+      "epoch": 0.0018498188383941963,
+      "grad_norm": 3.0797207355499268,
       "learning_rate": 0.0002,
+      "loss": 0.7813,
       "step": 115
     },
     {
+      "epoch": 0.0018659042195976242,
+      "grad_norm": 3.2403101921081543,
       "learning_rate": 0.0002,
+      "loss": 0.9499,
       "step": 116
     },
     {
+      "epoch": 0.001881989600801052,
+      "grad_norm": 3.385939121246338,
       "learning_rate": 0.0002,
+      "loss": 0.6545,
       "step": 117
     },
     {
+      "epoch": 0.0018980749820044797,
+      "grad_norm": 3.525153636932373,
       "learning_rate": 0.0002,
+      "loss": 0.9449,
       "step": 118
     },
     {
+      "epoch": 0.0019141603632079076,
+      "grad_norm": 2.670220375061035,
       "learning_rate": 0.0002,
+      "loss": 0.6208,
       "step": 119
     },
     {
+      "epoch": 0.0019302457444113354,
+      "grad_norm": 3.3499555587768555,
       "learning_rate": 0.0002,
+      "loss": 0.833,
       "step": 120
     },
     {
+      "epoch": 0.001946331125614763,
+      "grad_norm": 5.413862705230713,
       "learning_rate": 0.0002,
+      "loss": 1.2186,
       "step": 121
     },
     {
+      "epoch": 0.001962416506818191,
+      "grad_norm": 3.637068271636963,
       "learning_rate": 0.0002,
+      "loss": 0.8746,
       "step": 122
     },
     {
+      "epoch": 0.0019785018880216186,
+      "grad_norm": 6.209028244018555,
       "learning_rate": 0.0002,
+      "loss": 1.1379,
       "step": 123
     },
     {
+      "epoch": 0.0019945872692250467,
+      "grad_norm": 4.2924418449401855,
       "learning_rate": 0.0002,
+      "loss": 1.0075,
       "step": 124
     },
     {
+      "epoch": 0.0020106726504284743,
+      "grad_norm": 2.749718427658081,
       "learning_rate": 0.0002,
+      "loss": 0.694,
       "step": 125
     },
     {
+      "epoch": 0.002026758031631902,
+      "grad_norm": 4.217276573181152,
       "learning_rate": 0.0002,
+      "loss": 0.778,
       "step": 126
     },
     {
+      "epoch": 0.00204284341283533,
+      "grad_norm": 3.031771421432495,
       "learning_rate": 0.0002,
+      "loss": 0.9696,
       "step": 127
     },
     {
+      "epoch": 0.0020589287940387577,
+      "grad_norm": 3.4838218688964844,
       "learning_rate": 0.0002,
+      "loss": 0.6629,
       "step": 128
     },
     {
+      "epoch": 0.0020750141752421854,
+      "grad_norm": 3.218451738357544,
       "learning_rate": 0.0002,
+      "loss": 0.6899,
       "step": 129
     },
     {
+      "epoch": 0.0020910995564456135,
+      "grad_norm": 3.4607691764831543,
       "learning_rate": 0.0002,
+      "loss": 0.6832,
       "step": 130
     },
     {
+      "epoch": 0.002107184937649041,
+      "grad_norm": 3.70224666595459,
       "learning_rate": 0.0002,
+      "loss": 0.7241,
       "step": 131
     },
     {
+      "epoch": 0.0021232703188524688,
+      "grad_norm": 4.122409820556641,
       "learning_rate": 0.0002,
+      "loss": 0.8109,
       "step": 132
     },
     {
+      "epoch": 0.002139355700055897,
+      "grad_norm": 3.3417394161224365,
       "learning_rate": 0.0002,
+      "loss": 0.6684,
       "step": 133
     },
     {
+      "epoch": 0.0021554410812593245,
+      "grad_norm": 3.019958972930908,
       "learning_rate": 0.0002,
+      "loss": 0.7826,
       "step": 134
     },
     {
+      "epoch": 0.002171526462462752,
+      "grad_norm": 3.201491117477417,
       "learning_rate": 0.0002,
+      "loss": 0.7875,
       "step": 135
     },
     {
+      "epoch": 0.00218761184366618,
+      "grad_norm": 5.85605525970459,
       "learning_rate": 0.0002,
+      "loss": 1.1128,
       "step": 136
     },
     {
+      "epoch": 0.002203697224869608,
+      "grad_norm": 3.976530075073242,
       "learning_rate": 0.0002,
+      "loss": 0.8679,
       "step": 137
     },
     {
+      "epoch": 0.0022197826060730355,
+      "grad_norm": 3.621382713317871,
       "learning_rate": 0.0002,
+      "loss": 0.7601,
       "step": 138
     },
     {
+      "epoch": 0.0022358679872764636,
+      "grad_norm": 18.2700252532959,
       "learning_rate": 0.0002,
+      "loss": 0.9312,
       "step": 139
     },
     {
+      "epoch": 0.0022519533684798912,
+      "grad_norm": 3.050555467605591,
       "learning_rate": 0.0002,
+      "loss": 0.9431,
       "step": 140
     },
     {
+      "epoch": 0.002268038749683319,
+      "grad_norm": 4.187278747558594,
       "learning_rate": 0.0002,
+      "loss": 1.16,
       "step": 141
     },
     {
+      "epoch": 0.002284124130886747,
+      "grad_norm": 2.9168365001678467,
       "learning_rate": 0.0002,
+      "loss": 0.7853,
       "step": 142
     },
     {
+      "epoch": 0.0023002095120901746,
+      "grad_norm": 118.312744140625,
       "learning_rate": 0.0002,
+      "loss": 1.1003,
       "step": 143
     },
     {
+      "epoch": 0.0023162948932936023,
+      "grad_norm": 4.7243971824646,
       "learning_rate": 0.0002,
+      "loss": 0.694,
       "step": 144
     },
     {
+      "epoch": 0.0023323802744970304,
+      "grad_norm": 4.773429870605469,
       "learning_rate": 0.0002,
+      "loss": 0.7167,
       "step": 145
     },
     {
+      "epoch": 0.002348465655700458,
+      "grad_norm": 6.2195868492126465,
       "learning_rate": 0.0002,
+      "loss": 0.7979,
       "step": 146
     },
     {
+      "epoch": 0.0023645510369038857,
+      "grad_norm": 12.494455337524414,
       "learning_rate": 0.0002,
+      "loss": 1.2257,
       "step": 147
     },
     {
+      "epoch": 0.0023806364181073137,
+      "grad_norm": 6.841114521026611,
       "learning_rate": 0.0002,
+      "loss": 1.28,
       "step": 148
     },
     {
+      "epoch": 0.0023967217993107414,
+      "grad_norm": 5.901433944702148,
       "learning_rate": 0.0002,
+      "loss": 0.826,
       "step": 149
     },
     {
+      "epoch": 0.002412807180514169,
+      "grad_norm": 7.198768615722656,
       "learning_rate": 0.0002,
+      "loss": 0.7969,
       "step": 150
     },
     {
+      "epoch": 0.002428892561717597,
+      "grad_norm": 9.673176765441895,
       "learning_rate": 0.0002,
+      "loss": 0.8828,
       "step": 151
     },
     {
+      "epoch": 0.0024449779429210248,
+      "grad_norm": 10.305676460266113,
       "learning_rate": 0.0002,
+      "loss": 0.8668,
       "step": 152
     },
     {
+      "epoch": 0.0024610633241244524,
+      "grad_norm": 14.00606632232666,
       "learning_rate": 0.0002,
+      "loss": 0.9462,
       "step": 153
     },
     {
+      "epoch": 0.0024771487053278805,
+      "grad_norm": 6.559825897216797,
       "learning_rate": 0.0002,
+      "loss": 0.7042,
       "step": 154
     },
     {
+      "epoch": 0.002493234086531308,
+      "grad_norm": 3.9966037273406982,
       "learning_rate": 0.0002,
+      "loss": 0.8798,
       "step": 155
     },
     {
+      "epoch": 0.002509319467734736,
+      "grad_norm": 5.800797462463379,
       "learning_rate": 0.0002,
+      "loss": 0.7377,
       "step": 156
     },
     {
+      "epoch": 0.002525404848938164,
+      "grad_norm": 7.694753646850586,
       "learning_rate": 0.0002,
+      "loss": 0.9589,
       "step": 157
     },
     {
+      "epoch": 0.0025414902301415915,
+      "grad_norm": 4.698418617248535,
       "learning_rate": 0.0002,
+      "loss": 0.826,
       "step": 158
     },
     {
+      "epoch": 0.002557575611345019,
+      "grad_norm": 3.7439236640930176,
       "learning_rate": 0.0002,
+      "loss": 0.874,
       "step": 159
     },
     {
+      "epoch": 0.0025736609925484473,
+      "grad_norm": 4.441625118255615,
       "learning_rate": 0.0002,
+      "loss": 0.8844,
       "step": 160
     },
     {
+      "epoch": 0.002589746373751875,
+      "grad_norm": 4.822892665863037,
       "learning_rate": 0.0002,
+      "loss": 0.9741,
       "step": 161
     },
     {
+      "epoch": 0.0026058317549553026,
+      "grad_norm": 5.727447986602783,
       "learning_rate": 0.0002,
+      "loss": 1.228,
       "step": 162
     },
     {
+      "epoch": 0.0026219171361587306,
+      "grad_norm": 4.084842681884766,
       "learning_rate": 0.0002,
+      "loss": 0.8113,
       "step": 163
     },
     {
+      "epoch": 0.0026380025173621583,
+      "grad_norm": 4.884864330291748,
       "learning_rate": 0.0002,
+      "loss": 0.9853,
       "step": 164
     },
     {
+      "epoch": 0.002654087898565586,
+      "grad_norm": 4.315978527069092,
       "learning_rate": 0.0002,
+      "loss": 0.7985,
       "step": 165
     },
     {
+      "epoch": 0.002670173279769014,
+      "grad_norm": 3.958301544189453,
       "learning_rate": 0.0002,
+      "loss": 0.8639,
       "step": 166
     },
     {
+      "epoch": 0.0026862586609724417,
+      "grad_norm": 5.930337905883789,
       "learning_rate": 0.0002,
+      "loss": 0.9575,
       "step": 167
     },
     {
+      "epoch": 0.0027023440421758693,
+      "grad_norm": 3.374218702316284,
       "learning_rate": 0.0002,
+      "loss": 0.5752,
       "step": 168
     },
     {
+      "epoch": 0.0027184294233792974,
+      "grad_norm": 7.738460063934326,
       "learning_rate": 0.0002,
+      "loss": 1.1104,
       "step": 169
     },
     {
+      "epoch": 0.002734514804582725,
+      "grad_norm": 6.493184566497803,
       "learning_rate": 0.0002,
+      "loss": 0.9614,
       "step": 170
     },
     {
+      "epoch": 0.0027506001857861527,
+      "grad_norm": 7.904129981994629,
       "learning_rate": 0.0002,
+      "loss": 1.1735,
       "step": 171
     },
     {
+      "epoch": 0.002766685566989581,
+      "grad_norm": 6.135262489318848,
       "learning_rate": 0.0002,
+      "loss": 1.1976,
       "step": 172
     },
     {
+      "epoch": 0.0027827709481930084,
+      "grad_norm": 6.674580097198486,
       "learning_rate": 0.0002,
+      "loss": 0.7546,
       "step": 173
     },
     {
+      "epoch": 0.002798856329396436,
+      "grad_norm": 3.6253364086151123,
       "learning_rate": 0.0002,
+      "loss": 0.8027,
       "step": 174
     },
     {
+      "epoch": 0.002814941710599864,
+      "grad_norm": 3.2293593883514404,
       "learning_rate": 0.0002,
+      "loss": 0.8404,
       "step": 175
     },
     {
+      "epoch": 0.002831027091803292,
+      "grad_norm": 4.404852867126465,
       "learning_rate": 0.0002,
+      "loss": 0.8233,
       "step": 176
     },
     {
+      "epoch": 0.0028471124730067195,
+      "grad_norm": 9.036417007446289,
       "learning_rate": 0.0002,
+      "loss": 1.2197,
       "step": 177
     },
     {
+      "epoch": 0.0028631978542101475,
+      "grad_norm": 3.6753194332122803,
       "learning_rate": 0.0002,
+      "loss": 0.8155,
       "step": 178
     },
     {
+      "epoch": 0.002879283235413575,
+      "grad_norm": 4.148676872253418,
       "learning_rate": 0.0002,
+      "loss": 1.0028,
       "step": 179
     },
     {
+      "epoch": 0.002895368616617003,
+      "grad_norm": 10.267266273498535,
       "learning_rate": 0.0002,
+      "loss": 0.8078,
       "step": 180
     },
     {
+      "epoch": 0.002911453997820431,
+      "grad_norm": 5.570545673370361,
       "learning_rate": 0.0002,
+      "loss": 0.9974,
       "step": 181
     },
     {
+      "epoch": 0.0029275393790238586,
+      "grad_norm": 6.258678436279297,
       "learning_rate": 0.0002,
+      "loss": 1.1986,
       "step": 182
     },
     {
+      "epoch": 0.0029436247602272862,
+      "grad_norm": 11.766939163208008,
       "learning_rate": 0.0002,
+      "loss": 0.8153,
       "step": 183
     },
     {
+      "epoch": 0.0029597101414307143,
+      "grad_norm": 4.668914318084717,
       "learning_rate": 0.0002,
+      "loss": 0.7482,
       "step": 184
     },
     {
+      "epoch": 0.002975795522634142,
+      "grad_norm": 3.728922128677368,
       "learning_rate": 0.0002,
+      "loss": 0.7389,
       "step": 185
     },
     {
+      "epoch": 0.0029918809038375696,
+      "grad_norm": 3.9253530502319336,
       "learning_rate": 0.0002,
+      "loss": 0.8526,
       "step": 186
     },
     {
+      "epoch": 0.0030079662850409977,
+      "grad_norm": 4.449740409851074,
       "learning_rate": 0.0002,
+      "loss": 0.8117,
       "step": 187
     },
     {
+      "epoch": 0.0030240516662444253,
+      "grad_norm": 3.856152296066284,
       "learning_rate": 0.0002,
+      "loss": 0.6481,
       "step": 188
     },
     {
+      "epoch": 0.0030401370474478534,
+      "grad_norm": 140.99961853027344,
       "learning_rate": 0.0002,
+      "loss": 2.8234,
       "step": 189
     },
     {
+      "epoch": 0.003056222428651281,
+      "grad_norm": 4.190764904022217,
       "learning_rate": 0.0002,
+      "loss": 0.7266,
       "step": 190
     },
     {
+      "epoch": 0.0030723078098547087,
+      "grad_norm": 3.9606616497039795,
       "learning_rate": 0.0002,
+      "loss": 0.8465,
       "step": 191
     },
     {
+      "epoch": 0.003088393191058137,
+      "grad_norm": 4.197356700897217,
       "learning_rate": 0.0002,
+      "loss": 0.7764,
       "step": 192
     },
     {
+      "epoch": 0.0031044785722615644,
+      "grad_norm": 4.308269023895264,
       "learning_rate": 0.0002,
+      "loss": 0.6308,
       "step": 193
     },
     {
+      "epoch": 0.003120563953464992,
+      "grad_norm": 7.85593843460083,
       "learning_rate": 0.0002,
+      "loss": 1.2231,
       "step": 194
     },
     {
+      "epoch": 0.00313664933466842,
+      "grad_norm": 5.271966934204102,
       "learning_rate": 0.0002,
+      "loss": 0.6263,
       "step": 195
     },
     {
+      "epoch": 0.003152734715871848,
+      "grad_norm": 4.99168062210083,
       "learning_rate": 0.0002,
+      "loss": 0.8379,
       "step": 196
     },
     {
+      "epoch": 0.0031688200970752755,
+      "grad_norm": 4.923642635345459,
       "learning_rate": 0.0002,
+      "loss": 0.7982,
       "step": 197
     },
     {
+      "epoch": 0.0031849054782787036,
+      "grad_norm": 8.511445999145508,
       "learning_rate": 0.0002,
+      "loss": 0.8379,
       "step": 198
     },
     {
+      "epoch": 0.003200990859482131,
+      "grad_norm": 6.066445350646973,
       "learning_rate": 0.0002,
+      "loss": 0.7347,
       "step": 199
     },
     {
+      "epoch": 0.003217076240685559,
+      "grad_norm": 6.310784339904785,
       "learning_rate": 0.0002,
+      "loss": 0.9526,
       "step": 200
     },
     {
+      "epoch": 0.003217076240685559,
+      "eval_loss": 0.7864285707473755,
+      "eval_runtime": 25.6512,
+      "eval_samples_per_second": 9.707,
+      "eval_steps_per_second": 9.707,
       "step": 200
     }
   ],
   "logging_steps": 1,
+  "max_steps": 186504,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 200,
       "attributes": {}
     }
   },
+  "total_flos": 5911953172070400.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0a0728d73b11fa5133595eca73629f5bdb909de86993e399061d0cc95c785cc
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5bfb8f9ee0d17252ff4577fc9c15127560771b7e188338420238d872618fd3b
 size 6776