Training in progress, step 200, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62cbbb2b3d4f31c0a3413df2eaabce947e7719fd0714df8a5fab22393f53e219
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e408bfee6bc720f2626f42236cb7ed47eed15851394e64745280cda47346a24
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3dcda1040311414dc0a2d44a05e5cb35e7c3038170d8e17543a4332cb366e191
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:eff316f99046dc065f6573097972dede0370afbf132b27b8c0122d95e707ef46
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df998ad924c5b62f90019cbb88fd62b3e4e64d88b228130d251792bf7deab033
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff619163df21cd3fce301b8caa1204b04f12d8929b430f9ba8a93cc2b633db21
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23a5670376370f1d6ada74f967c2248f323eac4ca9690d09f922137342c62f2a
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9f0b1099d24eb7f394ea4f3fe171409b994687feddd6582b56703c5558366fc
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1705c8193a4631578a089db2d70fd2c71d0505a2f3d764fe46d1c24b2a070eeb
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddc7713c77dfea2848b11f758cffc94b65fdb54736e77c0647082559d10aa06b
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc95d73e7987c5d7d832cf8226eb09bd9e7f7be58ec455e6bb2af988ae5d69aa
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:6610841a05b9998513c9700bc4bead2bfbd262e59da6e4197d08b8fa080a9641
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00c32232ddb18801082f4fe4b153458b3dc5c37925e551cbcfed6e39be0485e5
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:f09233c56315737a8a0656ed9c80d92a6963808314b0fe48bf44cb8c6799ef3a
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99c11425ca4111acf116243f564b369521900c6d6ccd8a56608c8343daf67d67
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:bebfedc8c1e6754606faa59b7c45e93ee3e4c7ec2913e3893c4695781b7892e7
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e67c2bec7d86c4f6210325ca670c1a767d63ea7097a338fac8d4332930e740d6
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f2fd9d1d3847bee68df39de96a06913e37dc3cacd6dcaa01e654f56e2f4eb49
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7128968a26346cae27935bd130c910b7855033e1601547200dbc0f94356ba770
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:584d56bb430fe8df3c24eeab1822b6d753b2090cb92990956e81b8f8e3c6e416
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d956842b2ce7b3ecd63e4eecaf16e30235bcc33f9f434a1d5a9ad735729148b6
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:283174a53dfb12f541f1223f29dfd78957ef99fb6b3f708ac21ff4aa6e7733c3
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58df2eeb2aeb3e7ff65838d74d9b8fdd9bdafa1a418b60d36797cdf8924dfc1c
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4f93a55b6907505dff041e23ee75d98392142bc1e2e39401947dac1e4fb011a
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:005d0b07ecb0e6cdb0df3ee6d6ccfde8718b0ebbfe5a6ffbd39e3b172fc51813
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:75ef6331ac4b2e8cf5bcc3f43391a2f41a0430eee842180c387f3d81fdad2fdc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.06765899864682003,
   "eval_steps": 20,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -779,6 +779,766 @@
       "eval_samples_per_second": 5.75,
       "eval_steps_per_second": 0.193,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -798,7 +1558,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.03754272309248e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.13531799729364005,
   "eval_steps": 20,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.75,
       "eval_steps_per_second": 0.193,
       "step": 100
+    },
+    {
+      "epoch": 0.06833558863328823,
+      "grad_norm": 2.3830792903900146,
+      "learning_rate": 1.364864864864865e-05,
+      "loss": 0.2756,
+      "step": 101
+    },
+    {
+      "epoch": 0.06901217861975643,
+      "grad_norm": 2.8554539680480957,
+      "learning_rate": 1.3783783783783784e-05,
+      "loss": 0.3233,
+      "step": 102
+    },
+    {
+      "epoch": 0.06968876860622462,
+      "grad_norm": 3.331234931945801,
+      "learning_rate": 1.391891891891892e-05,
+      "loss": 0.3524,
+      "step": 103
+    },
+    {
+      "epoch": 0.07036535859269283,
+      "grad_norm": 2.8779256343841553,
+      "learning_rate": 1.4054054054054055e-05,
+      "loss": 0.323,
+      "step": 104
+    },
+    {
+      "epoch": 0.07104194857916103,
+      "grad_norm": 2.8393092155456543,
+      "learning_rate": 1.4189189189189189e-05,
+      "loss": 0.328,
+      "step": 105
+    },
+    {
+      "epoch": 0.07171853856562922,
+      "grad_norm": 3.7622110843658447,
+      "learning_rate": 1.4324324324324326e-05,
+      "loss": 0.3449,
+      "step": 106
+    },
+    {
+      "epoch": 0.07239512855209743,
+      "grad_norm": 3.734447479248047,
+      "learning_rate": 1.4459459459459462e-05,
+      "loss": 0.3367,
+      "step": 107
+    },
+    {
+      "epoch": 0.07307171853856563,
+      "grad_norm": 4.105041980743408,
+      "learning_rate": 1.4594594594594596e-05,
+      "loss": 0.3038,
+      "step": 108
+    },
+    {
+      "epoch": 0.07374830852503383,
+      "grad_norm": 3.9254539012908936,
+      "learning_rate": 1.4729729729729731e-05,
+      "loss": 0.2617,
+      "step": 109
+    },
+    {
+      "epoch": 0.07442489851150202,
+      "grad_norm": 5.182884693145752,
+      "learning_rate": 1.4864864864864865e-05,
+      "loss": 0.3423,
+      "step": 110
+    },
+    {
+      "epoch": 0.07510148849797023,
+      "grad_norm": 3.852728843688965,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.246,
+      "step": 111
+    },
+    {
+      "epoch": 0.07577807848443843,
+      "grad_norm": 3.291020631790161,
+      "learning_rate": 1.5135135135135138e-05,
+      "loss": 0.3383,
+      "step": 112
+    },
+    {
+      "epoch": 0.07645466847090664,
+      "grad_norm": 5.644819259643555,
+      "learning_rate": 1.527027027027027e-05,
+      "loss": 0.2452,
+      "step": 113
+    },
+    {
+      "epoch": 0.07713125845737483,
+      "grad_norm": 6.728042125701904,
+      "learning_rate": 1.540540540540541e-05,
+      "loss": 0.2767,
+      "step": 114
+    },
+    {
+      "epoch": 0.07780784844384303,
+      "grad_norm": 4.200859546661377,
+      "learning_rate": 1.554054054054054e-05,
+      "loss": 0.2707,
+      "step": 115
+    },
+    {
+      "epoch": 0.07848443843031123,
+      "grad_norm": 3.9574716091156006,
+      "learning_rate": 1.5675675675675676e-05,
+      "loss": 0.2733,
+      "step": 116
+    },
+    {
+      "epoch": 0.07916102841677942,
+      "grad_norm": 3.50284743309021,
+      "learning_rate": 1.581081081081081e-05,
+      "loss": 0.2615,
+      "step": 117
+    },
+    {
+      "epoch": 0.07983761840324763,
+      "grad_norm": 7.720501899719238,
+      "learning_rate": 1.5945945945945947e-05,
+      "loss": 0.2353,
+      "step": 118
+    },
+    {
+      "epoch": 0.08051420838971583,
+      "grad_norm": 5.794226169586182,
+      "learning_rate": 1.6081081081081083e-05,
+      "loss": 0.2454,
+      "step": 119
+    },
+    {
+      "epoch": 0.08119079837618404,
+      "grad_norm": 6.7274250984191895,
+      "learning_rate": 1.6216216216216218e-05,
+      "loss": 0.2948,
+      "step": 120
+    },
+    {
+      "epoch": 0.08119079837618404,
+      "eval_accuracy": 0.7678899082568807,
+      "eval_f1": 0.3990498812351544,
+      "eval_loss": 0.7271434664726257,
+      "eval_precision": 0.6829268292682927,
+      "eval_recall": 0.28187919463087246,
+      "eval_runtime": 51.8636,
+      "eval_samples_per_second": 5.746,
+      "eval_steps_per_second": 0.193,
+      "step": 120
+    },
+    {
+      "epoch": 0.08186738836265223,
+      "grad_norm": 4.321250915527344,
+      "learning_rate": 1.6351351351351354e-05,
+      "loss": 0.2774,
+      "step": 121
+    },
+    {
+      "epoch": 0.08254397834912043,
+      "grad_norm": 5.205666542053223,
+      "learning_rate": 1.648648648648649e-05,
+      "loss": 0.254,
+      "step": 122
+    },
+    {
+      "epoch": 0.08322056833558863,
+      "grad_norm": 4.166099548339844,
+      "learning_rate": 1.662162162162162e-05,
+      "loss": 0.2455,
+      "step": 123
+    },
+    {
+      "epoch": 0.08389715832205684,
+      "grad_norm": 5.376754283905029,
+      "learning_rate": 1.6756756756756757e-05,
+      "loss": 0.2982,
+      "step": 124
+    },
+    {
+      "epoch": 0.08457374830852503,
+      "grad_norm": 5.893986225128174,
+      "learning_rate": 1.6891891891891896e-05,
+      "loss": 0.2632,
+      "step": 125
+    },
+    {
+      "epoch": 0.08525033829499323,
+      "grad_norm": 5.461335182189941,
+      "learning_rate": 1.7027027027027028e-05,
+      "loss": 0.1964,
+      "step": 126
+    },
+    {
+      "epoch": 0.08592692828146144,
+      "grad_norm": 8.870018005371094,
+      "learning_rate": 1.7162162162162163e-05,
+      "loss": 0.3057,
+      "step": 127
+    },
+    {
+      "epoch": 0.08660351826792964,
+      "grad_norm": 3.8947367668151855,
+      "learning_rate": 1.72972972972973e-05,
+      "loss": 0.2715,
+      "step": 128
+    },
+    {
+      "epoch": 0.08728010825439783,
+      "grad_norm": 4.829451084136963,
+      "learning_rate": 1.7432432432432434e-05,
+      "loss": 0.2395,
+      "step": 129
+    },
+    {
+      "epoch": 0.08795669824086604,
+      "grad_norm": 3.4110400676727295,
+      "learning_rate": 1.756756756756757e-05,
+      "loss": 0.2363,
+      "step": 130
+    },
+    {
+      "epoch": 0.08863328822733424,
+      "grad_norm": 3.4218814373016357,
+      "learning_rate": 1.7702702702702702e-05,
+      "loss": 0.2343,
+      "step": 131
+    },
+    {
+      "epoch": 0.08930987821380243,
+      "grad_norm": 4.7118425369262695,
+      "learning_rate": 1.783783783783784e-05,
+      "loss": 0.2438,
+      "step": 132
+    },
+    {
+      "epoch": 0.08998646820027063,
+      "grad_norm": 5.201712608337402,
+      "learning_rate": 1.7972972972972976e-05,
+      "loss": 0.3213,
+      "step": 133
+    },
+    {
+      "epoch": 0.09066305818673884,
+      "grad_norm": 8.192056655883789,
+      "learning_rate": 1.8108108108108108e-05,
+      "loss": 0.3043,
+      "step": 134
+    },
+    {
+      "epoch": 0.09133964817320704,
+      "grad_norm": 4.3292694091796875,
+      "learning_rate": 1.8243243243243244e-05,
+      "loss": 0.3077,
+      "step": 135
+    },
+    {
+      "epoch": 0.09201623815967523,
+      "grad_norm": 9.865090370178223,
+      "learning_rate": 1.8378378378378383e-05,
+      "loss": 0.2584,
+      "step": 136
+    },
+    {
+      "epoch": 0.09269282814614344,
+      "grad_norm": 7.474611759185791,
+      "learning_rate": 1.8513513513513515e-05,
+      "loss": 0.2391,
+      "step": 137
+    },
+    {
+      "epoch": 0.09336941813261164,
+      "grad_norm": 3.1332149505615234,
+      "learning_rate": 1.864864864864865e-05,
+      "loss": 0.1335,
+      "step": 138
+    },
+    {
+      "epoch": 0.09404600811907984,
+      "grad_norm": 4.493014335632324,
+      "learning_rate": 1.8783783783783786e-05,
+      "loss": 0.2344,
+      "step": 139
+    },
+    {
+      "epoch": 0.09472259810554803,
+      "grad_norm": 5.90848970413208,
+      "learning_rate": 1.891891891891892e-05,
+      "loss": 0.2329,
+      "step": 140
+    },
+    {
+      "epoch": 0.09472259810554803,
+      "eval_accuracy": 0.7697247706422018,
+      "eval_f1": 0.35475578406169667,
+      "eval_loss": 0.5965576767921448,
+      "eval_precision": 0.7582417582417582,
+      "eval_recall": 0.23154362416107382,
+      "eval_runtime": 51.8498,
+      "eval_samples_per_second": 5.747,
+      "eval_steps_per_second": 0.193,
+      "step": 140
+    },
+    {
+      "epoch": 0.09539918809201624,
+      "grad_norm": 3.0857784748077393,
+      "learning_rate": 1.9054054054054057e-05,
+      "loss": 0.1699,
+      "step": 141
+    },
+    {
+      "epoch": 0.09607577807848444,
+      "grad_norm": 3.591951370239258,
+      "learning_rate": 1.918918918918919e-05,
+      "loss": 0.2166,
+      "step": 142
+    },
+    {
+      "epoch": 0.09675236806495263,
+      "grad_norm": 5.5953826904296875,
+      "learning_rate": 1.9324324324324328e-05,
+      "loss": 0.1826,
+      "step": 143
+    },
+    {
+      "epoch": 0.09742895805142084,
+      "grad_norm": 4.522704601287842,
+      "learning_rate": 1.9459459459459463e-05,
+      "loss": 0.2288,
+      "step": 144
+    },
+    {
+      "epoch": 0.09810554803788904,
+      "grad_norm": 2.501812219619751,
+      "learning_rate": 1.9594594594594595e-05,
+      "loss": 0.1412,
+      "step": 145
+    },
+    {
+      "epoch": 0.09878213802435724,
+      "grad_norm": 6.26653528213501,
+      "learning_rate": 1.972972972972973e-05,
+      "loss": 0.2609,
+      "step": 146
+    },
+    {
+      "epoch": 0.09945872801082543,
+      "grad_norm": 13.06122875213623,
+      "learning_rate": 1.9864864864864866e-05,
+      "loss": 0.3233,
+      "step": 147
+    },
+    {
+      "epoch": 0.10013531799729364,
+      "grad_norm": 4.477540493011475,
+      "learning_rate": 2e-05,
+      "loss": 0.2679,
+      "step": 148
+    },
+    {
+      "epoch": 0.10081190798376184,
+      "grad_norm": 5.897082328796387,
+      "learning_rate": 1.9999972102437076e-05,
+      "loss": 0.2136,
+      "step": 149
+    },
+    {
+      "epoch": 0.10148849797023005,
+      "grad_norm": 4.226516246795654,
+      "learning_rate": 1.9999888409903948e-05,
+      "loss": 0.22,
+      "step": 150
+    },
+    {
+      "epoch": 0.10216508795669824,
+      "grad_norm": 6.373837471008301,
+      "learning_rate": 1.9999748922867592e-05,
+      "loss": 0.2117,
+      "step": 151
+    },
+    {
+      "epoch": 0.10284167794316644,
+      "grad_norm": 4.057104110717773,
+      "learning_rate": 1.9999553642106267e-05,
+      "loss": 0.2398,
+      "step": 152
+    },
+    {
+      "epoch": 0.10351826792963464,
+      "grad_norm": 6.765925884246826,
+      "learning_rate": 1.9999302568709548e-05,
+      "loss": 0.2921,
+      "step": 153
+    },
+    {
+      "epoch": 0.10419485791610285,
+      "grad_norm": 11.143022537231445,
+      "learning_rate": 1.9998995704078305e-05,
+      "loss": 0.2496,
+      "step": 154
+    },
+    {
+      "epoch": 0.10487144790257104,
+      "grad_norm": 7.253014087677002,
+      "learning_rate": 1.9998633049924693e-05,
+      "loss": 0.1869,
+      "step": 155
+    },
+    {
+      "epoch": 0.10554803788903924,
+      "grad_norm": 9.102387428283691,
+      "learning_rate": 1.9998214608272136e-05,
+      "loss": 0.2344,
+      "step": 156
+    },
+    {
+      "epoch": 0.10622462787550745,
+      "grad_norm": 3.9514195919036865,
+      "learning_rate": 1.9997740381455348e-05,
+      "loss": 0.2364,
+      "step": 157
+    },
+    {
+      "epoch": 0.10690121786197564,
+      "grad_norm": 5.509130954742432,
+      "learning_rate": 1.9997210372120276e-05,
+      "loss": 0.2863,
+      "step": 158
+    },
+    {
+      "epoch": 0.10757780784844384,
+      "grad_norm": 3.954360246658325,
+      "learning_rate": 1.9996624583224112e-05,
+      "loss": 0.1248,
+      "step": 159
+    },
+    {
+      "epoch": 0.10825439783491204,
+      "grad_norm": 3.0605578422546387,
+      "learning_rate": 1.999598301803528e-05,
+      "loss": 0.1726,
+      "step": 160
+    },
+    {
+      "epoch": 0.10825439783491204,
+      "eval_accuracy": 0.763302752293578,
+      "eval_f1": 0.31382978723404253,
+      "eval_loss": 0.5946537256240845,
+      "eval_precision": 0.7564102564102564,
+      "eval_recall": 0.19798657718120805,
+      "eval_runtime": 51.9229,
+      "eval_samples_per_second": 5.739,
+      "eval_steps_per_second": 0.193,
+      "step": 160
+    },
+    {
+      "epoch": 0.10893098782138025,
+      "grad_norm": 4.9909281730651855,
+      "learning_rate": 1.9995285680133393e-05,
+      "loss": 0.2449,
+      "step": 161
+    },
+    {
+      "epoch": 0.10960757780784844,
+      "grad_norm": 2.7885420322418213,
+      "learning_rate": 1.999453257340926e-05,
+      "loss": 0.1239,
+      "step": 162
+    },
+    {
+      "epoch": 0.11028416779431664,
+      "grad_norm": 4.381866931915283,
+      "learning_rate": 1.9993723702064852e-05,
+      "loss": 0.146,
+      "step": 163
+    },
+    {
+      "epoch": 0.11096075778078485,
+      "grad_norm": 7.0832109451293945,
+      "learning_rate": 1.9992859070613275e-05,
+      "loss": 0.2178,
+      "step": 164
+    },
+    {
+      "epoch": 0.11163734776725305,
+      "grad_norm": 4.502629280090332,
+      "learning_rate": 1.9991938683878746e-05,
+      "loss": 0.2039,
+      "step": 165
+    },
+    {
+      "epoch": 0.11231393775372124,
+      "grad_norm": 3.46604323387146,
+      "learning_rate": 1.9990962546996583e-05,
+      "loss": 0.1235,
+      "step": 166
+    },
+    {
+      "epoch": 0.11299052774018944,
+      "grad_norm": 2.314317464828491,
+      "learning_rate": 1.9989930665413148e-05,
+      "loss": 0.1033,
+      "step": 167
+    },
+    {
+      "epoch": 0.11366711772665765,
+      "grad_norm": 5.851840019226074,
+      "learning_rate": 1.998884304488584e-05,
+      "loss": 0.2414,
+      "step": 168
+    },
+    {
+      "epoch": 0.11434370771312584,
+      "grad_norm": 6.2724714279174805,
+      "learning_rate": 1.998769969148305e-05,
+      "loss": 0.2474,
+      "step": 169
+    },
+    {
+      "epoch": 0.11502029769959404,
+      "grad_norm": 3.0591259002685547,
+      "learning_rate": 1.9986500611584133e-05,
+      "loss": 0.1661,
+      "step": 170
+    },
+    {
+      "epoch": 0.11569688768606225,
+      "grad_norm": 4.147556304931641,
+      "learning_rate": 1.9985245811879372e-05,
+      "loss": 0.1855,
+      "step": 171
+    },
+    {
+      "epoch": 0.11637347767253045,
+      "grad_norm": 4.872109413146973,
+      "learning_rate": 1.9983935299369934e-05,
+      "loss": 0.2505,
+      "step": 172
+    },
+    {
+      "epoch": 0.11705006765899864,
+      "grad_norm": 10.929080963134766,
+      "learning_rate": 1.9982569081367844e-05,
+      "loss": 0.238,
+      "step": 173
+    },
+    {
+      "epoch": 0.11772665764546685,
+      "grad_norm": 9.166586875915527,
+      "learning_rate": 1.998114716549593e-05,
+      "loss": 0.2415,
+      "step": 174
+    },
+    {
+      "epoch": 0.11840324763193505,
+      "grad_norm": 4.646167278289795,
+      "learning_rate": 1.997966955968779e-05,
+      "loss": 0.1264,
+      "step": 175
+    },
+    {
+      "epoch": 0.11907983761840325,
+      "grad_norm": 4.666916847229004,
+      "learning_rate": 1.9978136272187745e-05,
+      "loss": 0.178,
+      "step": 176
+    },
+    {
+      "epoch": 0.11975642760487144,
+      "grad_norm": 7.303848743438721,
+      "learning_rate": 1.9976547311550796e-05,
+      "loss": 0.2303,
+      "step": 177
+    },
+    {
+      "epoch": 0.12043301759133965,
+      "grad_norm": 5.617541313171387,
+      "learning_rate": 1.997490268664256e-05,
+      "loss": 0.1295,
+      "step": 178
+    },
+    {
+      "epoch": 0.12110960757780785,
+      "grad_norm": 7.912723541259766,
+      "learning_rate": 1.9973202406639247e-05,
+      "loss": 0.2137,
+      "step": 179
+    },
+    {
+      "epoch": 0.12178619756427606,
+      "grad_norm": 3.9384965896606445,
+      "learning_rate": 1.997144648102759e-05,
+      "loss": 0.1085,
+      "step": 180
+    },
+    {
+      "epoch": 0.12178619756427606,
+      "eval_accuracy": 0.7678899082568807,
+      "eval_f1": 0.3394255874673629,
+      "eval_loss": 0.558770477771759,
+      "eval_precision": 0.7647058823529411,
+      "eval_recall": 0.2181208053691275,
+      "eval_runtime": 52.2836,
+      "eval_samples_per_second": 5.7,
+      "eval_steps_per_second": 0.191,
+      "step": 180
+    },
+    {
+      "epoch": 0.12246278755074425,
+      "grad_norm": 4.896997928619385,
+      "learning_rate": 1.99696349196048e-05,
+      "loss": 0.2525,
+      "step": 181
+    },
+    {
+      "epoch": 0.12313937753721245,
+      "grad_norm": 2.2250826358795166,
+      "learning_rate": 1.9967767732478506e-05,
+      "loss": 0.1442,
+      "step": 182
+    },
+    {
+      "epoch": 0.12381596752368065,
+      "grad_norm": 5.748762607574463,
+      "learning_rate": 1.99658449300667e-05,
+      "loss": 0.3173,
+      "step": 183
+    },
+    {
+      "epoch": 0.12449255751014884,
+      "grad_norm": 3.4051263332366943,
+      "learning_rate": 1.9963866523097683e-05,
+      "loss": 0.2134,
+      "step": 184
+    },
+    {
+      "epoch": 0.12516914749661706,
+      "grad_norm": 3.8892011642456055,
+      "learning_rate": 1.9961832522610004e-05,
+      "loss": 0.2136,
+      "step": 185
+    },
+    {
+      "epoch": 0.12584573748308525,
+      "grad_norm": 5.042850017547607,
+      "learning_rate": 1.9959742939952393e-05,
+      "loss": 0.1986,
+      "step": 186
+    },
+    {
+      "epoch": 0.12652232746955344,
+      "grad_norm": 7.566000461578369,
+      "learning_rate": 1.99575977867837e-05,
+      "loss": 0.2481,
+      "step": 187
+    },
+    {
+      "epoch": 0.12719891745602166,
+      "grad_norm": 5.193778991699219,
+      "learning_rate": 1.995539707507284e-05,
+      "loss": 0.2304,
+      "step": 188
+    },
+    {
+      "epoch": 0.12787550744248985,
+      "grad_norm": 4.714810371398926,
+      "learning_rate": 1.99531408170987e-05,
+      "loss": 0.2234,
+      "step": 189
+    },
+    {
+      "epoch": 0.12855209742895804,
+      "grad_norm": 4.679834842681885,
+      "learning_rate": 1.9950829025450116e-05,
+      "loss": 0.2152,
+      "step": 190
+    },
+    {
+      "epoch": 0.12922868741542626,
+      "grad_norm": 2.8689143657684326,
+      "learning_rate": 1.994846171302575e-05,
+      "loss": 0.1938,
+      "step": 191
+    },
+    {
+      "epoch": 0.12990527740189445,
+      "grad_norm": 3.1976468563079834,
+      "learning_rate": 1.9946038893034045e-05,
+      "loss": 0.1858,
+      "step": 192
+    },
+    {
+      "epoch": 0.13058186738836267,
+      "grad_norm": 3.2573113441467285,
+      "learning_rate": 1.994356057899317e-05,
+      "loss": 0.1333,
+      "step": 193
+    },
+    {
+      "epoch": 0.13125845737483086,
+      "grad_norm": 6.062759876251221,
+      "learning_rate": 1.9941026784730898e-05,
+      "loss": 0.2143,
+      "step": 194
+    },
+    {
+      "epoch": 0.13193504736129905,
+      "grad_norm": 3.474382162094116,
+      "learning_rate": 1.9938437524384572e-05,
+      "loss": 0.2385,
+      "step": 195
+    },
+    {
+      "epoch": 0.13261163734776726,
+      "grad_norm": 4.171142101287842,
+      "learning_rate": 1.9935792812400997e-05,
+      "loss": 0.2212,
+      "step": 196
+    },
+    {
+      "epoch": 0.13328822733423545,
+      "grad_norm": 2.72599720954895,
+      "learning_rate": 1.9933092663536384e-05,
+      "loss": 0.1579,
+      "step": 197
+    },
+    {
+      "epoch": 0.13396481732070364,
+      "grad_norm": 6.6125102043151855,
+      "learning_rate": 1.9930337092856243e-05,
+      "loss": 0.2187,
+      "step": 198
+    },
+    {
+      "epoch": 0.13464140730717186,
+      "grad_norm": 2.2951035499572754,
+      "learning_rate": 1.9927526115735315e-05,
+      "loss": 0.1567,
+      "step": 199
+    },
+    {
+      "epoch": 0.13531799729364005,
+      "grad_norm": 4.760623931884766,
+      "learning_rate": 1.9924659747857485e-05,
+      "loss": 0.2326,
+      "step": 200
+    },
+    {
+      "epoch": 0.13531799729364005,
+      "eval_accuracy": 0.7623853211009174,
+      "eval_f1": 0.3508771929824561,
+      "eval_loss": 0.5019528865814209,
+      "eval_precision": 0.693069306930693,
+      "eval_recall": 0.2348993288590604,
+      "eval_runtime": 51.9146,
+      "eval_samples_per_second": 5.74,
+      "eval_steps_per_second": 0.193,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.053734571520819e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null