mtzig commited on Nov 19, 2024

Commit

dab7347

verified ·

1 Parent(s): aded198

Training in progress, step 100, checkpoint

Browse files

Files changed (17) hide show

.gitattributes +8 -0
last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +3 -0
last-checkpoint/optimizer_0/__1_0.distcp +3 -0
last-checkpoint/optimizer_0/__2_0.distcp +3 -0
last-checkpoint/optimizer_0/__3_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +3 -0
last-checkpoint/rng_state_0.pth +3 -0
last-checkpoint/rng_state_1.pth +3 -0
last-checkpoint/rng_state_2.pth +3 -0
last-checkpoint/rng_state_3.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +805 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,11 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text

last-checkpoint/optimizer_0/.metadata ADDED Viewed

Binary file (369 kB). View file

last-checkpoint/optimizer_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62cbbb2b3d4f31c0a3413df2eaabce947e7719fd0714df8a5fab22393f53e219
+size 13934748

last-checkpoint/optimizer_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3dcda1040311414dc0a2d44a05e5cb35e7c3038170d8e17543a4332cb366e191
+size 13999412

last-checkpoint/optimizer_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df998ad924c5b62f90019cbb88fd62b3e4e64d88b228130d251792bf7deab033
+size 13990904

last-checkpoint/optimizer_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23a5670376370f1d6ada74f967c2248f323eac4ca9690d09f922137342c62f2a
+size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata ADDED Viewed

Binary file (135 kB). View file

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1705c8193a4631578a089db2d70fd2c71d0505a2f3d764fe46d1c24b2a070eeb
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc95d73e7987c5d7d832cf8226eb09bd9e7f7be58ec455e6bb2af988ae5d69aa
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00c32232ddb18801082f4fe4b153458b3dc5c37925e551cbcfed6e39be0485e5
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99c11425ca4111acf116243f564b369521900c6d6ccd8a56608c8343daf67d67
+size 6966784

last-checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e67c2bec7d86c4f6210325ca670c1a767d63ea7097a338fac8d4332930e740d6
+size 14960

last-checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7128968a26346cae27935bd130c910b7855033e1601547200dbc0f94356ba770
+size 14960

last-checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d956842b2ce7b3ecd63e4eecaf16e30235bcc33f9f434a1d5a9ad735729148b6
+size 14960

last-checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58df2eeb2aeb3e7ff65838d74d9b8fdd9bdafa1a418b60d36797cdf8924dfc1c
+size 14960

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:005d0b07ecb0e6cdb0df3ee6d6ccfde8718b0ebbfe5a6ffbd39e3b172fc51813
+size 1064

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,805 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.06765899864682003,
+  "eval_steps": 20,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_accuracy": 0.726605504587156,
+      "eval_f1": 0.11834319526627218,
+      "eval_loss": 0.6266470551490784,
+      "eval_precision": 0.5,
+      "eval_recall": 0.06711409395973154,
+      "eval_runtime": 53.0676,
+      "eval_samples_per_second": 5.615,
+      "eval_steps_per_second": 0.188,
+      "step": 0
+    },
+    {
+      "epoch": 0.0006765899864682003,
+      "grad_norm": 1.9097040891647339,
+      "learning_rate": 1.3513513513513515e-07,
+      "loss": 0.5346,
+      "step": 1
+    },
+    {
+      "epoch": 0.0013531799729364006,
+      "grad_norm": 2.262101173400879,
+      "learning_rate": 2.702702702702703e-07,
+      "loss": 0.6432,
+      "step": 2
+    },
+    {
+      "epoch": 0.0020297699594046007,
+      "grad_norm": 2.2351596355438232,
+      "learning_rate": 4.0540540540540546e-07,
+      "loss": 0.6418,
+      "step": 3
+    },
+    {
+      "epoch": 0.0027063599458728013,
+      "grad_norm": 2.1407454013824463,
+      "learning_rate": 5.405405405405406e-07,
+      "loss": 0.681,
+      "step": 4
+    },
+    {
+      "epoch": 0.0033829499323410014,
+      "grad_norm": 1.836843729019165,
+      "learning_rate": 6.756756756756758e-07,
+      "loss": 0.6663,
+      "step": 5
+    },
+    {
+      "epoch": 0.0040595399188092015,
+      "grad_norm": 2.4660489559173584,
+      "learning_rate": 8.108108108108109e-07,
+      "loss": 0.6643,
+      "step": 6
+    },
+    {
+      "epoch": 0.004736129905277402,
+      "grad_norm": 2.2095065116882324,
+      "learning_rate": 9.459459459459461e-07,
+      "loss": 0.6107,
+      "step": 7
+    },
+    {
+      "epoch": 0.005412719891745603,
+      "grad_norm": 2.3385086059570312,
+      "learning_rate": 1.0810810810810812e-06,
+      "loss": 0.6332,
+      "step": 8
+    },
+    {
+      "epoch": 0.006089309878213802,
+      "grad_norm": 2.0470025539398193,
+      "learning_rate": 1.2162162162162164e-06,
+      "loss": 0.6645,
+      "step": 9
+    },
+    {
+      "epoch": 0.006765899864682003,
+      "grad_norm": 2.1129884719848633,
+      "learning_rate": 1.3513513513513515e-06,
+      "loss": 0.5937,
+      "step": 10
+    },
+    {
+      "epoch": 0.007442489851150203,
+      "grad_norm": 2.343991994857788,
+      "learning_rate": 1.4864864864864868e-06,
+      "loss": 0.6274,
+      "step": 11
+    },
+    {
+      "epoch": 0.008119079837618403,
+      "grad_norm": 2.254518508911133,
+      "learning_rate": 1.6216216216216219e-06,
+      "loss": 0.6133,
+      "step": 12
+    },
+    {
+      "epoch": 0.008795669824086604,
+      "grad_norm": 2.3268182277679443,
+      "learning_rate": 1.756756756756757e-06,
+      "loss": 0.5994,
+      "step": 13
+    },
+    {
+      "epoch": 0.009472259810554804,
+      "grad_norm": 2.1147611141204834,
+      "learning_rate": 1.8918918918918922e-06,
+      "loss": 0.6043,
+      "step": 14
+    },
+    {
+      "epoch": 0.010148849797023005,
+      "grad_norm": 3.140791654586792,
+      "learning_rate": 2.0270270270270273e-06,
+      "loss": 0.6447,
+      "step": 15
+    },
+    {
+      "epoch": 0.010825439783491205,
+      "grad_norm": 2.154975175857544,
+      "learning_rate": 2.1621621621621623e-06,
+      "loss": 0.6472,
+      "step": 16
+    },
+    {
+      "epoch": 0.011502029769959404,
+      "grad_norm": 2.405954599380493,
+      "learning_rate": 2.297297297297298e-06,
+      "loss": 0.6622,
+      "step": 17
+    },
+    {
+      "epoch": 0.012178619756427604,
+      "grad_norm": 1.8810043334960938,
+      "learning_rate": 2.432432432432433e-06,
+      "loss": 0.6463,
+      "step": 18
+    },
+    {
+      "epoch": 0.012855209742895805,
+      "grad_norm": 2.251763105392456,
+      "learning_rate": 2.5675675675675675e-06,
+      "loss": 0.6118,
+      "step": 19
+    },
+    {
+      "epoch": 0.013531799729364006,
+      "grad_norm": 2.2010996341705322,
+      "learning_rate": 2.702702702702703e-06,
+      "loss": 0.6566,
+      "step": 20
+    },
+    {
+      "epoch": 0.013531799729364006,
+      "eval_accuracy": 0.726605504587156,
+      "eval_f1": 0.11834319526627218,
+      "eval_loss": 0.6250319480895996,
+      "eval_precision": 0.5,
+      "eval_recall": 0.06711409395973154,
+      "eval_runtime": 51.8026,
+      "eval_samples_per_second": 5.753,
+      "eval_steps_per_second": 0.193,
+      "step": 20
+    },
+    {
+      "epoch": 0.014208389715832206,
+      "grad_norm": 2.1348178386688232,
+      "learning_rate": 2.837837837837838e-06,
+      "loss": 0.6593,
+      "step": 21
+    },
+    {
+      "epoch": 0.014884979702300407,
+      "grad_norm": 2.461346387863159,
+      "learning_rate": 2.9729729729729736e-06,
+      "loss": 0.5665,
+      "step": 22
+    },
+    {
+      "epoch": 0.015561569688768605,
+      "grad_norm": 1.7864395380020142,
+      "learning_rate": 3.1081081081081082e-06,
+      "loss": 0.6044,
+      "step": 23
+    },
+    {
+      "epoch": 0.016238159675236806,
+      "grad_norm": 2.120920419692993,
+      "learning_rate": 3.2432432432432437e-06,
+      "loss": 0.6494,
+      "step": 24
+    },
+    {
+      "epoch": 0.016914749661705007,
+      "grad_norm": 2.293957233428955,
+      "learning_rate": 3.3783783783783788e-06,
+      "loss": 0.6729,
+      "step": 25
+    },
+    {
+      "epoch": 0.017591339648173207,
+      "grad_norm": 1.9928455352783203,
+      "learning_rate": 3.513513513513514e-06,
+      "loss": 0.606,
+      "step": 26
+    },
+    {
+      "epoch": 0.018267929634641408,
+      "grad_norm": 1.8565198183059692,
+      "learning_rate": 3.648648648648649e-06,
+      "loss": 0.571,
+      "step": 27
+    },
+    {
+      "epoch": 0.018944519621109608,
+      "grad_norm": 1.8976123332977295,
+      "learning_rate": 3.7837837837837844e-06,
+      "loss": 0.5702,
+      "step": 28
+    },
+    {
+      "epoch": 0.01962110960757781,
+      "grad_norm": 2.2150862216949463,
+      "learning_rate": 3.918918918918919e-06,
+      "loss": 0.5535,
+      "step": 29
+    },
+    {
+      "epoch": 0.02029769959404601,
+      "grad_norm": 2.0916941165924072,
+      "learning_rate": 4.0540540540540545e-06,
+      "loss": 0.6707,
+      "step": 30
+    },
+    {
+      "epoch": 0.02097428958051421,
+      "grad_norm": 2.0436134338378906,
+      "learning_rate": 4.189189189189189e-06,
+      "loss": 0.5966,
+      "step": 31
+    },
+    {
+      "epoch": 0.02165087956698241,
+      "grad_norm": 1.8890984058380127,
+      "learning_rate": 4.324324324324325e-06,
+      "loss": 0.5533,
+      "step": 32
+    },
+    {
+      "epoch": 0.022327469553450607,
+      "grad_norm": 2.0738587379455566,
+      "learning_rate": 4.45945945945946e-06,
+      "loss": 0.6128,
+      "step": 33
+    },
+    {
+      "epoch": 0.023004059539918808,
+      "grad_norm": 1.9424076080322266,
+      "learning_rate": 4.594594594594596e-06,
+      "loss": 0.5763,
+      "step": 34
+    },
+    {
+      "epoch": 0.02368064952638701,
+      "grad_norm": 1.7840420007705688,
+      "learning_rate": 4.72972972972973e-06,
+      "loss": 0.5632,
+      "step": 35
+    },
+    {
+      "epoch": 0.02435723951285521,
+      "grad_norm": 2.2191755771636963,
+      "learning_rate": 4.864864864864866e-06,
+      "loss": 0.6482,
+      "step": 36
+    },
+    {
+      "epoch": 0.02503382949932341,
+      "grad_norm": 1.925732970237732,
+      "learning_rate": 5e-06,
+      "loss": 0.6266,
+      "step": 37
+    },
+    {
+      "epoch": 0.02571041948579161,
+      "grad_norm": 1.7854461669921875,
+      "learning_rate": 5.135135135135135e-06,
+      "loss": 0.5505,
+      "step": 38
+    },
+    {
+      "epoch": 0.02638700947225981,
+      "grad_norm": 1.9672614336013794,
+      "learning_rate": 5.2702702702702705e-06,
+      "loss": 0.5851,
+      "step": 39
+    },
+    {
+      "epoch": 0.02706359945872801,
+      "grad_norm": 1.713619589805603,
+      "learning_rate": 5.405405405405406e-06,
+      "loss": 0.5066,
+      "step": 40
+    },
+    {
+      "epoch": 0.02706359945872801,
+      "eval_accuracy": 0.728440366972477,
+      "eval_f1": 0.11904761904761904,
+      "eval_loss": 0.6119223237037659,
+      "eval_precision": 0.5263157894736842,
+      "eval_recall": 0.06711409395973154,
+      "eval_runtime": 52.1134,
+      "eval_samples_per_second": 5.718,
+      "eval_steps_per_second": 0.192,
+      "step": 40
+    },
+    {
+      "epoch": 0.02774018944519621,
+      "grad_norm": 2.512800455093384,
+      "learning_rate": 5.540540540540541e-06,
+      "loss": 0.6359,
+      "step": 41
+    },
+    {
+      "epoch": 0.028416779431664412,
+      "grad_norm": 2.311678647994995,
+      "learning_rate": 5.675675675675676e-06,
+      "loss": 0.5823,
+      "step": 42
+    },
+    {
+      "epoch": 0.029093369418132613,
+      "grad_norm": 1.8111237287521362,
+      "learning_rate": 5.810810810810811e-06,
+      "loss": 0.5194,
+      "step": 43
+    },
+    {
+      "epoch": 0.029769959404600813,
+      "grad_norm": 2.3231632709503174,
+      "learning_rate": 5.945945945945947e-06,
+      "loss": 0.6335,
+      "step": 44
+    },
+    {
+      "epoch": 0.030446549391069014,
+      "grad_norm": 1.9767159223556519,
+      "learning_rate": 6.081081081081082e-06,
+      "loss": 0.5406,
+      "step": 45
+    },
+    {
+      "epoch": 0.03112313937753721,
+      "grad_norm": 1.8099788427352905,
+      "learning_rate": 6.2162162162162164e-06,
+      "loss": 0.5191,
+      "step": 46
+    },
+    {
+      "epoch": 0.031799729364005415,
+      "grad_norm": 1.9105194807052612,
+      "learning_rate": 6.351351351351351e-06,
+      "loss": 0.5575,
+      "step": 47
+    },
+    {
+      "epoch": 0.03247631935047361,
+      "grad_norm": 1.8297271728515625,
+      "learning_rate": 6.486486486486487e-06,
+      "loss": 0.51,
+      "step": 48
+    },
+    {
+      "epoch": 0.033152909336941816,
+      "grad_norm": 1.8884862661361694,
+      "learning_rate": 6.621621621621622e-06,
+      "loss": 0.5755,
+      "step": 49
+    },
+    {
+      "epoch": 0.03382949932341001,
+      "grad_norm": 2.0803935527801514,
+      "learning_rate": 6.7567567567567575e-06,
+      "loss": 0.5915,
+      "step": 50
+    },
+    {
+      "epoch": 0.03450608930987822,
+      "grad_norm": 2.036954164505005,
+      "learning_rate": 6.891891891891892e-06,
+      "loss": 0.5394,
+      "step": 51
+    },
+    {
+      "epoch": 0.035182679296346414,
+      "grad_norm": 2.0037217140197754,
+      "learning_rate": 7.027027027027028e-06,
+      "loss": 0.4967,
+      "step": 52
+    },
+    {
+      "epoch": 0.03585926928281461,
+      "grad_norm": 1.6572487354278564,
+      "learning_rate": 7.162162162162163e-06,
+      "loss": 0.5458,
+      "step": 53
+    },
+    {
+      "epoch": 0.036535859269282815,
+      "grad_norm": 1.8542054891586304,
+      "learning_rate": 7.297297297297298e-06,
+      "loss": 0.4571,
+      "step": 54
+    },
+    {
+      "epoch": 0.03721244925575101,
+      "grad_norm": 1.6970975399017334,
+      "learning_rate": 7.4324324324324324e-06,
+      "loss": 0.5125,
+      "step": 55
+    },
+    {
+      "epoch": 0.037889039242219216,
+      "grad_norm": 1.8225724697113037,
+      "learning_rate": 7.567567567567569e-06,
+      "loss": 0.549,
+      "step": 56
+    },
+    {
+      "epoch": 0.03856562922868741,
+      "grad_norm": 1.5912785530090332,
+      "learning_rate": 7.702702702702704e-06,
+      "loss": 0.4843,
+      "step": 57
+    },
+    {
+      "epoch": 0.03924221921515562,
+      "grad_norm": 1.694573998451233,
+      "learning_rate": 7.837837837837838e-06,
+      "loss": 0.5804,
+      "step": 58
+    },
+    {
+      "epoch": 0.039918809201623814,
+      "grad_norm": 1.6933585405349731,
+      "learning_rate": 7.972972972972974e-06,
+      "loss": 0.5306,
+      "step": 59
+    },
+    {
+      "epoch": 0.04059539918809202,
+      "grad_norm": 1.7225837707519531,
+      "learning_rate": 8.108108108108109e-06,
+      "loss": 0.4866,
+      "step": 60
+    },
+    {
+      "epoch": 0.04059539918809202,
+      "eval_accuracy": 0.7376146788990826,
+      "eval_f1": 0.2011173184357542,
+      "eval_loss": 0.581759512424469,
+      "eval_precision": 0.6,
+      "eval_recall": 0.12080536912751678,
+      "eval_runtime": 51.4731,
+      "eval_samples_per_second": 5.789,
+      "eval_steps_per_second": 0.194,
+      "step": 60
+    },
+    {
+      "epoch": 0.041271989174560215,
+      "grad_norm": 1.9804434776306152,
+      "learning_rate": 8.243243243243245e-06,
+      "loss": 0.5489,
+      "step": 61
+    },
+    {
+      "epoch": 0.04194857916102842,
+      "grad_norm": 2.3419950008392334,
+      "learning_rate": 8.378378378378378e-06,
+      "loss": 0.5551,
+      "step": 62
+    },
+    {
+      "epoch": 0.04262516914749662,
+      "grad_norm": 2.275982618331909,
+      "learning_rate": 8.513513513513514e-06,
+      "loss": 0.5127,
+      "step": 63
+    },
+    {
+      "epoch": 0.04330175913396482,
+      "grad_norm": 2.507098913192749,
+      "learning_rate": 8.64864864864865e-06,
+      "loss": 0.5736,
+      "step": 64
+    },
+    {
+      "epoch": 0.04397834912043302,
+      "grad_norm": 1.8046241998672485,
+      "learning_rate": 8.783783783783785e-06,
+      "loss": 0.4755,
+      "step": 65
+    },
+    {
+      "epoch": 0.044654939106901215,
+      "grad_norm": 1.8296290636062622,
+      "learning_rate": 8.91891891891892e-06,
+      "loss": 0.4999,
+      "step": 66
+    },
+    {
+      "epoch": 0.04533152909336942,
+      "grad_norm": 2.3316869735717773,
+      "learning_rate": 9.054054054054054e-06,
+      "loss": 0.4797,
+      "step": 67
+    },
+    {
+      "epoch": 0.046008119079837616,
+      "grad_norm": 1.6778762340545654,
+      "learning_rate": 9.189189189189191e-06,
+      "loss": 0.5238,
+      "step": 68
+    },
+    {
+      "epoch": 0.04668470906630582,
+      "grad_norm": 1.8217062950134277,
+      "learning_rate": 9.324324324324325e-06,
+      "loss": 0.526,
+      "step": 69
+    },
+    {
+      "epoch": 0.04736129905277402,
+      "grad_norm": 2.7135376930236816,
+      "learning_rate": 9.45945945945946e-06,
+      "loss": 0.5899,
+      "step": 70
+    },
+    {
+      "epoch": 0.04803788903924222,
+      "grad_norm": 1.841891884803772,
+      "learning_rate": 9.594594594594594e-06,
+      "loss": 0.5312,
+      "step": 71
+    },
+    {
+      "epoch": 0.04871447902571042,
+      "grad_norm": 1.9096564054489136,
+      "learning_rate": 9.729729729729732e-06,
+      "loss": 0.5277,
+      "step": 72
+    },
+    {
+      "epoch": 0.04939106901217862,
+      "grad_norm": 3.7141664028167725,
+      "learning_rate": 9.864864864864865e-06,
+      "loss": 0.5468,
+      "step": 73
+    },
+    {
+      "epoch": 0.05006765899864682,
+      "grad_norm": 2.147271156311035,
+      "learning_rate": 1e-05,
+      "loss": 0.4658,
+      "step": 74
+    },
+    {
+      "epoch": 0.05074424898511502,
+      "grad_norm": 3.2354440689086914,
+      "learning_rate": 1.0135135135135136e-05,
+      "loss": 0.4915,
+      "step": 75
+    },
+    {
+      "epoch": 0.05142083897158322,
+      "grad_norm": 2.6529741287231445,
+      "learning_rate": 1.027027027027027e-05,
+      "loss": 0.5009,
+      "step": 76
+    },
+    {
+      "epoch": 0.052097428958051424,
+      "grad_norm": 1.9220309257507324,
+      "learning_rate": 1.0405405405405407e-05,
+      "loss": 0.4614,
+      "step": 77
+    },
+    {
+      "epoch": 0.05277401894451962,
+      "grad_norm": 2.6269216537475586,
+      "learning_rate": 1.0540540540540541e-05,
+      "loss": 0.4909,
+      "step": 78
+    },
+    {
+      "epoch": 0.05345060893098782,
+      "grad_norm": 2.8617451190948486,
+      "learning_rate": 1.0675675675675677e-05,
+      "loss": 0.5087,
+      "step": 79
+    },
+    {
+      "epoch": 0.05412719891745602,
+      "grad_norm": 2.258033275604248,
+      "learning_rate": 1.0810810810810812e-05,
+      "loss": 0.4434,
+      "step": 80
+    },
+    {
+      "epoch": 0.05412719891745602,
+      "eval_accuracy": 0.7412844036697248,
+      "eval_f1": 0.3922413793103448,
+      "eval_loss": 0.5494486689567566,
+      "eval_precision": 0.5481927710843374,
+      "eval_recall": 0.3053691275167785,
+      "eval_runtime": 52.2043,
+      "eval_samples_per_second": 5.708,
+      "eval_steps_per_second": 0.192,
+      "step": 80
+    },
+    {
+      "epoch": 0.05480378890392422,
+      "grad_norm": 3.6041858196258545,
+      "learning_rate": 1.0945945945945946e-05,
+      "loss": 0.4269,
+      "step": 81
+    },
+    {
+      "epoch": 0.05548037889039242,
+      "grad_norm": 2.4709510803222656,
+      "learning_rate": 1.1081081081081081e-05,
+      "loss": 0.5329,
+      "step": 82
+    },
+    {
+      "epoch": 0.05615696887686062,
+      "grad_norm": 2.8416366577148438,
+      "learning_rate": 1.1216216216216219e-05,
+      "loss": 0.4599,
+      "step": 83
+    },
+    {
+      "epoch": 0.056833558863328824,
+      "grad_norm": 2.6396408081054688,
+      "learning_rate": 1.1351351351351352e-05,
+      "loss": 0.4452,
+      "step": 84
+    },
+    {
+      "epoch": 0.05751014884979702,
+      "grad_norm": 1.7931419610977173,
+      "learning_rate": 1.1486486486486488e-05,
+      "loss": 0.4034,
+      "step": 85
+    },
+    {
+      "epoch": 0.058186738836265225,
+      "grad_norm": 2.2836318016052246,
+      "learning_rate": 1.1621621621621622e-05,
+      "loss": 0.3732,
+      "step": 86
+    },
+    {
+      "epoch": 0.05886332882273342,
+      "grad_norm": 2.0475215911865234,
+      "learning_rate": 1.1756756756756757e-05,
+      "loss": 0.4186,
+      "step": 87
+    },
+    {
+      "epoch": 0.05953991880920163,
+      "grad_norm": 2.0375993251800537,
+      "learning_rate": 1.1891891891891894e-05,
+      "loss": 0.3456,
+      "step": 88
+    },
+    {
+      "epoch": 0.060216508795669824,
+      "grad_norm": 3.458310604095459,
+      "learning_rate": 1.2027027027027028e-05,
+      "loss": 0.3599,
+      "step": 89
+    },
+    {
+      "epoch": 0.06089309878213803,
+      "grad_norm": 2.087979555130005,
+      "learning_rate": 1.2162162162162164e-05,
+      "loss": 0.3591,
+      "step": 90
+    },
+    {
+      "epoch": 0.061569688768606225,
+      "grad_norm": 2.4800474643707275,
+      "learning_rate": 1.2297297297297299e-05,
+      "loss": 0.3947,
+      "step": 91
+    },
+    {
+      "epoch": 0.06224627875507442,
+      "grad_norm": 3.9390594959259033,
+      "learning_rate": 1.2432432432432433e-05,
+      "loss": 0.4404,
+      "step": 92
+    },
+    {
+      "epoch": 0.06292286874154263,
+      "grad_norm": 3.231876850128174,
+      "learning_rate": 1.2567567567567568e-05,
+      "loss": 0.4116,
+      "step": 93
+    },
+    {
+      "epoch": 0.06359945872801083,
+      "grad_norm": 5.661862373352051,
+      "learning_rate": 1.2702702702702702e-05,
+      "loss": 0.4991,
+      "step": 94
+    },
+    {
+      "epoch": 0.06427604871447902,
+      "grad_norm": 3.7746121883392334,
+      "learning_rate": 1.283783783783784e-05,
+      "loss": 0.5173,
+      "step": 95
+    },
+    {
+      "epoch": 0.06495263870094722,
+      "grad_norm": 2.9691073894500732,
+      "learning_rate": 1.2972972972972975e-05,
+      "loss": 0.377,
+      "step": 96
+    },
+    {
+      "epoch": 0.06562922868741543,
+      "grad_norm": 2.5602574348449707,
+      "learning_rate": 1.3108108108108109e-05,
+      "loss": 0.3232,
+      "step": 97
+    },
+    {
+      "epoch": 0.06630581867388363,
+      "grad_norm": 3.1697347164154053,
+      "learning_rate": 1.3243243243243244e-05,
+      "loss": 0.3596,
+      "step": 98
+    },
+    {
+      "epoch": 0.06698240866035182,
+      "grad_norm": 5.4793877601623535,
+      "learning_rate": 1.3378378378378381e-05,
+      "loss": 0.3252,
+      "step": 99
+    },
+    {
+      "epoch": 0.06765899864682003,
+      "grad_norm": 3.7010715007781982,
+      "learning_rate": 1.3513513513513515e-05,
+      "loss": 0.264,
+      "step": 100
+    },
+    {
+      "epoch": 0.06765899864682003,
+      "eval_accuracy": 0.7568807339449541,
+      "eval_f1": 0.40979955456570155,
+      "eval_loss": 0.5758041143417358,
+      "eval_precision": 0.609271523178808,
+      "eval_recall": 0.3087248322147651,
+      "eval_runtime": 51.8245,
+      "eval_samples_per_second": 5.75,
+      "eval_steps_per_second": 0.193,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1478,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.03754272309248e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}