mtzig commited on Nov 17, 2024

Commit

ed3c481

verified ·

1 Parent(s): a7ddf67

Training in progress, step 100, checkpoint

Browse files

Files changed (17) hide show

.gitattributes +8 -0
last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +3 -0
last-checkpoint/optimizer_0/__1_0.distcp +3 -0
last-checkpoint/optimizer_0/__2_0.distcp +3 -0
last-checkpoint/optimizer_0/__3_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +3 -0
last-checkpoint/rng_state_0.pth +3 -0
last-checkpoint/rng_state_1.pth +3 -0
last-checkpoint/rng_state_2.pth +3 -0
last-checkpoint/rng_state_3.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +805 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,11 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text

last-checkpoint/optimizer_0/.metadata ADDED Viewed

Binary file (369 kB). View file

last-checkpoint/optimizer_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4f400f9c8252c3907336d7e343409569f9416a7811ccee54ea90cd6e1487760
+size 27566236

last-checkpoint/optimizer_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a321ddd94525214b01034b7dd5c829c8f5c774110e53a835f44598d6f6718356
+size 27630900

last-checkpoint/optimizer_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e69a575ce407be18a88352ce2fba384077c65ac9c525b4ba7510629a05d3142
+size 27622392

last-checkpoint/optimizer_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d462087a031a3e8fbfa21af32693f98dca8bf9ef1a4cb3941a166085c457e65d
+size 27622392

last-checkpoint/pytorch_model_fsdp_0/.metadata ADDED Viewed

Binary file (135 kB). View file

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4bbfa20dabe10a871576b86fe5f5a535c6320c9d704ffd31e930374052613e3
+size 13782528

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:257c58c2297733667c9c0c814d11bc07796191cce00534cb5921f30cdfc776f4
+size 13782528

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be68455e2498c25bc93148836614c38b4a427e34fcb5d96afd9877503ec371ef
+size 13782528

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97113445bb35120c9d888adbfc2838d204231a098490792274dbfe48ae2d9c0e
+size 13782528

last-checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e4ead7a9090a756b7fd44dcd84a0128fc3e073a0556a840016ee79c554e0b80
+size 14960

last-checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45746def86d7a8510cabcc16531091de91eaf8f9bdd39d725096005db8ee2a1a
+size 14960

last-checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6f6f333666bf8e00dd613a01077ed8920391e394339b3ae8687718cf5f788c2
+size 14960

last-checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:111993f0c7702ea7b86533de3410a44aff0126390ec01a74930984eb2b182a72
+size 14960

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a104c065133d085f18edd3e5b4057dbd861eb3e31968053f10edac0d68e4236e
+size 1064

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,805 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.28735632183908044,
+  "eval_steps": 20,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_accuracy": 0.7376237623762376,
+      "eval_f1": 0.11666666666666667,
+      "eval_loss": 0.595770537853241,
+      "eval_precision": 0.5,
+      "eval_recall": 0.0660377358490566,
+      "eval_runtime": 16.1893,
+      "eval_samples_per_second": 6.548,
+      "eval_steps_per_second": 0.247,
+      "step": 0
+    },
+    {
+      "epoch": 0.0028735632183908046,
+      "grad_norm": 1.7269402742385864,
+      "learning_rate": 5.714285714285715e-07,
+      "loss": 0.7755,
+      "step": 1
+    },
+    {
+      "epoch": 0.005747126436781609,
+      "grad_norm": 1.7528263330459595,
+      "learning_rate": 1.142857142857143e-06,
+      "loss": 0.7738,
+      "step": 2
+    },
+    {
+      "epoch": 0.008620689655172414,
+      "grad_norm": 1.903218150138855,
+      "learning_rate": 1.7142857142857145e-06,
+      "loss": 0.7635,
+      "step": 3
+    },
+    {
+      "epoch": 0.011494252873563218,
+      "grad_norm": 2.011042833328247,
+      "learning_rate": 2.285714285714286e-06,
+      "loss": 0.7872,
+      "step": 4
+    },
+    {
+      "epoch": 0.014367816091954023,
+      "grad_norm": 1.8846079111099243,
+      "learning_rate": 2.8571428571428573e-06,
+      "loss": 0.7811,
+      "step": 5
+    },
+    {
+      "epoch": 0.017241379310344827,
+      "grad_norm": 1.7371026277542114,
+      "learning_rate": 3.428571428571429e-06,
+      "loss": 0.7517,
+      "step": 6
+    },
+    {
+      "epoch": 0.020114942528735632,
+      "grad_norm": 1.8430122137069702,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.7732,
+      "step": 7
+    },
+    {
+      "epoch": 0.022988505747126436,
+      "grad_norm": 1.683440923690796,
+      "learning_rate": 4.571428571428572e-06,
+      "loss": 0.738,
+      "step": 8
+    },
+    {
+      "epoch": 0.02586206896551724,
+      "grad_norm": 1.8083072900772095,
+      "learning_rate": 5.142857142857142e-06,
+      "loss": 0.739,
+      "step": 9
+    },
+    {
+      "epoch": 0.028735632183908046,
+      "grad_norm": 1.8509185314178467,
+      "learning_rate": 5.7142857142857145e-06,
+      "loss": 0.7536,
+      "step": 10
+    },
+    {
+      "epoch": 0.031609195402298854,
+      "grad_norm": 1.948458194732666,
+      "learning_rate": 6.285714285714286e-06,
+      "loss": 0.7414,
+      "step": 11
+    },
+    {
+      "epoch": 0.034482758620689655,
+      "grad_norm": 1.6882693767547607,
+      "learning_rate": 6.857142857142858e-06,
+      "loss": 0.7356,
+      "step": 12
+    },
+    {
+      "epoch": 0.03735632183908046,
+      "grad_norm": 1.7302439212799072,
+      "learning_rate": 7.428571428571429e-06,
+      "loss": 0.727,
+      "step": 13
+    },
+    {
+      "epoch": 0.040229885057471264,
+      "grad_norm": 1.6159391403198242,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.7069,
+      "step": 14
+    },
+    {
+      "epoch": 0.04310344827586207,
+      "grad_norm": 1.63016939163208,
+      "learning_rate": 8.571428571428571e-06,
+      "loss": 0.6835,
+      "step": 15
+    },
+    {
+      "epoch": 0.04597701149425287,
+      "grad_norm": 1.506463646888733,
+      "learning_rate": 9.142857142857144e-06,
+      "loss": 0.7347,
+      "step": 16
+    },
+    {
+      "epoch": 0.04885057471264368,
+      "grad_norm": 1.412893295288086,
+      "learning_rate": 9.714285714285715e-06,
+      "loss": 0.702,
+      "step": 17
+    },
+    {
+      "epoch": 0.05172413793103448,
+      "grad_norm": 1.5896869897842407,
+      "learning_rate": 1.0285714285714285e-05,
+      "loss": 0.6948,
+      "step": 18
+    },
+    {
+      "epoch": 0.05459770114942529,
+      "grad_norm": 1.4004888534545898,
+      "learning_rate": 1.0857142857142858e-05,
+      "loss": 0.6604,
+      "step": 19
+    },
+    {
+      "epoch": 0.05747126436781609,
+      "grad_norm": 1.3640953302383423,
+      "learning_rate": 1.1428571428571429e-05,
+      "loss": 0.6819,
+      "step": 20
+    },
+    {
+      "epoch": 0.05747126436781609,
+      "eval_accuracy": 0.745049504950495,
+      "eval_f1": 0.13445378151260504,
+      "eval_loss": 0.569399356842041,
+      "eval_precision": 0.6153846153846154,
+      "eval_recall": 0.07547169811320754,
+      "eval_runtime": 17.731,
+      "eval_samples_per_second": 5.978,
+      "eval_steps_per_second": 0.226,
+      "step": 20
+    },
+    {
+      "epoch": 0.0603448275862069,
+      "grad_norm": 1.487462043762207,
+      "learning_rate": 1.2e-05,
+      "loss": 0.6763,
+      "step": 21
+    },
+    {
+      "epoch": 0.06321839080459771,
+      "grad_norm": 1.291784405708313,
+      "learning_rate": 1.2571428571428572e-05,
+      "loss": 0.6705,
+      "step": 22
+    },
+    {
+      "epoch": 0.06609195402298851,
+      "grad_norm": 1.1527869701385498,
+      "learning_rate": 1.3142857142857145e-05,
+      "loss": 0.6183,
+      "step": 23
+    },
+    {
+      "epoch": 0.06896551724137931,
+      "grad_norm": 1.1266508102416992,
+      "learning_rate": 1.3714285714285716e-05,
+      "loss": 0.609,
+      "step": 24
+    },
+    {
+      "epoch": 0.07183908045977011,
+      "grad_norm": 1.2343026399612427,
+      "learning_rate": 1.4285714285714287e-05,
+      "loss": 0.619,
+      "step": 25
+    },
+    {
+      "epoch": 0.07471264367816093,
+      "grad_norm": 1.1558549404144287,
+      "learning_rate": 1.4857142857142858e-05,
+      "loss": 0.6031,
+      "step": 26
+    },
+    {
+      "epoch": 0.07758620689655173,
+      "grad_norm": 1.0646226406097412,
+      "learning_rate": 1.542857142857143e-05,
+      "loss": 0.584,
+      "step": 27
+    },
+    {
+      "epoch": 0.08045977011494253,
+      "grad_norm": 0.975098729133606,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.5594,
+      "step": 28
+    },
+    {
+      "epoch": 0.08333333333333333,
+      "grad_norm": 1.0657261610031128,
+      "learning_rate": 1.6571428571428574e-05,
+      "loss": 0.567,
+      "step": 29
+    },
+    {
+      "epoch": 0.08620689655172414,
+      "grad_norm": 0.872745156288147,
+      "learning_rate": 1.7142857142857142e-05,
+      "loss": 0.5435,
+      "step": 30
+    },
+    {
+      "epoch": 0.08908045977011494,
+      "grad_norm": 0.8025686144828796,
+      "learning_rate": 1.7714285714285717e-05,
+      "loss": 0.537,
+      "step": 31
+    },
+    {
+      "epoch": 0.09195402298850575,
+      "grad_norm": 0.8637747764587402,
+      "learning_rate": 1.8285714285714288e-05,
+      "loss": 0.541,
+      "step": 32
+    },
+    {
+      "epoch": 0.09482758620689655,
+      "grad_norm": 1.0375990867614746,
+      "learning_rate": 1.885714285714286e-05,
+      "loss": 0.5199,
+      "step": 33
+    },
+    {
+      "epoch": 0.09770114942528736,
+      "grad_norm": 0.9441830515861511,
+      "learning_rate": 1.942857142857143e-05,
+      "loss": 0.5388,
+      "step": 34
+    },
+    {
+      "epoch": 0.10057471264367816,
+      "grad_norm": 0.8663190603256226,
+      "learning_rate": 2e-05,
+      "loss": 0.5268,
+      "step": 35
+    },
+    {
+      "epoch": 0.10344827586206896,
+      "grad_norm": 0.9546361565589905,
+      "learning_rate": 1.9999496293646753e-05,
+      "loss": 0.5381,
+      "step": 36
+    },
+    {
+      "epoch": 0.10632183908045977,
+      "grad_norm": 0.7847493290901184,
+      "learning_rate": 1.999798522533102e-05,
+      "loss": 0.5131,
+      "step": 37
+    },
+    {
+      "epoch": 0.10919540229885058,
+      "grad_norm": 0.8559457659721375,
+      "learning_rate": 1.9995466947279753e-05,
+      "loss": 0.4771,
+      "step": 38
+    },
+    {
+      "epoch": 0.11206896551724138,
+      "grad_norm": 0.9539210796356201,
+      "learning_rate": 1.9991941713187477e-05,
+      "loss": 0.4833,
+      "step": 39
+    },
+    {
+      "epoch": 0.11494252873563218,
+      "grad_norm": 1.2878869771957397,
+      "learning_rate": 1.9987409878190752e-05,
+      "loss": 0.4789,
+      "step": 40
+    },
+    {
+      "epoch": 0.11494252873563218,
+      "eval_accuracy": 0.754950495049505,
+      "eval_f1": 0.5857740585774058,
+      "eval_loss": 0.47763171792030334,
+      "eval_precision": 0.5263157894736842,
+      "eval_recall": 0.660377358490566,
+      "eval_runtime": 17.3231,
+      "eval_samples_per_second": 6.119,
+      "eval_steps_per_second": 0.231,
+      "step": 40
+    },
+    {
+      "epoch": 0.11781609195402298,
+      "grad_norm": 1.0973199605941772,
+      "learning_rate": 1.99818718988324e-05,
+      "loss": 0.4739,
+      "step": 41
+    },
+    {
+      "epoch": 0.1206896551724138,
+      "grad_norm": 0.8685905337333679,
+      "learning_rate": 1.9975328333015497e-05,
+      "loss": 0.4639,
+      "step": 42
+    },
+    {
+      "epoch": 0.1235632183908046,
+      "grad_norm": 0.7956727147102356,
+      "learning_rate": 1.9967779839947172e-05,
+      "loss": 0.475,
+      "step": 43
+    },
+    {
+      "epoch": 0.12643678160919541,
+      "grad_norm": 0.9125760197639465,
+      "learning_rate": 1.9959227180072216e-05,
+      "loss": 0.4166,
+      "step": 44
+    },
+    {
+      "epoch": 0.12931034482758622,
+      "grad_norm": 0.8798947930335999,
+      "learning_rate": 1.9949671214996448e-05,
+      "loss": 0.4689,
+      "step": 45
+    },
+    {
+      "epoch": 0.13218390804597702,
+      "grad_norm": 0.7233872413635254,
+      "learning_rate": 1.993911290739993e-05,
+      "loss": 0.4416,
+      "step": 46
+    },
+    {
+      "epoch": 0.13505747126436782,
+      "grad_norm": 0.7250576615333557,
+      "learning_rate": 1.992755332093999e-05,
+      "loss": 0.3968,
+      "step": 47
+    },
+    {
+      "epoch": 0.13793103448275862,
+      "grad_norm": 1.153190016746521,
+      "learning_rate": 1.9914993620144055e-05,
+      "loss": 0.4316,
+      "step": 48
+    },
+    {
+      "epoch": 0.14080459770114942,
+      "grad_norm": 0.8170616626739502,
+      "learning_rate": 1.990143507029234e-05,
+      "loss": 0.4398,
+      "step": 49
+    },
+    {
+      "epoch": 0.14367816091954022,
+      "grad_norm": 0.8207669854164124,
+      "learning_rate": 1.9886879037290385e-05,
+      "loss": 0.4042,
+      "step": 50
+    },
+    {
+      "epoch": 0.14655172413793102,
+      "grad_norm": 0.7794085144996643,
+      "learning_rate": 1.9871326987531453e-05,
+      "loss": 0.3656,
+      "step": 51
+    },
+    {
+      "epoch": 0.14942528735632185,
+      "grad_norm": 0.8606981635093689,
+      "learning_rate": 1.98547804877488e-05,
+      "loss": 0.3982,
+      "step": 52
+    },
+    {
+      "epoch": 0.15229885057471265,
+      "grad_norm": 0.8829456567764282,
+      "learning_rate": 1.983724120485783e-05,
+      "loss": 0.4397,
+      "step": 53
+    },
+    {
+      "epoch": 0.15517241379310345,
+      "grad_norm": 0.6965311765670776,
+      "learning_rate": 1.9818710905788195e-05,
+      "loss": 0.3995,
+      "step": 54
+    },
+    {
+      "epoch": 0.15804597701149425,
+      "grad_norm": 1.190281867980957,
+      "learning_rate": 1.9799191457305767e-05,
+      "loss": 0.412,
+      "step": 55
+    },
+    {
+      "epoch": 0.16091954022988506,
+      "grad_norm": 1.1659263372421265,
+      "learning_rate": 1.977868482582459e-05,
+      "loss": 0.3629,
+      "step": 56
+    },
+    {
+      "epoch": 0.16379310344827586,
+      "grad_norm": 0.9981995820999146,
+      "learning_rate": 1.9757193077208776e-05,
+      "loss": 0.4309,
+      "step": 57
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "grad_norm": 0.9343249201774597,
+      "learning_rate": 1.9734718376564386e-05,
+      "loss": 0.3732,
+      "step": 58
+    },
+    {
+      "epoch": 0.16954022988505746,
+      "grad_norm": 1.1614587306976318,
+      "learning_rate": 1.9711262988021322e-05,
+      "loss": 0.4035,
+      "step": 59
+    },
+    {
+      "epoch": 0.1724137931034483,
+      "grad_norm": 1.0494896173477173,
+      "learning_rate": 1.968682927450523e-05,
+      "loss": 0.4108,
+      "step": 60
+    },
+    {
+      "epoch": 0.1724137931034483,
+      "eval_accuracy": 0.8044554455445545,
+      "eval_f1": 0.6255924170616114,
+      "eval_loss": 0.40430542826652527,
+      "eval_precision": 0.6285714285714286,
+      "eval_recall": 0.6226415094339622,
+      "eval_runtime": 17.0915,
+      "eval_samples_per_second": 6.202,
+      "eval_steps_per_second": 0.234,
+      "step": 60
+    },
+    {
+      "epoch": 0.1752873563218391,
+      "grad_norm": 0.9192970991134644,
+      "learning_rate": 1.9661419697499455e-05,
+      "loss": 0.3989,
+      "step": 61
+    },
+    {
+      "epoch": 0.1781609195402299,
+      "grad_norm": 0.999806821346283,
+      "learning_rate": 1.9635036816797072e-05,
+      "loss": 0.4099,
+      "step": 62
+    },
+    {
+      "epoch": 0.1810344827586207,
+      "grad_norm": 1.073845624923706,
+      "learning_rate": 1.960768329024301e-05,
+      "loss": 0.3862,
+      "step": 63
+    },
+    {
+      "epoch": 0.1839080459770115,
+      "grad_norm": 1.1665489673614502,
+      "learning_rate": 1.957936187346628e-05,
+      "loss": 0.3551,
+      "step": 64
+    },
+    {
+      "epoch": 0.1867816091954023,
+      "grad_norm": 1.0729217529296875,
+      "learning_rate": 1.955007541960241e-05,
+      "loss": 0.4163,
+      "step": 65
+    },
+    {
+      "epoch": 0.1896551724137931,
+      "grad_norm": 1.194051742553711,
+      "learning_rate": 1.9519826879005964e-05,
+      "loss": 0.4146,
+      "step": 66
+    },
+    {
+      "epoch": 0.1925287356321839,
+      "grad_norm": 1.5440024137496948,
+      "learning_rate": 1.948861929895336e-05,
+      "loss": 0.4091,
+      "step": 67
+    },
+    {
+      "epoch": 0.19540229885057472,
+      "grad_norm": 1.1414806842803955,
+      "learning_rate": 1.945645582333587e-05,
+      "loss": 0.3836,
+      "step": 68
+    },
+    {
+      "epoch": 0.19827586206896552,
+      "grad_norm": 1.4426944255828857,
+      "learning_rate": 1.9423339692342885e-05,
+      "loss": 0.3825,
+      "step": 69
+    },
+    {
+      "epoch": 0.20114942528735633,
+      "grad_norm": 1.102241039276123,
+      "learning_rate": 1.9389274242135528e-05,
+      "loss": 0.355,
+      "step": 70
+    },
+    {
+      "epoch": 0.20402298850574713,
+      "grad_norm": 1.8680758476257324,
+      "learning_rate": 1.9354262904510544e-05,
+      "loss": 0.407,
+      "step": 71
+    },
+    {
+      "epoch": 0.20689655172413793,
+      "grad_norm": 1.2773621082305908,
+      "learning_rate": 1.9318309206554567e-05,
+      "loss": 0.35,
+      "step": 72
+    },
+    {
+      "epoch": 0.20977011494252873,
+      "grad_norm": 1.063806414604187,
+      "learning_rate": 1.9281416770288806e-05,
+      "loss": 0.3602,
+      "step": 73
+    },
+    {
+      "epoch": 0.21264367816091953,
+      "grad_norm": 1.1581475734710693,
+      "learning_rate": 1.924358931230418e-05,
+      "loss": 0.345,
+      "step": 74
+    },
+    {
+      "epoch": 0.21551724137931033,
+      "grad_norm": 1.524601697921753,
+      "learning_rate": 1.920483064338687e-05,
+      "loss": 0.3571,
+      "step": 75
+    },
+    {
+      "epoch": 0.21839080459770116,
+      "grad_norm": 1.7578339576721191,
+      "learning_rate": 1.9165144668134426e-05,
+      "loss": 0.3739,
+      "step": 76
+    },
+    {
+      "epoch": 0.22126436781609196,
+      "grad_norm": 2.7177462577819824,
+      "learning_rate": 1.9124535384562423e-05,
+      "loss": 0.3796,
+      "step": 77
+    },
+    {
+      "epoch": 0.22413793103448276,
+      "grad_norm": 2.676715850830078,
+      "learning_rate": 1.9083006883701688e-05,
+      "loss": 0.3738,
+      "step": 78
+    },
+    {
+      "epoch": 0.22701149425287356,
+      "grad_norm": 1.5852210521697998,
+      "learning_rate": 1.904056334918617e-05,
+      "loss": 0.3082,
+      "step": 79
+    },
+    {
+      "epoch": 0.22988505747126436,
+      "grad_norm": 1.1979814767837524,
+      "learning_rate": 1.8997209056831462e-05,
+      "loss": 0.3486,
+      "step": 80
+    },
+    {
+      "epoch": 0.22988505747126436,
+      "eval_accuracy": 0.8366336633663366,
+      "eval_f1": 0.6826923076923077,
+      "eval_loss": 0.37516123056411743,
+      "eval_precision": 0.696078431372549,
+      "eval_recall": 0.6698113207547169,
+      "eval_runtime": 16.3429,
+      "eval_samples_per_second": 6.486,
+      "eval_steps_per_second": 0.245,
+      "step": 80
+    },
+    {
+      "epoch": 0.23275862068965517,
+      "grad_norm": 1.432535171508789,
+      "learning_rate": 1.8952948374204066e-05,
+      "loss": 0.4083,
+      "step": 81
+    },
+    {
+      "epoch": 0.23563218390804597,
+      "grad_norm": 1.1334880590438843,
+      "learning_rate": 1.8907785760181392e-05,
+      "loss": 0.3422,
+      "step": 82
+    },
+    {
+      "epoch": 0.23850574712643677,
+      "grad_norm": 1.8673022985458374,
+      "learning_rate": 1.8861725764502557e-05,
+      "loss": 0.3871,
+      "step": 83
+    },
+    {
+      "epoch": 0.2413793103448276,
+      "grad_norm": 1.3424856662750244,
+      "learning_rate": 1.881477302731006e-05,
+      "loss": 0.3595,
+      "step": 84
+    },
+    {
+      "epoch": 0.2442528735632184,
+      "grad_norm": 1.7336989641189575,
+      "learning_rate": 1.87669322786823e-05,
+      "loss": 0.3578,
+      "step": 85
+    },
+    {
+      "epoch": 0.2471264367816092,
+      "grad_norm": 1.203000545501709,
+      "learning_rate": 1.8718208338157082e-05,
+      "loss": 0.3601,
+      "step": 86
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.185094952583313,
+      "learning_rate": 1.866860611424609e-05,
+      "loss": 0.3307,
+      "step": 87
+    },
+    {
+      "epoch": 0.25287356321839083,
+      "grad_norm": 2.083695888519287,
+      "learning_rate": 1.8618130603940386e-05,
+      "loss": 0.3123,
+      "step": 88
+    },
+    {
+      "epoch": 0.2557471264367816,
+      "grad_norm": 1.6941533088684082,
+      "learning_rate": 1.856678689220701e-05,
+      "loss": 0.3294,
+      "step": 89
+    },
+    {
+      "epoch": 0.25862068965517243,
+      "grad_norm": 2.76645565032959,
+      "learning_rate": 1.851458015147673e-05,
+      "loss": 0.3773,
+      "step": 90
+    },
+    {
+      "epoch": 0.2614942528735632,
+      "grad_norm": 1.9406121969223022,
+      "learning_rate": 1.846151564112294e-05,
+      "loss": 0.309,
+      "step": 91
+    },
+    {
+      "epoch": 0.26436781609195403,
+      "grad_norm": 1.4476113319396973,
+      "learning_rate": 1.840759870693184e-05,
+      "loss": 0.3724,
+      "step": 92
+    },
+    {
+      "epoch": 0.2672413793103448,
+      "grad_norm": 1.4683369398117065,
+      "learning_rate": 1.8352834780563888e-05,
+      "loss": 0.3712,
+      "step": 93
+    },
+    {
+      "epoch": 0.27011494252873564,
+      "grad_norm": 1.5984596014022827,
+      "learning_rate": 1.8297229379006614e-05,
+      "loss": 0.277,
+      "step": 94
+    },
+    {
+      "epoch": 0.27298850574712646,
+      "grad_norm": 1.4368345737457275,
+      "learning_rate": 1.8240788104018824e-05,
+      "loss": 0.337,
+      "step": 95
+    },
+    {
+      "epoch": 0.27586206896551724,
+      "grad_norm": 3.34250545501709,
+      "learning_rate": 1.8183516641566278e-05,
+      "loss": 0.315,
+      "step": 96
+    },
+    {
+      "epoch": 0.27873563218390807,
+      "grad_norm": 1.4906728267669678,
+      "learning_rate": 1.8125420761248878e-05,
+      "loss": 0.3778,
+      "step": 97
+    },
+    {
+      "epoch": 0.28160919540229884,
+      "grad_norm": 1.4306960105895996,
+      "learning_rate": 1.806650631571943e-05,
+      "loss": 0.354,
+      "step": 98
+    },
+    {
+      "epoch": 0.28448275862068967,
+      "grad_norm": 1.657739281654358,
+      "learning_rate": 1.8006779240094024e-05,
+      "loss": 0.2976,
+      "step": 99
+    },
+    {
+      "epoch": 0.28735632183908044,
+      "grad_norm": 1.2605433464050293,
+      "learning_rate": 1.7946245551354156e-05,
+      "loss": 0.2936,
+      "step": 100
+    },
+    {
+      "epoch": 0.28735632183908044,
+      "eval_accuracy": 0.8465346534653465,
+      "eval_f1": 0.7047619047619048,
+      "eval_loss": 0.36498525738716125,
+      "eval_precision": 0.7115384615384616,
+      "eval_recall": 0.6981132075471698,
+      "eval_runtime": 16.9232,
+      "eval_samples_per_second": 6.264,
+      "eval_steps_per_second": 0.236,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 348,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.1445919459180544e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}