mtzig commited on Nov 24, 2024

Commit

44e8c30

verified ·

1 Parent(s): db87452

Training in progress, step 100, checkpoint

Browse files

Files changed (17) hide show

.gitattributes +8 -0
last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +3 -0
last-checkpoint/optimizer_0/__1_0.distcp +3 -0
last-checkpoint/optimizer_0/__2_0.distcp +3 -0
last-checkpoint/optimizer_0/__3_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +3 -0
last-checkpoint/rng_state_0.pth +3 -0
last-checkpoint/rng_state_1.pth +3 -0
last-checkpoint/rng_state_2.pth +3 -0
last-checkpoint/rng_state_3.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +805 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,11 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text

last-checkpoint/optimizer_0/.metadata ADDED Viewed

Binary file (369 kB). View file

last-checkpoint/optimizer_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8dbe76f35e5656136a51bded0139fef27a2028b00f8f726fd0d386bb3522e13
+size 13934748

last-checkpoint/optimizer_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b66c1ebc853e6845470c2c1d9d04f694dccd7d0e852c4bc0fff9a7f3b72ba092
+size 13999412

last-checkpoint/optimizer_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ac9e1924ab634b10849be3ecb1321e5393dbc84ae65beaffd307850b3ae9f82
+size 13990904

last-checkpoint/optimizer_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc2b2b52b7b5b1c43d8786246ce0c4845f1a27260d756e383ebd9ee1be107e16
+size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata ADDED Viewed

Binary file (135 kB). View file

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89bc93c64b991b306a939f0419250bf9841787d18646263da1e9b2c8779f9699
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ca40ef1084fb0572972d0d791f24456333f4e2bb411fb46f1d9fd3067b04bb8
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6eacdb71077b64054c4a56453b8184802582c4895bcb7585409a5be89035fca7
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:293394047fb4a3a8ea9a2c352bdfb1e609e58a84c1d1613313fea1af7bf3513c
+size 6966784

last-checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b9a1f1e453a43f83aa53b56d67647ccab7a6102d29ca677d252db57c6d84112
+size 15088

last-checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f37b096e91cd08927cf4ae4abd0d391ce5ada891c3fc1b2de21881502f3589eb
+size 15088

last-checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e41f09d05169607eee8dce8b84f8f78818000c06c0c89cf2ba601fd24a650bd
+size 15088

last-checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:418fcb9eed9f4b34f4356e235c9f424e1c20f8f4d59e678e6ebeeb8a33e83523
+size 15088

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afecba1fad91cfcc309b7789abc8c48e2a84100fb8c489eb3925241bd70b9c9d
+size 1064

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,805 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.12886597938144329,
+  "eval_steps": 20,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_accuracy": 0.9369414101290964,
+      "eval_f1": 0.18064516129032257,
+      "eval_loss": 0.32557418942451477,
+      "eval_precision": 0.14285714285714285,
+      "eval_recall": 0.24561403508771928,
+      "eval_runtime": 85.4393,
+      "eval_samples_per_second": 5.325,
+      "eval_steps_per_second": 0.176,
+      "step": 0
+    },
+    {
+      "epoch": 0.001288659793814433,
+      "grad_norm": 4.328640937805176,
+      "learning_rate": 2.564102564102564e-07,
+      "loss": 0.5948,
+      "step": 1
+    },
+    {
+      "epoch": 0.002577319587628866,
+      "grad_norm": 4.026719570159912,
+      "learning_rate": 5.128205128205128e-07,
+      "loss": 0.5193,
+      "step": 2
+    },
+    {
+      "epoch": 0.003865979381443299,
+      "grad_norm": 4.2378315925598145,
+      "learning_rate": 7.692307692307694e-07,
+      "loss": 0.5631,
+      "step": 3
+    },
+    {
+      "epoch": 0.005154639175257732,
+      "grad_norm": 3.568166971206665,
+      "learning_rate": 1.0256410256410257e-06,
+      "loss": 0.5153,
+      "step": 4
+    },
+    {
+      "epoch": 0.006443298969072165,
+      "grad_norm": 3.5194778442382812,
+      "learning_rate": 1.282051282051282e-06,
+      "loss": 0.4554,
+      "step": 5
+    },
+    {
+      "epoch": 0.007731958762886598,
+      "grad_norm": 3.977821111679077,
+      "learning_rate": 1.5384615384615387e-06,
+      "loss": 0.5351,
+      "step": 6
+    },
+    {
+      "epoch": 0.00902061855670103,
+      "grad_norm": 3.5472445487976074,
+      "learning_rate": 1.794871794871795e-06,
+      "loss": 0.4795,
+      "step": 7
+    },
+    {
+      "epoch": 0.010309278350515464,
+      "grad_norm": 4.021523475646973,
+      "learning_rate": 2.0512820512820513e-06,
+      "loss": 0.5567,
+      "step": 8
+    },
+    {
+      "epoch": 0.011597938144329897,
+      "grad_norm": 3.9711642265319824,
+      "learning_rate": 2.307692307692308e-06,
+      "loss": 0.5156,
+      "step": 9
+    },
+    {
+      "epoch": 0.01288659793814433,
+      "grad_norm": 3.964317560195923,
+      "learning_rate": 2.564102564102564e-06,
+      "loss": 0.5192,
+      "step": 10
+    },
+    {
+      "epoch": 0.014175257731958763,
+      "grad_norm": 4.49519157409668,
+      "learning_rate": 2.8205128205128207e-06,
+      "loss": 0.5763,
+      "step": 11
+    },
+    {
+      "epoch": 0.015463917525773196,
+      "grad_norm": 3.9775915145874023,
+      "learning_rate": 3.0769230769230774e-06,
+      "loss": 0.5087,
+      "step": 12
+    },
+    {
+      "epoch": 0.01675257731958763,
+      "grad_norm": 3.533947706222534,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.5278,
+      "step": 13
+    },
+    {
+      "epoch": 0.01804123711340206,
+      "grad_norm": 3.2834880352020264,
+      "learning_rate": 3.58974358974359e-06,
+      "loss": 0.497,
+      "step": 14
+    },
+    {
+      "epoch": 0.019329896907216496,
+      "grad_norm": 3.62939190864563,
+      "learning_rate": 3.846153846153847e-06,
+      "loss": 0.4718,
+      "step": 15
+    },
+    {
+      "epoch": 0.020618556701030927,
+      "grad_norm": 3.499007225036621,
+      "learning_rate": 4.102564102564103e-06,
+      "loss": 0.4612,
+      "step": 16
+    },
+    {
+      "epoch": 0.02190721649484536,
+      "grad_norm": 3.6551826000213623,
+      "learning_rate": 4.358974358974359e-06,
+      "loss": 0.5116,
+      "step": 17
+    },
+    {
+      "epoch": 0.023195876288659795,
+      "grad_norm": 3.7035470008850098,
+      "learning_rate": 4.615384615384616e-06,
+      "loss": 0.5265,
+      "step": 18
+    },
+    {
+      "epoch": 0.024484536082474227,
+      "grad_norm": 3.528616189956665,
+      "learning_rate": 4.871794871794872e-06,
+      "loss": 0.4926,
+      "step": 19
+    },
+    {
+      "epoch": 0.02577319587628866,
+      "grad_norm": 3.614694833755493,
+      "learning_rate": 5.128205128205128e-06,
+      "loss": 0.4498,
+      "step": 20
+    },
+    {
+      "epoch": 0.02577319587628866,
+      "eval_accuracy": 0.9473684210526315,
+      "eval_f1": 0.15873015873015872,
+      "eval_loss": 0.2867887020111084,
+      "eval_precision": 0.14492753623188406,
+      "eval_recall": 0.17543859649122806,
+      "eval_runtime": 85.3774,
+      "eval_samples_per_second": 5.329,
+      "eval_steps_per_second": 0.176,
+      "step": 20
+    },
+    {
+      "epoch": 0.027061855670103094,
+      "grad_norm": 3.7909672260284424,
+      "learning_rate": 5.384615384615385e-06,
+      "loss": 0.4553,
+      "step": 21
+    },
+    {
+      "epoch": 0.028350515463917526,
+      "grad_norm": 3.3818626403808594,
+      "learning_rate": 5.641025641025641e-06,
+      "loss": 0.4058,
+      "step": 22
+    },
+    {
+      "epoch": 0.029639175257731958,
+      "grad_norm": 3.4036498069763184,
+      "learning_rate": 5.897435897435898e-06,
+      "loss": 0.3923,
+      "step": 23
+    },
+    {
+      "epoch": 0.030927835051546393,
+      "grad_norm": 4.077082633972168,
+      "learning_rate": 6.153846153846155e-06,
+      "loss": 0.433,
+      "step": 24
+    },
+    {
+      "epoch": 0.03221649484536082,
+      "grad_norm": 3.6889731884002686,
+      "learning_rate": 6.410256410256412e-06,
+      "loss": 0.4107,
+      "step": 25
+    },
+    {
+      "epoch": 0.03350515463917526,
+      "grad_norm": 3.24767804145813,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.3916,
+      "step": 26
+    },
+    {
+      "epoch": 0.03479381443298969,
+      "grad_norm": 3.6298370361328125,
+      "learning_rate": 6.923076923076923e-06,
+      "loss": 0.3775,
+      "step": 27
+    },
+    {
+      "epoch": 0.03608247422680412,
+      "grad_norm": 3.0387685298919678,
+      "learning_rate": 7.17948717948718e-06,
+      "loss": 0.3455,
+      "step": 28
+    },
+    {
+      "epoch": 0.037371134020618556,
+      "grad_norm": 2.6114144325256348,
+      "learning_rate": 7.435897435897437e-06,
+      "loss": 0.3187,
+      "step": 29
+    },
+    {
+      "epoch": 0.03865979381443299,
+      "grad_norm": 2.6260972023010254,
+      "learning_rate": 7.692307692307694e-06,
+      "loss": 0.3039,
+      "step": 30
+    },
+    {
+      "epoch": 0.03994845360824742,
+      "grad_norm": 3.2159814834594727,
+      "learning_rate": 7.948717948717949e-06,
+      "loss": 0.3116,
+      "step": 31
+    },
+    {
+      "epoch": 0.041237113402061855,
+      "grad_norm": 2.923689603805542,
+      "learning_rate": 8.205128205128205e-06,
+      "loss": 0.3317,
+      "step": 32
+    },
+    {
+      "epoch": 0.04252577319587629,
+      "grad_norm": 3.0011069774627686,
+      "learning_rate": 8.461538461538462e-06,
+      "loss": 0.3035,
+      "step": 33
+    },
+    {
+      "epoch": 0.04381443298969072,
+      "grad_norm": 2.754927396774292,
+      "learning_rate": 8.717948717948719e-06,
+      "loss": 0.2897,
+      "step": 34
+    },
+    {
+      "epoch": 0.045103092783505154,
+      "grad_norm": 2.29058837890625,
+      "learning_rate": 8.974358974358976e-06,
+      "loss": 0.2669,
+      "step": 35
+    },
+    {
+      "epoch": 0.04639175257731959,
+      "grad_norm": 2.5178396701812744,
+      "learning_rate": 9.230769230769232e-06,
+      "loss": 0.2534,
+      "step": 36
+    },
+    {
+      "epoch": 0.04768041237113402,
+      "grad_norm": 2.3435192108154297,
+      "learning_rate": 9.487179487179487e-06,
+      "loss": 0.2393,
+      "step": 37
+    },
+    {
+      "epoch": 0.04896907216494845,
+      "grad_norm": 2.382751226425171,
+      "learning_rate": 9.743589743589744e-06,
+      "loss": 0.2307,
+      "step": 38
+    },
+    {
+      "epoch": 0.05025773195876289,
+      "grad_norm": 1.9250915050506592,
+      "learning_rate": 1e-05,
+      "loss": 0.1963,
+      "step": 39
+    },
+    {
+      "epoch": 0.05154639175257732,
+      "grad_norm": 1.9028986692428589,
+      "learning_rate": 1.0256410256410256e-05,
+      "loss": 0.242,
+      "step": 40
+    },
+    {
+      "epoch": 0.05154639175257732,
+      "eval_accuracy": 0.9672293942403177,
+      "eval_f1": 0.08333333333333333,
+      "eval_loss": 0.14344234764575958,
+      "eval_precision": 0.2,
+      "eval_recall": 0.05263157894736842,
+      "eval_runtime": 85.3093,
+      "eval_samples_per_second": 5.334,
+      "eval_steps_per_second": 0.176,
+      "step": 40
+    },
+    {
+      "epoch": 0.05283505154639175,
+      "grad_norm": 1.5781856775283813,
+      "learning_rate": 1.0512820512820514e-05,
+      "loss": 0.197,
+      "step": 41
+    },
+    {
+      "epoch": 0.05412371134020619,
+      "grad_norm": 1.4305051565170288,
+      "learning_rate": 1.076923076923077e-05,
+      "loss": 0.1876,
+      "step": 42
+    },
+    {
+      "epoch": 0.055412371134020616,
+      "grad_norm": 1.1940586566925049,
+      "learning_rate": 1.1025641025641028e-05,
+      "loss": 0.2308,
+      "step": 43
+    },
+    {
+      "epoch": 0.05670103092783505,
+      "grad_norm": 1.2878607511520386,
+      "learning_rate": 1.1282051282051283e-05,
+      "loss": 0.1427,
+      "step": 44
+    },
+    {
+      "epoch": 0.05798969072164949,
+      "grad_norm": 0.896811842918396,
+      "learning_rate": 1.1538461538461538e-05,
+      "loss": 0.1809,
+      "step": 45
+    },
+    {
+      "epoch": 0.059278350515463915,
+      "grad_norm": 0.8891208171844482,
+      "learning_rate": 1.1794871794871796e-05,
+      "loss": 0.155,
+      "step": 46
+    },
+    {
+      "epoch": 0.06056701030927835,
+      "grad_norm": 1.0271227359771729,
+      "learning_rate": 1.2051282051282051e-05,
+      "loss": 0.1985,
+      "step": 47
+    },
+    {
+      "epoch": 0.061855670103092786,
+      "grad_norm": 0.7700079679489136,
+      "learning_rate": 1.230769230769231e-05,
+      "loss": 0.1262,
+      "step": 48
+    },
+    {
+      "epoch": 0.06314432989690721,
+      "grad_norm": 1.125436544418335,
+      "learning_rate": 1.2564102564102565e-05,
+      "loss": 0.1685,
+      "step": 49
+    },
+    {
+      "epoch": 0.06443298969072164,
+      "grad_norm": 1.251115083694458,
+      "learning_rate": 1.2820512820512823e-05,
+      "loss": 0.1999,
+      "step": 50
+    },
+    {
+      "epoch": 0.06572164948453608,
+      "grad_norm": 1.178985595703125,
+      "learning_rate": 1.3076923076923078e-05,
+      "loss": 0.1657,
+      "step": 51
+    },
+    {
+      "epoch": 0.06701030927835051,
+      "grad_norm": 1.3865740299224854,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.201,
+      "step": 52
+    },
+    {
+      "epoch": 0.06829896907216494,
+      "grad_norm": 0.8845710158348083,
+      "learning_rate": 1.3589743589743592e-05,
+      "loss": 0.1398,
+      "step": 53
+    },
+    {
+      "epoch": 0.06958762886597938,
+      "grad_norm": 1.4564330577850342,
+      "learning_rate": 1.3846153846153847e-05,
+      "loss": 0.1913,
+      "step": 54
+    },
+    {
+      "epoch": 0.07087628865979381,
+      "grad_norm": 0.7712787985801697,
+      "learning_rate": 1.4102564102564105e-05,
+      "loss": 0.1112,
+      "step": 55
+    },
+    {
+      "epoch": 0.07216494845360824,
+      "grad_norm": 0.8379471898078918,
+      "learning_rate": 1.435897435897436e-05,
+      "loss": 0.1242,
+      "step": 56
+    },
+    {
+      "epoch": 0.07345360824742268,
+      "grad_norm": 1.1431857347488403,
+      "learning_rate": 1.4615384615384615e-05,
+      "loss": 0.16,
+      "step": 57
+    },
+    {
+      "epoch": 0.07474226804123711,
+      "grad_norm": 0.9613205790519714,
+      "learning_rate": 1.4871794871794874e-05,
+      "loss": 0.1257,
+      "step": 58
+    },
+    {
+      "epoch": 0.07603092783505154,
+      "grad_norm": 0.7836907505989075,
+      "learning_rate": 1.5128205128205129e-05,
+      "loss": 0.1252,
+      "step": 59
+    },
+    {
+      "epoch": 0.07731958762886598,
+      "grad_norm": 0.9727709889411926,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 0.1628,
+      "step": 60
+    },
+    {
+      "epoch": 0.07731958762886598,
+      "eval_accuracy": 0.9692154915590864,
+      "eval_f1": 0.20512820512820512,
+      "eval_loss": 0.10804814100265503,
+      "eval_precision": 0.38095238095238093,
+      "eval_recall": 0.14035087719298245,
+      "eval_runtime": 86.5949,
+      "eval_samples_per_second": 5.254,
+      "eval_steps_per_second": 0.173,
+      "step": 60
+    },
+    {
+      "epoch": 0.07860824742268041,
+      "grad_norm": 0.7048820853233337,
+      "learning_rate": 1.5641025641025644e-05,
+      "loss": 0.1337,
+      "step": 61
+    },
+    {
+      "epoch": 0.07989690721649484,
+      "grad_norm": 0.6462810635566711,
+      "learning_rate": 1.5897435897435897e-05,
+      "loss": 0.076,
+      "step": 62
+    },
+    {
+      "epoch": 0.08118556701030928,
+      "grad_norm": 0.7791882753372192,
+      "learning_rate": 1.6153846153846154e-05,
+      "loss": 0.0935,
+      "step": 63
+    },
+    {
+      "epoch": 0.08247422680412371,
+      "grad_norm": 0.5717423558235168,
+      "learning_rate": 1.641025641025641e-05,
+      "loss": 0.0892,
+      "step": 64
+    },
+    {
+      "epoch": 0.08376288659793814,
+      "grad_norm": 0.6709016561508179,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0581,
+      "step": 65
+    },
+    {
+      "epoch": 0.08505154639175258,
+      "grad_norm": 0.6802282333374023,
+      "learning_rate": 1.6923076923076924e-05,
+      "loss": 0.1023,
+      "step": 66
+    },
+    {
+      "epoch": 0.08634020618556701,
+      "grad_norm": 0.7112599611282349,
+      "learning_rate": 1.717948717948718e-05,
+      "loss": 0.1213,
+      "step": 67
+    },
+    {
+      "epoch": 0.08762886597938144,
+      "grad_norm": 1.2926205396652222,
+      "learning_rate": 1.7435897435897438e-05,
+      "loss": 0.1627,
+      "step": 68
+    },
+    {
+      "epoch": 0.08891752577319588,
+      "grad_norm": 1.408495545387268,
+      "learning_rate": 1.7692307692307694e-05,
+      "loss": 0.1781,
+      "step": 69
+    },
+    {
+      "epoch": 0.09020618556701031,
+      "grad_norm": 1.0148080587387085,
+      "learning_rate": 1.794871794871795e-05,
+      "loss": 0.0919,
+      "step": 70
+    },
+    {
+      "epoch": 0.09149484536082474,
+      "grad_norm": 1.0437681674957275,
+      "learning_rate": 1.8205128205128208e-05,
+      "loss": 0.1265,
+      "step": 71
+    },
+    {
+      "epoch": 0.09278350515463918,
+      "grad_norm": 0.9646249413490295,
+      "learning_rate": 1.8461538461538465e-05,
+      "loss": 0.104,
+      "step": 72
+    },
+    {
+      "epoch": 0.09407216494845361,
+      "grad_norm": 0.8352120518684387,
+      "learning_rate": 1.8717948717948718e-05,
+      "loss": 0.0845,
+      "step": 73
+    },
+    {
+      "epoch": 0.09536082474226804,
+      "grad_norm": 0.9750470519065857,
+      "learning_rate": 1.8974358974358975e-05,
+      "loss": 0.1469,
+      "step": 74
+    },
+    {
+      "epoch": 0.09664948453608248,
+      "grad_norm": 0.8849421739578247,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 0.0641,
+      "step": 75
+    },
+    {
+      "epoch": 0.0979381443298969,
+      "grad_norm": 1.2695003747940063,
+      "learning_rate": 1.9487179487179488e-05,
+      "loss": 0.1325,
+      "step": 76
+    },
+    {
+      "epoch": 0.09922680412371133,
+      "grad_norm": 0.9113069772720337,
+      "learning_rate": 1.9743589743589745e-05,
+      "loss": 0.0791,
+      "step": 77
+    },
+    {
+      "epoch": 0.10051546391752578,
+      "grad_norm": 0.863918662071228,
+      "learning_rate": 2e-05,
+      "loss": 0.0728,
+      "step": 78
+    },
+    {
+      "epoch": 0.1018041237113402,
+      "grad_norm": 1.0128920078277588,
+      "learning_rate": 1.999989871195906e-05,
+      "loss": 0.0443,
+      "step": 79
+    },
+    {
+      "epoch": 0.10309278350515463,
+      "grad_norm": 1.5655252933502197,
+      "learning_rate": 1.9999594849888083e-05,
+      "loss": 0.1241,
+      "step": 80
+    },
+    {
+      "epoch": 0.10309278350515463,
+      "eval_accuracy": 0.9707050645481629,
+      "eval_f1": 0.3917525773195876,
+      "eval_loss": 0.08737693727016449,
+      "eval_precision": 0.475,
+      "eval_recall": 0.3333333333333333,
+      "eval_runtime": 86.8429,
+      "eval_samples_per_second": 5.239,
+      "eval_steps_per_second": 0.173,
+      "step": 80
+    },
+    {
+      "epoch": 0.10438144329896908,
+      "grad_norm": 1.1679091453552246,
+      "learning_rate": 1.9999088419942598e-05,
+      "loss": 0.081,
+      "step": 81
+    },
+    {
+      "epoch": 0.1056701030927835,
+      "grad_norm": 1.3982985019683838,
+      "learning_rate": 1.999837943238166e-05,
+      "loss": 0.071,
+      "step": 82
+    },
+    {
+      "epoch": 0.10695876288659793,
+      "grad_norm": 2.1905858516693115,
+      "learning_rate": 1.999746790156766e-05,
+      "loss": 0.1153,
+      "step": 83
+    },
+    {
+      "epoch": 0.10824742268041238,
+      "grad_norm": 2.231328010559082,
+      "learning_rate": 1.9996353845966033e-05,
+      "loss": 0.1391,
+      "step": 84
+    },
+    {
+      "epoch": 0.1095360824742268,
+      "grad_norm": 1.6173464059829712,
+      "learning_rate": 1.999503728814488e-05,
+      "loss": 0.0958,
+      "step": 85
+    },
+    {
+      "epoch": 0.11082474226804123,
+      "grad_norm": 1.9609785079956055,
+      "learning_rate": 1.9993518254774517e-05,
+      "loss": 0.0864,
+      "step": 86
+    },
+    {
+      "epoch": 0.11211340206185567,
+      "grad_norm": 1.735422134399414,
+      "learning_rate": 1.999179677662692e-05,
+      "loss": 0.0895,
+      "step": 87
+    },
+    {
+      "epoch": 0.1134020618556701,
+      "grad_norm": 1.645450234413147,
+      "learning_rate": 1.998987288857513e-05,
+      "loss": 0.1078,
+      "step": 88
+    },
+    {
+      "epoch": 0.11469072164948453,
+      "grad_norm": 1.0082734823226929,
+      "learning_rate": 1.9987746629592506e-05,
+      "loss": 0.0504,
+      "step": 89
+    },
+    {
+      "epoch": 0.11597938144329897,
+      "grad_norm": 2.4662506580352783,
+      "learning_rate": 1.9985418042751975e-05,
+      "loss": 0.0982,
+      "step": 90
+    },
+    {
+      "epoch": 0.1172680412371134,
+      "grad_norm": 1.3186198472976685,
+      "learning_rate": 1.9982887175225136e-05,
+      "loss": 0.04,
+      "step": 91
+    },
+    {
+      "epoch": 0.11855670103092783,
+      "grad_norm": 1.4960401058197021,
+      "learning_rate": 1.998015407828131e-05,
+      "loss": 0.0572,
+      "step": 92
+    },
+    {
+      "epoch": 0.11984536082474227,
+      "grad_norm": 1.6579524278640747,
+      "learning_rate": 1.9977218807286507e-05,
+      "loss": 0.0662,
+      "step": 93
+    },
+    {
+      "epoch": 0.1211340206185567,
+      "grad_norm": 2.7462518215179443,
+      "learning_rate": 1.9974081421702296e-05,
+      "loss": 0.0739,
+      "step": 94
+    },
+    {
+      "epoch": 0.12242268041237113,
+      "grad_norm": 1.3179261684417725,
+      "learning_rate": 1.99707419850846e-05,
+      "loss": 0.0528,
+      "step": 95
+    },
+    {
+      "epoch": 0.12371134020618557,
+      "grad_norm": 1.08860182762146,
+      "learning_rate": 1.9967200565082426e-05,
+      "loss": 0.0417,
+      "step": 96
+    },
+    {
+      "epoch": 0.125,
+      "grad_norm": 2.638080358505249,
+      "learning_rate": 1.9963457233436468e-05,
+      "loss": 0.0964,
+      "step": 97
+    },
+    {
+      "epoch": 0.12628865979381443,
+      "grad_norm": 1.3592987060546875,
+      "learning_rate": 1.9959512065977673e-05,
+      "loss": 0.0491,
+      "step": 98
+    },
+    {
+      "epoch": 0.12757731958762886,
+      "grad_norm": 2.5333075523376465,
+      "learning_rate": 1.9955365142625694e-05,
+      "loss": 0.0506,
+      "step": 99
+    },
+    {
+      "epoch": 0.12886597938144329,
+      "grad_norm": 2.624704360961914,
+      "learning_rate": 1.9951016547387286e-05,
+      "loss": 0.0676,
+      "step": 100
+    },
+    {
+      "epoch": 0.12886597938144329,
+      "eval_accuracy": 0.9692154915590864,
+      "eval_f1": 0.5694444444444444,
+      "eval_loss": 0.0689799040555954,
+      "eval_precision": 0.47126436781609193,
+      "eval_recall": 0.7192982456140351,
+      "eval_runtime": 85.1099,
+      "eval_samples_per_second": 5.346,
+      "eval_steps_per_second": 0.176,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 776,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.347688371467059e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}